139 - Site Reliability Engineer (SRE) SR

Remote: 
Full Remote
Contract: 
Work from: 

Offer summary

Qualifications:

Bachelor's degree in Computer Science, Computer Engineering, or related fields, completed or in progress., Experience as an SRE, DevOps, or Platform Engineer., In-depth knowledge of Kubernetes and observability tools., Strong troubleshooting skills and interest in automation and infrastructure as code..

Key responsabilities:

  • Enhance and manage monitoring tools like Grafana, Prometheus, and OpenTelemetry.
  • Improve Istio implementation for traffic management and security metrics.
  • Manage workloads on EKS, focusing on troubleshooting and scalability.
  • Optimize CI/CD pipelines using GitHub Actions, CodePipeline, and Jenkins.

Seidor Brasil logo
Seidor Brasil https://www.seidorbrasil.com.br
1001 - 5000 Employees
See all jobs

Job description

Início: Assim que aprovado.

Prazo: Indeterminado, fazer parte do time da consultoria.

Objetivo Da Posição

Buscamos um Site Reliability Engineer (SRE) para reforçar a confiabilidade da nossa plataforma, atuando com observabilidade, automação e boas práticas de segurança. O profissional será responsável por garantir que nossas aplicações tenham um monitoramento eficiente, disponibilidade consistente e processos robustos para recuperação e mitigação de incidentes.

Requisitos

  • Formação: Graduação completa ou em andamento em Ciência da Computação, Engenharia da Computação ou áreas relacionadas.
  • Experiência como SRE, DevOps ou Engenheiro de Plataforma
  • Conhecimento aprofundado em Kubernetes e observabilidade
  • Capacidade de troubleshooting e otimização de performance
  • Interesse em automação e infraestrutura como código
  • Boa comunicação e habilidade para trabalhar em equipe

Experiência Ou Conhecimento Nas Seguintes Tecnologias

Cloud & Orquestração

  • AWS (ECS, Elastic Beanstalk, EKS)
  • Kubernetes (EKS)
  • Istio (mutualTLS, observabilidade de tráfego, roteamento)

Observabilidade & Monitoramento

  • Grafana, Prometheus, Loki
  • OpenTelemetry (Library, Agent, Sidecar)
  • Grafana Tempo e Kiali

Infraestrutura & Automação

  • Terraform (com migração para OpenTofu)
  • Docker e containerização
  • CI/CD com GitHub Actions, CodePipeline, Jenkins

Segurança e Performance

  • Segurança em ambientes Kubernetes e AWS
  • Implementação e monitoramento de tráfego seguro
  • Estratégias de mitigação de falhas e alta disponibilidade

Responsabilidades

  • Monitoramento & Observabilidade: Aprimorar e gerenciar ferramentas de monitoramento (Grafana, Prometheus, Loki, OpenTelemetry, Grafana Tempo, Kiali).
  • Gestão de Tráfego & Segurança: Melhorar a implementação e observabilidade do Istio, incluindo mutualTLS, controle de tráfego e métricas de segurança.
  • Cloud & Kubernetes: Gerenciar workloads em EKS, incluindo troubleshooting, escalabilidade e melhorias de deploy.
  • Infraestrutura como Código (IaC): Manutenção e otimização do provisionamento de infraestrutura utilizando Terraform e suporte à migração para OpenTofu.
  • CI/CD & Automação: Aprimorar e manter pipelines de GitHub Actions, CodePipeline e Jenkins para garantir entregas ágeis e seguras.
  • Prevenção & Resolução de Incidentes: Implementar soluções para reduzir tempo de recuperação (MTTR) e melhorar a resposta a falhas.
  • Melhoria Contínua: Propor otimizações contínuas para performance, segurança e custos na nuvem AWS.

Required profile

Experience

Spoken language(s):
Portuguese
Check out the description to know which languages are mandatory.

Other Skills

  • Troubleshooting (Problem Solving)
  • Teamwork
  • Communication

Site Reliability Engineer (SRE) Related jobs