Senior Site Reliability Engineering (SRE)

 Posted 2 months ago
  
 Brazil
  
5-10 years experience
Apply Now

Please mention DailyRemote when applying

AI Summary

You will be responsible for structuring and optimizing SRE operations, including robust monitoring and automation of the technology stack. Additionally, you will lead incident resolution, implement AI-driven solutions, and ensure high availability and performance during peak demand.

O nosso time de Engenharia está precisando de alguém, e queremos você com a gente! 🚀 Sua missão? Você será a pessoa chave para garantir a estabilidade e a performance de nossos sistemas, especialmente em cenários de alta demanda, e nos ajudar a escalar.

O seu dia a dia no Skeelo vai ser assim:

  • Estruturar e Otimizar Operações: Desenhar e implementar as melhores práticas e ferramentas para criar uma área de SRE e monitoramento robusta.
  • Monitoramento Abrangente: Desenvolver e manter sistemas de monitoramento para toda a nossa stack tecnológica, desde servidores e infraestrutura até o status de serviços, utilização de disco e filas.
  • Identificação e Resolução de Causa Raiz: Atuar proativamente na investigação de gargalos e falhas, mergulhando fundo para descobrir a causa raiz dos incidentes e garantir a rápida recuperação dos serviços.
  • Automação e Alarmes: Criar e otimizar pipelines de automação para detecção de anomalias, envio de alarmes e execução de ações corretivas, minimizando a intervenção manual e aumentando a eficiência.
  • Manutenção da Disponibilidade: Assegurar que nossos serviços estejam sempre funcionando perfeitamente, garantindo a confiabilidade, baixa latência e alta performance em todos os momentos.
  • Gestão de Ferramentas: Avaliar, selecionar e implementar as ferramentas de mercado que melhor atendam às nossas necessidades, construindo um stack tecnológico otimizado.
  • Aplicação de IA: Buscar e implementar soluções inovadoras usando Inteligência Artificial para aprimorar o monitoramento, prever falhas e automatizar tarefas.
  • Mentoria e Crescimento: Em um segundo momento, você terá a oportunidade de orientar e desenvolver talentos em um time de SRE em expansão.
  • Foco em Alta Demanda: Preparar e otimizar a infraestrutura para lidar com picos de acesso e eventos críticos, identificando pontos de escalabilidade e mitigando gargalos.

Para isso você vai precisar ter:

  • Experiência Comprovada: Sólida vivência na estruturação de áreas de infraestrutura e/ou SRE do zero, com foco em ambientes de alto volume e missão crítica.
  • Conhecimento Profundo em Monitoramento: Expertise em diversas ferramentas e conceitos de monitoramento, cobrindo desde infraestrutura (servidores, máquinas) até o status de serviços e aplicações.
  • Automação: Habilidade comprovada em automatizar tarefas, criar alarmes e implementar fluxos de trabalho eficientes.
  • Resolução de Problemas: Capacidade excepcional para investigar e resolver problemas complexos, identificando a causa raiz em ambientes distribuídos.
  • Cultura de Alta Demanda: Experiência em empresas com grande volume de acesso.
  • IA no Dia a Dia: Experiência prática na aplicação de conceitos e ferramentas de Inteligência Artificial para otimização de operações.
  • Idioma: Leitura e escrita avançadas em Inglês são mandatórias.

E seria muito bom se você tivesse:

  • Experiência com outras ferramentas de monitoramento de mercado.
  • Conhecimento avançado em LINUX.
  • Experiência prática com PM2, Node.js, Kibana e Elasticsearch.
  • Conhecimento em nuvem pública (AWS, GCP, Azure).
  • Vivência em ambientes que demandam escalabilidade massiva.

Neste desafio você contará com alguns apoios:

  • Caso aconteça algum incidente e para garantir que esteja tudo em conformidade, você contará com o apoio do SulAmérica para Saúde, e Odonto Metlife e Seguro de vida Prudential.
  • Para recarregar as energias terá o Cartão Caju, que é o nosso famoso VA/VR! mas ele tem o diferencial de ser um cartão de crédito, bandeira visa, que você pode usar para diferentes fins, como: restaurante, mercado, delivery, cultura e etc.
  • E para manter suas forças e agilidade contará com o apoio da Totalpass.
  • Além do corpo, a mente também precisa de cuidados, para isso, contamos com ajuda da ZenKlub.
  • Por desbravar todos os desafios e alcançar todos os objetivos ao longo do ano, receberá também PPR como recompensa.
  • E para o aprendizado constante, acesso ao Skeelo Premium um plano incrível no nosso aplicativo. Ah! além disso, se você participar do nosso clube do livro, o Skeelê, você ganha o ebook escolhido para a leitura do mês.
  • E claro, para garantir a segurança de seus filhos (até 71 meses) enquanto você está nessa jornada, temos o Auxílio Creche. Além disso tudo, nossos Skeelers também contam com licença parental estendida para que seu Skeelinho receba muito carinho e atenção nos primeiros dias de vida.

Mas como tudo na vida! precisamos de equilíbrio e descanso:

  • Nossos horários são flexíveis e trabalhamos no modelo 100% remoto. Com dois encontros presenciais em SP por ano! Mas relaxa, o Skeelo sempre organiza tudo pra gente.
  • Emendamos todos os feriados de São Paulo.
  • Day-off no mês do aniversário.
  • Recesso de fim de ano remunerado e sem desconto em saldo de férias.

Esse papel principal pode ser seu, está esperando o que para se inscrever? #VemPraToca

Similar Jobs

See all Remote Software Development jobs →

Personalize your Remote Job Search in 3 Easy Steps!

Discover remote opportunities in Software Development

Answer easy questions

Answer easy questions

200,000+ jobs across 15+ categories

Get your best job matches

Get your best job matches

Only hand-screened, legit jobs

Find a remote job faster

Find a remote job faster

No ads, scams, or junk

I was the first applicant for a remote marketing position that got listed on the company website the same day I applied. Had an interview within 48 hours!

Sarah J. — Sarah J. · Marketing Manager ★★★★★ Verified