L'Opportunité
Nous recherchons un.e Ingénieur.e de Fiabilité Senior.e – Fiabilité des Produits pour aider à mettre à l'échelle, exploiter et améliorer la fiabilité de notre plateforme de communication basée sur l'IA. Ce rôle se situe à l'intersection de l'ingénierie logicielle, de l'infrastructure, des opérations et du support produit.
Vous serez responsable de garantir la stabilité, l'évolutivité et les performances des systèmes alimentant des milliers d'interactions en temps réel sur des architectures distribuées et événementielles. Vous servirez également de première couche d'investigation technique pour les incidents de production et les défaillances liées aux produits, en partenariat étroit avec les équipes d'ingénierie pour identifier les causes profondes, améliorer l'observabilité et favoriser des améliorations durables de la fiabilité.
Ce rôle hautement technique et pratique convient à quelqu'un qui aime déboguer des systèmes complexes, améliorer l'excellence opérationnelle et construire une infrastructure fiable à grande échelle.
Responsabilités
- Servir comme première ligne d'investigation technique pour les incidents de production, les défaillances de produits et les problèmes de performance
- Analyser les journaux, les traces, les métriques et le comportement du système pour identifier rapidement les causes profondes et implémenter des solutions
- Collaborer étroitement avec les équipes d'ingénierie backend et DevOps pour diagnostiquer les problèmes affectant la stabilité, la latence et la fiabilité
- Concevoir et mettre en œuvre des améliorations d'observabilité, y compris la surveillance, l'alerte et la journalisation structurée, à travers les systèmes distribués
- Établir et améliorer les processus de réponse aux incidents, y compris les procédures d'escalade, l'analyse post-mortem et la prévention des incidents récurrents
- Participer à la conception architecturale des services backend, des systèmes événementiels et des pipelines de messagerie asynchrone pour garantir la fiabilité et la récupération après sinistre
- Optimiser les performances et la résilience des systèmes fonctionnant sous charge élevée, avec des milliers d'interactions en temps réel
- Développer et maintenir la documentation opérationnelle, les runbooks et les dashboards pour soutenir les opérations en production
- Collaborer avec les équipes de produit et de support client pour comprendre les impacts métier et les priorités
- Mentorer les ingénieurs plus juniors sur les meilleures pratiques de fiabilité et les principes de conception résiliente
Qualifications Requises
- 5+ années d'expérience en ingénierie de la fiabilité des sites, ingénierie de production, ingénierie backend ou rôles similaires
- Expérience pratique solide avec Node.js et TypeScript dans des environnements de production
- Expérience éprouvée dans l'exploitation et le dépannage des architectures de systèmes distribués et microservices
- Expérience en gestion des charges de travail de production sur AWS, y compris ECS, Lambda, SQS et API Gateway
- Expérience pratique avec Kafka, AWS SQS ou d'autres systèmes de messagerie/streaming d'événements
- Compréhension solide des meilleures pratiques en observabilité, surveillance, alerte et réponse aux incidents
- Expérience en débogage de problèmes complexes de production sur les couches application, infrastructure et réseau
- Compréhension approfondie des concepts de fiabilité des systèmes, notamment la concurrence, les workflows asynchrones, la résilience, la tolérance aux pannes et la cohérence éventuelle
- Expérience avec MongoDB et Redis dans des environnements de production à grande échelle
- Capacité à analyser les journaux, les traces, les métriques et le comportement du système pour identifier rapidement les causes profondes
- Fortes compétences en communication et capacité à collaborer entre les équipes d'ingénierie, produit et support
- Expérience du mentorat d'ingénieurs et contribution aux initiatives d'excellence opérationnelle
Atouts
- Expérience avec Kubernetes et l'orchestration de conteneurs en production
- Expérience plus large de l'infrastructure AWS (réseautage, infrastructure-as-code, observabilité, optimisation des coûts)
- Expérience avec les bases de données relationnelles telles que PostgreSQL
- Expérience en développement de tests de charge, de tests de résilience et d'exercices de chaos engineering
- Expérience antérieure en support client ou en travail direct avec les clients pour comprendre les impacts métier
Pourquoi Matador ?
- Rejoignez une équipe passionnée qui innove dans l'espace de l'IA pour l'automobile.
- Travaillez à distance avec des horaires flexibles et une forte autonomie.
- Contribuez à une entreprise en croissance où votre voix et votre impact comptent.
- Rémunération compétitive et opportunités d'avancement.
Nous recherchons des ingénieurs autonomes, brillants et passionnés qui sont enthousiastes à l'idée de construire une infrastructure fiable qui alimente une technologie révolutionnaire. Si vous êtes passionné par les systèmes évolutifs, l'excellence opérationnelle et la création d'une base de production solide pour une entreprise à forte croissance, nous voulons vous entendre.
Rejoignez-nous pour façonner la fiabilité de l'avenir des communications de vente automobile !
Échelle Salariale 130-150k selon l'expérience
Senior Site Reliability Engineer - Product Reliability
About Us
Matador AI is revolutionizing the automotive retail space as the #1 ranked conversational AI platform for dealerships. Our cutting-edge platform helps automotive dealerships automate and enhance their sales and service conversations, driving better customer engagement and business outcomes. With over 500 dealerships trusting our technology, we're growing rapidly and redefining how the automotive industry connects with customers.
The Opportunity
We're seeking a Senior Site Reliability Engineer – Product Reliability to help scale, operate, and improve the reliability of our AI-powered communication platform. This role sits at the intersection of software engineering, infrastructure, operations, and product support.
You'll be responsible for ensuring the stability, scalability, and performance of systems powering thousands of real-time interactions across distributed, event-driven architectures. You'll also serve as the first layer of technical investigation for production issues and product-related failures, partnering closely with engineering teams to identify root causes, improve observability, and drive long-term reliability improvements.
This is a highly technical, hands-on role for someone who enjoys debugging complex systems, improving operational excellence, and building reliable infrastructure at scale.
Responsibilities
- Serve as the first line of technical investigation for production incidents, product failures, and performance issues
- Analyze logs, traces, metrics, and system behavior to identify root causes efficiently and implement solutions
- Partner closely with backend engineering and DevOps teams to diagnose issues impacting stability, latency, and reliability
- Design and implement observability improvements, including monitoring, alerting, and structured logging across distributed systems
- Establish and improve incident response processes, including escalation procedures, post-mortem analysis, and prevention of recurring incidents
- Participate in architectural design of backend services, event-driven systems, and asynchronous messaging pipelines to ensure reliability and disaster recovery
- Optimize performance and resilience of systems operating under high load, powering thousands of real-time interactions
- Develop and maintain operational documentation, runbooks, and dashboards to support production operations
- Collaborate with product and customer support teams to understand business impact and prioritization
- Mentor junior engineers on reliability best practices and resilient design principles
Required Qualifications
- 5+ years of experience in Site Reliability Engineering, Production Engineering, Backend Engineering, or related roles
- Strong hands-on experience with Node.js and TypeScript in production environments
- Proven experience operating and troubleshooting distributed systems and microservices architectures
- Experience managing production workloads on AWS, including ECS, Lambda, SQS, and API Gateway
- Hands-on experience with Kafka, AWS SQS, or other messaging/event-streaming systems
- Strong understanding of observability, monitoring, alerting, and incident response best practices
- Experience debugging complex production issues across application, infrastructure, and networking layers
- Deep understanding of system reliability concepts including concurrency, async workflows, resiliency, fault tolerance, and eventual consistency
- Experience with MongoDB and Redis in high-scale production environments
- Ability to analyze logs, traces, metrics, and system behavior to identify root causes efficiently
- Strong communication skills and ability to collaborate across engineering, product, and support teams
- Experience mentoring engineers and contributing to operational excellence initiatives
Nice to Have
- Kubernetes and container orchestration in production
- Broader AWS infrastructure experience (networking, infrastructure-as-code, observability, cost optimization)
- Experience with relational databases such as PostgreSQL
- Experience developing load tests, resilience tests, and chaos engineering exercises
- Prior customer support experience or direct work with customers to understand business impact
Why Matador AI?
- Join a passionate team innovating in the AI space for automotive.
- Work remotely with flexible hours and strong autonomy.
- Contribute to a growing company where your voice and impact matter.
- Competitive compensation and opportunities for advancement.
We're looking for self-driven, bright, and passionate engineers who are excited about building reliable infrastructure that powers revolutionary technology. If you're passionate about scalable systems, operational excellence, and creating a solid production foundation for a high-growth company, we want to hear from you.
Join us in shaping the reliability of the future of automotive retail communications!
Salary Range 130-150k commensurate with experience