Please mention DailyRemote when applying
Our mission is to be the world's most used AI employee experience platform by changing the way frontline employees work.
Flip is the leading AI-powered employee experience platform for frontline workers. We're transforming how people do their jobs across the industries that keep the world running: retail, manufacturing, and logistics. One app. One touch. Everything they need.
Our mission: Connect every employee to everything they need in one touch.
Als Senior Site Reliability Engineer in unserem Platform Squad übernimmst du die End-to-End-Verantwortung für kritische Reliability-Bereiche und treibst die technische Ausrichtung innerhalb des Squads voran. Du leitest Architektur-Entscheidungen auf unserer Plattform, mentorst Teammitglieder und legst die Messlatte für Zuverlässigkeit innerhalb des Teams kontinuierlich höher. Diese Rolle ist für Engineers mit einer nachgewiesenen Erfolgsbilanz beim Aufbau und Betrieb von hochverfügbaren High-Throughput-Systemen gedacht, die technische Ownership auf Senior-Level und echten Impact durch tiefgehende Engineering-Arbeit in einem eng vernetzten, klar definierten Team suchen.
Co-Owner der Architektur: Hilf dabei, die Architektur und Weiterentwicklung unserer Cloud-Infrastruktur auf Azure und unserer Kubernetes-Cluster voranzutreiben – konzipiert für hohen Durchsatz und höchste Verfügbarkeit – um Flips schnelles globales Wachstum zu unterstützen.
Die Resilience-Strategie vorantreiben: Definiere unseren Ansatz für globales Skalieren, Zero-Downtime-Deployments, Rollback-Mechanismen sowie Disaster Recovery und stelle sicher, dass die Plattform rund um die Uhr verfügbar bleibt.
Unseren Observability-Stack weiterentwickeln: Optimiere unseren LGTM-Stack (Loki, Grafana, Tempo, Mimir) zu einem Fundament, dem unsere Engineers vertrauen können.
Unsere IaC-Plattform verbessern: Du eliminierst Routineaufwand an der Quelle und machst unsere Infrastruktur für die Engineering-Teams zu einem echten Self-Service.
Führung bei Incidents: Du übernimmst eine führende Rolle bei größeren Plattform-Störungen, leitest sachliche Fehleranalysen (Blameless Post-Mortems) und wandelst Erkenntnisse in dauerhafte Verbesserungen um.
Mentoring innerhalb des Squads: Coache Teammitglieder, leite RFCs und Design-Reviews im Team und hilf Engineers dabei, sich zu stärkeren SREs zu entwickeln.
Unsere Roadmap gestalten: Arbeite partnerschaftlich mit deinem Squad zusammen, um die Richtung der Plattform zu definieren.
Wir suchen einen Hands-on, SaaS-orientierten Senior Site Reliability Engineer, der Skalierbarkeit und Zuverlässigkeit als erstklassiges Produktmerkmal behandelt.
Must-Have Qualifikationen
5+ Jahre Hands-on-Erfahrung als Site Reliability Engineer (SRE), Platform Engineer, DevOps Engineer, Infrastructure Engineer, Cloud Engineer oder Backend Engineer mit starkem Infrastruktur-Fokus.
Nachgewiesene Erfolgsbilanz beim Aufbau und Betrieb von hochverfügbaren High-Throughput-Systemen in der Produktion.
Tiefe Erfahrung auf Produktionsniveau mit Kubernetes auf einem der gängigen Hyperscaler.
Fundierte Erfahrung mit modernen Observability-Stacks (z. B. Prometheus, Mimir, VictoriaMetrics, Dash0, Loki, ELK) und eine klare Sichtweise auf SLIs, SLOs und Error Budgets.
Solide Software-Development-Skills in Go (stark bevorzugt, da unser IaC auf Pulumi in Go läuft) oder Python.
Hands-on-Erfahrung mit Infrastructure as Code (Pulumi, OpenTofu, Terraform) und GitOps (z. B. ArgoCD) + CI/CD Pipeline-Design.
Nachgewiesene Fähigkeit, komplexe Infrastruktur-Initiativen vom Design bis zur Produktion zu leiten – einschließlich des Schreibens von RFCs und des Vorantreibens von Architektur-Entscheidungen in deinem Team.
Erfahrung im Mentoring von Engineers und darin, das technische Niveau innerhalb eines Teams anzuheben.
Souveräne End-to-End-Verantwortung bei kritischen Störungen und die Fähigkeit, daraus gewonnene Erkenntnisse in nachhaltige technische Verbesserungen zu überführen.
Starke Kommunikationsfähigkeiten und verhandlungssicheres Englisch.
Bereitschaft zur Teilnahme an Rufbereitschaften (On-Call), um die Zuverlässigkeit unserer Plattform zu gewährleisten.
Nice-to-Have Qualifikationen
Rollout von produktionsreifen API-Gateways mit Gateway API (z. B. Envoy Gateway).
Betrieb von Multi-Cluster Service Meshes (z. B. Cilium, Linkerd, Istio).
Deployment und Wartung von Kubernetes Operatoren (z. B. Strimzi, CNPG).
Betrieb von hochverfügbarem PostgreSQL in der Produktion.
Work mode: We’re remote-first, giving you flexibility to work from home. At the same time, we deeply value the power of in-person collaboration. Depending on the role, you’ll join occasional team events, workshops, or meetings in our Berlin or Stuttgart offices - always with plenty of notice. The exact balance will be discussed during your interview.
Work-Life-Balance: We don't want you to grow roots to your desk chair. That's why we cover the costs of your E-Gym-Wellpass membership and offer job bike leasing.
Celebrating success: Expect highly motivated and committed people in a relaxed working atmosphere.
Be part of something bigger: You actively shape Flip in your role. Along the way, you are an enabler of the rapid growth process of a young tech company and grow towards your goals, fun is guaranteed.
Happy to be a Flipster: Stay tuned for regular team events and culture days that bring us together as Flipsters.
Working abroad: At Flip you can also work abroad in the European Union. Let's talk about remote work in the interview.
At Flip, everyone is welcome - no matter what gender you identify as or how old you are. Sexual identity, origin, religion, world view and disabilities do not influence your potential job at Flip. The most important thing is that YOU fit in!
Stop the endless job search. Our AI finds and applies to the best jobs for you.
Discover remote opportunities in Site Reliability Engineer
Answer easy questions
200,000+ jobs across 15+ categories
Get your best job matches
Only hand-screened, legit jobs
Find a remote job faster
No ads, scams, or junk
“ I was the first applicant for a remote marketing position that got listed on the company website the same day I applied. Had an interview within 48 hours!