Senior Site Reliability Engineer (m/w/d)

Berlin, Deutschland / remote

Vollzeit

Festanstellung

Deine Mission

Als Senior Site Reliability Engineer (m/w/d) bei SysEleven entwickelst, implementierst und betreibst du APIs, die die Automatisierung und Zuverlässigkeit unserer as-a-Service-Produkte – beispielsweise Database as a Service – ermöglichen.

Du nutzt Infrastructure as Code, um unsere Plattformen zu standardisieren und skalierbar weiterzuentwickeln, und optimierst kontinuierlich unsere CI/CD-Pipelines, um sichere, resiliente und effiziente Delivery-Prozesse sicherzustellen.

Mit GitOps-Praktiken und Kubernetes-Orchestrierung reduzierst du operative Komplexität und ermöglichst stabile, planbare Deployments, die die geschäftskritischen Workloads unserer Kund*innen zuverlässig unterstützen.

Du übernimmst End-to-End-Verantwortung für Reliability, förderst eine Kultur der kontinuierlichen Verbesserung und gehst bei der Lösung komplexer technischer Herausforderungen mit gutem Beispiel voran.

Deine Aufgaben

Sicherstellung der Zuverlässigkeit, Verfügbarkeit und Performance unserer Database- und Observability-as-a-Service-Produkte
Betrieb containerbasierter Anwendungen in Kubernetes mit starkem Fokus auf Sicherheit und Resilienz
Leitung von Incident-Response-Maßnahmen, Root-Cause-Analysen sowie nachhaltiger Fehlerbehebung
Anwendung von GitOps-Prinzipien mit Helm und Argo CD
Entwicklung von API-Services und Tools in Go zur Bereitstellung stabiler SaaS-Produkte
Aufbau und Optimierung von CI/CD-Pipelines zur Erhöhung von Deployment-Sicherheit und Systemstabilität
Design und Verwaltung skalierbarer Infrastrukturen mit Infrastructure-as-Code-Tools (z. B. Terraform) in Cloud-Umgebungen

Unsere Technologien und Tech Stack:

Go, Python, Bash
OpenStack, Kubernetes, Cilium, Envoy, Kyverno
Terraform, Crossplane, Argo CD, GitLab CI
PostgreSQL, Grafana, Loki, Mimir

Das bringst Du mit

Mehrjährige Erfahrung im Betrieb hochverfügbarer Systeme in Linux- und Kubernetes-Umgebungen
Fundiertes Verständnis von Observability-Konzepten (Monitoring, Logging, Tracing)
Praktische Entwicklungserfahrung in Go (Kenntnisse in Python oder Rust sind von Vorteil)
Erfahrung mit Infrastructure-as-Code-Tools wie Terraform oder OpenTofu
Praxiserfahrung im Incident Management sowie in strukturierten Root-Cause-Analysen
Vertrautheit mit CI-Systemen, insbesondere GitLab CI
Ausgeprägte Problemlösungskompetenz sowie gute Kommunikationsfähigkeiten in Deutsch und Englisch (mindestens B2-Niveau)

Was Dich bei uns erwartet

Bei SysEleven übernimmst du Verantwortung für die Zuverlässigkeit kundennaher Services wie Database as a Service und Observability as a Service, die tief in unsere Cloud- und Kubernetes-Plattform integriert sind.

Du arbeitest aktiv am täglichen Betrieb und an der kontinuierlichen Weiterentwicklung dieser Services mit – mit Fokus auf Stabilität, Performance und Automatisierungsreife.

Wir leben eine blameless Culture, offene Kommunikation und aktiven Wissensaustausch – im Arbeitsalltag, bei internen „Show & Tell“-Sessions oder auf externen Konferenzen. Du erhältst den Freiraum, Reliability-Themen strategisch voranzutreiben und gemeinsam mit dem Team nachhaltige, robuste Plattformlösungen zu gestalten.

Über uns

Bei SysEleven in Berlin realisieren wir erstklassige Cloud-Lösungen auf Basis von Kubernetes und OpenStack und stehen dabei konsequent für digitale Souveränität.

Wir leben Diversität – auch im Denken und Handeln, denn nur unterschiedliche Blickwinkel finden am Ende die beste Lösung, die uns und unsere Kunden weiterbringt. Kurz gesagt: Wir achten aufeinander und hängen uns voll rein. Wenn du in diesem vertrauensvollen Umfeld wachsen und die Zukunft flexibler Infrastrukturen mitprägen willst, bist du bei uns genau richtig.