Senior Site Reliability Engineer Managed Kubernetes (m/w/d)

Permanent employee, Full-time · Berlin

Read job description in:
Deine Mission
Als Site Reliability Engineer bei SysEleven setzt Du modernste Cloud‑Technologien ein, um die Verfügbarkeit und Sicherheit digitaler Dienste zu maximieren. Durch Deine tiefgehende Expertise in Go und Infrastrukturautomatisierung löst Du komplexe Herausforderungen und entwickelst robuste, skalierbare Automatisierungslösungen. Als Mentor und Community‑Builder förderst Du den Wissensaustausch und hilfst Deinem Team, kontinuierlich besser zu werden. So gestaltest Du die Zukunft der Cloud‑Reliability und verbesserst nachhaltig die digitalen Services unserer Kunden.
Aufgaben
  • Entwicklung und Pflege von Kubernetes‑Operatoren in Go für MetaKube K8s Plattform
  • Aufbau und Wartung von Terraform‑, Ansible‑, Helm‑ und Bash‑Automation zur Bereitstellung, und Skalierung von Clustern  
  • Implementierung und Optimierung von Observability‑Stacks (Prometheus, Loki, Mimir) sowie Incident‑Analyse und 3rd‑Level‑Support  
  • Verantwortung für Release‑Management, GitLab‑CI/CD‑Pipelines und GitOps‑Workflows über Cluster hinweg
  • Mentoring, On‑boarding und Wissensaustausch innerhalb des Teams und in externen Community‑Projekten
Anforderungen
  • Mehrjährige Praxis im Betrieb und der Skalierung hochverfügbarer Kubernetes‑Cluster (Cloud und On‑Prem)  
  • Fundierte Entwicklungserfahrung in Go sowie sichere Anwendung von Terraform, Ansible, Helm usw.
  • Tiefgehende Kenntnisse in Linux‑Systemadministration, Netzwerk‑Layer 3/4 (Routing, NAT, Load‑Balancing) und Layer 7‑Protokollen (DNS, HTTP/2)  
  • Erfahrung mit Observability‑Stacks (Prometheus, Loki, Mimir, Grafana) inklusive Alert‑Management und Performance‑Monitoring  
  • Sicherer Umgang mit CI/CD‑Prozessen, vorzugsweise GitLab, und Umsetzung von GitOps‑Prinzipien in Produktionsumgebungen  
  • Sehr gute Englischkenntnisse (mind. B2) für Fachgespräche, Dokumentation und internationale Zusammenarbeit.
Was dich bei uns erwartet
Als Teil des MetaKube Core Teams sammelst Du täglich praktische Erfahrung mit Kubernetes und lernst die Internals kennen wie kaum ein:e andere:r. Du hast viel Freiraum, Dein Wissen einzubringen, um die täglich neuen Herausforderungen zu meistern.
Wir pflegen regen Austausch im und mit anderen Teams, helfen uns gegenseitig und teilen Ideen, sei es in der täglichen Arbeit, beim firmeninternen "Show & Tell" oder bei externen Konferenzen wie der KubeCon oder den Container Days.
Über uns
Wir sind Dein Partner für managed Cloud und Kubernetes Services – Made in Germany!
Wir leben Diversität – auch im Denken und Handeln. Denn nur unterschiedliche Blickwinkel finden am Ende die beste Lösung, die uns und unsere Kunden weiterbringt. Dafür arbeiten vom Quereinsteiger bis zum Vollprofi alle auf Augenhöhe und lernen voneinander. Kurz gesagt: Wir achten aufeinander und hängen uns voll rein.
Your mission
As a Site Reliability Engineer at SysEleven, you will use cutting-edge cloud technologies to maximize the availability and security of digital services. With your deep expertise in Go and infrastructure automation, you will solve complex problems and develop robust, scalable automation solutions. As a mentor and community builder, you foster knowledge sharing and help your team continuously improve. In this way, you will shape the future of cloud reliability and sustainably enhance our customers’ digital services.
Your tasks
  • Development and maintenance of Kubernetes operators in Go for our MetaKube K8s Platform
  • Building and maintaining Terraform, Ansible, Helm, and Bash automation for cluster provisioning and scaling
  • Implementation and optimization of observability stacks (Prometheus, Loki, Mimir) as well as incident analysis and third-level support
  • Responsibility for release management, GitLab CI/CD pipelines, and GitOps workflows across clusters
  • Mentoring, onboarding, and knowledge sharing within the team and in external community projects
Requirements
  • Several years of hands-on experience in operating and scaling highly available Kubernetes clusters (cloud and on-premises)
  • Strong development experience in Go and proficient use of Terraform, Ansible, Helm, and related tools
  • Deep knowledge of Linux system administration, network layer 3/4 (routing, NAT, load balancing), and layer 7 protocols (DNS, HTTP/2)
  • Experience with observability stacks (Prometheus, Loki, Mimir, Grafana), including alert management and performance monitoring
  • Proficient in CI/CD processes, preferably GitLab, and in applying GitOps principles in production environments
  • Good English skills (minimum B2) for technical discussions, documentation, and international collaboration
What you can expect
As part of the MetaKube-Core-Team, you will gain deep hands-on experience with Kubernetes and get to know its internals in a way few others do. You will have the freedom to apply your knowledge and solve new challenges as they arise. We maintain an active exchange of ideas within our team and across teams. We support one another, share insights, and continuously learn together – whether through daily collaboration, internal show-and-tell sessions, or at external conferences such as KubeCon or Container Days.
About us
We are your partner for managed cloud and Kubernetes services - Made in Germany!
We take responsibility and stand for security, reliability, and scalability in the operation of your business-critical applications in Germany. We provide you with a secure cloud and network infrastructure - made in Germany, consulting and efficient Kubernetes operating models.
Your Application 
Please upload your application documents here (e.g., CV, cover letter, references, etc.)! If you like to, please enter your desired gross annual salary or a salary range for a full-time position. If there is anything else you would like to tell us, such as your best availability or a short note about yourself, just drop us a note. 
Uploading document. Please wait.
Please add all mandatory information with a * to send your application.