Als „DevOps/Platform Engineer (m/w/d)“ stellst du für unseren KI-Plattform Alan eine sichere, skalierbare, beobachtbare Plattform bereit und etablierst das Prinzip „You build it, you run it“ im Team. Du unterstützt die produktiven Teams auf „paved paths“ (Self-Service, Guardrails) und sorgst für vorhersehbare Performance und Kosten.
Deine Aufgaben
- Du übernimmst Ownership für zentrale Plattform-/Serving-Komponenten
- Du betreibst K8s-Cluster, Networking (Ingress), Storage (Datenbanken, Snapshots) und OS/Kernel-Patching und stellst deren sicheren und stabilen Betrieb sicher
- Du modellierst Multi-Cloud-Ressourcen (insb. Open Telekom Cloud) per Konsole und IaC (Terraform)
- Du baust CI/CD-Pipelines und Release-/Versionierungs-/Rollback-Strategien auf
- Im Bereich Observability & Site Reliability Engineering implementierst du OpenTelemetry-basiertes Tracing, Metrics und Logs, definierst SLIs/SLOs, Alerting und Error Budgets
- Gemeinsam mit unseren AI Engineers stellst du die Plattform für Model Serving bereit: GPU-Scheduling, Autoscaling, Inference-Gateways, Observability (Latency/QPS/Token-Kosten)
