Ingénieur·e Site Reliability Sre H/F - Toring
- CDI
- Toring
Les missions du poste
Contexte
Nous recherchons un-e ingénieur-e SRE pour renforcer notre équipe technique. Vous serez responsable de la fiabilité, de la performance et de la scalabilité de nos infrastructures et services en production.
Vos missions
Maintenir et améliorer la disponibilité des services en production (SLO cibles 99,9 %)
Concevoir et opérer les stacks d'observabilité (métriques, logs, traces) sur l'ensemble des services
Automatiser les tâches opérationnelles répétitives et réduire le toil
Gérer les incidents (on-call), coordonner la résolution et rédiger les post-mortems
Collaborer avec les équipes produit pour intégrer la fiabilité dès la conception (capacity planning, SLI/SLO)
Contribuer à la sécurité de l'infrastructure (hardening, gestion des secrets, audit)
Compétences recherchées
Orchestration : Kubernetes
Infrastructure as Code : Terraform
Observabilité : Prometheus, Grafana, OpenTelemetry
Cloud : AWS ou GCP
Langages : Python ou Go
CI/CD : GitLab, ArgoCD
Bases de données : PostgreSQL
Gestion des SLO et error budgets
Profil
3 ans d'expérience minimum en SRE, Ops ou DevOps dans un contexte cloud-native
Forte culture de l'automatisation et du « everything as code »
À l'aise aussi bien dans la résolution d'incidents sous pression que dans la réflexion long terme
Esprit collaboratif, communication claire avec des interlocuteurs techniques et non-techniques
Le profil recherché
Experience: 4 An(s)
Compétences: Configurer et optimiser des systèmes DevOps,Déterminer des mesures correctives,Rédiger un cahier des charges, des spécifications techniques
Qualification: Cadre
Secteur d'activité: Conseil en systèmes et logiciels informatiques
Compétences requises
- Python