Ingénieur·e Site Reliability Sre H/F - Toring
- CDI
- Toring
Les missions du poste
Contexte
Nous recherchons un·e ingénieur·e SRE pour renforcer notre équipe technique. Vous serez responsable de la fiabilité, de la performance et de la scalabilité de nos infrastructures et services en production.
Vos missions
- Maintenir et améliorer la disponibilité des services en production (SLO cibles 99,9 %)
- Concevoir et opérer les stacks d'observabilité (métriques, logs, traces) sur l'ensemble des services
- Automatiser les tâches opérationnelles répétitives et réduire le toil
- Gérer les incidents (on-call), coordonner la résolution et rédiger les post-mortems
- Collaborer avec les équipes produit pour intégrer la fiabilité dès la conception (capacity planning, SLI/SLO)
- Contribuer à la sécurité de l'infrastructure (hardening, gestion des secrets, audit)
Compétences recherchées
- Orchestration : Kubernetes
- Infrastructure as Code : Terraform
- Observabilité : Prometheus, Grafana, OpenTelemetry
- Cloud : AWS ou GCP
- Langages : Python ou Go
- CI/CD : GitLab, ArgoCD
- Bases de données : PostgreSQL
- Gestion des SLO et error budgets
Profil
- 3 ans d'expérience minimum en SRE, Ops ou DevOps dans un contexte cloud-native
- Forte culture de l'automatisation et du « everything as code »
- À l'aise aussi bien dans la résolution d'incidents sous pression que dans la réflexion long terme
- Esprit collaboratif, communication claire avec des interlocuteurs techniques et non-techniques
Toring est une société de consulting indépendante souhaitant mettre en avant l'accompagnement de carrière en proposant des missions correspondant à votre profil.
Compétences requises
- Python