Supervision & alertes en temps réel
Une plateforme qui surveille en continu serveurs, applications et jusqu'à l'état physique des disques — pour détecter les problèmes avant qu'ils n'atteignent les utilisateurs.
Le besoin
Faire tourner une plateforme, c'est bien. Savoir avant les utilisateurs qu'un disque fatigue, qu'un service sature ou qu'une machine chauffe, c'est mieux. Sans supervision, on découvre les pannes quand il est déjà trop tard — et on perd un temps fou à comprendre ce qui s'est passé.
L'objectif : une visibilité de bout en bout, du disque physique jusqu'à l'application, avec des alertes qui préviennent automatiquement.
La solution
J'ai déployé une chaîne d'observabilité complète, basée sur des standards de l'industrie :
- Collecte de métriques (Prometheus) sur tous les serveurs : processeur, mémoire, réseau, et même l'état de santé des disques (SMART) et les températures.
- Journaux centralisés (Loki) : tous les logs des machines au même endroit, cherchables instantanément.
- Tableaux de bord (Grafana) clairs et visuels — un coup d'œil suffit pour comprendre l'état du système.
- Alertes automatiques : un seuil dépassé déclenche une notification, avant l'incident.
Environ 18 sources sont surveillées en permanence — serveurs, cluster, carte graphique, disques. La supervision tourne elle-même dans un conteneur dédié, isolée du reste.
Les résultats
Concrètement, j'ai pu anticiper des problèmes matériels grâce à la surveillance de la santé des disques, et diagnostiquer un incident en quelques minutes au lieu de fouiller des serveurs un par un. C'est la culture SRE (fiabilité des services) appliquée à une vraie plateforme.
Tableau de bord
Reproduction de l'esprit d'un dashboard Grafana / Prometheus. Données simulées côté navigateur — actualisation automatique toutes les 15 minutes, comme un véritable intervalle de rafraîchissement.