Réalisation 04 · Observabilité

Supervision & alertes en temps réel

Une plateforme qui surveille en continu serveurs, applications et jusqu'à l'état physique des disques — pour détecter les problèmes avant qu'ils n'atteignent les utilisateurs.

DomaineObservabilité

Mon rôleMise en place

StatutEn production

Couverture~18 sources

Le besoin

Faire tourner une plateforme, c'est bien. Savoir avant les utilisateurs qu'un disque fatigue, qu'un service sature ou qu'une machine chauffe, c'est mieux. Sans supervision, on découvre les pannes quand il est déjà trop tard — et on perd un temps fou à comprendre ce qui s'est passé.

L'objectif : une visibilité de bout en bout, du disque physique jusqu'à l'application, avec des alertes qui préviennent automatiquement.

La solution

J'ai déployé une chaîne d'observabilité complète, basée sur des standards de l'industrie :

Collecte de métriques (Prometheus) sur tous les serveurs : processeur, mémoire, réseau, et même l'état de santé des disques (SMART) et les températures.
Journaux centralisés (Loki) : tous les logs des machines au même endroit, cherchables instantanément.
Tableaux de bord (Grafana) clairs et visuels — un coup d'œil suffit pour comprendre l'état du système.
Alertes automatiques : un seuil dépassé déclenche une notification, avant l'incident.

Environ 18 sources sont surveillées en permanence — serveurs, cluster, carte graphique, disques. La supervision tourne elle-même dans un conteneur dédié, isolée du reste.

Serveurs · cluster · disques → collecte de métriques (~18 sources) Machines → journaux centralisés ↓ Tableaux de bord visuels ↓ Seuil dépassé → alerte automatique (email / notification)

PrometheusGrafanaLokiPromtailnode_exporterSMART (santé disques)AlertingDocker

Les résultats

~18sources surveillées en continu

Temps réelmétriques & journaux, à la seconde

Proactifalerte déclenchée avant l'impact utilisateur

Concrètement, j'ai pu anticiper des problèmes matériels grâce à la surveillance de la santé des disques, et diagnostiquer un incident en quelques minutes au lieu de fouiller des serveurs un par un. C'est la culture SRE (fiabilité des services) appliquée à une vraie plateforme.

Tableau de bord

Reproduction de l'esprit d'un dashboard Grafana / Prometheus. Données simulées côté navigateur — actualisation automatique toutes les 15 minutes, comme un véritable intervalle de rafraîchissement.

Live Auto-refresh : 15 min prochaine maj dans 15:00

CPU cluster

% moyen

Mémoire

% utilisée

Réseau

Mb/s

0 Mb/s

Disponibilité

30 j

—

Nœuds du cluster

snapshot

Flux d'alertes

dernières 24 h

Latence des requêtes (p95)

Santé des disques

SMART