Passer au contenu principal

Cours Complet : La Supervision Informatique

1. Introduction à la Supervision

La supervision informatique consiste à monitorer, surveiller et gérer l'infrastructure IT (serveurs, réseau, applications, bases de données) pour assurer leur bon fonctionnement, identifier les problèmes et optimiser les performances.

L'objectif principal est de garantir la disponibilité, la performance et la sécurité des services informatiques.


2. Les Trois Approches de la Supervision

2.1 Supervision Réactive

La supervision réactive intervient après qu'un problème s'est produit. C'est une approche "pompier" où on éteint le feu une fois qu'il est déclaré.

Caractéristiques :

  • Détection des incidents après leur survenance
  • Impact sur les services et les utilisateurs
  • Temps d'arrêt important
  • Coûts élevés dus aux interruptions de service

Exemple : Un serveur plante, les utilisateurs le signalent, puis l'équipe IT intervient.

2.2 Supervision Proactive

La supervision proactive détecte les problèmes avant qu'ils impactent les services. On anticipe les défaillances potentielles.

Caractéristiques :

  • Surveillance continue en temps réel
  • Alertes avant la panne
  • Intervention préventive
  • Meilleur temps de résolution
  • Moins de perturbations pour les utilisateurs

Exemple : Un disque dur approche de sa saturation → alerte envoyée → l'équipe IT nettoie l'espace avant que le service s'arrête.

2.3 Supervision Prédictive

La supervision prédictive anticipe les risques grâce à l'analyse des données historiques. Elle utilise l'intelligence artificielle et les analyses statistiques pour prévoir les futures défaillances.

Caractéristiques :

  • Analyse des tendances et des patterns historiques
  • Machine Learning et Big Data
  • Identification des dérives avant qu'elles ne deviennent critiques
  • Planification proactive de la maintenance

Exemple : En analysant les données du disque dur sur 6 mois, on prédisait qu'il défaillira dans 2 semaines → on le remplace avant la panne.


3. Architecture et Composants de la Supervision

3.1 Les Agents de Supervision

Les agents sont des logiciels installés sur chaque poste ou serveur à superviser.

Fonctionnement :

  • Installés localement sur les machines
  • Collectent les informations locales (CPU, mémoire, disque, processus, etc.)
  • Envoient régulièrement les données au serveur central de supervision
  • Communiquent généralement via des protocoles sécurisés (SNMP, API)

Exemple : Un agent sur un serveur Linux envoie toutes les 5 minutes le taux d'utilisation CPU au serveur de supervision.

3.2 Les Sondes (Probes)

Les sondes sont des scripts ou petits programmes qui effectuent des tests spécifiques.

Caractéristiques :

  • Peuvent être lancées localement depuis le serveur de supervision
  • Testent la disponibilité et les performances de services
  • Collectent des données sans nécessiter d'agent sur le poste distant
  • Exemples : PRTG, Zabbix, Nagios

Exemples de sondes :

  • Tester si un site web répond (HTTP)
  • Vérifier si une base de données est accessible
  • Mesurer la latence réseau
  • Scanner les ports ouverts

3.3 Serveur de Supervision Central

Le serveur de supervision est le cœur du système. Il collecte, traite et stocke toutes les données.

Fonctions :

  • Reçoit les données des agents et sondes
  • Stocke les données dans une base de données
  • Génère les alertes en fonction des seuils configurés
  • Envoie des notifications (email, SMS, Slack, etc.)

Outils populaires :

  • PRTG (Paessler) : supervision complète, interface web intuitive
  • Zabbix : open-source, très flexible, scalable
  • Nagios : historique, fiable, open-source
  • Grafana : dashboards et visualisation

3.4 Tableaux de Bord (Dashboards)

Les tableaux de bord sont l'interface visuelle pour afficher les données collectées.

Rôle :

  • Visualiser les données en temps réel
  • Créer des graphiques et des charts
  • Alerter visuellement sur les anomalies
  • Faciliter la compréhension rapide de la situation

Exemples de données affichées :

  • État des serveurs (en ligne/hors ligne)
  • Utilisation CPU, mémoire, disque
  • Trafic réseau
  • Nombre d'erreurs applications
  • Temps de réponse des services

4. Les KPIs (Indicateurs Clés de Performance)

Un KPI (Key Performance Indicator) est un indicateur mesurable qui évalue la performance d'un service ou d'un système.

4.1 KPIs Courants en Supervision

Disponibilité

  • Pourcentage de temps où le service fonctionne normalement
  • Objectif : 99.9% (SLA - Service Level Agreement)
  • Calcul : (Temps total - Temps d'arrêt) / Temps total × 100

Performance/Temps de réponse

  • Vitesse de réponse d'une application
  • Mesurée en millisecondes (ms)
  • Exemple : « Le temps de réponse moyen est de 150 ms »

Utilisation des ressources

  • CPU, mémoire, disque, bande passante
  • Objectif : éviter de dépasser 80-90%

Taux d'erreur

  • Nombre d'erreurs par rapport au nombre de requêtes
  • Exemple : « 2% des requêtes génèrent une erreur »

MTTR (Mean Time To Repair)

  • Temps moyen de résolution des incidents
  • Objectif : réduire ce temps au maximum

MTTF (Mean Time To Failure)

  • Temps moyen avant la prochaine défaillance
  • Plus cette valeur est élevée, mieux c'est

5. Les Codes d'Erreur HTTP

Lors de la supervision d'applications web, on rencontre des codes d'erreur HTTP. Ils indiquent le type de problème :

5.1 Erreurs 2xx (Succès)

  • 200 OK : Requête réussie, tout va bien

5.2 Erreurs 3xx (Redirection)

  • 301/302 : La ressource a été déplacée

5.3 Erreurs 4xx (Erreurs Client)

  • 400 Bad Request : Mauvaise requête du client (syntaxe incorrecte, paramètres invalides)
  • 401 Unauthorized : Authentification requise
  • 403 Forbidden : L'accès est refusé
  • 404 Not Found : Ressource non trouvée

C'est l'erreur du client, pas du serveur → Le problème vient de la requête envoyée.

5.4 Erreurs 5xx (Erreurs Serveur)

  • 500 Internal Server Error : Erreur interne du serveur
  • 502 Bad Gateway : Serveur intermédiaire défaillant
  • 503 Service Unavailable : Service temporairement indisponible

C'est l'erreur du serveur → Le serveur n'a pas pu traiter la requête correctement.


6. Bonnes Pratiques de la Supervision

✓ Définir des seuils d'alerte pertinents (pas trop sensibles, pas trop laxistes) ✓ Monitoriser les services critiques en priorité ✓ Mettre en place des escalades d'alertes (si pas de réponse, escalader) ✓ Maintenir un historique des incidents (pour l'analyse prédictive) ✓ Tester régulièrement les alertes et notifications ✓ Configurer des SLAs clairs avec les équipes ✓ Automatiser les actions de correction quand c'est possible


Résumé Visuel


Supervision Réactive  : Problème → Alerte → Intervention
Supervision Proactive : Surveillance → Alerte anticipée → Intervention préventive
Supervision Prédictive: Analyse données → Prédiction → Maintenance planifiée

Voilà un cours structuré ! Besoin de clarifications sur un point particulier ?