0% ont trouvé ce document utile (0 vote)
79 vues25 pages

Chapitre 2

Le chapitre aborde la gestion opérationnelle des data centers, en se concentrant sur la surveillance, la maintenance préventive et corrective, ainsi que la gestion de l'énergie et du refroidissement. Il présente des outils de surveillance tels que Nagios, Zabbix et PRTG, chacun ayant des caractéristiques spécifiques pour optimiser la performance et la disponibilité des infrastructures. Enfin, il discute des méthodes de refroidissement et de l'importance de l'efficacité énergétique, notamment à travers le concept de PUE.

Transféré par

rayenazzouz11
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
79 vues25 pages

Chapitre 2

Le chapitre aborde la gestion opérationnelle des data centers, en se concentrant sur la surveillance, la maintenance préventive et corrective, ainsi que la gestion de l'énergie et du refroidissement. Il présente des outils de surveillance tels que Nagios, Zabbix et PRTG, chacun ayant des caractéristiques spécifiques pour optimiser la performance et la disponibilité des infrastructures. Enfin, il discute des méthodes de refroidissement et de l'importance de l'efficacité énergétique, notamment à travers le concept de PUE.

Transféré par

rayenazzouz11
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Chapitre 2 : Gestion

Opérationnelle des Data Centers


Objectifs du cours
• 1. Comprendre les méthodes de surveillance
des data centers.
• 2. Découvrir les processus de maintenance
préventive et corrective.
• 3. Explorer les systèmes de gestion de
l’énergie et les techniques de refroidissement.
1. Surveillance des Data Centers
• Surveillance en temps réel : utilisation de
logiciels pour surveiller l’état des serveurs, le
stockage et le réseau.
• Exemple simple : Comparer cela à un tableau
de bord de voiture, où on voit la température,
la vitesse, et le niveau de carburant.
• Outils de Surveillance : Nagios, Zabbix ou
PRTG.
2. Maintenance des Data Centers
• Maintenance Préventive : Vérifications
régulières pour éviter les pannes (ex:
nettoyage des filtres de climatisation).

• Maintenance Corrective : Réparation


lorsqu’un problème survient (ex:
remplacement d’un disque dur défaillant).
3. Gestion de l’Énergie et du
Refroidissement
• Optimisation de l’Énergie : Concepts de PUE,
importance de l’efficacité énergétique.

• Systèmes de Refroidissement :
Refroidissement par air, par liquide.
Surveillance des Data Centers : Vue
d'ensemble
• Importance de la surveillance pour assurer la
disponibilité et la performance des services.

• Objectifs de la surveillance :
• - Assurer la disponibilité des serveurs et des
services
• - Optimiser les performances des infrastructures
• - Prévenir les pannes
Principaux indicateurs à surveiller
• - Temps de disponibilité
• - Utilisation des ressources (CPU, RAM,
Stockage)
• - Température et conditions
environnementales
• - Alertes et logs d'erreur
Exemples d’outils de surveillance
• Nagios, Zabbix, PRTG :

• - Nagios : Surveillance de l'infrastructure,


rapports d'incidents
• - Zabbix : Surveillance en temps réel,
intégration facile
• - PRTG : Suivi de l'ensemble du réseau et
visualisation des données
Nagios
• Fonction principale : Nagios est utilisé pour la surveillance de
l'infrastructure IT, notamment les serveurs, les applications et les services
réseau.
• Caractéristiques :
– Alertes et notifications : En cas d'incident (par exemple, un serveur qui tombe
en panne), Nagios peut envoyer des alertes par email ou SMS aux
administrateurs.
– Rapports d'incidents : Il fournit des rapports d'incidents et des journaux
d'activité, ce qui aide à analyser les causes des problèmes.
– Extensibilité : De nombreux plugins permettent d'étendre ses capacités pour
surveiller des systèmes et applications spécifiques.
• Exemple d'utilisation : Une entreprise utilise Nagios pour surveiller ses
serveurs de base de données. En cas de surcharge ou de défaillance,
Nagios envoie une alerte, permettant aux administrateurs d'intervenir
rapidement pour éviter les pertes de données.
Zabbix
•Fonction principale : Zabbix est conçu pour la surveillance en temps réel
des infrastructures, offrant une vue d'ensemble des performances et de la
disponibilité des équipements.
•Caractéristiques :
•Surveillance en temps réel : Zabbix collecte les données en temps réel et
peut afficher des graphiques de performance.
•Automatisation : Il permet la création de règles d'automatisation pour
répondre aux événements, comme redémarrer un service automatiquement
en cas de panne.
•Intégration facile : Compatible avec de nombreux systèmes et
technologies, comme le cloud, les bases de données, et les équipements
réseau.
•Exemple d'utilisation : Dans un data center, Zabbix est utilisé pour
surveiller les performances des serveurs web. Lorsqu'un serveur atteint une
certaine charge CPU, Zabbix envoie une alerte pour permettre aux équipes
d'optimiser les ressources.
PRTG Network Monitor
•Fonction principale : PRTG est spécialisé dans le suivi et la visualisation
des données sur l'ensemble du réseau, permettant de détecter rapidement
les problèmes de connectivité ou de performance.
Caractéristiques :
•Cartes et visualisation : Il fournit des visualisations interactives de
l'infrastructure réseau, facilitant l'identification des goulots d'étranglement.
•Surveillance des périphériques : PRTG peut surveiller divers périphériques
réseau, y compris les routeurs, switches, et points d'accès.
•Alertes et rapports personnalisés : Les utilisateurs peuvent configurer des
alertes et créer des rapports sur mesure en fonction des besoins spécifiques
de leur infrastructure.
•Exemple d'utilisation : Dans un réseau étendu, PRTG est utilisé pour
surveiller les connexions entre les bureaux distants et le siège. Si une
connexion est perdue ou lente, PRTG envoie une alerte, permettant aux
administrateurs réseau de résoudre le problème rapidement.
• Chacun de ces outils apporte une valeur ajoutée unique dans
la gestion opérationnelle d'un data center, en fonction des
besoins spécifiques en surveillance, réactivité et
automatisation.
• Nagios est idéal pour les configurations spécifiques où une
surveillance détaillée et personnalisée est nécessaire, mais
peut être complexe à gérer pour les grandes infrastructures.
• Zabbix est mieux adapté pour des entreprises qui recherchent
une solution complète avec une surveillance en temps réel,
des rapports avancés, et des possibilités d'automatisation.
• PRTG est recommandé pour les entreprises cherchant une
solution rapide à mettre en place pour la surveillance de
réseau, avec une interface intuitive et de bons outils de
visualisation.
• Chaque outil peut donc être préféré en fonction des besoins
spécifiques, de la taille de l'infrastructure, et du niveau de
compétence de l'équipe de gestion.
Activité : Scénario de panne
• Imaginez que l'utilisation du CPU d'un serveur
dépasse 90% pendant plus d'une heure.
Discutez :
• - Quels signaux d'alerte devriez-vous recevoir
?
• - Quelles actions immédiates prendre pour
éviter la surcharge du serveur ?
Si l'utilisation du CPU d'un serveur dépasse 90 % pendant plus d'une
heure, voici les réponses aux questions posées :
1. Signaux d'alerte à recevoir
• Alertes de seuil : Un système de surveillance tel que Zabbix,
Nagios, ou PRTG devrait envoyer une alerte lorsque le CPU
dépasse 90 %. Ces alertes peuvent être configurées pour se
déclencher lorsque le CPU dépasse ce seuil pendant une période
prolongée, comme une heure.
• Notifications : Une notification par e-mail, SMS, ou via un outil de
collaboration (comme Slack ou Microsoft Teams) pourrait être
envoyée aux administrateurs du serveur pour leur signaler le
problème.
• Graphiques de performance : Certains systèmes de surveillance
affichent des graphiques en temps réel des performances du CPU,
permettant aux administrateurs de voir visuellement l’augmentation
de l’utilisation du CPU et d’agir en conséquence.
• Alertes de dépassement de ressources : En plus de l'utilisation du
CPU, des alertes pour l'utilisation de la mémoire ou des E/S disques
(input/output) peuvent être utiles pour identifier les ressources
associées à cette surcharge.
Actions immédiates pour éviter la surcharge du serveur:
• Identifier les processus gourmands : Utiliser des commandes
comme top ou htop (sur Linux) ou le Gestionnaire des tâches (sur
Windows) pour identifier les processus ou applications qui
consomment le plus de ressources CPU.
• Redémarrer les services non essentiels : Si des services non
essentiels consomment beaucoup de CPU, il est possible de les
arrêter ou de les redémarrer pour alléger la charge du serveur.
• Répartir la charge : Si possible, distribuer la charge vers d’autres
serveurs ou instances (via un équilibrage de charge) afin de réduire
l’utilisation du CPU sur le serveur principal.
• Vérifier les tâches planifiées : Des tâches planifiées (backups,
analyses antivirus, etc.) peuvent provoquer une surcharge. Il peut
être pertinent de les reporter à une période de faible utilisation.
• Mettre en place des limites sur certains processus : Utiliser des
outils comme cpulimit (sur Linux) pour limiter la quantité de CPU
qu’un processus peut utiliser, ou ajuster les priorités des processus
pour réduire la pression sur le CPU.
• Optimiser les applications : Si une application particulière
consomme une grande quantité de CPU, vérifier s’il est possible
d’optimiser ses performances ou de mettre à jour sa version pour
réduire sa consommation.
Maintenance Préventive
• Vérifications régulières pour éviter les pannes
:
• - Nettoyage des filtres de climatisation
• - Vérification des câbles et connexions
• - Test des disques durs pour détecter des
défaillances potentielles
Maintenance Corrective
• Réparation des équipements défaillants :
• - Remplacement d'un disque dur en cas de
défaillance
• - Réparation des câbles endommagés
• - Correction des erreurs détectées dans les
logs de système
Exercice en groupe : Identifier les
problèmes
• Cas pratique :
• - Scénario : Un serveur n'est plus accessible
pour les utilisateurs.
• - Discutez des étapes de diagnostic et de
réparation possibles.
Les étapes pour diagnostiquer et réparer un serveur inaccessible :
1. Vérifier la connectivité réseau : Tester le serveur avec des commandes
comme ping ou traceroute pour s'assurer qu'il est joignable. Vérifier si
certains utilisateurs peuvent toujours y accéder pour diagnostiquer un
éventuel problème de réseau.
2. Vérifier les services et applications : Accéder au serveur (physiquement ou
à distance) et vérifier l'état des services essentiels (par exemple, serveur
web, base de données). Redémarrer les services défaillants.
3. Surveiller l'utilisation des ressources : Contrôler le CPU, la mémoire et
l’espace disque pour détecter une surcharge. Utiliser top, df -h (Linux) ou le
Gestionnaire des tâches (Windows).
4. Redémarrer les services ou le serveur : Si nécessaire, redémarrer les
services bloqués ou le serveur complet pour libérer des ressources et
relancer les processus.
5. Vérifier le réseau et DNS : Confirmer que les paramètres réseau (IP,
passerelle, DNS) sont corrects et vérifier les règles de pare-feu.
6. Analyser les journaux pour les erreurs : Consulter les journaux système et
applicatifs pour identifier d’éventuelles erreurs ou activités suspectes.
7. Valider la résolution : Tester l'accessibilité du serveur pour les utilisateurs et
surveiller les performances. Documenter l’incident et les actions prises pour
référence future.
Optimisation de l'énergie
• Concept de PUE (Power Usage Effectiveness) :
• - Mesure de l'efficacité énergétique d'un data
center
• - PUE idéal = 1.0 (toute l'énergie est utilisée
pour les équipements informatiques)
• - Exemple : Calculer le PUE avec des données
fictives
Méthodes de refroidissement
• - Refroidissement par air : Utilisation de l'air
ambiant pour dissiper la chaleur.
• - Refroidissement par liquide : Utilisation de
liquides pour transporter la chaleur hors du
data center.
Activité : Choix de refroidissement
• Choisissez une méthode de refroidissement
pour un data center fictif :
• - Budget limité : Utilisation du refroidissement
par air est-il suffisant ?
• - Besoins spécifiques : Quel impact sur le coût
et la maintenance ?
• Un data center fictif est une infrastructure
virtuelle ou simulée utilisée pour représenter
le fonctionnement d'un véritable centre de
données sans qu'il y ait d'équipement
physique réel. Il est souvent créé dans un
environnement de simulation ou de formation
et est utilisé pour plusieurs raisons
• Pour un data center fictif avec un budget limité, le refroidissement par air est
souvent une solution accessible et suffisamment efficace pour répondre aux
besoins de refroidissement de base. Voici une analyse de cette méthode en
fonction du budget et des besoins spécifiques.

1. Refroidissement par air avec budget limité

• Suffisance : Pour des installations de petite à moyenne taille, le refroidissement


par air peut suffire. Les climatiseurs CRAC (Computer Room Air Conditioners) ou
les unités de refroidissement air-air sont relativement abordables et faciles à
installer.

• Efficacité : Ce système est adapté si la charge de travail n’entraîne pas une forte
chaleur, et si le data center est bien conçu pour optimiser le flux d’air (par
exemple, avec des allées chaudes et froides).

• Limitations : Pour des infrastructures plus importantes ou avec des équipements à


haute densité (comme les racks de serveurs haute performance), le
refroidissement par air peut devenir insuffisant et entraîner des risques de
surchauffe.
Besoins spécifiques : Impact sur le coût et la maintenance

• Coût : Le refroidissement par air a des coûts initiaux plus bas par rapport aux
systèmes de refroidissement liquide. Cependant, si les équipements nécessitent un
refroidissement plus intense, il peut être nécessaire d'ajouter des unités
supplémentaires, augmentant les coûts opérationnels (électricité et maintenance).

• Maintenance : Le refroidissement par air nécessite une surveillance régulière, le


nettoyage des filtres et des unités pour éviter l'accumulation de poussière. La
maintenance est généralement simple mais fréquente. Les unités de
refroidissement par air consomment aussi plus d’énergie sur le long terme, ce qui
peut augmenter les frais.

• Performances limitées : Pour les besoins spécifiques comme la haute densité ou la


régulation précise de la température, un système de refroidissement liquide ou un
refroidissement à immersion serait plus performant. Ces solutions ont des coûts
de mise en place plus élevés, mais réduisent les besoins en électricité et en
maintenance fréquente.

Vous aimerez peut-être aussi