Data Center

Infrastructure, Servers, Network, Storage

Trop de pannes qui s’étirent dans la durée

Août 25, 2022 | Data Center | 0 commentaires

Multiplication des pannes. Mais, surtout, augmentation des coûts et des impacts. Elles sont aussi les principales causes de temps d’arrêt.

Le secteur des infrastructures numériques a du mal à obtenir une réduction mesurable des taux et de la gravité des pannes, estime l’Uptime Institute. Autre constat : les conséquences financières et les perturbations globales augmentent régulièrement.

« Les opérateurs d’infrastructures numériques ont encore du mal à respecter les normes élevées que les clients attendent, observe Andy Lawrence, Executive Director, Uptime Institute Intelligence. Le constat est d’autant plus alarmant que les technologies évoluent et que l’industrie investit toujours plus dans la résilience et la prévention des temps d’arrêt. »

Complexité des architectures hybrides

Pour l’Uptime Institute, le manque d’amélioration des taux d’interruption globaux résulte en partie de l’immensité des investissements récents et de toute la complexité associée à laquelle les opérateurs sont confrontés lors de leur transition vers des architectures hybrides et distribuées. « Avec le temps, la technologie et les pratiques opérationnelles s’amélioreront, mais à l’heure actuelle, les pannes restent une préoccupation majeure pour les clients, les investisseurs et les régulateurs. Les opérateurs seront mieux à même de relever le défi avec une formation rigoureuse du personnel et des procédures opérationnelles pour atténuer l’erreur humaine à l’origine de bon nombre de ces défaillances. »

Les taux d’indisponibilité élevés n’ont pas changé de manière significative. Une organisation sur cinq déclare avoir subi une panne « grave » ou «très grave » (entraînant des pertes financières importantes, des atteintes à la réputation, des manquements à la conformité et, dans certains cas graves, des pertes de vie) au cours des trois dernières années, ce qui marque une légère tendance à la hausse de la prévalence. Selon l’enquête, 80 % des gestionnaires et des opérateurs de centres de données ont subi un type de défaillance au cours des trois dernières années – une augmentation marginale par rapport à la norme, qui a fluctué entre 70 % et 80 %.

Les réseaux, le plus souvent en cause

Les problèmes liés à l’alimentation continuent d’accabler les opérateurs de centres de données. Les pannes liées à l’électricité représentent 43 % des pannes classées comme importantes (causant des temps d’arrêt et des pertes financières). La principale cause d’incidents d’alimentation est les pannes d’alimentation sans coupure (UPS).

Les problèmes de réseau sont à l’origine d’une grande partie des pannes informatiques. Selon l’Uptime Institute, les problèmes liés au réseau ont été la principale cause de tous les incidents d’indisponibilité des services informatiques -quelle que soit leur gravité- au cours des trois dernières années. Les pannes attribuées aux problèmes de logiciels, de réseau et de systèmes sont en augmentation en raison de la complexité de l’utilisation croissante des technologies cloud, des architectures définies par logiciel et des architectures hybrides et distribuées.

L’humain, à l’origine de 40 % des pannes

La très grande majorité des pannes liées à une erreur humaine impliquent des procédures ignorées ou inadéquates. Près de 40 % des organisations ont subi une panne majeure causée par une erreur humaine au cours des trois dernières années. Parmi ces incidents, 85 % sont dus au non-respect des procédures par le personnel ou à des failles dans les processus et procédures eux-mêmes.

Les fournisseurs informatiques externes sont à l’origine de la plupart des pannes publiques majeures. Plus les charges de travail sont externalisées auprès de fournisseurs externes, plus ces opérateurs sont responsables des pannes publiques très médiatisées. Les opérateurs informatiques commerciaux tiers (y compris les fournisseurs de cloud, d’hébergement, de colocation, de télécommunications, etc.) représentent 63 % de toutes les pannes signalées publiquement que l’Uptime Institute a suivies depuis 2016. En 2021, les opérateurs commerciaux ont causé 70 % de toutes les pannes.

Des pannes qui s’étirent dans la durée

Les temps d’arrêt prolongés sont de plus en plus fréquents dans les pannes signalées publiquement. L’écart entre le début d’une panne publique majeure et le rétablissement complet s’est considérablement allongé au cours des cinq dernières années. Près de 30 % de ces défaillances en 2021 ont duré plus de 24 heures, une augmentation inquiétante par rapport à seulement 8 % en 2017.

Les tendances des pannes publiques suggèrent qu’il y aura au moins 20 pannes informatiques graves et très médiatisées dans le monde chaque année. Sur les 108 pannes signalées publiquement en 2021, 27 étaient graves ou graves. Ce ratio est assez constant depuis que l’équipe Uptime Intelligence a commencé à répertorier les pannes majeures en 2016, indiquant qu’environ un quart des pannes enregistrées publiquement chaque année sont susceptibles d’être graves ou graves.