Les tendances, analyses, customer cases.

Les modalités du cloud : Private cloud, public cloud, hybrid cloud, multi cloud, etc…

Et si vous passiez au Chaos Engineering ?

Jan 19, 2021 | Cloud | 0 commentaires

L’ingénierie du chaos est une nouvelle approche pour tester la résilience des systèmes d’information ou des workloads complexes hébergés dans les clouds.

L’armée des singes de Netflix devra maintenant compter sur Amazon dans le domaine de l’ingénierie du chaos. Dévoilant Fault Injection Simulator, le premier fournisseur mondial de cloud public avance, selon les propos de Werner Vogels, CTO, une aide pour le développement. «Nous pensons que l’ingénierie du chaos s’adresse à tout le monde, pas seulement à des sociétés de la taille de Netflix. Ce service simplifiera le processus de réalisation d’expériences de chaos dans le cloud.»

Le but du Chaos Engineering n’est pas de semer le chaos, mais, à l’inverse, l’éviter quand les choses tournent à l’imprévu. En somme, analyser et comprendre comment un système ou un workload complexe réagit aux problèmes en injectant des anomalies ou des pannes.

Une aide à l’injection d’erreur

La méthode est expérimentée depuis plusieurs années par des pure-players du cloud, dont Amazon. Progressivement, le Chaos Engineering s’est structuré autour de process et d’outils dédiés. Pour beaucoup, ils ne sont pas très connus, ni même parfaitement maîtrisés.

Tester à 100% pour tous les cas imaginables est mission impossible. L’ingénierie du chaos est une nouvelle approche, elle doit encore évoluer. N’empêche, comme souvent, Amazon est en avance.

Une technique d’expérimentation qui se concrétise en production

Dans un premier temps, les testeurs déterminent le comportement souhaité du système oui des workloads. Ils établissent le seuil en dessous duquel l’état de fonctionnement est jugé insuffisant. Comme les tests sont souvent pratiqués en production, cette approche présente l’avantage de mesurer le fonctionnement en conditions réelles.

L’opération demande de la préparation, des outils et une communication étendue à tous les collaborateurs susceptibles d’être impactés. Objectif : limiter les effets de bord et autres réactions en chaine liés aux conséquences de l’expérience. Ces expérimentations peuvent révéler des erreurs critiques ou une relation de cause à effet inattendue.

AWS, premier à se lancer dans le Chaos-Engineering-as-a-Service

AWS Fault Injection Simulator est le premier service CEaaS (Chaos Engineering-as-a-Service), mais n’est pas la première offre du marché. En effet, Gremlin propose déjà un tel service pour AWS et pour toute infrastructure Kubernetes. InfoStretch propose également des services à incorporer dans une chaîne DevOps.

Le service d’AWS est actuellement en bêta fermé, mais devrait officiellement voir le jour avant le printemps. «Une fois l’expérience terminée, explique encore Werner Vogels, AWS Fault Injection Simulator vous dira si votre hypothèse a été confirmée. Il vous dira aussi si vous pouvez utiliser les données recueillies par CloudWatch pour décider où vous devez apporter des améliorations.»