Concernant l'incident survenu le 20 octobre dans la région US-EAST-1 (Virginie du Nord)Perturbations de service à grande échelleAWS officiellementAnnonce des résultats de l'enquête sur l'accidentComme déterminé précédemment, la cause profonde du problème résidait bien dans son service de base de données principal, DynamoDB. Cependant, la cause spécifique résidait dans un défaut de conception du module d'automatisation DNS de DynamoDB, ce qui a entraîné une réaction en chaîne catastrophique.
L'incident a eu un impact considérable, affectant un total de 142 services AWS et des milliers de clients, et il a fallu 15 heures pour qu'il soit complètement rétabli.
Conflit automatisé : le programme de nettoyage DNS Enactor supprime par erreur les adresses IP critiques
Selon AWS, la gestion DNS de DynamoDB est assurée par deux modules automatisés : le planificateur DNS, qui génère de nouveaux plans DNS, et le module DNS Enactor, qui déploie ces plans sur Amazon Route53. Pour améliorer la disponibilité, AWS exploite trois modules DNS Enactor indépendants dans trois zones de disponibilité (AZ) différentes.
En temps normal, Enactor confirme la version du plan avant le déploiement et met à jour les points de terminaison un par un. En cas de conflit, il réessaie de supprimer les plans expirés une fois l'opération terminée.
Cependant, le point déclencheur de cet accident est :
• L'Enactor A a commencé à déployer un plan, mais a rencontré des retards importants dans la mise à jour de plusieurs points de terminaison DNS, ce qui a ralenti la progression et entraîné des tentatives incessantes. Pendant ce temps, DNS Planner a continué de publier de nouvelles versions du plan.
• L'Enactor B, fonctionnant de manière autonome, a obtenu le plan le plus récent et a rapidement mis à jour toutes les extrémités. Une fois sa tâche terminée, il a immédiatement lancé le processus de nettoyage.
• Point de conflit clé : l’Enactor A, qui est en retard sur le calendrier, est sur le point de déployer le plan obsolète sur le nœud de service régional US-EAST-1 que l’Enactor B vient de mettre à jour.
• Ensuite, le processus de nettoyage de l’Enactor B a considéré par erreur que le « plan obsolète » déployé par l’Enactor A était invalide et l’a supprimé.
En conséquence, toutes les adresses IP des nœuds de service régionaux US-EAST-1 ont été supprimées, les enregistrements DNS sont devenus vides et n'ont pas pu être résolus, et aucun nouveau projet n'a pu être déployé.
Réaction en chaîne : le démarrage de l'instance EC2 est bloqué, NLB et Lambda sont paralysés
AWS a souligné que même si le problème DNS principal de DynamoDB a été résolu en environ 3 heures, la réaction en chaîne qu'il a provoquée a duré plus de dix heures.
La principale raison était que de nombreux services principaux dépendaient fortement de DynamoDB, notamment DropletWorkflow Manager (DWFM), un outil chargé de gérer l'état des instances EC2. Lors de la panne de DynamoDB, de nombreux baux ont expiré. Une fois le DNS restauré, DWFM a tenté de rétablir simultanément des centaines de milliers de baux. Le volume important de requêtes a encombré et bloqué le système.
La défaillance de DWFM a directement empêché le lancement correct des nouvelles instances EC2 et a entraîné des retards dans la configuration du réseau. Cela a également eu un impact sur les services en aval, tels que l'équilibreur de charge réseau (NLB) dépendant d'EC2 et le service de calcul sans serveur AWS Lambda, prolongeant ainsi considérablement le temps d'arrêt global.
Réponse d'urgence AWS : suspension globale du module d'automatisation DNS DynamoDB
Cet incident illustre une fois de plus comment, si les systèmes d'automatisation des grandes architectures cloud peuvent améliorer l'efficacité, ils peuvent aussi engendrer des catastrophes en raison de dépendances complexes et de situations de concurrence potentielles. L'automatisation multiple et les mécanismes de redondance partitionnée, conçus pour améliorer la fiabilité, ont au contraire entraîné des conflits inattendus dans des conditions extrêmes.
En réponse, AWS a annoncé la suspension temporaire des modules d'automatisation DynamoDB DNS Planner et DynamoDB DNS Enactor dans le monde entier jusqu'à ce que les contrôles de sécurité pertinents, les corrections des conditions de concurrence et des mécanismes de contrôle plus complets soient terminés.
La zone de service principale de l'US-EAST-1 amplifie la catastrophe
En tant que région la plus ancienne, la plus vaste et la plus centrale d'AWS, la région US-EAST-1 héberge de nombreuses plateformes de contrôle et back-ends de gestion mondiaux, ce qui rend sa stabilité cruciale. Pour DynamoDB, l'un des services de base de données NoSQL les plus fiables au sein d'AWS (par exemple, Amazon.com, Alexa) et pour les clients externes (par exemple, Netflix), une brève défaillance de résolution DNS a suffi à déclencher une réaction en chaîne d'une telle ampleur, rappelant au secteur les risques potentiels liés à la dépendance à des infrastructures critiques.








