Mise à jour:La panne, survenue dans la plus grande région AWS, US-EAST-1, a entraîné des retards ou des interruptions sur plus de 80 services AWS. Les services concernés incluent les marques suivantes :
• Outils d'entreprise :Zoom, Slack, Box
• Logiciels créatifs :Fonctionnalités d'Adobe Generative AI
• Services de jeux :Services réseau Nintendo, Fortnite, Fate/Grand Order
• Services Internet :Site de recettes CookPad, agence VTuber ANYCOLOR site officiel
État de restauration du service :
La plupart des services étaient revenus à la normale le 21 au matin, mais selon les responsables d'Adobe, certains problèmes n'étaient pas encore totalement résolus à 10 h le même jour. Cette panne illustre une fois de plus la forte dépendance des services réseau modernes à l'infrastructure cloud, et le risque qu'une panne d'une seule région cloud ait des répercussions en cascade sur les services réseau mondiaux.
Alors que les services cloud deviennent l’infrastructure principale de l’économie numérique, ces pannes à grande échelle ont incité les entreprises à repenser l’importance des stratégies cloud et des plans de reprise après sinistre.
Le service cloud d'Amazon, AWS (Amazon Web Services), a connu une grave épidémie plus tôt lundi matin (20 octobre), heure de l'Est.Incident d'interruption de serviceLa catastrophe s'est concentrée sur la région la plus importante d'AWS, US-EAST-1 (Virginie du Nord), qui est la région par défaut de nombreuses entreprises. De nombreux sites web, applications et services de jeux du monde entier dépendant d'AWS ont alors été interrompus ou ont rencontré des ralentissements, comme si la moitié d'Internet avait été coupée simultanément.
Cet incident met en évidence les risques potentiels liés à la dépendance excessive de l’infrastructure Internet mondiale actuelle à l’égard de quelques fournisseurs de cloud géants.
Coupable : anomalies de résolution DNS de DynamoDB, les experts disent que c'est comme une « amnésie du réseau »
Selon la page officielle d'état de santé du service AWS, Amazon a commencé à enquêter sur « l'augmentation des taux d'erreur et de la latence sur plusieurs services AWS » dans la région US-EAST-1 vers 3 h 11, heure de l'Est.
À 5 h 01, AWS avait identifié la cause première du problème : un problème de résolution DNS avec l'API de DynamoDB, son service de base de données NoSQL principal, que les clients AWS utilisent pour stocker des informations critiques.
Mike Chapple, professeur d'informatique, d'analyse et d'opérations à l'Université de Notre Dame,Entretien avec CNN NewsInterrogé sur la situation, il a proposé une métaphore précise. « Amazon conservait les données en toute sécurité, mais pendant des heures, personne n'a pu les retrouver, séparant temporairement les applications de leurs données », a-t-il expliqué. « C'était comme si une grande partie d'Internet avait subi une brève amnésie », a-t-il ajouté.
La catastrophe se propage : le démarrage de l'instance EC2 est bloqué, AWS lance une « limitation de débit »
Bien qu'AWS ait affirmé à 6h35 que le problème DNS avait été entièrement résolu et que « la plupart des opérations de service AWS étaient revenues à la normale », il était clair qu'un effet d'entraînement avait déjà été déclenché.
La catastrophe s'est rapidement propagée au service d'hébergement virtuel EC2 (Elastic Compute Cloud) d'AWS, utilisé par de nombreuses entreprises pour développer leurs applications en ligne. À 8 h 48, AWS a admis rencontrer encore des problèmes lors du lancement de nouvelles instances EC2 dans la région US-EAST-1.
AWS a recommandé aux clients de ne pas lier de nouvelles instances à des zones de disponibilité (AZ) spécifiques lors de leur déploiement, afin que le système EC2 puisse sélectionner de manière plus flexible un centre de données offrant de meilleures performances.
Cependant, à 9h42, AWS a mis à jour son statut, indiquant que malgré l'application de « multiples mesures d'atténuation » sur plusieurs zones de disponibilité, des taux d'erreur élevés persistaient lors du lancement de nouvelles instances EC2. Par conséquent, AWS a dû mettre en place une limitation du nombre de lancements de nouvelles instances pour faciliter la récupération du système.
Puis, à 10h14, AWS a de nouveau admis qu'il constatait toujours des erreurs d'API importantes et des problèmes de connectivité dans plusieurs services de la région US-EAST-1.
De toute évidence, même si le problème fondamental est résolu, AWS doit encore digérer un important arriéré de demandes, et il faudra un certain temps pour que tous les services reviennent à la normale.
Les dangers cachés d'une part de marché de 30 % : les services financiers, de jeux et de streaming sont tous touchés
Étant donné que de nombreuses entreprises s’appuient sur US-EAST-1 comme cœur de leurs déploiements de services AWS, cette panne a provoqué une catastrophe mondiale.
Selon Down Detector, un grand nombre de services ont enregistré une forte augmentation des signalements de pannes à la même période. Outre les services d'Amazon, des signalements ont également été émis par des banques, des compagnies aériennes, Disney+, Snapchat, Reddit, Lyft, Apple Music, Pinterest, et même des jeux populaires comme Fortnite et Roblox, ainsi que par des médias comme le New York Times.
AWS offre une infrastructure très attractive, avec notamment des ressources informatiques évolutives et élastiques pour gérer les pics de trafic et un réseau mondial de centres de données. Selon les estimations, la part d'AWS sur le marché mondial des infrastructures cloud devrait atteindre 30 % d'ici mi-2025.
Cet incident a également une fois de plus tiré la sonnette d’alarme : lorsque l’épine dorsale du réseau mondial dépend trop de quelques fournisseurs (tels qu’AWS, Azure et GCP), dès qu’un problème survient dans l’un d’entre eux, ou même dans un seul domaine central, la réaction en chaîne est suffisante pour provoquer des pertes incalculables.








