Panne majeure chez AWS : Mais que s’est-il passé ?

Le lundi 20 octobre 2025, tôt dans la matinée (vers 03 h11 ET aux États-Unis), AWS, la filiale cloud de Amazon.com, Inc., a connu une panne massive dans sa région US-EAST-1 (Virginie).

Selon AWS, le problème venait d’un bug dans son système d’automatisation : une mise à jour d’un service interne (lié à DynamoDB, sa base de données clé) a déclenché une chaîne de défaillances liées au système de résolution DNS – le mécanisme qui traduit les noms de domaine en adresses IP.

Le tableau de bord de santé AWS indiquait d’abord des « error rates accrus et latences » puis, après plusieurs heures, que « tous les services AWS sont revenus à la normale » (vers 18 h01 ET) mais que certains avaient encore des arriérés de requêtes à traiter.

Impacts logiciels

Pour les utilisateurs finaux

Beaucoup d’applications grand public ont été touchées : jeux (Fortnite, Roblox), messageries (Snapchat, WhatsApp, Signal), domotique (Ring – caméra de surveillance) etc.
Des services bancaires et financiers ont aussi été affectés : l’accès à certains comptes, transferts, vérifications ont posé problème.
Pour les entreprises et utilisateurs professionnels : des systèmes hébergés sur AWS ont perdu l’accès, des sites web ou services internes ont été interrompus ou ralentis. L’interconnexion nous rappelle à quel point notre dépendance à quelques grands clouds est importante.

Pour les clients logiciels / entreprises clientes

Les entreprises clientes d’AWS ont dû faire face à : indisponibilité partielle, perte de fonctions, backlog de requêtes, retards de traitement.
En tant qu’ingénieur IT (et lecteur de blog dans ce domaine), vous pouvez noter : cela rappelle l’importance de la résilience, de l’architecture « multi-cloud » ou d’un plan de secours, car même les plus grands fournisseurs peuvent tomber. Ex : AWS lui même recommande aux clients de prévoir des alternatives.
Les effets se manifestent aussi sur l’expérience utilisateur (UX) : blocage à la connexion, erreurs 429/« Too Many Requests », latences élevées.

Impacts financiers

Pour AWS / Amazon

On pourrait s’attendre à un impact financier fort pour Amazon. Toutefois, selon les analyses, l’action de Amazon n’a pas pris de coup sévère, car le marché semble privilégier la dynamique long-terme (IA, cloud) plutôt que l’incident ponctuel. (investors.com)
AWS est une part importante de la stratégie Amazon, mais ce type d’interruption rappelle aux investisseurs que même les géants ont des vulnérabilités.
Bien que Amazon ait publié des excuses et se soit engagé à publier un rapport post-incident. (ca.news.yahoo.com)

Pour les entreprises clientes et l’économie digitale

Les pertes de revenus peuvent se traduire pour les entreprises clientes d’AWS : achats manqués, utilisateurs qui partent, perte de réputation, coût de remise en route.
Toutefois, récupérer ces pertes est complexe : les contrats (SLA) d’AWS prévoient des crédits de service mais rarement la couverture des pertes de marge, de réputation ou d’opportunité. (newsweek.com)
L’impact systémique sur l’économie digitale est réel : quand un cloud majeur tombe, cela touche la chaîne entière (services, apps, fintechs, e-commerce).
Pour vous en Martinique, ou toute région qui dépend de services hébergés sur le cloud, cela peut signifier : site indisponible, interruption de service, perte d’accès à des données critiques. Ce sont des choses à intégrer dans votre plan de continuité.

Applications de divertissement et jeux vidéo

Fortnite — impossible de se connecter aux serveurs et d’accéder aux parties en ligne.
Roblox — déconnexions massives et impossibilité pour les joueurs de rejoindre des serveurs.
Twitch — plateforme de streaming d’Amazon, elle-même partiellement indisponible pendant plusieurs heures.

Applications de messagerie et réseaux sociaux

Snapchat — de nombreux utilisateurs n’ont pas pu envoyer ou recevoir de messages.
WhatsApp et Signal — problèmes de connexion pour certains utilisateurs, surtout en Amérique du Nord.
Slack — ralentissements et messages non livrés, affectant les équipes en télétravail.

Applications de domotique et d’objets connectés

Ring (caméras de sécurité d’Amazon) — vidéos inaccessibles et notifications retardées.
Alexa — certaines enceintes connectées ne répondaient plus aux commandes vocales.
SmartThings (Samsung) — perte de communication avec les appareils connectés.

Applications financières et e-commerce

Venmo et PayPal — retards dans les transactions.
Robinhood — problèmes d’affichage des portefeuilles et d’exécution d’ordres.
Amazon.com lui-même — ralentissements dans le traitement des commandes et la connexion des vendeurs

Outils professionnels et entreprises

Zoom — interruptions de service dans certaines régions.
Salesforce — difficultés de connexion pour les clients américains.
Atlassian (Jira, Confluence) — retards dans les mises à jour et sauvegardes automatiques.

Souhaitez-vous que je vous ajoute ce passage (avec mise en forme et ton journalistique) dans l’article précédent pour publier directement sur votre blog IT ?

Leçons à tirer

Diversification de l’infrastructure cloud : ne pas dépendre d’un seul fournisseur ou d’une seule région géographique hébergeuse.

Plan de reprise d’activité (PRA / DRP) : tester des scénarios où le cloud principal est indisponible.
Monitoring & alerte : surveiller non seulement les métriques normales mais aussi celles de latitude, latence, taux d’erreur, backlog.
Communication avec les utilisateurs : quand un service tombe, informer rapidement pour maintenir confiance.
Design d’architecture tolérante aux pannes : prévoir des caches, des files d’attente, des mécanismes de repli pour la base de données (ici : DynamoDB chez AWS).
Réflexion sur le coût-bénéfice de la fiabilité : jusqu’où investir pour atteindre le « zéro » interruption ? Il existe un coût d’opportunité.
En tant que blogueur dans l’IT et la cybersécurité, ce genre d’événement est un excellent « cas d’étude » à partager : la cause technique est simple (DNS + automatisation bug) mais les retombées sont larges.