Le lundi 20 octobre 2025, tôt dans la matinée (vers 03 h11 ET aux États-Unis), AWS, la filiale cloud de Amazon.com, Inc., a connu une panne massive dans sa région US-EAST-1 (Virginie).
Selon AWS, le problème venait d’un bug dans son système d’automatisation : une mise à jour d’un service interne (lié à DynamoDB, sa base de données clé) a déclenché une chaîne de défaillances liées au système de résolution DNS – le mécanisme qui traduit les noms de domaine en adresses IP.
Le tableau de bord de santé AWS indiquait d’abord des « error rates accrus et latences » puis, après plusieurs heures, que « tous les services AWS sont revenus à la normale » (vers 18 h01 ET) mais que certains avaient encore des arriérés de requêtes à traiter.
Impacts logiciels
Pour les utilisateurs finaux
- Beaucoup d’applications grand public ont été touchées : jeux (Fortnite, Roblox), messageries (Snapchat, WhatsApp, Signal), domotique (Ring – caméra de surveillance) etc.
- Des services bancaires et financiers ont aussi été affectés : l’accès à certains comptes, transferts, vérifications ont posé problème.
- Pour les entreprises et utilisateurs professionnels : des systèmes hébergés sur AWS ont perdu l’accès, des sites web ou services internes ont été interrompus ou ralentis. L’interconnexion nous rappelle à quel point notre dépendance à quelques grands clouds est importante.
Pour les clients logiciels / entreprises clientes
- Les entreprises clientes d’AWS ont dû faire face à : indisponibilité partielle, perte de fonctions, backlog de requêtes, retards de traitement.
- En tant qu’ingénieur IT (et lecteur de blog dans ce domaine), vous pouvez noter : cela rappelle l’importance de la résilience, de l’architecture « multi-cloud » ou d’un plan de secours, car même les plus grands fournisseurs peuvent tomber. Ex : AWS lui même recommande aux clients de prévoir des alternatives.
- Les effets se manifestent aussi sur l’expérience utilisateur (UX) : blocage à la connexion, erreurs 429/« Too Many Requests », latences élevées.
Impacts financiers
Pour AWS / Amazon
- On pourrait s’attendre à un impact financier fort pour Amazon. Toutefois, selon les analyses, l’action de Amazon n’a pas pris de coup sévère, car le marché semble privilégier la dynamique long-terme (IA, cloud) plutôt que l’incident ponctuel. (investors.com)
- AWS est une part importante de la stratégie Amazon, mais ce type d’interruption rappelle aux investisseurs que même les géants ont des vulnérabilités.
- Bien que Amazon ait publié des excuses et se soit engagé à publier un rapport post-incident. (ca.news.yahoo.com)
Pour les entreprises clientes et l’économie digitale
- Les pertes de revenus peuvent se traduire pour les entreprises clientes d’AWS : achats manqués, utilisateurs qui partent, perte de réputation, coût de remise en route.
- Toutefois, récupérer ces pertes est complexe : les contrats (SLA) d’AWS prévoient des crédits de service mais rarement la couverture des pertes de marge, de réputation ou d’opportunité. (newsweek.com)
- L’impact systémique sur l’économie digitale est réel : quand un cloud majeur tombe, cela touche la chaîne entière (services, apps, fintechs, e-commerce).
- Pour vous en Martinique, ou toute région qui dépend de services hébergés sur le cloud, cela peut signifier : site indisponible, interruption de service, perte d’accès à des données critiques. Ce sont des choses à intégrer dans votre plan de continuité.
Applications de divertissement et jeux vidéo
- Fortnite — impossible de se connecter aux serveurs et d’accéder aux parties en ligne.
- Roblox — déconnexions massives et impossibilité pour les joueurs de rejoindre des serveurs.
- Twitch — plateforme de streaming d’Amazon, elle-même partiellement indisponible pendant plusieurs heures.
Applications de messagerie et réseaux sociaux
- Snapchat — de nombreux utilisateurs n’ont pas pu envoyer ou recevoir de messages.
- WhatsApp et Signal — problèmes de connexion pour certains utilisateurs, surtout en Amérique du Nord.
- Slack — ralentissements et messages non livrés, affectant les équipes en télétravail.
Applications de domotique et d’objets connectés
- Ring (caméras de sécurité d’Amazon) — vidéos inaccessibles et notifications retardées.
- Alexa — certaines enceintes connectées ne répondaient plus aux commandes vocales.
- SmartThings (Samsung) — perte de communication avec les appareils connectés.
Applications financières et e-commerce
- Venmo et PayPal — retards dans les transactions.
- Robinhood — problèmes d’affichage des portefeuilles et d’exécution d’ordres.
- Amazon.com lui-même — ralentissements dans le traitement des commandes et la connexion des vendeurs
Outils professionnels et entreprises
- Zoom — interruptions de service dans certaines régions.
- Salesforce — difficultés de connexion pour les clients américains.
- Atlassian (Jira, Confluence) — retards dans les mises à jour et sauvegardes automatiques.
Souhaitez-vous que je vous ajoute ce passage (avec mise en forme et ton journalistique) dans l’article précédent pour publier directement sur votre blog IT ?
Leçons à tirer
Diversification de l’infrastructure cloud : ne pas dépendre d’un seul fournisseur ou d’une seule région géographique hébergeuse.
- Plan de reprise d’activité (PRA / DRP) : tester des scénarios où le cloud principal est indisponible.
- Monitoring & alerte : surveiller non seulement les métriques normales mais aussi celles de latitude, latence, taux d’erreur, backlog.
- Communication avec les utilisateurs : quand un service tombe, informer rapidement pour maintenir confiance.
- Design d’architecture tolérante aux pannes : prévoir des caches, des files d’attente, des mécanismes de repli pour la base de données (ici : DynamoDB chez AWS).
- Réflexion sur le coût-bénéfice de la fiabilité : jusqu’où investir pour atteindre le « zéro » interruption ? Il existe un coût d’opportunité.
- En tant que blogueur dans l’IT et la cybersécurité, ce genre d’événement est un excellent « cas d’étude » à partager : la cause technique est simple (DNS + automatisation bug) mais les retombées sont larges.
