Avarie majoră în regiunea US‑EAST‑1 a Amazon Web Services perturbă DynamoDB, EC2, Lambda și sute de alte servicii

Astăzi discutăm despre amploarea unei pene majore ale serviciilor cloud: un incident în regiunea US-EAST-1 a Amazon Web Services care a afectat sute de servicii populare la scară globală, inclusiv aplicații de socializare, securitate, servicii bancare și platforme de streaming. Evenimentul a debutat în cursul dimineții și a generat un aflux de raportări pe Downdetector, forțând inginerii AWS să identifice și să remedieze defecte legate de DynamoDB, EC2 și Lambda, cu efecte imediate pentru milioane de utilizatori.

AWS a semnalat inițial probleme de rezoluție DNS pentru endpointul API DynamoDB din regiunea US-EAST-1, ceea ce a cauzat creșteri semnificative ale ratelor de eroare și întârzieri în procesarea cererilor. Dificultățile au îngreunat inițierea și funcționarea instanțelor EC2, iar pentru Lambda au apărut întârzieri la polling. În practică, numeroase aplicații care depind de aceste servicii au început să returneze erori sau să funcționeze parțial, deoarece serverele virtuale sau interfețele care invocă codul nu au răspuns normal.

Pe Downdetector s-a înregistrat un număr foarte mare de raportări: peste 6, 5 milioane de notificări totale și mai mult de 1.000 de companii afectate. În Regatul Unit au fost consemnate peste 800.000 de raportări, de cinci ori mai mult decât într-o zi obișnuită. AWS a anunțat că observă semne importante de recuperare, însă backlog-ul de cereri rămâne de procesat și unele servicii încă experimentează întreruperi sau degradări.

Numeroase aplicații cunoscute au fost afectate. Reddit a suferit unul dintre cele mai grave incidente: pagina principală afișa mesaje de tipul too many requests, iar aplicația mobilă a început să limiteze accesul local, probabil pentru că încercările repetate de reconectare au fost interpretate ca trafic anormal. Situația a generat un vârf de peste 12.000 de raportări în SUA în momentul de maxim. Ulterior, Reddit a aplicat un remediu și a revenit treptat online, starea indicând monitorizare după fix.

Snapchat a primit mii de raportări, cu utilizatori care au văzut mesaje despre blocarea temporară a accesului din cauza încercărilor repetate eșuate. Duolingo a fost afectat, ceea ce a alarmat utilizatorii preocupați de streak-uri; lecțiile offline pot ajuta la păstrarea progresului dacă sincronizarea se restabilește. Wordle, găzduit de New York Times, a fost indisponibil temporar, dar a revenit și poate fi jucat din nou.

Serviciile Amazon legate de casă au avut probleme vizibile: Ring a înregistrat spike-uri mari în raportări, cu utilizatori care primeau erori de conexiune și nu puteau încărca locațiile, iar Alexa a fost afectată în activități cotidiene, precum controlul luminilor sau setarea alarmelor. Pentru mulți, aceste funcții fac parte din rutina zilnică, astfel că absența lor s-a resimțit imediat.

Aplicațiile financiare și instituțiile bancare au fost, de asemenea, afectate: în Marea Britanie, servicii precum Lloyds, Halifax, Bank of Scotland și HM Revenue & Customs au avut probleme de acces. În SUA, platforme precum Venmo sau Robinhood au înregistrat raportări. Astfel de perturbări pot provoca efecte financiare semnificative, mai ales când afectează tranzacțiile sau accesul la conturi.

Alte servicii afectate includ: Snapchat, Strava (unde sincronizarea activităților a fost întârziată), Tidal (utilizatorii nu au putut accesa playlisturile normal), Starbucks (peste 1.500 de raportări legate de precomenzi și puncte de fidelitate) și multe altele precum Zoom, Slack, Roblox, Fortnite, Signal, Canva. Downdetector a afișat grafice semnificative pentru fiecare, iar unele valori au început să scadă pe măsură ce AWS aplica remedieri.

AWS a furnizat actualizări frecvente pe dashboard: inițial a identificat problema legată de DynamoDB API și a declarat că acționează pe mai multe direcții pentru a accelera recuperarea. Ulterior a menționat că persistă erori la lansarea instanțelor EC2 (Insufficient Capacity Error) și întârzieri pentru Lambda, dar că observă semne de redresare pentru majoritatea serviciilor. Ancheta internă a AWS a fost demarată imediat și se lucrează la identificarea cauzei rădăcină și la procesarea cozii de cereri în așteptare.

Speculațiile despre un atac cibernetic au apărut rapid, când internetul se clatină, unii trag concluzii dramatice, însă experții s-au îndreptat către o cauză tehnică de infrastructură, nu una malițioasă. DNS-urile și interfețele API pentru DynamoDB par să fi declanșat problema, iar remedierea a urmat pași tehnici pentru a restaura consistența serviciilor.

Impactul economic și operațional poate fi substanțial: Downdetector a comparat amploarea cu outage-ul Crowdstrike din 2024, estimat la pierderi de până la 5 miliarde de dolari. Astăzi, cu milioane de raportări și peste o mie de companii afectate, repercusiunile vor fi evaluate în timp, iar firmele vor contabiliza pierderi și întârzieri care pot influența operațiunile și reputația.

În concluzie, câteva cifre și nume esențiale: peste 6, 5 milioane de raportări pe Downdetector, mai mult de 1.000 de companii afectate, peste 800.000 de raportări în UK, Reddit cu un vârf de 12.000 de raportări în SUA, Starbucks cu peste 1.500 de raportări, și alerte AWS privind probleme la DynamoDB, EC2 și Lambda în regiunea US-EAST-1. Toate acestea arată cât de interconectată este infrastructura digitală modernă și cât de mult depindem de câteva platforme majore pentru servicii esențiale.

AWS demonstrează cum defecțiunile la nivelul infrastructurii fundamentale pot declanșa efecte în lanț: chiar funcții cotidiene precum precomenzile la Starbucks, streak-urile din Duolingo sau verificarea unei camere Ring pot fi perturbate când o componentă centrală se blochează. În practică, operatorii de servicii și utilizatorii vor reevaluar planurile de redundanță și dependența de un singur furnizor cloud. Creșterea semnificativă a raportărilor și numărul mare de servicii afectate oferă un studiu de caz clar pentru arhitecturi mai reziliente și pentru monitorizare mai robustă.

Cum crezi că ar trebui companiile să-și adapteze strategiile de infrastructură după astfel de pene majore?

Fii primul care comentează

Lasă un răspuns

Adresa ta de email nu va fi publicată.


*