V utorok sa z internetu na niekoľko hodín stala digitálna polopúšť, prestali fungovať obľúbené sociálne siete, e-shopy aj herné služby a používatelia len bezmocne sledovali, ako sa im nenačítavajú ani úplne bežné stránky. Až neskôr vyšlo najavo, že za masívnym otrasom online sveta nebol útočník v kapucni, ale jediný chybný interný proces v sieti Cloudflare.
Cloudflare patrí medzi neviditeľných gigantov, ktorí držia internet v chode, pričom cez jeho infraštruktúru prechádzajú dáta známych značiek ako X, ChatGPT, Shopify a mnohých ďalších služieb. Práve preto sa po prvých príznakoch problémov začalo veľmi rýchlo špekulovať, že ide o útok na kritickú infraštruktúru. Signálom boli opakujúce sa výpadky, keď weby vždy na pár minút zmizli, potom sa na krátko spamätali a následne opäť spadli.
Podobné útoku, no zvnútra
Inžinieri z Cloudflare si spočiatku mysleli, že čelia obrovskému DDoS útoku, keďže práve takto často vyzerá preťaženie siete, ktoré je zámerne riadené. Cyklické päťminútové výpadky však mali iné vysvetlenie. Každých päť minút sa generoval súbor s konfiguráciou pre systém na správu botov, pričom v časti databázového klastra už bežala nová verzia softvéru a v inej ešte stará. Keď sa dotaz trafil na aktualizovanú časť, vznikli chybné dáta a sieť sa zrútila.
Počas incidentu navyše prestala fungovať aj oficiálna stavová stránka Cloudflare, ktorá má používateľom ukazovať, či je všetko v poriadku. Táto stránka je uložená mimo hlavnej infraštruktúry a nemala byť výpadkom vôbec ovplyvnená. Jej pád však v tíme ešte viac posilnil presvedčenie, že ide o koordinovaný útok na komunikačné kanály a kľúčové systémy, a nie o internú chybu v konfigurácii.
Jeden súbor, globálny chaos
Hĺbková analýza nakoniec odhalila veľmi nepríjemnú pravdu. Zmenené oprávnenia v databáze spôsobili, že sa do takzvaného feature file začali ukladať viacnásobné záznamy. Súbor, ktorý mal mať stabilnú a pomerne malú veľkosť, sa naraz zdvojnásobil. Keď sa takýto zväčšený súbor rozšíril do všetkých strojov v sieti, softvér na smerovanie prevádzky prekročil vlastný limit a jednoducho sa vypol, čo spustilo reťaz pádov na celom svete.
Výsledkom boli služby, ktoré sa správali nevyspytateľne, niektoré weby sa načítali po niekoľkých pokusoch, iné úplne prestali odpovedať. Sociálna sieť X prestala používateľom umožňovať publikovanie nových príspevkov a časová os sa nedala obnoviť. E-shopy prišli o objednávky, herné platformy o pripojených hráčov a viaceré dopravné a rezervačné systémy o schopnosť spracúvať požiadavky v reálnom čase.
Krehký internet a drahé zlyhania
Incident ukázal, aké riskantné je, keď jedna firma drží v rukách takú veľkú časť internetovej infraštruktúry. Stačila jedna zdanlivo nenápadná zmena v databáze, ktorú by administrátor za normálnych okolností považoval za rutinu, a zrazu sa zastavili tržby, komunikácia aj zákaznícke služby tisícok firiem. Investori zareagovali rýchlo, keď trhová hodnota Cloudflare klesla približne o 1,8 miliardy dolárov a tým pripomenula, aká úzko je technická spoľahlivosť previazaná s dôverou na burze.
Pre podniky, ktoré sa na Cloudflare dlhodobo spoliehajú, je to triezve upozornenie. Aj keď majú desaťročné zmluvy a technické SLA garancie, ich biznis môžu kedykoľvek zastaviť chyby v systéme, ktorý vôbec neovládajú. Mnohé IT tímy preto pravdepodobne začnú hľadať diverzifikáciu, či už v podobe záložných poskytovateľov, alebo aspoň autonómnejších architektúr, ktoré nevsádzajú všetko na jedného globálneho hráča.
Otvorenou otázkou zostáva, ako rýchlo dokáže priemysel reagovať. Internet sa dlhé roky vyvíjal smerom ku koncentrácii služieb u niekoľkých veľkých providerov a návrat k väčšej rozptýlenosti nebude jednoduchý. Regulátori môžu v najbližších rokoch začať vnímať Cloudflare podobne ako energetické či telekomunikačné monopoly, ktoré musia spĺňať prísnejšie bezpečnostné a prevádzkové štandardy.
Cloudflare medzitým sľubuje, že podobné zlyhanie už nedovolí, otázne však je, či niekto dokáže úplne vylúčiť ľudský faktor a skryté závislosti v tak zložitom, globálne distribuovanom prostredí. Používatelia aj firmy môžu len dúfať, že ďalší podobný výpadok ich nezastihne uprostred najdôležitejšej kampane, nákupu alebo pracovnej porady, pretože internet sa na rozdiel od bežných sietí nedá jednoducho vypnúť a reštartovať.

