Praha 22. júla 2024 (HSP/Kechlibar/Foto:TASR/AP-Thibault Camus, Archív, TASR/AP-Gregorio Borgia)
Páteční výpadek všech možných internetových služeb byl patrně největší v historii planety. Příčina byla až rozkošně ironická – služba Crowdstrike, která se používá k ochraně různých korporátních počítačů před malwarem, vypustila do světa aktualizaci, která na počítačích s Microsoft Windows takříkajíc vlezla systému do krku a zadusila jej. Každý pokus o restart postiženého stroje skončil selháním, jemuž se říká modrá obrazovka smrti
V podstatě se tedy služba Crowdstrike sama chovala jako malware, byť třeba nechtěně; inu, kdo uhlídá hlídače, že? Tahle otázka má svoje místo i jinde, než jen v debatě o cenzuře. Víceméně se vynořuje všude, kde si někdo nárokuje privilegovanou pozici, dokonce ani člověk to nemusí být. V tomto případě šlo o jeden jediný vadný soubor spouštěný s vysokými právy, coby systémový ovladač.
Postižen byl kdekdo – burzy, banky, letiště, lékárny (u nás např. síť BENU) atd. To je jeden z málo viditelných problémů IT světa – jeho vnitřní “propojky” často spojují zcela nesouvisející služby a organizace, takže případné selhání se pak projeví všude možně, bez nějaké zjevné logiky. O pět metrů dál přitom může být vše v pořádku, protože ta sousední firma používala jinou službu.
Už někdy v 80. letech jsem jako dítě četl bonmot, že “Kdyby architekti stavěli stejně, jako programátoři programují, dokázal by jeden datel zbořit celá města.” A to byla ještě doba, kdy většina počítačů ani nebyla zasíťovaná mezi sebou. Dneska by ten datel pěkně pocuchal celé kontinenty.
Ostatně, podívejte se na tuto animaci, která zachycuje vliv oné páteční softwarové chyby na letecký provoz nad Spojenými státy. Fascinující. Celosvětový objem škod si ani neumím představit, ale do miliard dolarů to půjde určitě.
Ještě více fascinující je, že Southwest Airlines tomuto problému unikly proto, že část svých systémů provozují na Windows 3.1. Ano, to je šestnáctibitový software z roku 1992, digitální ekvivalent římské legie v době tanků a kulometů…
Poměrně často slýchám v souvislosti s IT světem pojem “ekosystém”. Ekosystém Applu, ekosystém Androidu atd. Rozumím tomu, kde se ten pojem vzal; IT skutečně určitý ekosystém zvnějšku připomíná. Lidé a firmy hrají různé role, navzájem spolu interagují, výstup jednoho je vstupem druhého a celou tu masivní globální síť nikdo centrálně neřídí.
Jenomže on je to zároveň hodně zavádějící pojem, protože ta podobnost s biologií či ekologií sahá jen “odsud podsud”, a v jiném smyslu je IT svět naopak jakási antipříroda.
V jakém smyslu? V přírodě jsou obvykle nejúspěšnější “generalisté”, kteří snesou hodně, snadno se přizpůsobí a mají značné rezervy. Lidé, krysy, žraloci. V IT světě naopak kraluje specializace a optimalizace.
Většina úspěšných IT firem má jen jeden opravdu úspěšný specializovaný produkt, se kterým je ale rozlezlá všude možně. A zároveň existuje dost dlouho na to, aby někde v pozadí seděl nějaký finanční ředitel, který ve jménu akcionářů dávno proškrtal všechno, co se mu jeví nadbytečné a snižující zisk firmy. Což jsou mimo jiné různé rezervy – tým testerů tamhle (“už dlouho nic nechytili, pryč s nimi”), rezervní server onde (“neměli jsme výpadek už celé roky”). Moc by mě nepřekvapilo, kdyby ta poslední epizoda byla důsledkem nějakého takového “katování kostů”, třeba u automatických testů, které je drahé udržovat a aktualizovat úměrně tomu, jak se původní produkt rozrůstá.
Takhle příroda nefunguje, ta má tendenci si nechávat určité provozní rezervy pro každý případ, aspoň pokud nejsou příliš drahé (takové dva mozky už by vyžadovaly neúměrné množství energie). Kdežto byznysově optimalizovaný člověk by měl jen jednu ledvinu a dva nebo tři prsty na každé ruce; k čemu nějaký malíček, že?
Důsledkem tohoto rozdílu, kombinovaného s obecnou provázaností digitálního světa, je, že softwarové chyby můžou mít kaskádující a katastrofický charakter, jaký v té přírodě nenajdete. Nestane se, že by všechny straky na světě najednou chcíply jen proto, že jedna někde našla oříšek špatného tvaru.
V IT se taková věc stát může. On to přece jenom skutečný ekosystém není a nemá v sobě zabudováno moc té přírodní houževnatosti, za kterou se nikomu nechce platit. Je optimalizovaný na cenu a výkon, což funguje skvěle, dokud to funguje.
Ale když přestane … úúú. Ta páteční chyba naštěstí zasáhla hlavně zbytné služby, ale kdyby něco podobného vzniklo v, dejme tomu, elektrické rozvodné síti a jejím řídícím softwaru, byla by to jízda převeliká.
Marian Kechlibar
Článok pôvodne vyšiel na portáli Kechlibar.net.
Prečítajte si tiež
- Čím bol spôsobený globálny výpadok IT, ktorý zasiahol banky a médiá, paralyzoval leteckú dopravu?
- Globálny výpadok systému Windows má politický rozmer