TECHNOLOGIA · CYBERBEZPIECZEŃSTWO · BIZNES

Wnioski z incydentu CrowdStrike

Od incydentu z CrowdStrike minął miesiąc. Awaria uwidoczniła kruchość globalnych systemów IT i znaczenie solidnych procedur aktualizacji oprogramowania. Eksperci podpowiadają rozwiązania, które mogą minimalizować skutki ewentualnych nieprzewidzianych błędów.

Niebieski Ekran Śmierci to pokłosie błędu w oprogramowaniu CrowdStrike. Wedle szacunków pojawił się na ekranach około 8,5 miliona urządzeń na całym świecie. Lotnictwo, bankowość czy ochrona zdrowia – problemy dotknęły firmy prowadzące działalność w wielu kluczowych branżach.​ Tak duża skala była związana z popularnością tych rozwiązań w USA oraz jednoczesną, automatyczną aktualizacją CrowdStrike i systemu MS Windows. Według szacunków straty będące konsekwencją zamieszania liczone są w miliardach dolarów. 

Incydent z CrowdStrike dostarczył nam cennych lekcji na przyszłość, wskazując na potrzebę ciągłego doskonalenia procedur bezpieczeństwa i gotowości na potencjalne zagrożenia, których źródłem niekoniecznie muszą być wrogie działania – mówi Aleksander Kostuch, inżynier Stormshield, producenta rozwiązań z obszaru bezpieczeństwa IT.

Nim producent dostarczył rozwiązań, pojawiły się pierwsze metody obejścia problemu. Dla korporacji, na masową skalę korzystających z rozwiązań w których wystąpił błąd, największym wyzwaniem był bezpośredni dostęp do uszkodzonych maszyn. 

Naprawa wymagała ręcznej interwencji, w tym uruchamiania komputerów w trybie awaryjnym i usuwania określonych plików systemowych. Helpdesk nie był w stanie zareagować na problem zdalnie, ponieważ do zawieszonego komputera trzeba było podejść, a w większości międzynarodowych korporacji obsługa IT funkcjonuje w formie outsourcingu prowadzonego często z innego kraju. Na osobistą wizytę serwisanta trzeba poczekać, dlatego efektem awarii był długotrwały brak dostępu do usług i gigantyczne straty. Cały proces był po prostu czasochłonny, co dodatkowo komplikowało sytuację w firmach korzystających z szyfrowania dysków BitLocker​​ – dodaje ekspert Stormshield. 

Aktualizacje są kluczowe, ale…

Fundamentalną zasadą jaką powinno się kierować, z myślą o ograniczaniu skutków podobnych incydentów, jest  pełna kontrola administratora sieci nad każdą kluczową aktualizacją. Powinna ona obejmować jego indywidualną decyzję o aktualizacji oprogramowania typu EDR lub oprogramowania układowego firmware na urządzeniach. Oczywiście z myślą o zachowaniu maksymalnego bezpieczeństwa, prawidłowa polityka w obszarze aktualizacji ma zasadnicze znaczenie, lecz jednocześnie opisywany przykład pokazuje, że diabeł może tkwić w szczegółach.

Dbajmy o aktualizacje, ale jednocześnie przestrzegajmy zasady, że nowe wersje oprogramowania nie powinny być automatycznie wdrażane na wszystkich urządzeniach. Administrator powinien je najpierw przetestować w grupie pilotażowej. Ustanowienie grupy testowej to jedna z najlepszych praktyk jaką możemy zastosować z myślą o ograniczania skutków ewentualnych błędów. Wdrażamy aktualizację w zamkniętym środowisku i jeśli po zdefiniowanym zgodnie z praktykami czasie pojawi się niebieski ekran lub inny problem systemowy, można wstrzymać masową aktualizację, a błąd nie sparaliżuje pracy całej organizacji – wyjaśnia Aleksander Kostuch

Ekspert radzi też jak zorganizować środowisko testowe aktualizacji oprogramowania

Środowisko testowe jest odizolowane od środowiska produkcyjnego, aby ewentualne problemy nie wpływały na resztę infrastruktury.

  1. Ustal grupę urządzeń, które będą pierwszymi odbiorcami aktualizacji, wybierając urządzenia reprezentatywne dla różnych typów sprzętu i konfiguracji, aby jak najlepiej odwzorować środowisko produkcyjne. Zasadnym jest, aby w grupie pilotażowej znalazły się zarówno starsze, jak i nowsze urządzenia, co pozwala zidentyfikować potencjalne problemy w szerszym zakresie.
  2. W środowisku testowym warto symulować rzeczywiste obciążenia i typowe scenariusze użytkowania, aby sprawdzić, jak aktualizacja wpływa na wydajność i stabilność systemu. Symulacje mogą obejmować różne formy aktywności, jak praca z dużymi plikami, intensywna komunikacja sieciowa, a także testy funkcjonalności specyficzne dla danej organizacji.
  3. Zbieraj szczegółowe logi, które pozwolą na szybką identyfikację i diagnozę problemów, automatyczne raportowanie incydentów czy inne błędy krytyczne. Pomoże to w szybkim reagowaniu.
  4. Definiuj procedury i narzędzia pozwalające na szybkie wycofanie problematycznych aktualizacji w środowisku testowym, zanim zostaną wdrożone na większą skalę. To może obejmować tworzenie punktów przywracania systemu, backupów, korzystania z zapasowych partycji lub snapshotów maszyn wirtualnych przed wdrożeniem aktualizacji.
  5. Oprócz standardowych testów, warto przetestować scenariusze awaryjne, takie jak przywracanie systemu po awarii, restart systemu po BSOD czy odtwarzanie danych z backupu. Umożliwia to przygotowanie się na najgorsze scenariusze.
  6. Zalecane jest dokładnie udokumentowanie potencjalnego ryzyka i metody postępowania w przypadku problemów.
  7. Przed każdą aktualizacją dobrze jest dokonać ocenę ryzyka, analizując aspekty krytyczności aktualizacji i jej wpływ na organizację, a także potencjalne zagrożenia i korzyści związane z wdrożeniem. 
  8. Dodatkowo w przypadku aktualizacji o wysokim ryzyku, warto z wyprzedzeniem poinformować użytkowników i właścicieli usług oraz zadbać o wsparcie techniczne w okresie przejściowym.

Opisany model należy traktować jako idealny. Najbliższe funkcjonowania zgodnie z nim są banki i instytucje finansowe. Warto zwrócić uwagę, że oprogramowanie umożliwia wybór pomiędzy ręczną i kontrolowaną aktualizacją, a w pełni automatyczną. Tak jest w przypadku większości programów EDR, podobnych do CrowdStrike Falcon czy Stormshield Endpoint Security, które oferują możliwość aktualizacji ręcznych. Choć korzystanie z tej opcji wymaga większego zaangażowania, to może przynieść wiele korzyści – podsumowuje Aleksander Kostuch

Zaplanuj jak będziesz działać w trakcie awarii

Eksperci zwracają uwagę na znaczenie procesów i dokumentów dotyczących planów ciągłości działania (BCP-business continuity plan) oraz procedur odzyskiwania dostępu do danych i systemów IT po awarii (DR-disaster recovery). Och przyczyną, oprócz incydentów w obszarze cyfrowym mogą być klęski żywiołowe, pożary czy akty wandalizmu.

Wcześniejsze przygotowanie planów ciągłości działania ma dla organizacji krytyczne znaczenie. Plany określają, w jaki sposób firma będzie działać w sytuacji kryzysowej, nawet jeśli będzie musiała przenieść się do innej lokalizacji. Oczywiście, samo przygotowanie planów nie wystarczy, należy je cyklicznie testować i dostosowywać do aktualnych warunków funkcjonowania organizacji – zwraca uwagę Paweł Śmigielski, country manager Stormshield w Polsce. 

Marek Nowak
Marek Nowak
Redaktor naczelny ISPortal, wcześniej związany między innymi z miesięcznikiem Mobile Internet. Artykuły dotyczące nowych technologii publikował także w portalu Trojmiasto.pl. Po godzinach tworzy opowiadania science-fiction, które ukazały się w kilku już pismach literackich (Nowa Fantastyka, Epea, QFant).

przeczytaj najnowszy numer isporfessional

Najnowsze