Od incydentu z CrowdStrike minął miesiąc. Awaria uwidoczniła kruchość globalnych systemów IT i znaczenie solidnych procedur aktualizacji oprogramowania. Eksperci podpowiadają rozwiązania, które mogą minimalizować skutki ewentualnych nieprzewidzianych błędów.
Niebieski Ekran Śmierci to pokłosie błędu w oprogramowaniu CrowdStrike. Wedle szacunków pojawił się na ekranach około 8,5 miliona urządzeń na całym świecie. Lotnictwo, bankowość czy ochrona zdrowia – problemy dotknęły firmy prowadzące działalność w wielu kluczowych branżach. Tak duża skala była związana z popularnością tych rozwiązań w USA oraz jednoczesną, automatyczną aktualizacją CrowdStrike i systemu MS Windows. Według szacunków straty będące konsekwencją zamieszania liczone są w miliardach dolarów.
– Incydent z CrowdStrike dostarczył nam cennych lekcji na przyszłość, wskazując na potrzebę ciągłego doskonalenia procedur bezpieczeństwa i gotowości na potencjalne zagrożenia, których źródłem niekoniecznie muszą być wrogie działania – mówi Aleksander Kostuch, inżynier Stormshield, producenta rozwiązań z obszaru bezpieczeństwa IT.
Nim producent dostarczył rozwiązań, pojawiły się pierwsze metody obejścia problemu. Dla korporacji, na masową skalę korzystających z rozwiązań w których wystąpił błąd, największym wyzwaniem był bezpośredni dostęp do uszkodzonych maszyn.
– Naprawa wymagała ręcznej interwencji, w tym uruchamiania komputerów w trybie awaryjnym i usuwania określonych plików systemowych. Helpdesk nie był w stanie zareagować na problem zdalnie, ponieważ do zawieszonego komputera trzeba było podejść, a w większości międzynarodowych korporacji obsługa IT funkcjonuje w formie outsourcingu prowadzonego często z innego kraju. Na osobistą wizytę serwisanta trzeba poczekać, dlatego efektem awarii był długotrwały brak dostępu do usług i gigantyczne straty. Cały proces był po prostu czasochłonny, co dodatkowo komplikowało sytuację w firmach korzystających z szyfrowania dysków BitLocker – dodaje ekspert Stormshield.
Aktualizacje są kluczowe, ale…
Fundamentalną zasadą jaką powinno się kierować, z myślą o ograniczaniu skutków podobnych incydentów, jest pełna kontrola administratora sieci nad każdą kluczową aktualizacją. Powinna ona obejmować jego indywidualną decyzję o aktualizacji oprogramowania typu EDR lub oprogramowania układowego firmware na urządzeniach. Oczywiście z myślą o zachowaniu maksymalnego bezpieczeństwa, prawidłowa polityka w obszarze aktualizacji ma zasadnicze znaczenie, lecz jednocześnie opisywany przykład pokazuje, że diabeł może tkwić w szczegółach.
– Dbajmy o aktualizacje, ale jednocześnie przestrzegajmy zasady, że nowe wersje oprogramowania nie powinny być automatycznie wdrażane na wszystkich urządzeniach. Administrator powinien je najpierw przetestować w grupie pilotażowej. Ustanowienie grupy testowej to jedna z najlepszych praktyk jaką możemy zastosować z myślą o ograniczania skutków ewentualnych błędów. Wdrażamy aktualizację w zamkniętym środowisku i jeśli po zdefiniowanym zgodnie z praktykami czasie pojawi się niebieski ekran lub inny problem systemowy, można wstrzymać masową aktualizację, a błąd nie sparaliżuje pracy całej organizacji – wyjaśnia Aleksander Kostuch.
Ekspert radzi też jak zorganizować środowisko testowe aktualizacji oprogramowania
Środowisko testowe jest odizolowane od środowiska produkcyjnego, aby ewentualne problemy nie wpływały na resztę infrastruktury.
- Ustal grupę urządzeń, które będą pierwszymi odbiorcami aktualizacji, wybierając urządzenia reprezentatywne dla różnych typów sprzętu i konfiguracji, aby jak najlepiej odwzorować środowisko produkcyjne. Zasadnym jest, aby w grupie pilotażowej znalazły się zarówno starsze, jak i nowsze urządzenia, co pozwala zidentyfikować potencjalne problemy w szerszym zakresie.
- W środowisku testowym warto symulować rzeczywiste obciążenia i typowe scenariusze użytkowania, aby sprawdzić, jak aktualizacja wpływa na wydajność i stabilność systemu. Symulacje mogą obejmować różne formy aktywności, jak praca z dużymi plikami, intensywna komunikacja sieciowa, a także testy funkcjonalności specyficzne dla danej organizacji.
- Zbieraj szczegółowe logi, które pozwolą na szybką identyfikację i diagnozę problemów, automatyczne raportowanie incydentów czy inne błędy krytyczne. Pomoże to w szybkim reagowaniu.
- Definiuj procedury i narzędzia pozwalające na szybkie wycofanie problematycznych aktualizacji w środowisku testowym, zanim zostaną wdrożone na większą skalę. To może obejmować tworzenie punktów przywracania systemu, backupów, korzystania z zapasowych partycji lub snapshotów maszyn wirtualnych przed wdrożeniem aktualizacji.
- Oprócz standardowych testów, warto przetestować scenariusze awaryjne, takie jak przywracanie systemu po awarii, restart systemu po BSOD czy odtwarzanie danych z backupu. Umożliwia to przygotowanie się na najgorsze scenariusze.
- Zalecane jest dokładnie udokumentowanie potencjalnego ryzyka i metody postępowania w przypadku problemów.
- Przed każdą aktualizacją dobrze jest dokonać ocenę ryzyka, analizując aspekty krytyczności aktualizacji i jej wpływ na organizację, a także potencjalne zagrożenia i korzyści związane z wdrożeniem.
- Dodatkowo w przypadku aktualizacji o wysokim ryzyku, warto z wyprzedzeniem poinformować użytkowników i właścicieli usług oraz zadbać o wsparcie techniczne w okresie przejściowym.
– Opisany model należy traktować jako idealny. Najbliższe funkcjonowania zgodnie z nim są banki i instytucje finansowe. Warto zwrócić uwagę, że oprogramowanie umożliwia wybór pomiędzy ręczną i kontrolowaną aktualizacją, a w pełni automatyczną. Tak jest w przypadku większości programów EDR, podobnych do CrowdStrike Falcon czy Stormshield Endpoint Security, które oferują możliwość aktualizacji ręcznych. Choć korzystanie z tej opcji wymaga większego zaangażowania, to może przynieść wiele korzyści – podsumowuje Aleksander Kostuch.
Zaplanuj jak będziesz działać w trakcie awarii
Eksperci zwracają uwagę na znaczenie procesów i dokumentów dotyczących planów ciągłości działania (BCP-business continuity plan) oraz procedur odzyskiwania dostępu do danych i systemów IT po awarii (DR-disaster recovery). Och przyczyną, oprócz incydentów w obszarze cyfrowym mogą być klęski żywiołowe, pożary czy akty wandalizmu.
– Wcześniejsze przygotowanie planów ciągłości działania ma dla organizacji krytyczne znaczenie. Plany określają, w jaki sposób firma będzie działać w sytuacji kryzysowej, nawet jeśli będzie musiała przenieść się do innej lokalizacji. Oczywiście, samo przygotowanie planów nie wystarczy, należy je cyklicznie testować i dostosowywać do aktualnych warunków funkcjonowania organizacji – zwraca uwagę Paweł Śmigielski, country manager Stormshield w Polsce.