Serwis serwerowni i centrum danych warunkiem wysokiej dostępności i niezawodności systemu

356

Ciągłość działania serwerowni, określana przez dostępność lub niezawodność, jest jedną z kluczowych cech profesjonalnego centrum danych. Nawet najlepsze zabezpieczenia przed włamaniem, zniszczeniem, zalaniem wodą czy pożarem nie pomogą, jeśli obiekt przestanie działać. Aby uniknąć takich zdarzeń niezbędny jest odpowiedni serwis serwerowni – potwierdzony umową – zapewniający przeglądy okresowe instalacji i urządzeń mające na celu wyeliminowania możliwości wystąpienia awarii. W przypadku, kiedy mimo wszystko jednak ona wystąpi, ma zapewnić gwarancję szybkiej naprawy.
Kiedy już przejdziemy długi proces przygotowywania się do wybudowania centrum danych lub serwerowni, zaakceptujemy najlepszą koncepcję, wybierzemy najlepsze zabezpieczenia i wreszcie uruchomimy wszystko i usłyszymy ten szum urządzeń oraz poczujemy chłód powietrza, emocje na pewno będą duże i bardzo pozytywne. Ale co dalej? Wszystko działa, jest zabezpieczone na wiele sposobów, więc można by pomyśleć, że już jest całkowicie bezpiecznie, teraz wystarczy czerpać korzyści z nowej infrastruktury. Jednak to nie wszystko. Zakończyliśmy jedynie etap realizacji i rozpoczyna się faza utrzymania infrastruktury, która będzie trwała do końca funkcjonowania centrum danych. Duża liczba instalacji i systemów, a wszystko musi działać cały czas. Co będzie, jak nastąpi awaria klimatyzacji i wzrośnie temperatura? Co jeśli padnie system zasilania? Co mam zrobić, jeśli np. centrala przeciwpożarowa zgłosi awarię? Jak zabezpieczyć się przed takimi sytuacjami, jak temu przeciwdziałać i jak to naprawiać? Skąd w ogóle wiedzieć, czy wszystko działa jak powinno?
Serwis i utrzymanie centrum danych
Etap utrzymania centrum danych trzeba rozpocząć od zapewnienia odpowiedniego serwisu serwerowni gwarantującego bezpieczeństwo jego funkcjonowania, zapobiegającego wystąpieniom awarii, a w razie pojawienia się jej – szybkiej naprawy. Na wszystkie urządzenia i instalacje dostajemy gwarancję producenta lub wykonawcy na pewien okres. Samo utrzymanie tej gwarancji dla części systemów wymaga przeprowadzania okresowych przeglądów konserwacyjnych, co należy zaznaczyć w odpowiedniej umowie przeglądów serwisowych. Jest to zazwyczaj usługa dodatkowo płatna, wliczona lub nie w ofertę, na podstawie której wybudowano centrum danych. Ustalenie takich warunków zapewnia naprawę awarii w czasie standardowej procedury gwarancyjnej, czyli np. w dwa tygodnie. W zależności od stopnia redundancji instalacji serwerowni, w przypadku krytycznej awarii, kiedy nie działa system klimatyzacji i trzeba poczekać na części z fabryki, taki czas może okazać się zbyt długi.
Odpowiednia umowa
Zabezpieczeniem przed takim scenariuszem jest umowa z firmą świadczącą kompleksowe usługi serwisu serwerowni lub całego centrum danych z odpowiednio dobranymi parametrami SLA (ang. Service Level Agreement) określającymi poziom usług serwisowych. Umowa daje duże poczucie bezpieczeństwa osobie odpowiedzialnej za utrzymanie serwerowni. Dzięki takiej umowie, odpowiednio zdefiniowane usterki będą naprawiana na przykład w kilka godzin, jeśli jest taka konieczność. Jest to możliwe w tak krótkim czasie, ponieważ usługodawca związany umową nie tylko zapewnia sobie odpowiednie części zamienne i elementy, które mogę ulec awarii, ale również zatrudnia pracowników mogących usunąć szybko uszkodzenia. Oczywiście nie są to wszystkie części, ponieważ trudno sobie wyobrazić, aby doszło do zniszczenia na przykład obudowy szafy klimatyzacyjnej. Wszystko jednak jest przemyślane, aby zapewnić gwarancję naprawy w określonym czasie.
Jeśli jest to konieczne, należy zabezpieczyć się w możliwość zgłaszania awarii 24/7/365, a najlepiej przekierowywania zgłoszeń krytycznych systemu monitoringu warunków środowiskowych oraz stanu pracy urządzeń i instalacji do obsługi serwisu. Jeśli tego rodzaju system nie był wykonany na etapie realizacji, należy zainstalować go teraz. Bez odpowiednio szybkiego, automatycznego powiadamiania o zdarzeniach może dojść do sytuacji, że minie trochę czasu, zanim ktoś się zorientuje, że coś się zepsuło. Alternatywą dla takiego rozwiązania jest zatrudnienie kilku serwisantów (całodobowe czuwanie, zgodnie z prawem pracy, wymaga kilku osób). Zatrudnienie pracowników wiążę się również z potrzebą ich szkolenia. Osoby te muszą również zająć się realizacją umów z podwykonawcami itp. Niestety, takie rozwiązanie jest droższe i mniej bezpieczne (jak wyciągnąć konsekwencje od pracownika w przypadku przestoju systemu?). Z tego też względu mało kto decyduje się na taki krok.
Odpowiednio dobrane parametry SLA
SLA jest sprecyzowaniem oczekiwań właściciela centrum danych wobec firmy świadczącej usługę serwisu serwerowni i utrzymania obiektu. Pomaga zdefiniować relacje pomiędzy usługodawcą a usługobiorcą oraz przedstawia wszelkie ustalenia dotyczące zakresu i sposobu świadczenia usług, min.:
• poziom usług (dostępność serwisu, czas zgłoszeń, sposób zgłaszania usterek, scenariusz napraw),
• zakres usług (określenie systemów objętych serwisem, poziom ich krytyczności),
• jasne zdefiniowanie pojęć (usterka, awaria, awaria krytyczna itp.) dla każdego serwisowanego systemu,
• ustalenie czasu reakcji, czasu naprawy lub zastosowania rozwiązania zastępczego,
• określenie sposobu realizowania usług.
Dobrze przygotowane SLA powinno precyzować 5 kluczowych aspektów
1. Co zapewnia dostawca usług.
2. Jak dostawca w praktyce będzie realizował te usługi.
3. Kto i jak będzie kontrolował zapewnienie usług.
4. Co się stanie, jeśli dostawca nie wywiąże się ze zobowiązań.
5. Jak warunki SLA będą się zmieniały w czasie.
Wszystkie warunki SLA powinny być jasne, łatwe do zmierzenia i możliwe do zapewnienia. Dokładne ich sprecyzowanie wymaga czasu i należy go poświęcić tak dużo, jak będzie trzeba, aż obie strony umowy nie będą miały żadnych wątpliwości, co do możliwości realizacji zobowiązań oraz ich zasadności. Wszystkie ustalenia muszą dotyczyć istniejącej infrastruktury i nie mogą być dobierane bez jej profesjonalnej analizy, np. w oparciu o domysły.
Im bardziej szczegółowe będą zapisy takiej umowy, tym łatwiej będzie uniknąć niemiłych sytuacji, które mogą się nieprzewidzianie wydarzyć. Ponadto taka szczegółowość zapisów umownych pozwoli firmie serwisującej na większe skupienie się na tym, na czym naprawdę zależy właścicielowi serwerowni.
Jasne zdefiniowanie, czym są usterka, awaria czy awaria krytyczna powinno być przeprowadzone dla każdego systemu z osobna. Należy jednak na tym etapie kierować się rozsądkiem i nie wymagać tego, co jest niepotrzebne. Każde skrócenie czasu naprawy, reakcji itp. pociąga za sobą odpowiednie koszty, które ostatecznie mogą być duże. Przy odpowiednio zaprojektowanej serwerowni, zawierającej wiele elementów nadmiarowych, należy rozważyć jak najdłuższy bezpieczny czas naprawy awarii. Różnica w kosztach naprawy w 3 dni, a w 2 tygodnie jest ogromna i często niepotrzebna.
Tak naprawdę o kosztach serwisu serwerowni i centrum danych oraz ich utrzymania należy myśleć już na etapie koncepcji i projektu. Odpowiednie zwielokrotnienie urządzeń i instalacji daje duże bezpieczeństwo, a prawdopodobieństwo wystąpienia awarii krytycznej maleje. W pewnej perspektywie czasu taniej jest dodać kolejne urządzenia jako nadmiar, niż zapewnienie szybkiego czasu naprawy przez cały ten okres. W procesie ustalania warunków SLA należy brać pod uwagę ewentualny koszt przestoju systemu dla biznesu. W niektórych branżach straty są tak duże, że zrozumiałe jest postawienie bardzo wygórowanych wymagań.
Przy ustalaniu warunków SLA zaleca się podział instalacji na krytyczne i niekrytyczne. Może nie mieć sensu ponoszenie kosztów utrzymania dodatkowej butli z gazem do systemu gaszenia tak, aby w razie akcji gaśniczej i wyzwolenia środka wymiana była możliwa w parę godzin. Na pewno krytyczne jest np. zasilanie i chłodzenie. Awaria krytyczna pierwszego (brak zasilania) wymaga bezwzględnie bardzo szybkiej reakcji (oczywiście awaria po stronie dostawcy energii wymaga po prostu cierpliwości i kontrolowania pracy agregatu prądotwórczego). Awaria krytyczna chłodzenia (stopniowy wzrost temperatury przy niewystarczającej ilości pracujących jednostek) jest również bardzo poważnym zagrożeniem.
Koszt utrzymania serwerowni czy centrum danych dla wysokich wymagań SLA jest bardzo duży jednak prosty bilans ewentualnych strat przestoju w stosunku do kosztów takiego serwisu może pokazać, że nie jest on wcale znaczący.
Weryfikacja bezpieczeństwa
Nawet największe kary za niedotrzymanie warunków umowy nie pokryją strat (być może częściowy koszt, ale nie dobre imię firmy). Niedopilnowanie i wynikający z tego przestój systemu może się źle skończyć dla obu stron. Dlatego lepiej odsunąć nieco na bok prawne aspekty karne wynikające z umowy (również ważne) i upewnić się, że usługodawca jest w stanie wywiązać się z obietnic.
Serwis, np. systemu klimatyzacji czy systemów zasilania gwarantowanego (UPS-ów), szczególnie w okresie trwania gwarancji musi być prowadzony za pośrednictwem autoryzowanego serwisu. Firma świadcząca kompleksowy serwis centrum danych powinna mieć podpisaną umowę z takim serwisem, jeśli sama nie jest autoryzowana. Rozpoczynając współpracę można poprosić o możliwość wglądu do dokumentów lub nawet uzyskać potwierdzenie spełniania zawartych w umowach warunków przez wskazanego podwykonawcę. Zakres i różnorodność instalacji w centrach danych jest tak duży, że trudne jest (ale możliwe), aby jedna firma wyłącznie swoimi siłami świadczyła pełen zakres usług. Konieczna jest w tym wypadku duża wiedza na temat wszystkich systemów, organizowania serwisów, przeprowadzania przeglądów i zapobiegania awariom, dlatego też jest to najskuteczniejsze zapewnienie bezpieczeństwa funkcjonowania centrum danych.
Serwis serwerowni z odpowiednią umową oraz sprecyzowanymi parametrami SLA jest niemalże koniecznością dla każdego poważnego centrum danych. Ustalanie warunków w niej zapisanych powinno być przeprowadzone rozsądnie i zgodnie z realnymi warunkami. Dla nowo projektowanych obiektów można zwiększyć nadmiarowość i niezawodność instalacji jeszcze przed realizacją tak, aby zmniejszyć koszty utrzymania. Dla istniejących systemów należy mądrze przeanalizować sprawę i wykonać wspomniany bilans ewentualnych strat. Po ustaleniu warunków i podpisaniu umowy można już odetchnąć z ulgą i bezpiecznie korzystać z uroków i możliwości jakie zapewniają nam serwerownie i centra danych.
Notka o autorze:
Błażej Jachimowicz w trakcie swojej dotychczasowej kariery miał okazję uczestniczyć przy realizacji kilku serwerowni i centrów danych. Pierwsza miała miejsce w 2008 roku we Wrocławiu. Serwerownia wielkości 30 m2 i mocy około 20 kW. Pełnił przy niej rolę wsparcia realizacji. Kolejna również w tym samym mieście z tym, że większa. Tym razem był już głównym koordynatorem (kierownikiem projektu) i jego obowiązkiem było zorganizowanie ekip wykonawczych, zamawianie urządzeń, pilnowanie budżetu oraz we współpracy z kierownikami robót nadzorowanie poprawności i solidności wykonywanych prac. Realizował również inwestycje związane z wykonanie okablowania strukturalnego sieci LAN zarówno w nowych jak i istniejących obiektach. Blog www.sicd.pl postanowił stworzyć i prowadzić aby móc dzielić się swoimi doświadczeniami i wiedzą jaką nabywa w praktyce oraz jakiej poszukuje – szczególnie w angielskojęzycznych źródłach (portale branżowe, zalecenia i „białe księgi” producentów oraz organizacji zajmujących się tematyką data center).