Piątek 24 września nie był najlepszy. Rano klient z płaczem dzwoni o interwencje, nic nie działa, siedziba na lotnisku, dostać się bez przepustki może tylko jedna osoba, która rano ma lekarza… Marcin stanął na wysokości zadania i choć obstawiałem totalny pad za starego serwera (DC i file serwer), którego klient jakoś nie kwapi się zmienić, skończyło się na „zgubieniu ustawień IP po restarcie”.
Nie zdążyłem ogarnąć się po telefonach, gdy okazuje się że nie działają dwa z pięciu serwerów, hostujących maszyny wirtualne. To dość dziwne, bo oba siedzą w serwerowni , oba markowe, wygrzane, i nigdy przez ostatnie pięć lat żaden się nie wyłączył. Uwierzyłbym w awarie jednego, ale nie dwóch naraz, w odstępach 20 minutowych jak donosił nagios. Cały dowcip polega na tym, że nasz super wypasiony, redundantny system mail relayów dla klientów z exchangami opiera się o dwie różne maszyny wirtualne, na różnych wersjach Vmware, w oddzielnych adresacjach, jedna na pierwszym serwerze, który padł, druga na drugim…. To urocza sytuacja, określana jako pożar w burdelu, gdzie cała poczta zewnętrzna klientów stoi, a konkretnie nie wychodzi, a przychodzące maile idą w kosmos, odbijane do klientów klientów… To, że nie działał jakiś dedykowany ftp i system finansowy kolejnego klienta było pomijalne.
Wizyta w serwerowni, choć nie łatwa pokazała na szczęście że wystarczyło wzmiankowane serwery podnieść. Niestety, cztery „U” pod nimi, główny serwer poczty i WWW dla kolejnych kilkudziesięciu klientów radośnie mrugał czerwonymi lampkami na dwóch z ośmiu dysków. Szczęśliwie jeden z nich należał do RAIDa pierwszego partycji systemowej, a drugi do RAIDa szóstego partycji danych, teoretycznie mógł popsuć się jeszcze jeden… Oczywiście w zapasie czekał jeden dysk do wymiany, no nic, dawno już nie kupowało się sprzętu na WGE… daliśmy im zarobić na 3 terowych dyskach – teraz będziemy cwani i w zapasie będą leżały dwa, a następnym razem kupując serwer, kupimy 8 różnych dysków od różnych dostawców, w różnych odstępach czasu.
Niestety odbudowywanie macierzy odbyło się bez problemów…
Śledztwo trwa, na razie wiadomo co lub kto wykonało na dwóch wyłączonych serwerach sygnał „halt”, dlaczego nie działał skrypt monitorujący dyski w serwerze poczty, oraz w jakich odstępach czasu poleciały, choć musiał to być ostatni tydzień.
Wnioski są takie same jak zwykle:
• nie znasz dnia ani godziny
• backup backupu to niezły pomysł, choć prawie nikt go nie realizuje
• nowy sprzęt jest gówno wart, a dyski w szczególności
Pytanie natomiast jest zaskakujące: Czy to sabotaż wrogiej korporacji, czy dar od bozi? Gdyby nie te wyłączone serwery, to o uszkodzonych dyskach w głównym serwerze dowiedzielibyśmy się, gdyby poleciał trzeci z RAIDa szóstego… Backup danych jest, ale komórki spaliłyby się od nieodebranych połączeń….
kojn