Piątek 24 września nie był najlepszy. Rano klient z płaczem dzwoni o interwencje, nic nie działa, siedziba na lotnisku, dostać się bez przepustki może tylko jedna osoba, która rano ma lekarza… Marcin stanął na wysokości zadania i choć obstawiałem totalny pad za starego serwera (DC i file serwer), którego klient jakoś nie kwapi się zmienić, skończyło się na „zgubieniu ustawień IP po restarcie”.
Nie zdążyłem ogarnąć się po telefonach, gdy okazuje się że nie działają dwa z pięciu serwerów, hostujących maszyny wirtualne. To dość dziwne, bo oba siedzą w serwerowni , oba markowe, wygrzane, i nigdy przez ostatnie pięć lat żaden się nie wyłączył. Uwierzyłbym w awarie jednego, ale nie dwóch naraz, w odstępach 20 minutowych jak donosił nagios. Cały dowcip polega na tym, że nasz super wypasiony, redundantny system mail relayów dla klientów z exchangami opiera się o dwie różne maszyny wirtualne, na różnych wersjach Vmware, w oddzielnych adresacjach, jedna na pierwszym serwerze, który padł, druga na drugim…. To urocza sytuacja, określana jako pożar w burdelu, gdzie cała poczta zewnętrzna klientów stoi, a konkretnie nie wychodzi, a przychodzące maile idą w kosmos, odbijane do klientów klientów… To, że nie działał jakiś dedykowany ftp i system finansowy kolejnego klienta było pomijalne.

Wizyta w serwerowni, choć nie łatwa pokazała na szczęście że wystarczyło wzmiankowane serwery podnieść. Niestety, cztery „U” pod nimi, główny serwer poczty i WWW dla kolejnych kilkudziesięciu klientów radośnie mrugał czerwonymi lampkami na dwóch z ośmiu dysków. Szczęśliwie jeden z nich należał do RAIDa pierwszego partycji systemowej, a drugi do RAIDa szóstego partycji danych, teoretycznie mógł popsuć się jeszcze jeden… Oczywiście w zapasie czekał jeden dysk do wymiany, no nic, dawno już nie kupowało się sprzętu na WGE… daliśmy im zarobić na 3 terowych dyskach – teraz będziemy cwani i w zapasie będą leżały dwa, a następnym razem kupując serwer, kupimy 8 różnych dysków od różnych dostawców, w różnych odstępach czasu.
Niestety odbudowywanie macierzy odbyło się bez problemów…

Śledztwo trwa, na razie wiadomo co lub kto wykonało na dwóch wyłączonych serwerach sygnał „halt”, dlaczego nie działał skrypt monitorujący dyski w serwerze poczty, oraz w jakich odstępach czasu poleciały, choć musiał to być ostatni tydzień.
Wnioski są takie same jak zwykle:
• nie znasz dnia ani godziny
• backup backupu to niezły pomysł, choć prawie nikt go nie realizuje
• nowy sprzęt jest gówno wart, a dyski w szczególności
Pytanie natomiast jest zaskakujące: Czy to sabotaż wrogiej korporacji, czy dar od bozi? Gdyby nie te wyłączone serwery, to o uszkodzonych dyskach w głównym serwerze dowiedzielibyśmy się, gdyby poleciał trzeci z RAIDa szóstego… Backup danych jest, ale komórki spaliłyby się od nieodebranych połączeń….

Spread the love

Od 1998 w branży, to za mało by zostać bogiem, za dużo by milczeć. Bojownik o normalną informatykę. Były student PJWSTK i wykładowca CNAP. Obecnie aktywnie walczy na froncie dwóch przeciwieństw, które trzeba połączyć: technologii i biznesu.
Motto zawodowe: „Da się ogarnąć każdy burdel, ale proszę o podanie danych do faktury”

Comments (1)

  1. kojn

    Odpowiedz

    nowy sprzęt ? .. jak to się ma do … przez ostanie pięć lat żaden się nie wyłączył ;) …. Pozatym jak się wstawia do serwerów dyski SATA, to sie tak ma :P … bo raczej 3×1 tera byście na półce nie trzymali ….
    Tak czy siak, są firmy .. i jak też starałem się tak robić … co to serwery mogły stać max 5 lat … ale dyski max 3 lata … i jakoś to sie turlało …
    Tak czy siak .. współczuje kiepskiego dnia …. na wet nie wiesz jak mi dobrze, że już nie zajmujes się utrzymaniem ;p

Zostaw komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *

Time limit is exhausted. Please reload CAPTCHA.