Czwartkowy ranek: 8:50. Miejsce: mała serwerownia, punkt dostępowy do netu dla niedużej sieci blokowej i stada krewnych i znajomych królika z okolicy.
„Kurwa, znowu net padł, nie działa od 03:30” Telefon, zgłoszenie awarii, nawet był koleś miły.
Przepięcie na zawsze niezawodną zapasową neostrade.
Kolejny problem: „kurwa, nie działa nasz ns2”.
NS2 jest wirtualką, na vmware. Hostuje to niezawodna prowizorka postawiona na kolanie – WinXP z VMware Serverem. Ponieważ prowizorki działają najlepiej, na wspomnianym WinXP w postaci wirutalek stoją też: jeden kluczowy serwer dla klientów, serwer dostępowy RDP, moja maszyna do pracy, kilka pomniejszy. Wszystko „zaraz do zabrania” od 6 miesięcy. Ważne dla opowieści – wzmiankowany WinXP siedzi sobie w cieplutkiej szafie, na samej górze, na półeczce (wystawiony na działanie wiatru słonecznego) w data center, 20 km od miejsca akcji.
Oczywiście, jak zwykle – tak raz na miesiąc – WinXP „się restartuje” i cześć wirtualek nie wstaje. Tym razem nie wstał NS2, tak jak zwykle zresztą. Wiadomo, Windows się restartuje i na nim nic nie działa, bo to Windows.
Dzień jak kurwa co dzień, dwie niezależne awarie w czwartkowy poranek – na pewno plamy na słońcu, albo ktoś rzucił na nas urok.
I tu zaczyna się właściwa akcja czyli diagnoza problemu, przeplatana na szczęście rzadkimi telefonami od wkruwionych użytkowników „sieci blokowej”

„No weź pokaż tego VMserwera, zaraz w to spojrzę”:
Akcja numer jeden: NS2 nie wstał i nigdy nie wstawał po restarcie hosta WinXP, bo zwyczajnie nie miał tej opcji ustawionej.
Dobra, drobny błąd, zdarza się nawet najlepszym.
Kolejny krok to diagnoza dlaczego ten WinXP „się restartuje”. Eventlog, pokazuje wyraźnie godzinę gdy wstał serwis logowania: 03:20.
Wnioski nasuwają się same: „No jak nic plamy kurwa na słońcu – dwie niezależne awarie, o tej samej godzinie. Branża IT jest z dupy”
Akcja numer dwa: super dokładna analiza eventlogu, przeprowadzona przez wieloletnich specjalistów, a polegająca na przejrzeniu 4 wpisów „sprzed restartu” pokazuje wyraźnie, ze maszyna wyłączyła się sama i to prawidłowo, bo zamknęła eventloga i „się zrestartowała”. Kolejne dwa wpisy odkrywają dramatyczną i brutalną prawdę – maszyna „się restartuje” bo tak ma ustawione. Automatyczne aktualizacje i samoczynny restart systemu o 03:00…
Dobra, drobny błąd, zdarza się nawet najlepszym…. Ale nie dwa pod rząd, uwzględniając fakt, że WinXP, który hostował wspomnianą gromadę całkiem ważnych wirtualek resetował się regularnie co najmniej raz w miesiącu.
Czas na akcje numer trzy: „zaraz, kurwa, zaraz”. Lokalna brama w naszej małej serwerowni (i punkt dostępowy do netu dla niedużej sieci blokowej oraz… itp.). Jakiego ma DNS’a ustawionego?
Czyżby przez kolejny drobny błąd byłby to tylko jeden dns i tak się składało, że padło na omawianego przed chwilą NS2?
BINGO.
Trudno się dziwić że nie działa ping wp.pl (czyli de facto net…), skoro odpytywany dns akurat nie wstał…. Administracyjna porażka była całkowita. Teoria „plam na słońcu” i „przekleństwa branży IT” poległa. Zwyciężył pierdolnik, niedbanie o swoje własne systemy i kult prowizorki.
Dwie, na pierwszy rzut oka całkowicie odrębne awarie były bezpośrednio powiązane. A ich przyczyny, były bardziej niż błahe.
Co nas uratowało przed całkowitym porannym kataklizmem? Kluczowy serwer dla klienta stojący na feralnym WinXP, miał dublera. Gdyby nie to, telefon obudziłby mnie i rozładowałby się jeszcze przed 08:00.
Wnioski:
1. Czytać (samemu po napisaniu też): http://www.w-files.pl/coztymit/informatyka-20/
2. Nie stawiać prowizorek.
3. Spojrzeć na system czasami, jak ktoś mówi, że się restartuje. Jeszcze takiego co by „się sam restartował” nie spotkałem.
4. Wziąć się do roboty, bo choć technologia się zmieniła, to szewc wciąż bez butów chodzi.