Tydzień exchanga

Przed wami kolejna wstrząsająca relacja z awarii…

Średnia firma. Mieszcząca się w willi. Poważna awaria prądu wykańcza UPS’y. Padają serwery. Administrator podnosi to wszystko w nocy.
Rano pracując zdalnie administrator nie może dostać się do exchanga – restartuje go. System
wciąż jest niedostępny. Na miejscu okazuje się że:
CPQ ML530, 3 zasilacze, 6U w szafie, jego kontroler smart array 5300 zgubił informacje o dyskach logicznych. (Były dwie partycje logiczne: RAID1 na system i RAID5 na dane). Popularnie mówiąc – nie ma niczego. Procedura recovery nie przewidziała takiego psikusa ze strony kontrolera RAID. Wszystko wskazuje na to, że dyski i kontroler działają, ale nie mają informacji o dyskach logicznych. Skanowanie ACU, przekładanie dysków pomiędzy slotami i do innych serwerów nie pomaga.
Przybyły na miejsce tragedii technik rozkłada bezradnie ręce. Infolinia HP, jak zawsze profesjonalnie i lakonicznie stwierdza, że serwer już po gwarancji i wizyta odpłatna, owszem, ale o niższym priorytecie, – czyli realnie za dwa tygodnie albo dwa lata – dla nas nie ma różnicy.
Cóż – jedziemy z pełnym odzyskiwaniem serwera. Nowy serwer, w2k sp + exchange + Backup exec i odzyskujemy. Niestety nie było to wystarczająco dobrze przećwiczone. Administrator po kilku godzinach poddaje się. Ściągamy meksykańska specgrupe od rozwałki.
Spec nr 1 ds. systemów windows przybywa na miejsce tragedii o godzinie 16:00. Stawianie serwera od początku, exchange, backup exec – i znów odbijamy sie od ściany. Kolejny telefon – chwila napięcia i okazuje się, ze spec nr 2 ds. backup exec’a jest dostępny i przyjedzie.
Dociera na miejsce ok 19: 30. Godzina wytężonej walki z backup execkiem przynosi rezultaty. Rusza odzyskiwanie z backupu – później okazuje się, że 25 GB storów i folerów publicznych zostanie odciągnięte z streamera LTO3 w rekordowym kurwa mać czasie 2 godziny 40 minut.
Spędziliśmy go omawiając obecną sytuacje gospodarczą, polityczną i techniczną wszystkich znanych krajów, nie oszczędzając filmików z YouTub’a.
Gdy po 23:00 mózgi powoli zaczynały kąpać nam na klawiaturę backup radośnie kończy się pełnym sukcesem i równie radośnie, zgodnie z terminarzem backupu, a przy naszym pełnym zaskoczeniu rusza standardowy backup Overwrite ustawiony na godzinie 23:00, który znów zgodnie z planem i przy naszym już absolutnie pełnym zaskoczeniu nadpisuje taśmę, z której właśnie skończyliśmy odzyskiwać dane. Dobrze, że nie w odwrotnej kolejności.
Niezrażeni tą porażką sprawdzamy konsystencje storów, która odbiega trochę od ideału, i wymaga naprawy. Przed naprawą obowiązkowy backup jedynej kopi storów, która ostała się w organizacji. Niestety przy naszym kolejnym zaskoczeniu 25GB baz kopiuje się z partycji na partycje serwera klasy HP DL380 G6 (dyski SAS) w kolejnym rekordowym czasie 40 minut (ma sterowniki! Stawiany ze smartstartu). Mózg z klawiatur zaczyna skapywać na podłogę, ale dajemy rade.
Naprawa storów zakończona sukcesem. Maile działają. Ludzie mają do nich dostep, dochodzi 02:00. Jeszcze kilkanaście minut walki z backup execkiem i jego nienormalną konfiguracją użytkownika, który ma prawo odzyskiwać skrzynki trybie brick level. Pakujemy plecaczki i nieco wykończona specgrupa od rozwałki opuszcza miejsce zdarzenia.
Straty:
• maile organizacji z jednego dnia (backup nie wykonał się z środy na czwartek, – bo padł prąd)
Wnioski:
• Rekonfiguracja backup execka wymagana, w szczególności ochrony mediów przed nadpisaniem.
• Rekonfiguracja procedur backupu również.
• Regularne ćwiczenie scenariusza pełnego recovery excheng’a – obowiązkowe.
• Dla dociekliwych: co zrobił ten pieprzony kontroler, że zgubił te dyski oraz dlaczego nowy serwer z pełnym zestawem sterowników tak zajebiście szybko kopiuje pliki?

-o((:: sprEad the l0ve ::))o-

Tydzień exchanga

Comments (1)

nExoR

Zostaw komentarz Anuluj pisanie odpowiedzi