…w ujęciu praktycznym.
To są wolne myśli, zebrane po ostatniej awarii u klienta. Pracowałem z IBM xSystems 345 z ServeRAID6 ale informacje są raczej uniwersalne.
- pierwsza i najważniejszą rzeczą przy pracy z błędami macierzy jest backup. Trywializm, ale w chwilach awarii czasem nie myśli się do końca trzeźwo – tutaj ma to o tyle drastyczne znaczenie, że niektórzy uważają, iż redundancja zwalnia ich z konieczności trzymania backupu. W tym przypadq po pierwsze były backupy, po drugie obyło się bez nich, ale po pierwsze: jak strzeli kontroler, potrafi czasem zniszczyć struktury informacji na dyskach [lipek może się pochwalić takim przypadkiem, wcale nie tak dawno q:], po drugie – komunikaty i informacje wypisywane przez kontroler są często bardzo mylne, lakoniczne czy wręcz enigmatyczne – i wystarczy raz źle nacisnąć nie ten guzik… i po danych. RAID to fajne założenia, i duże bezpieczeństwo ale jak coś huknie, to trzeba pamiętać, że pod spodem jest tylko sprzęt z prymitywnym, BIOSowym interfejsem.
- drugim prozaicznym problemem jest 'zawsze miej płytkę diagnostyczną/startową do serwera’. Ściągnięcie z netu CD startowej do danego modelu może trwać wieki. Szukanie takiej płyty to również duża strata czasu. Jest ona niezbędna, ponieważ niektóre modele kontrolerów dysponują bardzo ograniczonymi możliwościami z poziomu BIOS, dopiero soft z płyty pozwala na realną diagnostykę i konfigurację. Tutaj bardzo „fajne” zachowanie płyty do IBM, wykazujące jak ciężkimi ideami kierują się duże korporacje – niektóre głupoty microsoftu to piqś przy tym, co prezentuje IBM. Otóż zestresowany awarią admin odpala płytę i co widzi? ekran instalacji systemu operacyjnego. Trzeba wybrać konkretny system operacyjny i rozpocząć 'jakby instalację’. Dopiero potem jest opcja konfiguracji ServeRAID ale najbardziej rozwalający jest ekran z napisem 'CLEAR ALL DISK DATA’ z opisem, iż to usunie wszystkie dane z dysków. Do wyboru guziki 'next’ i 'back’. I trzeba po prostu wiedzieć, że po kliknięciu 'next’ pojawia się kolejny ekran z opisem 'skip this step’… ale to trochę tak jakby kogoś dla żartu wyrzucić z samolotu i w połowie drogi powiedzieć mu 'a tu masz spadochron’. Dodam jeszcze, że płyta ma również opis 'drivers’, ale kiedy sprawdzi się płytę to stery są, owszem, ale wymagają dyskietek [SIC!] bo nie ma opcji rozpakowania ich na dysk. Do tego są to stery do instalacji a nie dla samego systemu – przynajmniej ten konkretny dla RAID. Masakra!!
- struktury RAID to dyski fizyczne i logiczne. Dyski fizyczne przyjmują statusy 'defunct’ oraz 'ok’ [lub inne równoznaczne określenie]. Ważne jest aby pamiętać, iż 'defunct’ nie jest wcale równoznaczny z 'dysk jest uszkodzony i nie-do-użycia’. Oznacza to, iż został wykryty błąd i dysk został wyłączony z działania. Powinna być dostępna opcja 'bring online’ i dopiero po włączeniu przekonamy się czy działa, czy nie. Dyski logiczne z kolei przyjmują standardowo statusy 'offline’, 'online’ oraz 'critical’. To ostatnie nie oznacza wcale, że macierz działać nie będzie – oznacza brak redundancji i informację w stylu 'jak teraz coś się spieprzy to jesteś w dupie’.
- kolejną śmieszną opcją są komunikaty wyświetlane przez kontroler. W przypadq tego konkretnego, podczas włączania dysków z defunct do online pojawia się piękna informacja iż 'jeśli włączysz ten dysk to utracisz wszystkie dane z macierzy! czy jesteś pewien?!’. No i oczywiście trzeba być pewnym, ponieważ nie dość, że dane wcale nie giną, to jest to jedyny sposób na przywrócenie poprawionej macierzy do działania. W każdym razie w tym przpadq wszytko zahulało.
- z tym defunctem to w tym przypadq w ogóle było nieciekawie, ponieważ oba dyski z RAID1 pokazywały iż są nie-do-użycia. Zgaduj-zgadula i trzymanie kciuków, trafiliśmy za pierwszym razem. Wymiana jednego dysq, bring online [uwaga, utracisz dane!] i za chwilę wszystko działa, system się odpala, a drugi dysk jest w stanie 'resyncing’. Znów trzeba po prostu wiedzieć
- kolejnym ciekawym zachowaniem jest właśnie resync. Operacja ta trwa czasem nawet wiele godzin [dla dysq 36GB, ultrawide SCSI, to było ok 1h przy niewykorzystanym kompie]. Jeśli włączy się tą operację można tak siedzieć i gapić się… albo po prostu zrestartować kompa i pracować. I to znów sprawa, która dla osoby nie miającej do czynienia z RAIDami może kosztować długie godziny. Resync po uruchomieniu wykonuje się w tle, można spokojnie restartować maszynę – cały układ będzie działał na dobrej części a w międzyczasie resyncował na nowy dysk. Jest oczywiście niebezpieczeństwo – jeśli coś strzeli w trakcie to game over, więc jeśli czas się ma – warto poczekać. Ale zazwyczaj czasu się nie ma q:
- podczas wykonywania resynca jednego dysq logicznego, nie można wykonać żadnych operacji macierzowych na pozostałych strukturach. W przypadq o którym piszę, uszkodzone były dyski z dwóch struktur logicznych, więc trzeba było czekać aż skończy się resync pierwszego, żeby naprawić drugi.
- RAIDy mają tą niemiłą cechę, że jeśli padnie jeden dysk, bardzo szybko lubi paść następny. Dla tego tak długo, jak tylko to jeszcze w ogóle działa należy: odłączyć dostęp do dysq dla użytkowników [obniżyć obciążenie], zrobić backup – i dopiero w następnej kolejności bawić się w zmiany dysków, resync itd. O ile to oczywiście możliwe – czasem system jest na tyle krytyczny, że należy podjąć ryzyko i zrobić to w locie – teoretycznie to właśnie jest poprawne działanie, ale przy powiedzmy macierzy z dyskami 2ooGB i pełnym obciążeniu, resync może trwać kilka godzin – jeśli coś się w tym czasie stanie, a prawdopodobieństwo jest zwiększone, poprzez mocniejsze dociążenie wszystkich dysków….
- ostatnim bardzo częstym problem… błędem… nie wiem jak to nazwać – może niedopatrzeniem – jest fakt, iż ponieważ po uszkodzeniu pojedynczego dysq w macierzy wszystko działa prawidłowo – często jest to przeoczane przez adminów. Tu znów wymaga jest profilaktyka – powinno się założyć jakieś event-trapy lub inne mechanizmy, które szybko poinformują o takiej sytuacji. Bo inaczej mamy RAIDa, który z bardzo dużym prawdopodobieństwem wkrótce przestanie działać…
wszystkie powyższe informacje nie są żadnym konkretnym guidem ani nie zawierają niby nic specjalnego, jednak podczas awarii – liczy się każda chwila a jeśli sytuacja jest stresowa… bywa ciężko. Mam więc nadzieję, że te kilka trywializmów będzie przydatne dla ew. czytających, którzy się z RAIDami nie zmagali – a niestety jest to praca toporna i ryzykowna, więc najlepsza pozostaje profilaktyka… i telefon do przyjaciela (;
kojn
daro
nExoR
kojn
kojn
nExoR