trochę podstaw o RAID

…w ujęciu praktycznym.

To są wolne myśli, zebrane po ostatniej awarii u klienta. Pracowałem z IBM xSystems 345 z ServeRAID6 ale informacje są raczej uniwersalne.

pierwsza i najważniejszą rzeczą przy pracy z błędami macierzy jest backup. Trywializm, ale w chwilach awarii czasem nie myśli się do końca trzeźwo – tutaj ma to o tyle drastyczne znaczenie, że niektórzy uważają, iż redundancja zwalnia ich z konieczności trzymania backupu. W tym przypadq po pierwsze były backupy, po drugie obyło się bez nich, ale po pierwsze: jak strzeli kontroler, potrafi czasem zniszczyć struktury informacji na dyskach [lipek może się pochwalić takim przypadkiem, wcale nie tak dawno q:], po drugie – komunikaty i informacje wypisywane przez kontroler są często bardzo mylne, lakoniczne czy wręcz enigmatyczne – i wystarczy raz źle nacisnąć nie ten guzik… i po danych. RAID to fajne założenia, i duże bezpieczeństwo ale jak coś huknie, to trzeba pamiętać, że pod spodem jest tylko sprzęt z prymitywnym, BIOSowym interfejsem.
drugim prozaicznym problemem jest 'zawsze miej płytkę diagnostyczną/startową do serwera’. Ściągnięcie z netu CD startowej do danego modelu może trwać wieki. Szukanie takiej płyty to również duża strata czasu. Jest ona niezbędna, ponieważ niektóre modele kontrolerów dysponują bardzo ograniczonymi możliwościami z poziomu BIOS, dopiero soft z płyty pozwala na realną diagnostykę i konfigurację. Tutaj bardzo „fajne” zachowanie płyty do IBM, wykazujące jak ciężkimi ideami kierują się duże korporacje – niektóre głupoty microsoftu to piqś przy tym, co prezentuje IBM. Otóż zestresowany awarią admin odpala płytę i co widzi? ekran instalacji systemu operacyjnego. Trzeba wybrać konkretny system operacyjny i rozpocząć 'jakby instalację’. Dopiero potem jest opcja konfiguracji ServeRAID ale najbardziej rozwalający jest ekran z napisem 'CLEAR ALL DISK DATA’ z opisem, iż to usunie wszystkie dane z dysków. Do wyboru guziki 'next’ i 'back’. I trzeba po prostu wiedzieć, że po kliknięciu 'next’ pojawia się kolejny ekran z opisem 'skip this step’… ale to trochę tak jakby kogoś dla żartu wyrzucić z samolotu i w połowie drogi powiedzieć mu 'a tu masz spadochron’. Dodam jeszcze, że płyta ma również opis 'drivers’, ale kiedy sprawdzi się płytę to stery są, owszem, ale wymagają dyskietek [SIC!] bo nie ma opcji rozpakowania ich na dysk. Do tego są to stery do instalacji a nie dla samego systemu – przynajmniej ten konkretny dla RAID. Masakra!!
struktury RAID to dyski fizyczne i logiczne. Dyski fizyczne przyjmują statusy 'defunct’ oraz 'ok’ [lub inne równoznaczne określenie]. Ważne jest aby pamiętać, iż 'defunct’ nie jest wcale równoznaczny z 'dysk jest uszkodzony i nie-do-użycia’. Oznacza to, iż został wykryty błąd i dysk został wyłączony z działania. Powinna być dostępna opcja 'bring online’ i dopiero po włączeniu przekonamy się czy działa, czy nie. Dyski logiczne z kolei przyjmują standardowo statusy 'offline’, 'online’ oraz 'critical’. To ostatnie nie oznacza wcale, że macierz działać nie będzie – oznacza brak redundancji i informację w stylu 'jak teraz coś się spieprzy to jesteś w dupie’.
kolejną śmieszną opcją są komunikaty wyświetlane przez kontroler. W przypadq tego konkretnego, podczas włączania dysków z defunct do online pojawia się piękna informacja iż 'jeśli włączysz ten dysk to utracisz wszystkie dane z macierzy! czy jesteś pewien?!’. No i oczywiście trzeba być pewnym, ponieważ nie dość, że dane wcale nie giną, to jest to jedyny sposób na przywrócenie poprawionej macierzy do działania. W każdym razie w tym przpadq wszytko zahulało.
z tym defunctem to w tym przypadq w ogóle było nieciekawie, ponieważ oba dyski z RAID1 pokazywały iż są nie-do-użycia. Zgaduj-zgadula i trzymanie kciuków, trafiliśmy za pierwszym razem. Wymiana jednego dysq, bring online [uwaga, utracisz dane!] i za chwilę wszystko działa, system się odpala, a drugi dysk jest w stanie 'resyncing’. Znów trzeba po prostu wiedzieć
kolejnym ciekawym zachowaniem jest właśnie resync. Operacja ta trwa czasem nawet wiele godzin [dla dysq 36GB, ultrawide SCSI, to było ok 1h przy niewykorzystanym kompie]. Jeśli włączy się tą operację można tak siedzieć i gapić się… albo po prostu zrestartować kompa i pracować. I to znów sprawa, która dla osoby nie miającej do czynienia z RAIDami może kosztować długie godziny. Resync po uruchomieniu wykonuje się w tle, można spokojnie restartować maszynę – cały układ będzie działał na dobrej części a w międzyczasie resyncował na nowy dysk. Jest oczywiście niebezpieczeństwo – jeśli coś strzeli w trakcie to game over, więc jeśli czas się ma – warto poczekać. Ale zazwyczaj czasu się nie ma q:
podczas wykonywania resynca jednego dysq logicznego, nie można wykonać żadnych operacji macierzowych na pozostałych strukturach. W przypadq o którym piszę, uszkodzone były dyski z dwóch struktur logicznych, więc trzeba było czekać aż skończy się resync pierwszego, żeby naprawić drugi.
RAIDy mają tą niemiłą cechę, że jeśli padnie jeden dysk, bardzo szybko lubi paść następny. Dla tego tak długo, jak tylko to jeszcze w ogóle działa należy: odłączyć dostęp do dysq dla użytkowników [obniżyć obciążenie], zrobić backup – i dopiero w następnej kolejności bawić się w zmiany dysków, resync itd. O ile to oczywiście możliwe – czasem system jest na tyle krytyczny, że należy podjąć ryzyko i zrobić to w locie – teoretycznie to właśnie jest poprawne działanie, ale przy powiedzmy macierzy z dyskami 2ooGB i pełnym obciążeniu, resync może trwać kilka godzin – jeśli coś się w tym czasie stanie, a prawdopodobieństwo jest zwiększone, poprzez mocniejsze dociążenie wszystkich dysków….
ostatnim bardzo częstym problem… błędem… nie wiem jak to nazwać – może niedopatrzeniem – jest fakt, iż ponieważ po uszkodzeniu pojedynczego dysq w macierzy wszystko działa prawidłowo – często jest to przeoczane przez adminów. Tu znów wymaga jest profilaktyka – powinno się założyć jakieś event-trapy lub inne mechanizmy, które szybko poinformują o takiej sytuacji. Bo inaczej mamy RAIDa, który z bardzo dużym prawdopodobieństwem wkrótce przestanie działać…

wszystkie powyższe informacje nie są żadnym konkretnym guidem ani nie zawierają niby nic specjalnego, jednak podczas awarii – liczy się każda chwila a jeśli sytuacja jest stresowa… bywa ciężko. Mam więc nadzieję, że te kilka trywializmów będzie przydatne dla ew. czytających, którzy się z RAIDami nie zmagali – a niestety jest to praca toporna i ryzykowna, więc najlepsza pozostaje profilaktyka… i telefon do przyjaciela (;

-o((:: sprEad the l0ve ::))o-

Comments (6)

kojn

07/24/2008
Odpowiedz

szok życia
daro

07/24/2008
Odpowiedz

„RAIDy mają tą niemiłą cechę, że jeśli padnie jeden dysk, bardzo szybko lubi paść następny” To nie tylko cecha, to ich standardowe zachowanie :-) ilekroć coś się wypieprzało, to natymiast padały pozostałe dyski, jakby tylko na to czekały… :-)
Oczywiście to jest związane z faktem, że jak już mamy kase na serwer ze sprzętowym raidem, to akurat ma on co robić, wiec userzy orzą taki „dysk” do upadłego. Faktem jest, że fajnie jakby takie kontrolery zamiast mrugać lampkami, wysyłały sms’a albo coś – akurat tutaj to jest potrzebne. Większość firm MŚP nie ma wyjebanych systemów do monitoringu, znaczy jest tzw interfejs białkowy – siedzi admin i patrzy w logi. Do serwerowni się nie chodzi co godzine. Jak admin jest zajebisty, to patrzy w te logi raz dziennie, prawo Murpiego mówi, że taki raid pierdolnie zaraz po tym jak admin sprawdzi czy jest ok, no i mamy 24 godziny pracy pod pełnym obciążeniem, jakbym był takim dyskiem w RAID5 to sam by pierdolnął, tak jak kolega przed chwila, a co kurwa, sami będziemy robić, ten leser tutaj sobie „offilne” zrobił…
Tak tak, życie informatyka jest przejebane :-)
Kupiliśmy teraz serwer z RAID6 to sie zobaczy jak to żyje, Wiki orał to w każdą stronę i jest zadowolony, a jego ciężko zadowolić :-). Ale jak zwykle wszystko wyjdzie w praktyce.
nExoR

07/25/2008
Odpowiedz

@kojn: ?
kojn

07/25/2008
Odpowiedz

;) szok życia, to takie standardowe powiedzenie mojego Poznańskiego kolegi admina…. co do „Większość firm MŚP nie ma wyjebanych systemów do monitoringu..” to jest teraz sporo darmówek do tego typu rzeczy a nie wiem czy nie jest w obecnie każdym pudełku z macierzą sofcik do wywysłania mejla o problemach. Problem więc oczywiście w czynniku ludzkim i zazwyczaj jest to lenistwo.
Co do zajeżdznaia dysków, to też głownie robią to admini z lenistwa, ustawiajac codzienne pełne backupy, zamiast sensowniejszej polityki. Pozatym dużo się słyszy o padających dwóch dyskach na raz, bo jak pada jeden, to albo ktoś to olewa i robi go znowu on-line albo poprostu o tym się nie mówi. Zazwyczaj hot-spare załatwia sprawę, ale o tym też nie zawsze się pamięta.

.. a pozatym po co tyle agresji )
kojn

07/25/2008
Odpowiedz

i jeszcze jak sie juz nakreciłem … jak można zarżnąć dysk.
1. Zbyt częste pełne backupy
2. włączona kompresja plików (np. odtwarcie 2GB zipa na kompresowanej partycji mieli po dysku kilkanascie minut … )
3. Za malo ramu lub trzymanie pliku wymiany na obciążonej patrycji
4. Nie robienie defragmentacji (plik exchnage w 3000 kawąłkach, pliki userów w setkach, widywałem małe pliczki w setkach kawałków …. i nie dyskutujcie ze mna na temat defragmentacji bo na laptopach i serwerach to ma naprawde kluczowe znaczenie
5. trzymanie śmieci, backupowanie smieci i ogolnie bałagan ;)
pozatym …
kupowanie najtańszych dysków … z małym buforem itp. ogólnei są modele lepsze i gorsze ale juz sie nei bede rozwodził
7. konfiguracja programów anty vir … np skanowanie przez 300 osób dysków sieciowych w poszukiwaniu wirusów … rezultt 300 razy ten sam plik jest skanowany … to samo z programami inventory scan itp…
8. Pierdzielone indeksery … copernicus itp…. ludzie nie wiedza co robia i podpinaja do indeksowania dyski sieciowe i katalogi publiczne … i milino katalogów mowi im ze nie maja dostepu lub co gorsza daja sie z indeksowac
9.pewno by sie cos tu jeszcze znalazlo
10. cholerawa wie … nieraz poprostu nie ma się szczęscia do dysków…
nExoR

07/28/2008
Odpowiedz

@kojn: z ta agresja to chyba nie do mnie q: a co do lipka – to raczej tez nie agresja tylko taki lipkowy sposób wyrażania emocji (;
co do zajeżdżania dysqw: myślę, że co najmniej połowa punktów nie tyczy się macierzy serwerowej [coperniqsy, swap, 3oo osób etc].

a tak w ogóle to zastanawiałem się nad faktem, czy faktycznie spowodowane to jest zwiększonym obciążeniem. nie miałem czasu [i zajawki] żeby badać RAID5 bez jednego dysq, ale jestem gotów się założyć, że obciążenie nie będzie wiele większe [jeśli w ogóle] – bo przecież dokładnie tyle samo odczytów i zapisów na te dyski idzie! czemu więc padają po sobie? odpowiedź jest prosta: ponieważ są to dyski z tej samej serii, które schodzą z taśmy w odległościach kilq seqnd, z tego samego sklepu i tak samo transportowane – nie dziwne, że ich życie kończy się również w podobnych odstępach czasowych. Powinno się do RAID qpować dyski z kilq różnych serii (:

Comments (6)

Zostaw komentarz Anuluj pisanie odpowiedzi