Összeomlott HP szerver

A múlt hetem elég zűrös volt, asszem megtörtént az amitől mindíg féltem, beszart egy adatbázis szerver. Hétfő reggel 7-kor hívnak hogy nem megy a vállalatirányítási rendszer, a csávót odaküldtem a szerverekhez és megnézettem vele hogy mi világít, bakker hardver hiba! A két hete beüzemelt, 2,5 millós csilli-villi szerveren. Mondanom sem kell agyam eldobtam egyből.

Rohanás, mire odaértem, kiderült, hogy 5 percig megy a rendszer majd 5 percig nem, és ez így megy már órák óta. Gyorsan nyomtam egy diagnosztikát, s kiderült, hogy a raid vezérlő cache memóriája adta meg magát és pont a raid5-ben tárolt rendszerünket éri a legnagyobb csapás.

Céget leállítottam, mert ki tudja mit okoz egy rossz cache, össze-vissza ír és olvas belőle a rendszer s még a végén szétesik az adatbázis is. Gyors telefon a szerviznek, holnapra itt a cucc. El kezdem gondolkozni, és eszembe jutott, hogy pont van hentergőbe egy még nem 100%-on üzemelő szerverebe egy ilyen cache-m, gyorsan kocsiba el a modulért, majd vissza, berak és láss csodát, nincs cache hiba! Persze én nem hiszek el mindent amit csak egyszer látok, ezért még egy diagnosztikát is csináltam, ahol kiderült, hogy a 6 vinyóból 4 fizikai hibát jelez! No, itt elborultam. Telefon szerviz, aki azt mondta, hogy ok de ez nem lehet vinyó hiba ilyen nincs, hogy 4 egyszerre szarik be, cseréljünk raid vezérlőt is a kessel együtt. Mondom jó. Közben ezren hívtak, hogy mikor indul már a rendszer, 30. volt, hózárás stb stb.

Mindenkinek elmondtam, hogy minimum 24 óra pause van. Közben pedig el kezdtem gondolkozni, hogy tuti van mentés, mert tuti van, de jó-e (mert lehet hogy rossz és ha rossz akkor nagyon bevettem!) szerintetek milyen volt a mentés? Rossz! Kész voltam idegileg, a komplett céges adatbázisunk ugrott.

De azért én trükköztem ám, volt egy dugi mentésem, ami nem a klasszikus sql mentés, de kis ügyeskedéssel felcsatolható és semmi sem veszik el, de akkor még ott van a kiszolgáló környezet telepítése és a többi… Eljött a másnap, csávó megjelent az alaplappal (mert integrált a raid vezérlő) meg a kessel.

Gyors csere és bizony azt láttuk, hogy 4 vinyó szar. Magyarul nem tettünk semmit. Ekkor 24 órája állt a cég. Egy raid újrakonfig még segíthet mondták a szakértők, hát lépjük meg, a rendszer felhívja a figyelmet, hogy minden adat el fog veszni, mondom ok, vesszen, nem tok mit tenni.

Konfig lefut, fejem a kezemben, zsír ideg vagyok, a széttört tükörről indul a rendszer, ott az elméletileg zsír új raid5-ös kötet. Mondom rábökök, meglesem a paramétereit és azt látom, hogy szinkronizál, de mit? Nézem és bakki ott van az összes adat! Király! Természetesen továbbra is 4 vinyó hibát jelez, ami azt jelenti, hogy az oprendszeren kívül semmi sincs biztonságban. Csávó elment és mondta, hogy hoz vinyókat másnap és folytatjuk. Persze én nem voltam nyugodt, mert miért is lettem volna az?

Gyorsan image hegyeket csináltam minden kötetről és kitaláltam, hogy nem várom meg a vinyókat, beáldozok egy szervert a másik telephelyről. Gondoltam én mivel a két vas csontra egyforma, működni fognak az imagek, tévedtem, mert a win2003 nem indult el, betöltés közben mindig újraindult. Összeomlottam! S a cég csak áll…

Jön a másnap, csávó hozza a 4 vinyót, gép bekapcs, és mit látunk? 5 vinyó jelez hibát! Dejó!! Ott voltunk két egyforma szerverrel 5 rossz és 11 jó vinyóval és próbáltunk rájönni, hogy mi lehet a baj. Hmm ami nekem fontos volt, hogy a cég elinduljon, az imagek és a két szerver kombója segítségével 14 órakor elindult a cég, és egy bit adat sem veszett el, óriási mázli!!

De hátra volt a kérdés, miért történt mindez? Senki nem tudta megmondani! A szerviz annyit mndott, hogy egyszer már volt ilyen akkor a meleg okozta. No én ebben a percben már tudtam is hogy mi volt az eset. Hétvégén valaki kikapcsolta a klímát a szervereknél (gonolom spórolni akartak…) a naplókat visszanézve őrült melegek voltak, s 15 prcenkét vagy újraindultak a gépek a meleg miatt vagy teljesítményt csökkentettek. Tehát valószínűleg nálunk is a meleg játszott.

Szóval ez történt velem, nem kívánom senkinek azokat az órákat-napokat, óriási nyomás volt minden oldalról és nem bízhattál a mentésekben, gyakorlatilag asszem ezt hívják informatikai katasztrófának egy cég életében.

Köszönet GKicsy-nek, hogy elküldte a történetét.

Vélemény, hozzászólás?

Az email címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöljük.

2 × 1 =

Ez a weboldal az Akismet szolgáltatását használja a spam kiszűrésére. Tudjunk meg többet arról, hogyan dolgozzák fel a hozzászólásunk adatait..