Scrivo questa cosa con un po’ di giorni di ritardo, ma non avevo la testa per farlo.
Tutto ha inizio ilgiorno Lunedì 16 Luglio 2007 quando alla sera dopo le 18:30 vengono spenti i server del sistema editoriale per predisporre le prese di corrente che doveveno servire per alimentare i nuovi macchinari IBM. Dopo il lavoro durato poco più di 30 minuti ci troviamo con dover infilare due prese CEI fornite con le PDU IBMda 32A (comunemente chiamate ciabatte) in due prese CEI da 16A. Già abbiamo scoperto questa cosa a lavoro ultimato dopo aver aperto per la prima volta gli scatoloni con i componenti. Umm..! A quel punto decidiamo di desistere e con la coda tra le gambe abbiamo rimandato il lavoro per adattare l’impianto elettrico al Lunedì dopo.
Lunedì 23 Luglio intorno al solito orario 18:30 circa arriva l’elettricista con il quale dopo aver fermato tutto per la seconda volta provvediamo al collegamento dei fili. Il lavoro è andato molto bene e in poco tempo eravamo nuovamente online. Ci salutiamo tutti con l’idea di riprendere l’installazione del giorno sucessivo con la webcam. Felici banchettiamo con un ottimo pezzo di Speck originale portato dal Guru Toso e sultardi rincasiamo.
Martedì 24 Luglio alle 09:00 con Sixty ci troviamo in sala server per provvedere al posizionamento della webcam. Alle 10 arrivano i tecnici per preparare i server. Dopo non poche peripezzie verso le 19 di sera ci troviamo con tutto quanto montato. Viene spento un server in produzione con la SAN e vengono messi nel nuovo armadio. Viene predisposta la SAN per il funzionamento a 4Gb/s ma alla riaccensione si è presentata come una serie di semafori impazziti. Dopo un po’ di debug con i dati sui dischi non backuppati decidiamo di mollare il colpo e nello sconforto piu’ totale riavviamo la produzione e andiamo a casa.
Mercoledì 25 uno dei due tecnici che ha pernottato dalle nostre parti ha provveduto all’installazione dei server funzionati e all’apertura di un guasto verso IBM per una mother board non funzionante in un server nuovo. L’installazione procede correttamente fino a sera.
Giovedì 26 Luglio arrivano i ragazzi che iniziano l’installazione di tutto il software almeno per i server funzionanti.
Venerdì 27 Luglio arriva il tecnico IBM che dopo un po’ di prove decide di strappare e sbattere la piastra madre in un angolo della sala server dicendo “tanto va al macero” e sostituircela con una funzionante.
Martedì 31 Luglio ritornano i ragazzi dell’hardware che finiscono le installazioni dei SO e poi organizzano l’aggiornamento dei firmware della SAN per poterla finalmnte utilizzare a 4Gb/s con anche l’aggiunta dei 10 dischi da 146GB FC. La giornata passa velocemente e come di consueto alle 18:30 iniziano i lavori “pericolosi”. Viene spenta la SAN e iniziano gli aggiornamenti. Primo OK, Secondo OK Terzo OK, Quarto KO… Ci gela il sangue codici di errore impossibili. Sembra che la macchina stia facendo qualche cosa ma in realtà non sta a fa nulla. La LUN piu’ importante è comunqe salva quella piu’ piccola in RAID1 è degradata. Il disco secondario comparee scompare come una delle due controller. Tentiamo diverse vie fino a quando decidiamo di strappare dalla SAN il disco che ci crea problemi nella speranza che la SAN stessa si accorga della scomparsa e inizi a utilizzare un disco di SPARE. Questa cosa non accade e dopo aver googolato e letto i manuali decidiamo didistruggere la seconda LUN che non doveva contenere nulla. Distruggiamo la LUN e dopo circa 2 ore di lavoro la macchina riparte sempre e solo a 2Gb/s se si mette a 4Gb/s diventa un semaforo. Riusciamo a inserire i 10 dischi FC che ci servono ad aggiornarli il firmware, a costruire le LUN le partizioni e a montare queste ultime sui server. Pronti per andarcene a casa siamo consapevoli che abbiamo fatto qualche passo avanti ma non siamo ancora del tutto happy.
Mercoledì 01 Agosto subito dopo l’arrivo dei ragazzi che seguono l’installazione hardware viene aperta la chiamata con IBM per la sostituzione del disco. Scorrono i minuti fino a che non iniziano a chiamare le redazioni che non trovano più i loro dati. Già sulla partizione che si pensava vuota vi erano 250GB di dati… Umm!!! Che Fare??? Nulla dati persi e la tristezza ci assale. Il disco risultava ancora in allarme e con uno dei ragazzi scendiamo in ServerFarm e estraiamo il disco. Do un occhio all’elettronica per capiere come era fatta e lo ripongo al suo posto.
Giovedì 02 Agosto alla mattina mi arriva un server con un disco SATA guasto lo prendo e lancio un programmino per il recupero dei dati. Questa volta il recupero non è andato a buon fine. Tuttavia mentre ero in attesa mi sono ricordato del disco in sala server. Controllando l’elettronica avevo visto che il controller FC era collegato al disco su un connettore SATA e mi sono ricordato anche che il disco era in RAID1 quindi con la copia esatta dei dati. A quel punto sono sceso in farm ho preso il disco, gli ho smontato l’adattatore FC e l’ho attaccato al pc SATA su cui stavo lavorando. Da lì a due minuti è arrivato Toso, l’ho esortato acontrollare il disco E della macchina in laboratorio e 30 secondi dopo mi è letteralmente saltato sulle spalle. 45 minuti dopo questa cosa erano ritornati i 250 GB di dati sulla SAN nella nuova partizione.
Potete trovare le foto del disco smontato a qusto link
A quest’altro link invece potete trovare il blog dell’installazione sysedit.tumblr.com
Le soluzioni dei problemi si trovano sempre nei dettagli. Bisogna saperli sfruttare con tanta creatività.