Lavorare in un Datacenter, come tecnico, porta a dover affrontare quotidianamente situazioni impreviste che molto spesso cambiano completamente la scaletta delle attività in programma, a favore di un evento straordinario e non rimandabile.
Questo è quello che è successo oggi, durante il mio turno lavorativo.
Intorno alle 6:00 di mattina, mentre mi occupavo delle normali operazioni di manutenzione e assistenza, ho sentito un forte odore sgradevole. La puzza era quella tipica della plastica bruciata che dà un componente elettronico quando decide di smettere di svolgere il suo compito nel peggior modo possibile.
Ho subito controllato il sistema di alert per verificare che qualche server o componente non stesse funzionando o fosse in allarme: nulla.
Tutto in perfetto ordine, tranne la puzza, nonostante i ventilatori accesi, che rimaneva costante. Dopo il rapido controllo effettuato, non mi è rimasto che chiedere aiuto ad altri colleghi, per individuare, con una tecnica non propriamente all’avanguardia, la fonte di tale odore.
Quindi, lasciato un presidio minimo di tecnici che garantisse le normali attività lavorative, ci siamo messi alla ricerca del componente elettronico che ci stava per abbandonare, usando l’olfatto come unico strumento. La ricerca all’interno del DC, tra armadi e impianti vari, non è stata facile, ma alla fine siamo riusciti ad individuare l’armadio dal quale proveniva lo sgradevole odore.
Si trattava di uno dei router Cisco 12000 ridondati, però non c’erano ne spie in allarme ne malfunzionamenti evidenti sul display e nei log.
Sicuramente il componente non si era ancora completamente danneggiato, ma non mancava molto, visto il forte odore di bruciato. Abbiamo quindi messo in atto le procedure per intervenire sul router, senza creare fermi di servizio. Nel frattempo si sono accese 2 spie di alert che hanno certificato che la nostra ricerca era stata corretta.
Ma il router ha deciso di renderci la giornata ancora piú movimentata di quello che era stata fino ad allora. Infatti, mentre eravamo al lavoro per risolvere il problema, abbiamo sentito un forte scoppio e il classico odore di un alimentatore bruciato. Uno dei 2 alimentatori del router era andato fuso.
Finalmente il guasto era stato individuato e isolato. Non si è avuto ne alcun fermo ne alcun disservizio. Questo è uno dei casi particolarmente complicati da gestire in un Datacenter. Infatti, l’odore di bruciato o la segnalazione di un alert generico devono essere individuati e isolati subito, perchè le conseguenze di un guasto hardware, in un punto qualunque di una struttura complessa come il Datacenter ,possono avere degli epiloghi catastrofici.
Fortunatamente, grazie al nostro presidio e alle tecnologie migliori usate nei nostri Datacenter, riusciamo quasi sempre ad individuare e isolare eventuali guasti prima che si verifichino.
3 risposte
Bravi!
Lavorare in un datacenter non è affatto facile. Intuito e abilità vanno di pari passo. La lunga esperienza maturata è una componente di “saggezza elettronica”. CIAO!
La “saggezza elettronica” è fondamentale. Grazie per l’apprezzamento!