Server… piccoli dettagli nefasti di fine estate

A più di qualcuno di voi sarà già noto. Nelle ultime settimane alcuni nostri cloud server sono stati funestati da un problema dal quale oggi fortunatamente non ci sentiamo più minacciati. L’anomalia ha coinvolto i cluster basati su server blade HP e con infrastruttura di rete convergente Emulex a 10 Gigabit.

Blade HP

Curiosi di sapere qualche numero? Si è trattato di 72 server a 2 e 4 CPU. Un  totale di 2304 core, e la cosa potrebbe spaventare.
In realtà, solo pochi clienti –  i più sfortunati – hanno avuto dei disagi, che infatti si sono concentrati solo su 288 core.
Presto ci siamo resi conto che se le macchine, inspiegabilmente, smettevano di rispondere, non era per qualche strana attività lato cliente.
Aggiornamenti di routine del sistema operativo, dei driver e dei firmware stavano generando problemi sulle lame.
Abbiamo inizialmente cercato di aggirare il problema ripristinando le precedenti versioni di Sistema Operativo e Driver (un vero e proprio workaround da macchina del tempo); procedura questa possibile con i sistemi Cloud senza nemmeno dover spegnere i Cloud Server dei clienti. Pensate solo ad un’operazione del genere su dei semplici server dedicati, sarebbe stato un disastro con ore e ore di fermo.
Nel momento funesto abbiamo, noi stessi, apprezzato i vantaggi schiaccianti delle architetture Cloud.
Subito poi ci siamo messi in contatto con RedHat, HP ed Emulex. Grazie alla loro solerzia nel collaborare, siamo riusciti a mettere a punto un set up di installazione che mostrasse la massima stabilità e, al contempo, consentisse di individuare una definizione certa del problema. Ora stiamo lavorando alla raccolta di dati sia per vedere se le misure adottate sono risolutive, sia per adottarne di definitive.
Possiamo tuttavia già ritenere di essere usciti dalla “fase critica acuta” dei giorni scorsi. I clienti  coinvolti sanno che, laddove lo SLA non sia stato rispettaHP ProLiant BL685c G7to, potranno avanzare le loro richieste.
Per i più smaliziati ecco il driver oggetto di tante pene:
author: Emulex Corporation
description: Emulex OneConnect 10Gbps NIC Driver 4.1.402.6
version: 4.1.402.6
Per il resto, noi possiamo tirare un sospiro di sollievo.

Accedi

Registrati | Password dimenticata?