Server: piccoli dettagli nefasti di fine estate

A più di qualcuno di voi sarà già noto. Nelle ultime settimane alcuni nostri cloud server sono stati funestati da un problema dal quale oggi fortunatamente non ci sentiamo più minacciati.

 

L’anomalia ha coinvolto i cluster basati su server blade HP e con infrastruttura di rete convergente Emulex a 10 Gigabit.

 
Blade HP

Curiosi di sapere qualche numero? Si è trattato di 72 server a 2 e 4 CPU. Un  totale di 2304 core, e la cosa potrebbe spaventare.
In realtà, solo pochi clienti –  i più sfortunati – hanno avuto dei disagi, che infatti si sono concentrati solo su 288 core.

 

Presto ci siamo resi conto che se le macchine, inspiegabilmente, smettevano di rispondere, non era per qualche strana attività lato cliente.

 

Aggiornamenti di routine del sistema operativo, dei driver e dei firmware stavano generando problemi sulle lame.

 

Abbiamo inizialmente cercato di aggirare il problema ripristinando le precedenti versioni di Sistema Operativo e Driver (un vero e proprio workaround da macchina del tempo); procedura questa possibile con i sistemi Cloud senza nemmeno dover spegnere i Cloud Server dei clienti. Pensate solo ad un’operazione del genere su dei semplici server dedicati, sarebbe stato un disastro con ore e ore di fermo.

 

Nel momento funesto abbiamo, noi stessi, apprezzato i vantaggi schiaccianti delle architetture Cloud
Subito poi ci siamo messi in contatto con RedHat, HP ed Emulex. Grazie alla loro solerzia nel collaborare, siamo riusciti a mettere a punto un set up di installazione che mostrasse la massima stabilità e, al contempo, consentisse di individuare una definizione certa del problema. Ora stiamo lavorando alla raccolta di dati sia per vedere se le misure adottate sono risolutive, sia per adottarne di definitive.
Possiamo tuttavia già ritenere di essere usciti dalla “fase critica acuta” dei giorni scorsi. I clienti  coinvolti sanno che, laddove lo SLA non sia stato rispettaHP ProLiant BL685c G7to, potranno avanzare le loro richieste.

 

Per i più smaliziati ecco il driver oggetto di tante pene:
author: Emulex Corporation
description: Emulex OneConnect 10Gbps NIC Driver 4.1.402.6
version: 4.1.402.6
Per il resto, noi possiamo tirare un sospiro di sollievo.
8 Commenti
  • Massimiliano

    6 settembre 2012 at 11:13 Rispondi

    La vostra trasparenza è da premiare 🙂
    Grazie delle info.

    Massimiliano

  • Domenico Cosimato

    6 settembre 2012 at 12:03 Rispondi

    Come sempre la trasparenza, sinonimo di professionalità vi contraddistingue. Siete i migliori. Verapellestore.com Vi ringrazia della vostra dedizione, nonchè per la qualità del vostro lavoro. Con seeweb siamo proiettati al futuro.

  • […] compagnia italiana tra quelle leader nei servizi cloud, ha comunicato oggi in un post del suo blog che sono stati finalmente risolti i problemi tecnici riscontrati sui cluster formati da server […]

  • Carmine Santoro

    6 settembre 2012 at 16:22 Rispondi

    Apprezzabile il vostro chiarimento e l’interessante considerazione riguardo le architetture Cloud.

  • Chiara

    7 settembre 2012 at 09:48 Rispondi

    Grazie a tutti voi. Il nostro obiettivo è, con questo blog, anche quello di documentarvi su quello che accade dentro un datacenter e sulle soluzioni e gli interventi adottati. Grazie ancora per l’apprezzamento.

  • Avallone Franco

    10 settembre 2012 at 19:25 Rispondi

    Mi permetto di dare una mia riflessione.

    Io sin dal 1992 avevo intuito che solo Voi potevate fare tanto.

    Mi complimento con tutto il Team che siete riusciti a mettere su, sicuro di essere meravigliato ogni giorno di più.

  • LoreLLo

    11 settembre 2012 at 12:36 Rispondi

    Bravi!
    Questo tipo di trasparenza è un elemento che manca spesso nei fornitori di servizi nostrani, sembra che il pensiero dominante sia ancora “meglio non far sapere che qualcosa si rompe”, mentre al contrario mi conforta sapere che il mio fornitore progetta sapendo che prima o poi ogni pezzo si romperà! E in questo caso il vostro modo di affrontare l’emergenza ci conferma che siete davvero bravi nel progettare l’infrastruttura.

    Se posso aggiungere qualche richiesta, non sarebbe male una comunicazione così franca anche in tempo reale: penso ad account twitter come @ylastic o @cloudflaresys e magari una pagina di “status” tipo questa:
    http://status.aws.amazon.com/
    http://www.google.com/appsstatus
    http://www.cloudflare.com/system-status

    Grazie intanto dell’ascolto
    L

Scrivi un Commento:

*

Accedi

Registrati | Password dimenticata?