Server… piccoli dettagli nefasti di fine estate

A più di qualcuno di voi sarà già noto. Nelle ultime settimane alcuni nostri cloud server sono stati funestati da un problema dal quale oggi fortunatamente non ci sentiamo più minacciati. L’anomalia ha coinvolto i cluster basati su server blade HP e con infrastruttura di rete convergente Emulex a 10 Gigabit.

Blade HP

Curiosi di sapere qualche numero? Si è trattato di 72 server a 2 e 4 CPU. Un  totale di 2304 core, e la cosa potrebbe spaventare.
In realtà, solo pochi clienti –  i più sfortunati – hanno avuto dei disagi, che infatti si sono concentrati solo su 288 core.
Presto ci siamo resi conto che se le macchine, inspiegabilmente, smettevano di rispondere, non era per qualche strana attività lato cliente.
Aggiornamenti di routine del sistema operativo, dei driver e dei firmware stavano generando problemi sulle lame.
Abbiamo inizialmente cercato di aggirare il problema ripristinando le precedenti versioni di Sistema Operativo e Driver (un vero e proprio workaround da macchina del tempo); procedura questa possibile con i sistemi Cloud senza nemmeno dover spegnere i Cloud Server dei clienti. Pensate solo ad un’operazione del genere su dei semplici server dedicati, sarebbe stato un disastro con ore e ore di fermo.
Nel momento funesto abbiamo, noi stessi, apprezzato i vantaggi schiaccianti delle architetture Cloud.
Subito poi ci siamo messi in contatto con RedHat, HP ed Emulex. Grazie alla loro solerzia nel collaborare, siamo riusciti a mettere a punto un set up di installazione che mostrasse la massima stabilità e, al contempo, consentisse di individuare una definizione certa del problema. Ora stiamo lavorando alla raccolta di dati sia per vedere se le misure adottate sono risolutive, sia per adottarne di definitive.
Possiamo tuttavia già ritenere di essere usciti dalla “fase critica acuta” dei giorni scorsi. I clienti  coinvolti sanno che, laddove lo SLA non sia stato rispettaHP ProLiant BL685c G7to, potranno avanzare le loro richieste.
Per i più smaliziati ecco il driver oggetto di tante pene:
author: Emulex Corporation
description: Emulex OneConnect 10Gbps NIC Driver 4.1.402.6
version: 4.1.402.6
Per il resto, noi possiamo tirare un sospiro di sollievo.

8 commenti a Server… piccoli dettagli nefasti di fine estate

  1. Massimiliano ha detto:

    La vostra trasparenza è da premiare 🙂
    Grazie delle info.

    Massimiliano

  2. Domenico Cosimato ha detto:

    Come sempre la trasparenza, sinonimo di professionalità vi contraddistingue. Siete i migliori. Verapellestore.com Vi ringrazia della vostra dedizione, nonchè per la qualità del vostro lavoro. Con seeweb siamo proiettati al futuro.

  3. […] compagnia italiana tra quelle leader nei servizi cloud, ha comunicato oggi in un post del suo blog che sono stati finalmente risolti i problemi tecnici riscontrati sui cluster formati da server […]

  4. Carmine Santoro ha detto:

    Apprezzabile il vostro chiarimento e l’interessante considerazione riguardo le architetture Cloud.

  5. Chiara ha detto:

    Grazie a tutti voi. Il nostro obiettivo è, con questo blog, anche quello di documentarvi su quello che accade dentro un datacenter e sulle soluzioni e gli interventi adottati. Grazie ancora per l’apprezzamento.

  6. Avallone Franco ha detto:

    Mi permetto di dare una mia riflessione.

    Io sin dal 1992 avevo intuito che solo Voi potevate fare tanto.

    Mi complimento con tutto il Team che siete riusciti a mettere su, sicuro di essere meravigliato ogni giorno di più.

  7. LoreLLo ha detto:

    Bravi!
    Questo tipo di trasparenza è un elemento che manca spesso nei fornitori di servizi nostrani, sembra che il pensiero dominante sia ancora “meglio non far sapere che qualcosa si rompe”, mentre al contrario mi conforta sapere che il mio fornitore progetta sapendo che prima o poi ogni pezzo si romperà! E in questo caso il vostro modo di affrontare l’emergenza ci conferma che siete davvero bravi nel progettare l’infrastruttura.

    Se posso aggiungere qualche richiesta, non sarebbe male una comunicazione così franca anche in tempo reale: penso ad account twitter come @ylastic o @cloudflaresys e magari una pagina di “status” tipo questa:
    http://status.aws.amazon.com/
    http://www.google.com/appsstatus
    http://www.cloudflare.com/system-status

    Grazie intanto dell’ascolto
    L

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

*

Accedi

Registrati | Password dimenticata?