Server… piccoli dettagli nefasti di fine estate

A più di qualcuno di voi sarà già noto. Nelle ultime settimane alcuni nostri cloud server sono stati funestati da un problema dal quale oggi fortunatamente non ci sentiamo più minacciati. L’anomalia ha coinvolto i cluster basati su server blade HP e con infrastruttura di rete convergente Emulex a 10 Gigabit.

Blade HP

Curiosi di sapere qualche numero? Si è trattato di 72 server a 2 e 4 CPU. Un  totale di 2304 core, e la cosa potrebbe spaventare.
In realtà, solo pochi clienti –  i più sfortunati – hanno avuto dei disagi, che infatti si sono concentrati solo su 288 core.
Presto ci siamo resi conto che se le macchine, inspiegabilmente, smettevano di rispondere, non era per qualche strana attività lato cliente.
Aggiornamenti di routine del sistema operativo, dei driver e dei firmware stavano generando problemi sulle lame.
Abbiamo inizialmente cercato di aggirare il problema ripristinando le precedenti versioni di Sistema Operativo e Driver (un vero e proprio workaround da macchina del tempo); procedura questa possibile con i sistemi Cloud senza nemmeno dover spegnere i Cloud Server dei clienti. Pensate solo ad un’operazione del genere su dei semplici server dedicati, sarebbe stato un disastro con ore e ore di fermo.
Nel momento funesto abbiamo, noi stessi, apprezzato i vantaggi schiaccianti delle architetture Cloud.
Subito poi ci siamo messi in contatto con RedHat, HP ed Emulex. Grazie alla loro solerzia nel collaborare, siamo riusciti a mettere a punto un set up di installazione che mostrasse la massima stabilità e, al contempo, consentisse di individuare una definizione certa del problema. Ora stiamo lavorando alla raccolta di dati sia per vedere se le misure adottate sono risolutive, sia per adottarne di definitive.
Possiamo tuttavia già ritenere di essere usciti dalla “fase critica acuta” dei giorni scorsi. I clienti  coinvolti sanno che, laddove lo SLA non sia stato rispettaHP ProLiant BL685c G7to, potranno avanzare le loro richieste.
Per i più smaliziati ecco il driver oggetto di tante pene:
author: Emulex Corporation
description: Emulex OneConnect 10Gbps NIC Driver 4.1.402.6
version: 4.1.402.6
Per il resto, noi possiamo tirare un sospiro di sollievo.

Manutenzione dei server fisici: una fatica che oggi ci si può risparmiare

Liberarsi dalla manutenzione

Liberarsi dall’incombenza di gestire e aggiornare server fisici e direzionare le energie aziendali in attività più produttive: con cloud si può.

Se avete mai avuto dei server fisici “in casa” saprete cosa voglia dire occuparsi della loro gestione e del loro aggiornamento. E saprete anche che spesso avete pensato di “fare il punto della situazione”: decidere di ottimizzare la struttura, eliminare quello che non serve, aggiungere quello che non c’è. Ma che avete rimandato.

La stessa dinamica ce la conferma la ricerca di un nostro competitor americano, Rackspace Hosting, che ha studiato quali siano i compiti che assorbono maggiormente il personale delle aziende IT. In particolare, oggetto della ricerca sono state le aziende di medie dimensioni. I

l risultato? Ciò che più occupa i dipendenti sono gestione, aggiornamento, messa in sicurezza e “riassetto” dell’hardware. Solo il 28 per cento del tempo resta a disposizione per attività strategiche e valore aggiunto. Con il maggiore svantaggio che spesso i server siano sovradimensionati o troppo pochi. Pecche che si potrebbero risolvere con il cloud, innanzitutto superando il pregiudizio che lo vuole meno sicuro e affidabile.

Certo sarà compito dei provider attrarre sempre più aziende verso soluzioni pubbliche e sulla nuvola. Del resto, è quello che anche noi stiamo cercando di fare.

Buon decimo anniversario Enigma

In un datacenter come quello di Seeweb, che contiene macchine proprie, blade, macchine fisiche, vps e colocation, si possono trovare una miriade di sistemi operativi, software e hardware differenti. L’aggiornamento della componentistiche e dei sistemi operativi con i relativi programmi sono di nostra competenza per i nostri prodotti, mentre il discorso è diverso in caso di colocation e macchine fisiche. Queste macchine ed il loro aggiornamento sono di esclusiva competenza dei clienti, che possono però richiederci assistenza negli upgrade o delegarcene completamente la responsabilità.

Questo in effetti avviene per la maggior parte dei clienti, che, per ovvie ragioni di sicurezza, affidabilità e performance, si impegnano a mantenere aggiornati in maniera presso che costante l’hardware e il software dei loro prodotti.

Capita però di trovarsi, magari in piena notte o nei turni più disparati, a ricevere dai nostri sistemi di monitoraggio allarmi relative a macchine di cui non sentivi il cliente da tempo, e di cui ti eri quasi dimenticato.

Accedi

Registrati | Password dimenticata?