AI Accelerator: disponibili i nuovi server con card Tenstorrent per l’AI Inference

Con le NPU Tenstorrent ora disponibili sul cloud Seeweb, porti training e inferenza al livello successivo, con il vantaggio di costi ottimizzati e minori consumi energetici
Indice dei contenuti

Lo sviluppo di applicazioni intelligenti richiede capacità di calcolo intensa: il futuro dell’intelligenza artificiale va di pari passo con la disponibilità di potenza computazionale, senza la quale non sarebbe possibile l’apprendimento automatico. 

La tecnologia, in questo ambito, si sta muovendo veloce e, unitamente alle schede grafiche o GPU, si stanno facendo strada anche chip innovativi dedicati proprio ad abilitare progetti di IA e ML.

Le NPU per il training e l’inferenza delle reti neurali

Pensiamo al processo di apprendimento messo in atto dalle reti neurali: queste analizzano immagini di continuo, e dalle immagini estrapolano caratteristiche, creando associazioni tra di loro. Al fine di rendere efficace l’esecuzione simultanea dei calcoli matriciali necessari, entrano in gioco le NPU o Neural Processing Unit. Non solo nella fase di addestramento: anche la successiva fase di inferenza necessita di potenza di elaborazione e, quindi, trova nelle NPU uno strumento di accelerazione IA eccezionale. C’è da sottolineare che le soluzioni di AI Acceleration e quindi le NPU sono particolarmente funzionali nelle fasi di addestramento di piccoli modelli di linguaggio o “Small Language Model”, mentre le fasi di inferenza vengono da queste ben servite anche nel caso di grandi modelli di linguaggio o LLM.

Tra le realtà produttori di NPU, Tenstorrent, che Seeweb ha selezionato per il lancio del suo servizio di AI Accelerator, già disponibile e attivabile.

Tenstorrent e i suoi microprocessori all’avanguardia per IA e ML

Tenstorrent è una nuova, promettente startup canadese che propone chip innovativi dedicati all’IA. Le start-up straniere sono in generale aziende di grandi dimensioni, con finanziamenti multimilionari, e Tenstorrent non fa eccezione: il suo CEO, Jim Keller, ha lavorato in AMD, Apple e quindi Intel. 

Tenstorrent comprende la differenza tra training e inference e quindi sviluppa chip specifici per i due compiti, completi di developer’s kit. Al contrario, la tradizionale architettura GPU non fa grande differenza tra le due fasi. 

L’Architettura Tenstorrent si distingue per l’uso innovativo della tecnologia chiplet nei suoi microprocessori, a base Risc V. 

I chiplet sono unità modulari che possono essere combinate in un unico contenitore per creare microprocessori all’avanguardia. Le memorie possono essere sovrapposte, aumentando l’efficienza rispetto alla superficie, e anche altre unità possono essere impilate. Questo approccio consente una connessione avanzata tra le unità, migliorando le prestazioni e la scalabilità. Tenstorrent ha la sua tecnologia FlexLock

Per la produzione, Jim Keller ha scelto Samsung, proprietaria di uno dei processi più avanzati e grande produttore anche di memorie. La scelta di Tenstorrent punta a una filiera produttiva geograficamente diversificata, con la costruzione di un nuovo impianto a Taylor in Texas.  

Il Risc V, ultima evoluzione – ora open – del progetto di David Patterson, progettista che negli anni ‘80 coniò il termine “Risc”, è oggi al centro di numerosissime iniziative, dall’industria cinese (come alternativa ad Arm) al chip reshoring giapponese dell’iniziativa Rapidus, dal chip europeo EPI (European Processor Initiative) al chip crittografico italiano progettato da Telsy.

L’evoluzione di Tenstorrent

A seguire, un excursus sull’evoluzione di Tenstorrent per i più curiosi:

  • l primo passo concreto è stato nell’AI training con il processore Wormhole, realizzato a 12 nanometri. Questo piccolo chip ha dimostrato l’efficacia dell’architettura Tenstorrent, con un array di core Tensix collegati tramite una rete on-chip (NOC). Wormhole è stato un successo, aprendo la strada alla generazione successiva
  • Black Hole è il successore di Wormhole. Con 128 core Tensix e un NOC potenziato, Black Hole è diventato un prodotto commerciale. Le cronache narrano che Tenstorrent lo abbia sviluppato senza errori al primo tentativo, un risultato eccezionale nell’industria dei semiconduttori.
  • Veniamo ora ai chiplet Quasar, realizzati con il processo Samsung SF4X a 4 nanometri. Quasar è noto per la sua matrice di almeno 80 core, base di Greyskull, il chip rivolto all’AI inference.
  • Nel 2025 è attesa la rivoluzione di Grendel, la terza generazione, che proporrà un pacchetto di calcolo eterogeneo ad alte prestazioni

AI Accelerator: con la scheda Grayskull più prestazioni per l’inferenza

Al pubblico oggi sono disponibili le prime schede Tenstorrent. Due fanno parte della serie Wormhole e due della serie Grayskull, specifiche per l’inferenza.

Immagine della card Grayskull tratta dal sito Tensorrent
Immagine di una card Grayskull tratta dal sito Tenstorrent.

In Seeweb abbiamo deciso di mettere a disposizione delle aziende e dei team di Ricerca e Sviluppo che necessitano di strumenti di accelerazione di Intelligenza Artificiale, un server in cloud che sfrutta la potenza della card Grayskull. Con 65 GB di RAM, 16 vCore e 100 GB di disco, il server ECS1AIA1 è attivabile on demand, con costo a consumo, e rappresenta una valida alternativa ai più “classici” GPU server che forniamo dal 2021 in particolare per specifici casi. 

L’adozione di questo tipo di infrastruttura consente una particolare ottimizzazione di costi e consumi energetici, e rivela la sua efficienza e la sua efficacia per fare inferenza o per accelerare il training di Small Language Model.

Differenze tra GPU e Chip NPU nell’accelerazione dell’AI

La serie grayskul di card AI Accelerator è dunque un valido strumento per avere prestazioni ottimali nelle fasi di manipolazione delle reti neurali, con particolare riferimento agli SLM, prima ancora che agli LLM. Per questi ultimi, i chip AI accelerator sono comunque validi nella fase inferenziale. 

Se volessimo schematizzare in modo semplice la differenza tra GPU e NPU, potremmo dire che, se le GPU sono più “general purpose”, utilizzabili in vari ambiti e per le diverse fasi dello sviluppo IA, i server con NPU, visto anche il quantitativo ridotto di memoria, sono più indicati nei casi di “light machine learning” e di modelli piccoli, soprattutto in fase di inferenza, visto che – come indicato prima -Tenstorrent fa una distinzione significativa tra training e inference

E particolarmente evidente è, qui, anche la differenza di costo e di impatto ambientale: se le GPU hanno costi molto alti, anche in termini energetici, le NPU rappresentano uno strumento di AI acceleration estremamente più economico, nonché con una notevole efficienza energetica. 

Le caratteristiche più distintive delle NPU rispetto alle GPU sono quindi le seguenti:

  • sono più specifiche per le fasi di inferenza, sebbene possano essere utilizzate anche per il training;
  • sono inoltre particolarmente adatte per lo sviluppo di SLM;
  • sono più sostenibili, con minore consumo energetico;
  • sono più economiche.

Accelera l’inferenza con AI Accelerator

Per abilitare le tue attività di inferenza riducendo costi e consumi, sfruttando la novità Seeweb dei chip Tenstorrent, puoi accedere al pannello CloudCenter e avviare in self-provisioning il deploy dell’istanza AI Accelerator Seeweb, che offre le NPU sui suoi server performanti e on demand. In alternativa, puoi contattarci per saperne di più (aicloud@seeweb.ai).

CONDIVIDI SUI SOCIAL

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

5 + 5 =