Con il rapido avanzamento dell’intelligenza artificiale (AI), la necessità di nuove unità di elaborazione specializzate è diventata sempre più evidente. L’ecosistema è sempre più complesso e offre continue suggestioni all’innovazione.
Tradizionalmente, per gestire i carichi di lavoro legati all’AI sono state usate le CPU (Central Processing Unit) e le GPU (Graphics Processing Unit), per poi arrivare alle NPU (Neural Processing Unit). Il termine “neural” fa riferimento a un’elaborazione definita in quel modo per analogia con il funzionamento del cervello. Rispetto alle GPU, le NPU mettono a disposizione prestazioni migliorate e efficienza energetica.
L’efficienza è molto importante per l’enorme dispendio energetico delle elaborazioni d’oggi. Ma non si deve vedere solo il data center: il consumo è un fattore critico anche in molte altre situazioni quali ad esempio IoT, applicazioni embedded, dispositivi mobili e sistemi edge.
Le NPU stanno diventando sempre più comuni anche nei dispositivi consumer, come wearables, smartphone, tablet e smart home devices. Questi processori specializzati sono progettati per accelerare le operazioni di intelligenza artificiale (AI) direttamente sui dispositivi, migliorando l’efficienza e le prestazioni.
Nel futuro, il panorama dell’elaborazione sarà destinato a cambiare ancora, con nuove soluzioni che certamente si affiancheranno a quelle precedenti.
NPU: tecnologia e funzionamento
Le NPU sono progettate specificamente per gestire le operazioni matematiche richieste dalle reti neurali, come la moltiplicazione di matrici e l’addizione di vettori multidimensionali che sono alla base degli algoritmi di deep learning.
La loro architettura è caratterizzata da un elevato grado di parallelismo, permettendo l’elaborazione simultanea di un gran numero di operazioni su grandi moli di dati. Questo è fondamentale per il training e l’inferenza dei modelli di machine learning. Anche la memoria recita un ruolo importante: le NPU sono spesso dotate di memoria ad alta velocità, con latenza minore di quelle tradizionali, per un grande miglioramento delle prestazioni complessive.
Le memorie più comuni usate per GPU sono GDDR, HBM ed SRAM.
Le memorie più comuni usate per NPU sono HBM, LP/DDR, eD/RAM, S/RAM e flash.
Training, fine tuning, inferenza e RAG
Vediamo ora le quattro principali fasi di un modello AI, ovvero training, fine-tuning, inferenza e RAG.
Il training è il processo iniziale di addestramento di un modello di intelligenza artificiale. Il modello riceve grandi quantità di dati grezzi, li sistematizza in senso generale e ne stabilisce i riferimenti interni: in una parola, “apprende”. Questa fase oggi può costare anche svariate centinaia di milioni di dollari in noleggio o uso di GPU.
Una volta addestrato, il modello è pronto per il fine-tuning. Si tratta di un processo di raffinamento del modello pre-addestrato su un nuovo dataset specifico per un’applicazione particolare. Questo consente di adattare un modello generico a esigenze specifiche senza ricominciare da zero. Nella stragrande maggioranza dei casi, le aziende o le istituzioni che dichiarano di avere un proprio modello hanno in realtà fatto il fine-tunig su un modello sviluppato ed addestrato da altri e preso in licenza (onerosa o gratuita: c’è molto open source software).
Il sistema è pronto per una specifica applicazione: è il momento dell’inferenza. Il modello genera risultati a partire da input non visti durante il training e permette di fare previsioni o classificazioni sui nuovi dati. Questa fase può essere eseguita con architetture che fanno un uso minimo o anche nullo di GPU.
Il RAG (Retrieval-Augmented Generation) è la quarta fase, rilevante per sistemi documentali. Combina tecniche di recupero di informazioni e generazione di testo. Usa un modulo di recupero per ottenere informazioni rilevanti da un corpus di dati e un modulo di generazione per produrre risposte coerenti e dettagliate, migliorando la qualità delle risposte in applicazioni come i chatbot o la compilazione di nuovi testi amministrativi o legali che tengano in conto il corpus di documenti esistente e per lo più mai letto dalla maggior parte degli esperti.
Differenze tra NPU e GPU
Parliamo ora delle attuali caratteristiche dell’elaborazione dati di aziende e organizzazioni che necessitano di intelligenza artificiale. I carichi di lavoro AI nelle aziende variano ampiamente ma condividono alcune caratteristiche comuni: elevato volume di dati (training, inferenza); complessità computazionale, real time o near real time, privacy e security.
I casi di straordinario successo dell’AI nella vita quotidiana sono molti, dall’elaborazione delle immagini mediche ad analisi dati precise e in tempo reale. Un caso particolarmente rilevante è però l’uso dell’AI nella cybersecurity. Minacce vecchie e nuove, varianti e diffusione rendono impossibile una reale efficacia dei sistemi tradizionali, costruiti nel tempo come mattoncini di dimensione variabile e quindi impossibili da vedere come sistema unico.
Molte sono le migliorie rese disponibili dalle nuove tecnologie in ciascun passo di questo settore. L’esempio più evidente dell’AI nella cybersecurity è l’istruzione di un chatbot specifico. Allenandolo con le informazioni di tutti i componenti, il chatbot AI fornisce una visione unica sui dati integrati e in linguaggio naturale. L’esperto di sicurezza può quindi ridurre la conoscenza sui singoli sistemi e concentrarsi sulla controffensiva alle minacce.
Processori con NPU
Tutte le principali aziende produttrici di chip hanno sviluppato i loro dispositivi basati su NPU: Intel (processori Core Ultra con AI Boost), AMD (processori EPYC, FPGA Xilinx), NVIDIA (GPU A100 Tensor Core, CPU Grace), Microsoft (Brainwave), Apple (chip serie A e serie M).
Diverse altre aziende hanno sviluppato processori con NPU; diamo un’occhiata ad alcuni esempi.
- Amazon da Gravitron in poi. A partire dal core Arm, Amazon ha sviluppato famiglie di chip quali Gravitron, Trainium, Inferentia e Nitro. Insieme, coprono gran parte delle esigenze dei data center, poiché l’architettura combina i vantaggi di CPU, GPU e FPGA. Le applicazioni principali sono il riconoscimento delle immagini, l’elaborazione del linguaggio naturale, i sistemi di raccomandazione e l’assistenza alla guida (anche autonoma) nei veicoli. Sono quindi adatti all’uso in dispositivi edge e data center.
- Etched. Le NPU di Etched sono progettate per massimizzare l’efficienza energetica pur mantenendo alte prestazioni. Usano un’architettura innovativa che consente di ridurre il consumo di energia senza compromettere la velocità di elaborazione. Questa combinazione è particolarmente utile per applicazioni in dispositivi portatili e sistemi embedded.
- Google TPU (Tensor Processing Unit). Le TPU di Google sono specificamente progettate per accelerare le operazioni di machine learning. Sono usate principalmente nei data center di Google per migliorare l’efficienza e la velocità di elaborazione delle applicazioni AI.
- Huawei Ascend. La serie Ascend di Huawei include processori con NPU che supportano un’ampia gamma di applicazioni AI, dalla visione artificiale alla comprensione del linguaggio naturale. Sono noti per la loro capacità di eseguire inferenze in tempo reale con un consumo energetico contenuto.
- NVIDIA Jetson. Le soluzioni NVIDIA Jetson integrano NPU per offrire potenti capacità di AI in un formato compatto. Sono ampiamente usate in robotica, droni e applicazioni edge grazie alla loro efficienza e potenza di calcolo.
- Tenstorrent. Le NPU di Tenstorrent sono note per le loro elevate prestazioni e flessibilità. Usano una rete di interconnessione avanzata che permette di gestire carichi di lavoro AI complessi con grande efficienza. Una caratteristica distintiva è la capacità di scalare in modo efficace da dispositivi edge a data center di grandi dimensioni.
- Qualcomm.
- Oltre ai chip per dispositivi portatili e indossabili, questa azienda fornisce il portafoglio Cloud AI di schede di inferenza, pronte per distribuire una soluzione di inferenza AI ottimizzata in termini di prestazioni e costi.
- L’ultima famiglia, Cloud AI 100 Ultra, soddisfa i requisiti unici per la scalabilità dei carichi di lavoro AI classici e generativi, che vanno dalla visione artificiale e dall’elaborazione del linguaggio naturale agli LLM basati su trasformer.
Direzioni future dell’elaborazione
Se inizialmente le architetture con CPU, GPU ed eventualmente TPU sono state usate per qualsiasi carico di lavoro AI, successivamente si è capito che l’addestramento (training) richiede una certa architettura, mentre l’esecuzione (inference) è molto migliore con una architettura completamente diversa. Si parla di architettura perché oltre alle unità di elaborazione sono rilevanti anche memorie, connessioni e storage. Recentemente, visti i costi e le code di attesa per l’acquisto, stanno aumentando di rilevanza i servizi di ottimizzazione delle prestazioni di data center che eseguono carichi AI.
Per testare l’efficacia delle NPU in cloud, puoi chiedere un Cloud Server NPU per il tempo che ti occorre cliccando qui.
Articoli correlati:
- A cena con l’AI: tutti i superchip sul mercato
- I trend del mercato Cloud nel 2018: la crescita continua
- Seeweb GPU cloud computing anche con AMD Instinct MI300X
- L4, la Gpu di Nvidia ideale per la business AI
- Kubernetes Storage: scalabilità e ottimizzazione per le applicazioni cloud-native
- Cos’è il modello IaaS


