Tecnologie per IA e ML: contraddizioni e soluzioni

Mentre la domanda di schede grafiche aumenta e i vendor a volte faticano a soddisfarla, assistiamo al contempo anche a un sottoutilizzo di risorse di calcolo nell'IA. Ecco come, grazie a un approccio basato sui principi della Platform Engineering, sia possibile sfruttare al massimo le tecnologie che abilitano il training di modelli
Indice dei contenuti

256%: questo l’aumento dei ricavi trimestrali di Nvidia, azienda punto di riferimento per la domanda dei chip che muovono il mondo dell’intelligenza artificiale e lo sviluppo di modelli linguistici, con un boom particolare dei suoi H100, vista la forte domanda a livello globale in particolare di soluzioni di generative AI.

Del resto, IA e ML crescono sempre di più: nella sola Italia il 2023 ha segnato +52%, con investimenti che ruotano principalmente intorno ad ambiti quali analisi e interpretazione testi per ricerca semantica, classificazione, sintesi e spiegazione di documenti o agenti conversazionali tradizionali. Più debole invece la percentuale di progetti di Intelligenza Artificiale generativa, anche se due aziende italiane su tre hanno già discusso internamente di Generative AI e, tra queste, una su quattro ha avviato una sperimentazione (fonte: Business International).

IA e ML crescono: e cresce l’esigenza di servizi GPU

Con il rapido avanzamento dell’adozione di intelligenza artificiale a livello globale, crescono anche le esigenze computazionali dell’industria: l’addestramento di modelli richiede infatti infrastrutture importanti, di qui la particolare richiesta di schede grafiche on premise e di servizi di cloud GPU.

Eppure, nonostante lo scenario, ci si trova anche di fronte a enormi contraddizioni nell’adozione delle tecnologie abilitanti l’IA: assistiamo infatti a una scarsità di risorse GPU, che non riescono a sostenere il ritmo della richiesta, ma al contempo anche a uno spreco delle stesse.

GPU per IA: tra scarsità e spreco

Da un lato la “fame” di GPU: l’intelligenza generativa, in particolare, ha bisogno di hardware adeguato e schede quali A100 e H100 di Nvidia sono molto ambite. Una fame che spesso i vendor non riescono a soddisfare al 100%, e pare che questo sia dovuto non tanto alla carenza di graphic card quanto alla relativamente lenta struttura dedicata al packaging avanzato dei chip.

Dall’altro lato, assistiamo invece, in alcuni contesti, all’incapacità di utilizzare appieno le schede grafiche per l’IA quando disponibili: i team di sviluppo si trovano spesso davanti a risorse GPU allocate più secondo stime approssimative che non secondo le reali esigenze del momento e, senza sistemi in grado di allocare ed eliminare risorse in modo dinamico, le GPU perdono la loro efficacia, nonostante la loro utilità.

Risolvere le contraddizioni nell’adozione di tecnologie per IA

Le contraddizioni che caratterizzano l’approccio all’uso delle GPU – da un lato scarsità di risorsa, dall’altro un certo spreco in assenza di un modello di deploy delle GPU cloud-oriented – possono essere risolte ricorrendo ai principi della Platform Engineering.

Introducendo strategie di gestione delle risorse più dinamiche e automatizzate, tramite cui astrarre applicazioni complesse e distribuite dall’infrastruttura sottostante, consente, ed efficacemente, di coprire le necessità operative dell’intero ciclo di una applicazione.

In particolare, l’integrazione di Kubernetes nel contesto di IA e ML seguendo i principi dettati dalla Platform Engineering, consente di:

  • allocare dinamicamente le risorse gpu a seconda dei workload;
  • massimizzare l’utilizzo delle risorse computazionali, risparmiando;
  • risolvere il problema del sotto-utilizzo delle GPU;
  • incidere meno sul pianeta, evitando di consumare potenza di calcolo inutilizzata.

Kubernetes GPU: gestione multi-tenancy efficiente

Il servizio di cloud computing Seeweb per il training di modelli e l’inferenza risponde alle esigenze di aziende, sviluppatori e ricercatori garantendo un provisioning e una fatturazione pay-per-use; l’infrastruttura, peraltro, è orchestrabile tramite Terraform e integrabile con Kubernetes.

Attraverso la recente collaborazione con Clastix, azienda italiana pioniera nello sviluppo di soluzioni Kubernetes multi-tenant, le ulteriori evoluzioni del servizio vanno verso una direzione di integrabilità ancora maggiore: grazie a una gestione multi-tenancy al livello di Kubernetes, è possibile facilitare il lavoro dei team di sviluppo e ricerca consentendo una risposta immediata, flessibile e automatizzata alle esigenze computazionali del momento. In questo modo, è possibile abbattere al massimo gli sprechi, sfruttando al meglio l’ambiente altamente performante a disposizione.

Ed è sempre grazie a tale approccio che le soluzioni cloud GPU Seeweb, oltre a offrire un supporto tecnologico efficace e potente, permettono di integrare tra loro ambienti cloud complessi, abilitando i team dedicati allo sviluppo, per esempio, a utilizzare con efficienza infrastrutture di multi-cloud e GPU on premise in modo armonioso, contando sul livello di isolamento e distribuzione necessari, sia in caso di risorse dedicate a specifici progetti che in caso di cluster condivisi.


CONDIVIDI SUI SOCIAL

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

31 − = 24