generatore immagini ia

Creare immagini con l’intelligenza artificiale: guida al prompt e tool gratuito

Come usare l’intelligenza artificiale generativa per creare immagini perfette a partire da una descrizione del testo: quali keyword e parametri usare nel prompt e quale sito gratuito puoi utilizzare
Indice dei contenuti

Creare immagini con l’intelligenza artificiale è una cosa oggi accessibile a tutti. Ma se avete provato a sperimentare con qualche strumento pubblico spesso i risultati non sono all’altezza dei fantastici esempi che vediamo pubblicati sui social media, dalle immagini così iperrealistiche da sembrare fotografie alle illustrazioni che rispecchiano uno specifico stile artistico.

In teoria tutto dovrebbe essere molto semplice. Nella generazione AI text-to-image si inserisce una descrizione testuale dell’immagine che desideriamo ottenere (il prompt), e in una decina di secondi il modello ci presenta il risultato che possiamo scaricare sul nostro computer o telefono. Nella pratica, a volte ci aspettiamo una fotografia realistica e otteniamo invece un quadro impressionista, nell’immagine generata sono presenti oggetti o persone che vogliamo rimuovere oppure alcuni soggetti hanno caratteristiche deformi. Un caso tipico è la rappresentazione di mani con più dita del dovuto, in posizioni assurde (in questi casi si parla di allucinazioni della IA).

In questo articolo vedremo i principi di base da conoscere per generare immagini con intelligenza artificiale, e l’importanza di dare istruzioni specifiche attraverso esempi di prompt per ottenere i risultati desiderati, anche intervenendo per modificare un’immagine generata che non ci soddisfa.

Parleremo anche degli strumenti per creare prompt per la generazione di immagini e di come mettere a frutto il tutto attraverso un modello di intelligenza artificiale per immagini gratuito messo a disposizione da Seeweb.

Intelligenza artificiale e immagini: come funzionano i modelli

Per usare al meglio i tool di IA che permettono di generare immagini è importante capire come funzionano. I modelli sono addestrati elaborando milioni di immagini a cui sono state associate delle parole chiave relative al soggetto ritratto (un cane, un gatto), all’ambientazione (al mare, in un ufficio…), allo stile (astratto, arte digitale, barocco…), alla tecnica (pittura a olio, fotografia, carboncino…) e persino – leggendo le istruzioni Exif inserite nei file dalle fotocamere – informazioni tecniche sulle impostazioni di scatto (obiettivo, esposizione, apertura del diaframma…).

Quando inseriamo queste informazioni in un prompt, stiamo focalizzando l’attenzione del modello su immagini che corrispondono a queste caratteristiche, e che verranno miscelate tra loro in una rete neurale per generare un’immagine sintetica che soddisfi il più possibile la richiesta.

Più in particolare, il modello Stable Diffusion parte da un’immagine casuale e cerca di ridurre il rumore operando in più passaggi fino a generare un’immagine che corrisponda ai concetti espressi nella richiesta e per i quali è stato preaddestrato.

In questa fase gioca un ruolo importante il concetto di “attenzione”, che è alla base del funzionamento dei modelli linguistici moderni. In poche parole, il modello concentrerà la sua attenzione ad alcuni elementi della richiesta in base alla loro importanza nel contesto, ma anche attribuendo un “peso” specifico ad alcune parole.

I prompt migliori per generare immagini IA

Per fornire il contesto giusto e istruire il modello per dare la giusta attenzione alle diverse parole che compongono la nostra richiesta, è necessario che il prompt sia composto in base ad alcuni criteri generali, e sia poi arricchito con istruzioni specifiche della singola applicazione.

L’arte di confezionare richieste efficaci per far fare ai modelli di IA quel che desideriamo è chiamata anche prompt engineering, ed è una competenza che sarà sempre più importante nel lavoro quanto nella vita privata.

In linea generale, e tenendo presente che il modello non comprende le richieste come lo farebbe un umano, ma deve sintonizzare la sua attenzione su parole e concetti, dobbiamo cercare di dare istruzioni chiare e concise, dosando nomi e aggettivi senza divagare troppo.

Bisogna d’altro canto cercare di essere dettagliati, fornendo anche una serie di altre informazioni e istruzioni che il modello dovrà seguire per generare l’immagine che desideriamo ottenere. Queste istruzioni specifiche, chiamate anche keyword, dipendono dal modo in cui sono stati classificati i dati con cui il modello specifico è stato addestrato.

Possiamo riassumere le keyword in alcune categorie principali, delle quali almeno soggetto, tecnica e stile dovrebbero essere sempre presenti. Possiamo poi provare ad aggiungere keyword di affinamento per modificare il risultato e avvicinarci sempre più al risultato sperato.

A ciascuna keyword è possibile attribuire un peso, per esempio per aumentare o diminuire l’importanza, le dimensioni o alcune caratteristiche del soggetto dell’immagine, e anche inserire un prompt negativo, per correggere alcuni errori o eliminare alcuni elementi.

Prompt per Stable Diffusion: categorie e keyword

Di seguito vedremo in dettaglio come comporre un prompt per Stable Diffusion versione 2, un modello open source molto efficace che è possibile testare gratuitamente nel servizio Seeweb Image Generator disponibile all’indirizzo demo.seeweb.ai (basta solo registrarsi sul sito) ma può anche essere installato su un proprio server (ne parliamo più avanti).

Una raccomandazione: Stable Diffusion è addestrato in lingua inglese, per cui sarà necessario che il prompt sia scritto in questa lingua. È comunque possibile comporre il prompt in italiano e poi usare un traduttore automatico.

Soggetto

Le istruzioni sul soggetto devono essere sufficientemente specifiche. Non limitiamoci a chiedere l’immagine di un cane, ma cerchiamo di aggiungere particolari e descrivere – succintamente – l’intera scena. Per esempio: “un golden retriever felice si scrolla di dosso l’acqua su un prato fiorito dopo essere uscito da un torrente. Sullo sfondo si vedono montagne rocciose e alcune case di montagna”.

Tecnica o mezzo (medium)

La tecnica o il mezzo su cui dovrebbe essere rappresentata l’immagine (fotografia, pittura a olio, carboncino, arte digitale…). Esempi: portrait, digital painting, photograph, concept art.

Stile (style)

Lo stile artistico di riferimento. Esempi: hyperrealistic, modernist, impressionist, art-noveau

Artista

Si possono ottenere risultati molto divertenti chiedendo di imitare lo stile di uno specifico artista. Stable Diffusion XL “conosce” circa 3900 diversi artisti. Combinare in modo incoerente stile e artista (per esempio art-noveau e Picasso) potrebbe portare a risultati altrettanto incoerenti, ma in qualche caso anche molto particolari e originali.

Siti per la condivisione di immagini

Molti dei dataset usati dagli sviluppatori dei modelli provengono da siti per la condivisione di immagini, come DeviantArt (arte digitale), Pixabay (fotografie stock) o Pixiv (anime), ciascuno dei quali ha un determinato stile che può essere richiamato semplicemente citando il nome del sito.

Risoluzione

Rientrano in questa categoria le keyword che indicano un livello di qualità dell’immagine, ma anche altre caratteristiche come l’illuminazione e la spazialità. Alcune keyword di questo tipo sono 8k, sharp focus, vray e unreal engine (gli ultimi due per rendering 3D di effetto).

Illuminazione

Le keyword che descrivono la luce, come rim lighting (con la luce che ritaglia i contorni del soggetto), cinematic, crepuscolar rays, golden hour

Colore

Oltre ai singoli colori, è possibile anche usare keyword associate a toni o colori caratteristici, come vintage, psychedelic.

Keyword derivate dalla fotografia

È possibile anche fornire indicazioni che derivano dalle tecniche fotografiche, per esempio l’angolo di ripresa (eye-level angle, low-level per riprese dal basso, bird’s eye view per panoramiche dall’alto), la distanza di ripresa (close-up, long-shot…), il tipo di obiettivo (wide-angle per il grandangolo, telephoto per il teleobiettivo…), la velocità di scatto (shutter speed 1/500s).

Sebbene sia possibile addirittura indicare specifici modelli di fotocamere od obiettivi, spesso spingersi così nel dettaglio rischia di non produrre risultati soddisfacenti, perché riduce troppo il campo delle immagini che il modello può usare per rispondere alla nostra richiesta.

I pesi delle keyword all’interno del prompt

Come annunciato, possiamo indicare al modello in modo preciso quale peso deve dare alle diverse keyword contenute nel prompt, per fare in modo che metta in risalto alcuni soggetti o caratteristiche rispetto ad altre.

Prendendo 1 come valore standard, possiamo usare valori tra 0 e 1 per rendere il soggetto più piccolo o meno importante, e valori tra 1 e 2 per renderlo più grande. Il valore deve essere inserito subito dopo la keyword, senza spazi, ed è riferito solo all’ultima parola.

Per esempio, athlete rasing a trophy1.3 produrrà un’immagine di un’atleta che solleva una coppa grande. Usando le parentesi possiamo però attribuire il peso a un intero gruppo di keyword: (athlete raising a trophy)1.3 aumenterà le dimensioni di entrambi i soggetti, atleta e coppa.

Possiamo anche distribuire i pesi in modo specifico: (athlete raising a cup1.1)1.3 produrrà un’immagine in cui atleta e coppa sono più presenti, e una coppa ancor più grande.

Un altro modo per aumentare il peso è quello di aggiungere uno o più + o – alla fine della keyword, sempre senza spazi. Un singolo + aumenterà il peso di 0.1, ma i segni successivi generano un aumento esponenziale che più essere difficile dosare in modo efficace.

I pesi possono essere applicati anche alle keyword viste nel paragrafo precedente. Tenendo presente che il peso si riferisce solo all’ultima parola, se usiamo una keyword composta da più parole (per esempio il nome completo di un artista o fotografo) sarà necessario racchiuderla tra parentesi.

Il prompt negativo nella generazione di immagini

A volte vogliamo eliminare una caratteristica di un’immagine generata dalla IA, in particolare quando soffre di un problema definito allucinazioni della IA. Uno dei casi più famosi avviene con le mani, che possono avere più dita del dovuto, ma accade anche che volti o persone risultino completamente deformi.

O possiamo anche voler eliminare del tutto alcune caratteristiche che il modello ha aggiunto, come la pioggia o la presenza di persone o alberi in un’immagine in cui ci interessava solo l’architettura di un edificio.

Creare un modello privato aziendale

Per un utilizzo avanzato e professionale della generazione di immagini con intelligenza artificiale i servizi pubblicamente accessibili potrebbero essere toppo limitati.

I servizi gratuiti possono essere lenti o non offrire alcuna garanzia sulla disponibilità del servizio o le sue caratteristiche. I creatori di un servizio potrebbero decidere di porre limitazioni all’utilizzo, per esempio limitare il numero di immagini che possono essere generate al mese o la risoluzione. I servizi a pagamento, invece, potrebbero generare costi troppo alti per un utilizzo intensivo.

In entrambi i casi, l’utilizzo di un servizio cloud potrebbe violare le regole interne per la gestione delle informazioni aziendali che i dipendenti inseriscono nel prompt.

Anche per questi motivi aziende e professionisti scelgono di installare una propria versione privata dei modelli di intelligenza artificiale, che possono controllare in ogni aspetto: funzionalità, disponibilità e gestione dei dati.

I modelli di intelligenza artificiale richiedono hardware specializzato, in particolare per quanto riguarda le GPU. Si tratta di hardware difficile da reperire al momento, e con un costo che potrebbe non essere giustificato per un utilizzo sporadico o per fare un test che potrebbe non portare ai risultati sperati.

Fortunatamente, è possibile creare un server con GPU ottimizzate per l’intelligenza artificiale anche in cloud, pagando un costo modesto e proporzionato all’effettivo utilizzo, solo per il tempo in cui viene effettivamente usato.

Il servizio Cloud Server GPU offre tre diversi modelli di scheda (Nvidia A100, Quadro RTX A6000 e L4) e un quarto in arrivo (Nvidia H100) disponibili con fatturazione oraria, con configurazione e supporto dedicato per applicazioni di machine learning.

[Scopri di più]

CONDIVIDI SUI SOCIAL

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

− 6 = 4