Cos'è DALL·E 2?

DALL·E 2 è un programma di intelligenza artificiale che crea immagini da descrizioni testuali, rivelato giovedì da OpenAI, una società di ricerca.

Utilizza una versione di addestramento di 12 miliardi di parametri del modello di trasformatore GPT-3 per interpretare gli input del linguaggio naturale e generare le immagini corrispondenti. Ad esempio, quando è stata fornita la frase 'una foto in bianco e nero di un cagnolino', ha prodotto un'immagine in bianco e nero correttamente rappresentata di un Chihuahua.

Il sistema non è perfetto: a volte produce immagini difficili da interpretare o completamente fuori luogo. Ad esempio, quando è stato chiesto di generare un'immagine di 'una persona che cavalca un monociclo su una fune sopra un vulcano', ha prodotto un'immagine (bellissima, secondo me) ma completamente non correlata di un tramonto sull'acqua con una piccola figura in primo piano .

Tuttavia, i risultati sono impressionanti e OpenAI afferma che DALL·E 2 'è il primo modello di intelligenza artificiale a generare immagini da descrizioni testuali in grado di competere con la qualità degli artisti umani professionisti'.

Il sistema è stato addestrato su un set di dati di coppie testo-immagine, costituito da circa 1,3 milioni di immagini e didascalie da Internet che sono state raschiate e curate da OpenAI. I dati di addestramento sono stati quindi utilizzati per mettere a punto il modello GPT-3 in modo che potesse generare immagini dalle descrizioni testuali.

OpenAI afferma che il sistema può generare immagini di 'alta qualità' da un'ampia gamma di descrizioni testuali, comprese quelle astratte, concrete o persino poetiche.

Oltre all'esempio di Chihuahua, altri esempi di immagini prodotte da DALL·E 2 includono un ritratto di Adolf Hitler reso correttamente, un'immagine di un drago fatto di verdure e un'immagine della Gioconda fatta di pane tostato.

Il sistema è anche in grado di generare immagini di cose che non esistono, come un 'floof' (un animale inventato) o un 'tulpa' (una forma pensiero).

Nel complesso, i risultati sono impressionanti e OpenAI afferma che il sistema 'apre nuove possibilità per la generazione di immagini da descrizioni testuali'.

DA E 2 Questo Sistema CLIP converte le informazioni di testo in informazioni visive. Questo è un paradigma codificatore-decodificatore, il che significa che quando viene fornito un testo di input, viene prima convertito in input macchina, quindi elaborato dal sistema e infine passato al decodificatore, che converte i dati codificati in un'immagine.

Cos

Cos'è DALL·E 2?

Questa è l'ultima generazione di DALL·E, un modello di linguaggio generativo che utilizza frasi per creare effetti visivi completamente nuovi. Il DALL E 2 è un enorme modello da 3,5 V, anche se non massiccio come il GPT-3. È interessante notare che è anche più leggero del suo predecessore (12B). In termini di allineamento descrittivo e fotorealismo, DALL·E 2 è migliore del 70% rispetto a DALL·E 2 nonostante le dimensioni maggiori.

DALL.E 2- spiegazione per principianti con esempi

Nello specifico, DALL·E 2 è un modello di sintesi di immagini di testo condizionale gerarchico che combina l'apprendimento profondo per l'elaborazione del linguaggio naturale con la visione artificiale per la generazione di immagini. Il suo obiettivo è addestrare due modelli e il set di addestramento è costituito da immagini e descrizioni accoppiate. Il primo è un a priori che, dato un titolo scritto, può essere addestrato a generare un embed di immagini CLIP. Abbiamo quindi un decodificatore che, quando si incorpora un'immagine CLIP (e didascalia, se presente), può generare un'immagine addestrata.

DALLE 2 viene addestrato utilizzando centinaia di milioni di foto con didascalie da Internet e alcune di queste immagini vengono rimosse e rimescolate per cambiare ciò che il modello apprende. Recupera più opzioni di immagine allegati CLIP e poi usalo decoder passare attraverso ciascuno di essi. Quindi crea un interessante mix di tutte quelle informazioni dato l'input dell'utente.

Esempio DALL È 2

Facciamo un giochino per capire DALL·E. Analizziamolo nei prossimi tre passaggi.

Immagina arcobaleni, nuvole e unicorni che volano nel cielo blu. Immagina come potrebbe essere un'immagine nella tua immaginazione. Le persone sono la cosa più vicina che abbiamo all'analogo perfetto di un'immagine incorporata, e l'immagine che ti è appena venuta in mente ne è un perfetto esempio. Puoi solo indovinare il prodotto finale, ma hai una buona idea di cosa dovrebbe essere incluso. Il modello a priori porta il lettore dalle parole di una frase a una scena nella sua immaginazione.
Ora puoi iniziare a disegnare. Quello che fa unCLIP è convertire la tua immagine mentale in un vero schizzo. Ora puoi ricreare accuratamente un altro personaggio dalla stessa descrizione, con le stesse statistiche di base, ma con uno stile visivo completamente nuovo. DALL·E 2 può anche generare immagini uniche da un'immagine esistente incorporata in questo modo.
Presta attenzione allo schizzo che hai fatto. Questo è ciò che accade quando abbozzi la descrizione di 'un unicorno in mezzo alle nuvole e un arcobaleno si alza contro il cielo'. Ora esamina l'immagine e il testo per determinare cosa illustra meglio l'altro (sole, casa, albero, ecc.) e cosa illustra meglio l'argomento, lo stile, i colori, ecc. Quello che fa CLIP è codificare le caratteristiche. testo e immagini.

Ora che sappiamo cos'è DALL-E, passiamo alla sezione successiva e comprendiamo le sue caratteristiche.

Mancia: Come creare immagini realistiche con il servizio AI DALL-E-2

Features DALL E 2

Di seguito sono riportate le specifiche di DALL·E 2.

Variazioni
Colorazione
Differenze di testo

Parliamo di loro in dettaglio.

SSD vs ibrido

1] Variazioni

DALL·E 2 va oltre la semplice traduzione di una frase in un'immagine. OpenAI può sperimentare il processo generativo, producendo risultati diversi per una data firma grazie a robusti incorporamenti CLIP. Ciò che CLIP 'vede' nella sua 'mente' è ciò che considera importante dall'input (rimane lo stesso per tutte le immagini) e ciò che può essere sostituito (che cambia per immagini diverse). Quando possibile, DALL·E 2 manterrà sia 'informazioni significative... che aspetti estetici'.

2] Colorazione

DALL·E 2 può modificare le foto esistenti con riempimento automatico. Nell'esempio seguente, l'immagine a sinistra è l'immagine originale e le foto al centro e a destra hanno l'elemento disegnato in punti diversi. DALL·E 2 abbina un elemento aggiuntivo al Picture Style. Aggiorna anche trame e riflessi per riflettere il nuovo elemento.

Leggere : Cosa puoi fare con ChatGPT

3] Differenze di testo

DALL·E 2 converte le immagini utilizzando differenze di testo. DALL·E 2 dispone anche di funzionalità avanzate di interpolazione che consentono di modificare gli oggetti. Un utente di Twitter è stato in grado di 'smorzare' il suo iPhone. twitter.com per verificarlo.

Se ti piacciono queste funzionalità, non devi fare altro che andare su openai.com e quindi registrati. Puoi creare un nuovo account o utilizzare i tuoi account Microsoft o Google esistenti per registrarti. Una volta che lo fai, otterrai alcuni crediti gratuiti, se ne vuoi di più, devi pagare per questo.

Queste sono alcune delle caratteristiche di DALL·E 2, ha molti ottimi casi d'uso, tuttavia è sempre consigliabile non fare troppo affidamento sugli strumenti AI. Dopotutto, non sono altro che strumenti utilizzati per portare a termine il lavoro, non possono mai sostituire l'intelligenza emotiva di una persona.

Leggi anche: Le migliori app, software e siti Web di Deepfake.