Se l’impegno di Meta nei confronti del metaverso pare essere su un binario morto, lo stesso non può dirsi nei confronti dell’intelligenza artificiale. La casa madre di Facebook, Instagram e Whatsapp ha infatti presentato un nuovo strumento di IA chiamato CM3leon (da pronunciarsi “chameleon”), che l’azienda definisce un “modello generativo all’avanguardia per testo e immagini”.
L’annuncio è avvenuto tramite un post sul blog del gruppo, contestualmente alla pubblicazione di un libro bianco sugli sviluppi tecnologici dello strumento. Meta tuttavia non ha rivelato quando e se CM3leon sarà rilasciato al pubblico. Lo strumento segna una svolta significativa nel processo di creazione di modelli multimodali, ossia quelli in grado di generare sia testo che immagini. Attualmente infatti esistono o generatori di immagini o generatori di testo, come ChatGPT di OpenAI (in realtà a marzo è stato rilasciato GPT-4, multimodale, ma non ha avuto molto successo).
Il modello di Meta consente l’inserimento e la generazione di testo e immagini, permettendo la creazione di didascalie o la generazione di immagini-testo, utilizzando una tecnica chiamata supervised fine-tuning per addestrare i trasformatori basati sul testo (utilizzando un insieme di immagini e didascalie su licenza di Shutterstock). Secondo quanto comunicano i ricercatori specializzati di Meta: «La messa a punto supervisionata è fondamentale per l’addestramento di modelli linguistici di grandi dimensioni come ChatGPT. Nonostante ciò, la sua applicazione in contesti multimodali rimane largamente inesplorata». Secondo Meta, il risultato è la generazione di immagini da testo a immagine, che si traduce in «immagini più coerenti rispetto alle richieste degli input».
Nel suo comunicato, la società ha incluso esempi complessi di composizione prodotti dal generatore sulla base di richieste come «un piccolo cactus che indossa un cappello di paglia e occhiali da sole con neon nel deserto del Sahara».
In particolare, il modello è stato in grado anche di generare una mano umana piuttosto realistica. Nello stesso post sul blog, Meta ha mostrato un esempio della capacità di modifica delle immagini tramite istruzioni testuali utilizzando come input iniziale la Ragazza con l’orecchino di perla di Vermeer (1665 circa), come si può vedere dall’immagine qui sotto.
CM3leon di Meta vanta anche prestazioni migliori nell’editing con guida testuale, ossia utilizzando messaggi di testo per indicare cosa lo strumento deve aggiungere o rimuovere da un’immagine, grazie alla sua capacità di riconoscere il contenuto visivo (il paragone è rispetto a modelli precedenti come InstructPix2Pix).
Allo stesso tempo, CM3leon porta a casa un notevole risparmio energetico.
Il programma è in grado di fare queste complesse elaborazioni con una massiccia riduzione della potenza di calcolo rispetto ad altri modelli di trasformatori: cinque volte di meno, per la gioia dei più critici nei confronti dell’intelligenza artificiale. Questa potrebbe essere davvero la volta buona per l’evoluzione di Meta, che ha concesso la piena licenza per il suo set di dati da Shutterstock, ottenendo molti elogi dalla comunità web.
Una mossa che, secondo il gruppo, «dimostra che è possibile ottenere prestazioni elevate» distribuendo i dati in maniera molto diversa rispetto a quella «utilizzata da tutti i modelli precedenti». C’è di più: «Rendendo trasparente il nostro lavoro, speriamo di incoraggiare la collaborazione e l’innovazione nel campo dell’A.I. generativa», proseguono i ricercatori.
L’ultimo annuncio segue l’introduzione da parte di Meta di una serie di funzioni di IA generativa sulle sue piattaforme, si pensi agli adesivi generati dall’IA per Messenger, alla sandbox per gli inserzionisti di Facebook e al sistema di generazione di video alimentato dall’IA.