DeepSeek: perché cambia le regole del gioco AI e fulmina Nvidia

C’è un nuovo, temibile avversario d’Oriente per OpenAI, Anthropic e Alphabet: l’AI cinese DeepSeek. I suoi sviluppatori hanno riportato risultati impressionanti per la versione R1 lanciata lo scorso 20 gennaio, con performance in test di riferimento come AIME 2024 e Math-500, che sono comparabili, se non superiori, a quelle dei maggiori concorrenti. Ma ciò che rende ancora più straordinario il caso di DeepSeek è che il suo sviluppo e addestramento hanno richiesto una frazione della potenza computazionale impiegata dai suoi rivali, con un costo complessivo di circa 5,6 milioni di dollari, contro gli almeno 100 milioni di dollari necessari secondo le stime del Ceo di Anthropic, Dario Amodei.

La prospettiva che i sistemi di addestramento utilizzati per lo sviluppo di DeepSeek possano cambiare per sempre le proiezioni future sulla potenza computazionale di cui i big dell’AI avrebbero avuto bisogno per lo sviluppo di modelli di AI in futuro ha immediatamente colpito le prospettive di ricavo delle società leader nella produzione di chip, a partire da Nvidia, che nell’apertura di seduta del 27 gennaio è tornata ai minimi da settembre con un calo arrivato al 17%. Nel frattempo, DeepSeek è schizzato in cima alle classifiche delle app più scaricate negli store, superando ChatGPT, grazie all’attenzione mediatica attorno alle sue straordinarie capacità, messe a disposizione del pubblico interamente gratis.

La chiave del successo di DeepSeek

Ma esattamente cos’ha permesso a DeepSeek un tale risparmio di potenza di calcolo e denaro? Alla base, spiegano gli autori nel report, ci sono tecniche come il reinforcement learning puro, che consente al modello di auto-evolversi senza l’uso di grandi quantità di dati supervisionati, riducendo così il bisogno di risorse. Inoltre, la cosiddetta distillazione dei modelli, cioè il trasferimento delle capacità di modelli più grandi a versioni più piccole e leggere, ha permesso a DeepSeek di ottenere prestazioni elevate con modelli più compatti, riducendo ulteriormente il consumo di potenza. Tant’è che, rispetto a modelli più grandi, come quelli di OpenAI o GPT, DeepSeek si è distinto per l’efficienza computazionale, ottenendo ottimi risultati con un minore impiego di risorse hardware. Il modello, poi, è stato nutrito con dati iniziali di alta qualità (“cold-start”), il che ha migliorato la sua efficienza riducendo le elaborazioni necessarie.

“Qui dimostriamo come modelli di ragionamento di modelli più grandi possono essere distillati in modelli più piccoli, ottenendo prestazioni migliori rispetto ai modelli più piccoli addestrati tramite RL. Il modello open source DeepSeek-R1, insieme alla sua API, beneficerà la comunità di ricerca per distillare modelli più piccoli e migliori in futuro”, si legge nella ricerca. Nessun difetto? Non proprio. Un limite significativo di DeepSeek-R1 riguarda la sua ottimizzazione, che al momento è principalmente focalizzata su cinese e inglese. Questo può portare a problemi di mescolanza linguistica quando il modello gestisce richieste in altre lingue: ad esempio, potrebbe rispondere in inglese anche quando la domanda è posta in una lingua diversa dall’inglese o dal cinese. Inoltre, DeepSeek-R1 è molto sensibile al come gli vengono richieste le operazioni: quando gli utenti usano esempi specifici per guidare il modello, le sue prestazioni tendono a peggiorare. Meglio descrivere direttamente il problema e indicare chiaramente il tipo di risposta desiderata, senza ricorrere a esempi.

Considerato che la versione R1 di DeepSeek è in circolazione solo dal 20 gennaio, è sicuramente presto per capire se è davvero una svolta, dice a We Wealth il direttore dell’Osservatorio Artificial Intelligence del Politecnico di Milano, Giovanni Miragliotta. “L’azienda che ha sviluppato DeepSeek ha mostrato che, con risorse limitate, è possibile ottenere risultati notevoli, il che dimostra come la necessità spinga verso soluzioni più efficienti. Ma è ancora presto per dire se sarà davvero in grado di competere con i modelli ipertrofici già consolidati. Nonostante i colleghi del laboratorio di ricerca del Politecnico di Milano, stiano monitorando questo modello da qualche giorno, non abbiamo ancora accesso di prima mano per fare un confronto sistematico”, afferma Miragliotta, “i benchmark e i report tecnici sono stati pubblicati dalla stessa società che ha sviluppato DeepSeek, quindi è difficile fare una valutazione oggettiva a questo stadio. Al momento, sembra molto promettente.

Lo schiaffo ai produttori di chip

“Con circa 55 milioni di dollari, DeepSeek ha raggiunto ciò che molti pensavano richiedesse centinaia di miliardi”, ha commentato Giacomo Calef, Country Head Italia di NS Partners. “Nvidia ha a lungo beneficiato della domanda insaziabile per le sue GPU ad alte prestazioni; tuttavia, la capacità di DeepSeek di fornire modelli di AI competitivi utilizzando meno chip e modelli meno recenti ha sollevato preoccupazioni su un potenziale rallentamento della domanda per i prodotti premium di Nvidia”, dice Calef. “Gli analisti prevedono che, se altre startup replicheranno l’approccio orientato all’efficienza di DeepSeek, la crescita dei ricavi di Nvidia potrebbe affrontare significativi ostacoli”.

“Il mercato ha scommesso molto sul fatto che l’aumento delle dimensioni dei modelli fosse direttamente correlato a un miglioramento delle performance. L’efficienza che DeepSeek sembra offrire potrebbe ribaltare questa visione. La capacità di ottenere buoni risultati con un minor impiego di risorse potrebbe far riflettere sull’effettiva necessità di modelli sempre più grandi e complessi”, dice Miragliotta, “gli investitori potrebbero non aver considerato a sufficienza che l’efficienza dell’AI è destinata a diventare un fattore cruciale. Questo potrebbe cambiare le aspettative per le aziende come Nvidia, che hanno beneficiato enormemente della domanda di chip ad alte prestazioni. Non è più sostenibile fare affidamento solo sulla forza bruta dei modelli. I nuovi sviluppi, come quello di DeepSeek, mostrano che possiamo ottenere ottimi risultati anche con modelli più leggeri e un uso più intelligente delle risorse”.

La caduta improvvisa di Nvidia, dunque, potrebbe essere il segno che “le aspettative degli investitori erano tutte misurate sul fatto che più grande fosse il modello, la dimensione del modello, migliore era la performance dell’intelligenza artificiale che si veniva a far emergere dal modello stesso, questa era la tendenza”. Ora, quantomeno, si è insinuato il forte dubbio che non sarà più così.