Con l'avvento di qualsiasi nuova tecnologia, il primo tentativo dell'umanità viene in genere raggiunto con la forza bruta. Man mano che la tecnologia si evolve, cerchiamo di ottimizzare e trovare una soluzione più elegante alla svolta epocale. Con gli ultimi progressi nel campo dell'intelligenza artificiale (AI), in particolare lo sviluppo di Large Language Models (LLM), abbiamo fatto passi da gigante negli ultimi anni dimostrando capacità impressionanti. Ma questi progressi sono ancora nella fase di forza bruta di questa evoluzione tecnologica. Abbiamo assistito all'esplosione nel Cambriano di modelli simili a trasformatori, che hanno dato vita a modelli di grandi dimensioni che spaziano fino a trilioni di parametri. Questo è del tutto analogo alla transizione del motore a combustione verso il più efficiente successore elettrico. Questa transizione è stata osservata nelle berline e nel mio giocattolo preferito per hobby: le auto da corsa. Tutto è iniziato negli anni '60 con modelli come la Pontiac GTO, la Shelby Cobra 427 o la Dodge Charger R/T che mostravano la potenza di Detroit con un grande motore a blocco, che consumava benzina, da 0 a 60 MPH in 10 secondi, motori Hemi da strada con un chilometraggio compreso tra 7 e 14 miglia per gallone (MPG). Oggi, con le auto elettriche più recenti, come quella di Rimac Nevera, puoi raggiungere da 0 a 60 MPH in 1,74 secondi raggiungendo 54 MPGe. La forza bruta iniziale era un passo necessario per catalizzare l'efficienza che ne seguì.
È diventato evidente per me che la storia deve ripetersi con i Large Language Models; siamo sul punto di passare da tentativi bruti a soluzioni più eleganti nell'affrontare i modelli di intelligenza artificiale; in particolare ci stiamo allontanando da modelli linguistici più grandi e complessi (il nostro equivalente moderno del motore GTO, Cobra e Hemi) verso modelli più piccoli e molto più efficienti. Ad essere sinceri, promuovere tale efficienza è stato uno dei miei obiettivi principali negli ultimi anni. Lavorando con un incredibile team di colleghi, ho avuto la fortuna di lavorare all'incrocio tra intelligenza artificiale ed informatica in ruoli recenti, progettando macchine accelerate e coprogettando l'infrastruttura AI di Meta. Quando Babak Pahlavan e ho deciso di costruire la nostra attuale impresa — IA NinjaTech — abbiamo inserito un elemento fondamentale del nostro DNA tecnico nella cultura aziendale: l'esecuzione e il funzionamento efficienti della nostra piattaforma di intelligence sin dal primo giorno. NinjaTech sta creando un Assistente Esecutivo AI per rendere i professionisti più produttivi, occupandosi delle attività amministrative come la pianificazione, le spese e la prenotazione dei viaggi, che richiedono molto tempo.
Mentre studiavo modelli autoregressivi e generativi con modelli linguistici che superano centinaia di miliardi di parametri, mi è diventato chiaro che è necessario un modo più efficiente e semplice per svolgere questi compiti amministrativi. Una cosa è cercare di rispondere alle domande «qual è il senso della vita» o chiedere al modello di scrivere il codice Python per un produttore musicale automatizzato. Per molte attività amministrative, sono sufficienti modelli più semplici e meno complessi. Lo abbiamo messo alla prova sfruttando un assortimento di modelli di dimensioni diverse per varie attività amministrative, alcune così piccole ed efficienti da poter essere eseguite sulla CPU! Questo non solo ci impedisce di spendere una fortuna con lavori di formazione su larga scala ad alto costo, ma ci fa anche risparmiare tempo di inferenza non richiedendo costose istanze GPU con ingombri di memoria elevati per i nostri modelli. Proprio come negli esempi dalla combustione all'elettricità sopra riportati, stiamo diventando più efficienti, ma molto rapidamente!
Siamo entusiasti di vedere un passaggio verso operazioni più efficienti da parte del settore e della comunità di ricerca. Uno di questi esempi include Meta's Lama rilasciare quale in mostra il loro modello di parametri 13B supera GPT-3 (175B) nella maggior parte dei benchmark addestrandosi su più dati su un modello più piccolo di un ordine di grandezza. Di conseguenza, Meta Research si è nuovamente superata con LIMA (Less Is More For Alignment), che ha puntato sullo sfruttamento di 1000 suggerimenti «diversi» come metodo intelligente di pre-allenamento per ottenere risultati di alta qualità. Questo è davvero notevole e imperativo per frenare la nostra domanda informatica di intelligenza artificiale, che continua a crescere in modo esponenziale e può avere effetti dannosi sul nostro pianeta a causa dell'impronta di carbonio dell'intelligenza artificiale. Per mettere le cose in prospettiva, uno studio del MIT ha dimostrato che i piccoli modelli di trasformatori con soli 65 milioni di parametri possono consumare fino a 27 kWh e 26 libbre di CO2e per l'addestramento. Questo numero può aumentare notevolmente se si considerano modelli di grandi dimensioni come GPT3, arrivando a ~502 tonnellate in emissioni equivalenti di carbonio solo nel 2022. Inoltre, sebbene l'inferenza richieda meno risorse di calcolo rispetto all'addestramento una volta pubblicato un modello, le sue emissioni iniziano a salire alle stelle da 10 a 100 volte nel corso del suo ciclo di vita rispetto all'addestramento quando si utilizza l'inferenza per l'elaborazione.
Siamo solo sulla punta dell'iceberg con le vaste possibilità dell'intelligenza artificiale; tuttavia, per fare di più con un footprint più ristretto e date le dimensioni e il budget del cluster, è imperativo considerare l'efficienza delle nostre operazioni. Dobbiamo limitare il consumo di gas di Hemi e impiegare modelli più piccoli e più efficienti: ciò migliorerà le operazioni, ridurrà i costi e ridurrà significativamente l'impronta di carbonio dell'IA.



