Education

Quando si tratta di modelli linguistici di grandi dimensioni, less is more!

By The Ninja AI Team

June 12, 2023

4 minuti di lettura

Con l'avvento di qualsiasi nuova tecnologia, il primo tentativo dell'umanità viene in genere raggiunto con la forza bruta. Man mano che la tecnologia si evolve, cerchiamo di ottimizzare e trovare una soluzione più elegante alla svolta epocale. Con gli ultimi progressi nel campo dell'intelligenza artificiale (AI), in particolare lo sviluppo di Large Language Models (LLM), abbiamo fatto passi da gigante negli ultimi anni dimostrando capacità impressionanti. Ma questi progressi sono ancora nella fase di forza bruta di questa evoluzione tecnologica. Abbiamo assistito all'esplosione nel Cambriano di modelli simili a trasformatori, che hanno dato vita a modelli di grandi dimensioni che spaziano fino a trilioni di parametri. Questo è del tutto analogo alla transizione del motore a combustione verso il più efficiente successore elettrico. Questa transizione è stata osservata nelle berline e nel mio giocattolo preferito per hobby: le auto da corsa. Tutto è iniziato negli anni '60 con modelli come la Pontiac GTO, la Shelby Cobra 427 o la Dodge Charger R/T che mostravano la potenza di Detroit con un grande motore a blocco, che consumava benzina, da 0 a 60 MPH in 10 secondi, motori Hemi da strada con un chilometraggio compreso tra 7 e 14 miglia per gallone (MPG). Oggi, con le auto elettriche più recenti, come quella di Rimac Nevera, puoi raggiungere da 0 a 60 MPH in 1,74 secondi raggiungendo 54 MPGe. La forza bruta iniziale era un passo necessario per catalizzare l'efficienza che ne seguì.

È diventato evidente per me che la storia deve ripetersi con i Large Language Models; siamo sul punto di passare da tentativi bruti a soluzioni più eleganti nell'affrontare i modelli di intelligenza artificiale; in particolare ci stiamo allontanando da modelli linguistici più grandi e complessi (il nostro equivalente moderno del motore GTO, Cobra e Hemi) verso modelli più piccoli e molto più efficienti. Ad essere sinceri, promuovere tale efficienza è stato uno dei miei obiettivi principali negli ultimi anni. Lavorando con un incredibile team di colleghi, ho avuto la fortuna di lavorare all'incrocio tra intelligenza artificiale ed informatica in ruoli recenti, progettando macchine accelerate e coprogettando l'infrastruttura AI di Meta. Quando Babak Pahlavan e ho deciso di costruire la nostra attuale impresa — IA NinjaTech — abbiamo inserito un elemento fondamentale del nostro DNA tecnico nella cultura aziendale: l'esecuzione e il funzionamento efficienti della nostra piattaforma di intelligence sin dal primo giorno. NinjaTech sta creando un Assistente Esecutivo AI per rendere i professionisti più produttivi, occupandosi delle attività amministrative come la pianificazione, le spese e la prenotazione dei viaggi, che richiedono molto tempo.

Mentre studiavo modelli autoregressivi e generativi con modelli linguistici che superano centinaia di miliardi di parametri, mi è diventato chiaro che è necessario un modo più efficiente e semplice per svolgere questi compiti amministrativi. Una cosa è cercare di rispondere alle domande «qual è il senso della vita» o chiedere al modello di scrivere il codice Python per un produttore musicale automatizzato. Per molte attività amministrative, sono sufficienti modelli più semplici e meno complessi. Lo abbiamo messo alla prova sfruttando un assortimento di modelli di dimensioni diverse per varie attività amministrative, alcune così piccole ed efficienti da poter essere eseguite sulla CPU! Questo non solo ci impedisce di spendere una fortuna con lavori di formazione su larga scala ad alto costo, ma ci fa anche risparmiare tempo di inferenza non richiedendo costose istanze GPU con ingombri di memoria elevati per i nostri modelli. Proprio come negli esempi dalla combustione all'elettricità sopra riportati, stiamo diventando più efficienti, ma molto rapidamente!

Siamo entusiasti di vedere un passaggio verso operazioni più efficienti da parte del settore e della comunità di ricerca. Uno di questi esempi include Meta's Lama rilasciare quale in mostra il loro modello di parametri 13B supera GPT-3 (175B) nella maggior parte dei benchmark addestrandosi su più dati su un modello più piccolo di un ordine di grandezza. Di conseguenza, Meta Research si è nuovamente superata con LIMA (Less Is More For Alignment), che ha puntato sullo sfruttamento di 1000 suggerimenti «diversi» come metodo intelligente di pre-allenamento per ottenere risultati di alta qualità. Questo è davvero notevole e imperativo per frenare la nostra domanda informatica di intelligenza artificiale, che continua a crescere in modo esponenziale e può avere effetti dannosi sul nostro pianeta a causa dell'impronta di carbonio dell'intelligenza artificiale. Per mettere le cose in prospettiva, uno studio del MIT ha dimostrato che i piccoli modelli di trasformatori con soli 65 milioni di parametri possono consumare fino a 27 kWh e 26 libbre di CO2e per l'addestramento. Questo numero può aumentare notevolmente se si considerano modelli di grandi dimensioni come GPT3, arrivando a ~502 tonnellate in emissioni equivalenti di carbonio solo nel 2022. Inoltre, sebbene l'inferenza richieda meno risorse di calcolo rispetto all'addestramento una volta pubblicato un modello, le sue emissioni iniziano a salire alle stelle da 10 a 100 volte nel corso del suo ciclo di vita rispetto all'addestramento quando si utilizza l'inferenza per l'elaborazione.

Siamo solo sulla punta dell'iceberg con le vaste possibilità dell'intelligenza artificiale; tuttavia, per fare di più con un footprint più ristretto e date le dimensioni e il budget del cluster, è imperativo considerare l'efficienza delle nostre operazioni. Dobbiamo limitare il consumo di gas di Hemi e impiegare modelli più piccoli e più efficienti: ciò migliorerà le operazioni, ridurrà i costi e ridurrà significativamente l'impronta di carbonio dell'IA.

Condividi questo post

Crea la tua prima app in pochi minuti

Descrivi l'attività. Ninja lo trasforma in un'app che funziona passo dopo passo per te. Carta di credito non richiesta.

Prova gratis

Visualizza i prezzi

Ninja's SuperNinja interface showcasing the chat and tasks

Post del blog correlati

Visualizza tutto

Robot che legge un libro in una biblioteca poco illuminata

Usare Ninja come generatore di risposte AI

Fornire risposte affidabili e tempestive alle domande dei clienti è essenziale per le piccole imprese, ma può essere una sfida. La stesura di domande frequenti, articoli del centro assistenza e tutorial richiede tempo e impegno e per molte piccole imprese non è sempre possibile dedicare risorse significative a questo compito. È qui che l'utilizzo di Ninja AI come generatore di risposte AI può fornire una soluzione efficace.

Come utilizzare la ricerca approfondita: le migliori pratiche per creare suggerimenti efficaci

Di recente abbiamo annunciato Deep Research, un potente assistente di ricerca basato sull'intelligenza artificiale progettato per aiutare gli utenti ad approfondire gli argomenti con una ricerca strutturata e adattiva. A differenza dei semplici motori di ricerca o dei modelli di intelligenza artificiale di base, Deep Research è la migliore intelligenza artificiale per la ricerca, analizza le informazioni, segue i collegamenti e perfeziona il suo approccio alla ricerca per fornire risultati davvero approfonditi. Per aiutarti a ottenere il massimo valore da Deep Research, stiamo condividendo le migliori pratiche per creare suggerimenti efficaci che guidino il tuo assistente di ricerca sull'IA a fornire le informazioni più pertinenti e complete.