SuperAgent di Ninja AI sta stabilendo un nuovo punto di riferimento per ciò che un sistema di intelligenza artificiale può ottenere. Combinando tecnologie all'avanguardia ottimizzazione del livello di inferenza con orchestrazione multimodello e raffinamento basato sulla critica, SuperAgent sta fornendo risultati che superano anche i modelli base più diffusi come GPT-4o, Gemini 1.5 Pro e Claude Sonnet 3.5.

Ninja ha ottenuto il benchmark SOTA in Arena-Hard, di cui parleremo in questo post del blog, insieme alle sue prestazioni in altri benchmark.

Che cos'è SuperAgent?

In precedenza ha presentato il nostro SuperAgent, un potente sistema di intelligenza artificiale progettato per generare risposte migliori rispetto a qualsiasi singolo modello da solo. SuperAgent utilizza l'ottimizzazione del livello di inferenza, che prevede la combinazione di risposte provenienti da più modelli di intelligenza artificiale. Ciò significa che invece di affidarsi a un'unica prospettiva, SuperAgent utilizza una combinazione di modelli e quindi perfeziona l'output utilizzando un modello critico per fornire risposte più complete, accurate e utili. Il risultato è un livello di qualità superiore ai tradizionali approcci a modello singolo.

Il SuperAgent è un'estensione naturale della nostra funzionalità multimodello e della nostra convinzione che dovresti avere una scelta in quale modello utilizzare. Basandosi sulle fondamenta che abbiamo creato per i nostri abbonati Pro e Ultra, SuperAgent fa un ulteriore passo avanti allineando questi modelli senza soluzione di continuità. Ciò significa che invece di limitarsi a scegliere un modello, SuperAgent li riunisce per fornire le risposte più complete, dettagliate e ottimizzate possibili.

Abbiamo creato tre versioni di SuperAgent per bilanciare velocità, profondità e costi.

SuperAgent Turbo

Per risposte rapidissime. Turbo offre risposte istantanee utilizzando i nostri modelli personalizzati e ottimizzati internamente ed è disponibile per tutti gli abbonati.

SuperAgent Nexus

La versione più robusta di SuperAgent, fornisce risposte approfondite e complete. Combina diversi modelli di intelligenza artificiale di punta per approfondimenti di livello esperto ed è disponibile per gli abbonati Ultra e Business.

SuperAgent-R 2.0

Per problemi complessi che richiedono un ragionamento avanzato. SuperAgent-R è basato su DeepSeek R1 distillato su Llama 70B ed è disponibile per gli abbonati Ultra e Business.

Available versions of SuperAgent

Perché abbiamo testato SuperAgent rispetto ai benchmark del settore

Per valutare le prestazioni del SuperAgent abbiamo condotto test all'avanguardia su diversi modelli fondamentali come GPT-4, Gemini 1.5 Pro e Claude Sonnet 3.5. Test di benchmark come questo sono una pratica comune in informatica e ci aiutano a valutare il nostro approccio all'IA rispetto all'approccio a modello singolo.

Ecco i benchmark che abbiamo utilizzato:

Arena-Hard-Auto (Chiacchierare)

Un benchmark progettato per testare capacità conversazionali complesse, concentrandosi sulla capacità di gestire scenari di dialogo complessi che richiedono una comprensione sfumata e una consapevolezza contestuale.

MATEMATICA-500

Un benchmark volto a valutare le capacità di ragionamento matematico e di risoluzione dei problemi di un'intelligenza artificiale, concentrandosi in particolare su problemi complessi che coinvolgono matematica di livello superiore.

Livecodebench (codifica)

Un test di codifica che misura la capacità di un'intelligenza artificiale di comprendere e generare codice. Questo benchmark valuta la capacità del modello di scrivere codice accurato in risposta a una serie di richieste, comprese le sfide di programmazione di base e intermedie.

Livecodebench Hard (codifica)

Un'estensione di Livecodebench, incentrata su attività di codifica avanzate che comportano complesse sfide algoritmiche e di risoluzione di problemi. È progettato per superare i limiti delle capacità di codifica di un'intelligenza artificiale e valutarne la capacità di gestire scenari di programmazione più difficili.

GPQA (Risoluzione generale dei problemi e risposta alle domande)

Un benchmark che mette alla prova le capacità di ragionamento generali di un'intelligenza artificiale richiedendole di rispondere a domande che coinvolgono logica complessa a più fasi, richiamo fattuale e inferenza.

AIME2024 (Inferenza avanzata e valutazione matematica)

Un benchmark incentrato sul ragionamento avanzato e sulla valutazione matematica. Valuta la capacità del modello di gestire problemi che richiedono calcoli sia logici che numerici.

Questi benchmark rappresentano un modo completo e standard di settore per valutare vari aspetti delle prestazioni dell'IA, consentendoci di valutare le capacità di SuperAgent rispetto ai modelli autonomi.

SuperAgent supera i modelli fondamentali su Arena-Hard

Come abbiamo detto, SuperAgent ha ottenuto risultati eccezionali rispetto a tutti i modelli fondamentali in diversi benchmark. Diamo un'occhiata più da vicino a Arena-Hard con controllo senza stile, uno dei parametri di riferimento più importanti per valutare l'efficacia di un sistema di intelligenza artificiale nella gestione delle attività quotidiane più comuni. Questo benchmark è essenziale per comprendere le prestazioni pratiche dell'IA e SuperAgent si è distinto, dimostrando capacità ben superiori a quelle di altri modelli leader.

I risultati: SuperAgent ha battuto tutti gli altri modelli fondamentali misurati da Arena-Hard.

Arena-Hard

SuperAgent Accuracy on Arena-Hard

 

Vogliamo sottolineare che SuperAgent di Ninja ha superato o1-mini e o1-preview di OpenAI, due modelli di ragionamento. Questo è molto interessante in quanto o1-mini e o1-preview non sono solo modelli di intelligenza artificiale, sono sistemi di ragionamento avanzati che, in generale, non vengono paragonati a modelli fondamentali come Gemini 1.5 pro o Claude 3.5. Il fatto che Ninja funzioni meglio di due modelli di ragionamento dimostra che l'approccio SuperAgent, che combina i risultati di più modelli utilizzando un modello critico, può produrre risultati superiori a quelli di un singolo sistema di intelligenza artificiale.

SuperAgent eccelle su altri benchmark

Oltre ad Arena-Hard, la versione Apex di Ninja's SuperAgent ha dimostrato prestazioni eccezionali in matematica, codifica e risoluzione generale dei problemi. Questi risultati evidenziano l'eccezionale capacità di SuperAgent di affrontare problemi complessi, dimostrando logica e precisione avanzate rispetto ad altri modelli. La sua capacità di generare codice accurato e funzionale ha costantemente superato gli altri modelli testati.

LiveCodeBench - Codifica

SuperAgent Accuracy on LiveCodeBench - Coding

LiveCodeBench - Programmazione - Difficile

SuperAgent Accuracy on LiveCodeBench - Coding - Hard

AIME2024 - Ragionamento

SuperAgent Accuracy on AIME2024 - Reasoning

GPQA - Ragionamento

SuperAgent accuracy on GPQA - Reasoning

Matematica - 500

SuperAgent Accuracy on Math - 500

In tutti i benchmark, SuperAgent ha mostrato un livello di prestazioni che ha superato molti modelli fondamentali ben noti, a volte battendo i modelli di ragionamento più avanzati sul mercato.

Considerazioni finali

I risultati parlano da soli: SuperAgent è un passo avanti nel modo in cui pensiamo alle soluzioni basate sull'intelligenza artificiale. Sfruttando più modelli, un sistema di critica raffinato e un'ottimizzazione avanzata del livello di inferenza, SuperAgent fornisce risposte più approfondite, accurate e pertinenti alle vostre esigenze. Che abbiate bisogno di una soluzione di codifica complessa, di un ragionamento avanzato o semplicemente del miglior supporto conversazionale possibile, SuperAgent ha dimostrato di poter superare i tradizionali approcci a modello singolo.

Mentre continuiamo a innovare, il nostro impegno rimane lo stesso: fornire il sistema di intelligenza artificiale più intelligente, efficiente e potente possibile, perché risposte migliori significano un'esperienza migliore per te.