In NinjaTech AI, ampliamo costantemente i limiti di ciò che è possibile con agenti di intelligenza artificiale autonomi. SuperNinja, la nostra piattaforma avanzata per agenti generali, implementa un Cloud Computer (VM) dedicato per ogni attività, consentendo un ciclo completo di Research → Build → Deploy per codice complesso, dashboard live, siti Web e altro ancora. Il nostro scaffold è progettato specificamente per sfruttare la chiamata, la codifica e il ragionamento degli strumenti a lungo termine, funzionalità che implicano il recupero di informazioni in più fasi, ciò che chiamiamo Deep Research.

Oggi siamo entusiasti di condividere la nostra analisi completa del modello Sonnet 4.5 appena lanciato da Anthropic come intelligenza di base alla base di SuperNinja. Dopo rigorosi test effettuati attraverso i nostri benchmark interni e gli scenari reali dei clienti, possiamo affermare con sicurezza: Sonnet 4.5 è una magnifica bestia che rappresenta un significativo passo avanti per le prestazioni degli agenti autonomi.

Principali risultati a colpo d'occhio

  • Percentuale di completamento più alta del 12.5% nei nostri test interni rispetto a Sonnet 4.0
  • Completamento delle attività più veloce del 20% grazie a un minor numero di errori e a un migliore ragionamento
  • 18,2% di risparmio sui costi attraverso un utilizzo più efficiente dei token
  • Output di qualità visibilmente superiore con un migliore seguito delle istruzioni
  • Il modello con le migliori prestazioni che abbiamo testato fino ad oggi nei nostri benchmark

Perché questo è importante per gli utenti di SuperNinja

L'architettura unica di SuperNinja richiede prestazioni eccezionali dal modello linguistico sottostante. A differenza dei chatbot tradizionali che gestiscono domande semplici, SuperNinja affronta flussi di lavoro complessi e in più fasi che possono comportare dozzine o addirittura centinaia di decisioni sequenziali. Ogni attività richiede che il modello pianifichi strategicamente, esegua con precisione, verifichi i risultati e si adatti dinamicamente in caso di sfide.

I miglioramenti che stiamo vedendo con Sonnet 4.5 si traducono direttamente in vantaggi tangibili per i nostri utenti. Tempi di completamento più rapidi consentono di ottenere risultati più rapidamente. Tassi di completamento più elevati significano meno attività fallite e meno frustrazione. Una migliore qualità dei risultati significa risultati più raffinati e pronti per la produzione. Inoltre, un utilizzo ridotto dei token significa costi inferiori senza sacrificare la capacità.

Visual of parallel tasks being completed by SuperNinja

Test di benchmark

Fase 1: GAIA Smoke Test

Iniziamo il nostro processo di valutazione del modello con il benchmark GAIA, un impegnativo test di ragionamento in più fasi e utilizzo di strumenti progettato per misurare le capacità degli agenti nel mondo reale. Sonnet 4.5 ha ottenuto un miglioramento della precisione di circa il 5% rispetto a Sonnet 3.7 e di circa il 7% rispetto a Sonnet 4.0 su questo benchmark. Questo lo rende il modello con le migliori prestazioni che abbiamo testato fino ad oggi su GAIA.

Fase 2: Suite di benchmark interna

Dopo aver superato il test del fumo GAIA, siamo passati al nostro benchmark interno proprietario: la nostra analisi ha rivelato che AgencyBench [1,2] rappresenta da vicino la distribuzione delle domande reali dei clienti che osserviamo in produzione. Sfruttando questo allineamento, abbiamo sviluppato la nostra suite di test interna seguendo la struttura e la distribuzione di AgencyBench, scalandola per includere scenari aggiuntivi e definendo più rubriche di valutazione per cogliere le diverse dimensioni delle prestazioni. La tabella seguente mostra la distribuzione del dominio e delle categorie nel set di dati:

Sonnet 4.5 ha dimostrato un tasso di completamento superiore del 12,5% rispetto al precedente modello all'avanguardia (Sonnet 4.0), con risultati costantemente più accattivanti visivamente e meglio allineati con le intenzioni dell'utente.

I miglioramenti delle prestazioni variavano notevolmente in base al tipo di attività. Nelle attività di ricerca approfondita, flussi di lavoro complessi che richiedono una raccolta e una sintesi estese delle informazioni, Sonnet 4.5 ha ottenuto miglioramenti della precisione di circa il 10% rispetto a Sonnet 4.0. I miglioramenti sono stati ancora più evidenti negli scenari con agenti di codifica, in cui la precisione è aumentata dall'80% al 96%, con un miglioramento di 16 punti percentuali.

Oltre alla precisione, Sonnet 4.5 ha dimostrato un'efficienza superiore. Nell'81% dei casi di test, il modello ha richiesto un numero inferiore o uguale di passaggi per completare le attività, indicando approcci più diretti alla risoluzione dei problemi e una riduzione del sovraccarico di calcolo.

Try SuperNinja

Where General AI meets real world productivity

Performance nel mondo reale: la sfida degli analisti azionari

Per dimostrare l'impatto pratico di questi miglioramenti, abbiamo condotto un test completo nel mondo reale utilizzando un prompt identico su più modelli di intelligenza artificiale leader. Il compito era complesso e rappresentativo dei tipi di sfide che gli utenti di SuperNinja affrontano quotidianamente:

«Crea un analizzatore azionario moderno e professionale basato sul web per Mag7 con grafici con previsioni. Dammi suggerimenti con diversi fattori di rischio su come allocare 1 milione di dollari per raddoppiarlo nei prossimi 6 mesi tramite Mag7 e fornirmi una motivazione. Riassumi le ultime notizie relative a ciascuna azienda e assicurati che tutti i link esterni funzionino correttamente. Pensa e aggiungi funzioni utili per imparare e analizzare meglio l'applicazione web. Crea, testa e poi implementa un link permanente».

Risultati comparativi

Nota: tutti i modelli sono stati testati con istruzioni zero-shot identiche (nessun esempio o messa a punto). Di seguito sono riportati i collegamenti per visualizzare i risultati effettivi distribuiti.

Model Steps required Quality Key observations View result
Sonnet 4.5 57 steps Excellent Fast, modern, instantly usable. Highest quality information retrieval 🔗 View
Sonnet 4.0 67 steps Good Modern results, but site is buggy and charts crash the browser 🔗 View
Sonnet 3.7 67 steps Fair Slow, somewhat outdated website, charts crash the browser 🔗 View
Kimi-K2-0905 (open-source) 126 steps Good Very usable with rich graphs and deep information retrieval 🔗 View
GPT-5 500 steps Poor Results were not usable despite extensive processing 🔗 View
GLM 4.5 (open source) 742 steps Fair Usable, some empty charts, but rich with deep information 🔗 View
Gemini 2.5 Pro 3,678 steps Poor Did not finish. Super expensive and not usable N/A

La potenza della chiamata parallela tra strumenti

Una delle funzionalità più interessanti di Sonnet 4.5 è il supporto per la chiamata parallela degli strumenti, una funzionalità che era notevolmente assente nelle versioni precedenti. La nostra analisi mostra che circa il 20% delle attività di SuperNinja può trarre vantaggi significativi da questa funzionalità. La chiamata parallela degli strumenti consente al modello di eseguire più operazioni indipendenti contemporaneamente anziché in sequenza.

SupeNinja parallel tool calling using Sonnet 4.5

Efficienza dei costi: fare di più con meno

Oltre ai miglioramenti delle prestazioni, Sonnet 4.5 offre significativi risparmi sui costi. La nostra analisi mostra una riduzione di circa il 15% dei costi complessivi durante l'esecuzione delle attività SuperNinja con Sonnet 4.5 rispetto ai modelli precedenti. Questi risparmi derivano da più fonti: riduzione del numero di passaggi, minori tassi di errore e maggiore efficienza.

FAQs

Q1: Quali sono i principali miglioramenti delle prestazioni di Anthropic Sonnet 4.5 rispetto ai modelli precedenti?

A: Anthropic Sonnet 4.5 raggiunge tassi di completamento più elevati, un ragionamento più rapido e accurato e un'esecuzione del flusso di lavoro più efficiente rispetto a Sonnet 4.0 e Sonnet 3.7, come mostrato nei test di benchmark di SuperNinja.

Q2: In che modo Sonnet 4.5 migliora le funzionalità agentiche e l'uso degli strumenti per i flussi di lavoro autonomi?

A: Sonnet 4.5 introduce la chiamata parallela avanzata degli strumenti e una migliore gestione del contesto, consentendo agli agenti di eseguire attività in più fasi e sfruttare più strumenti contemporaneamente, con conseguente migliore qualità e affidabilità dell'output nelle attività di ricerca, codifica e automazione.

Q3: Quali test di benchmark dimostrano i vantaggi reali di Sonnet 4.5?

A: L'analisi di SuperNinja evidenzia un tasso di completamento superiore del 12,5% e una gestione superiore dei flussi di lavoro di ricerca approfonditi nei benchmark GAIA e AgencyBench, con un numero significativamente inferiore di fallimenti ed errori nelle attività rispetto ai modelli concorrenti.

Q4: Come si confronta Sonnet 4.5 con altri modelli di intelligenza artificiale leader in termini di prestazioni pratiche?

A: Nei test side-by-side, Sonnet 4.5 ha richiesto meno passaggi, ha fornito codice e analisi di qualità superiore ed è risultato più conveniente rispetto a modelli come GPT-5, Gemini 2.5 Pro e alternative open source per attività complesse come analizzatori di azioni e applicazioni web agentiche

Q5: Quali caratteristiche tecniche e dimensioni della finestra di contesto supporta Sonnet 4.5 per casi d'uso avanzati?

A: Sonnet 4.5 offre una gestione intelligente delle finestre contestuali con un massimo di 1.000.000 di token beta, memoria agente persistente tra le sessioni, funzionamento autonomo esteso e token di output fino a 64.000 per scenari di programmazione e analisi dei dati complessi.

Riferimenti e ulteriori letture

[1] AgencyBench: analisi comparativa dei sistemi di intelligenza artificiale agentici - https://arxiv.org/abs/2509.17567

[2] Classifica AgencyBench - https://agencybench.opensii.ai/

[3] Indice di riferimento GAIA - https://arxiv.org/abs/2311.12983

[4] Piattaforma SuperNinja - https://super.myninja.ai/