Un ragionamento efficiente in termini di costi è fondamentale per i flussi di lavoro di Agentic
Noi di Ninja AI crediamo che l'intelligenza artificiale all'avanguardia debba essere potente e accessibile, aiutando gli utenti a incrementare la produttività senza spendere una fortuna. Negli ultimi due anni ci siamo concentrati sulla creazione di un sistema di produttività agentico, aggiungendo continuamente i più recenti progressi dell'IA a Ninja AI per renderla più intelligente, veloce e capace.
Lungo il percorso abbiamo introdotto funzionalità che richiedono sofisticati flussi di lavoro agentici, come Ricerca approfondita e Analisi dei file multiturno. Abbiamo anche lanciato una versione beta di pianificazione del flusso di lavoro, permettendo a Ninja di negoziare gli orari delle riunioni con più partecipanti via e-mail.
Perfezionando continuamente queste competenze, riconosciamo un'esigenza fondamentale: migliorare l'intelligenza e il processo decisionale di Ninja. La riduzione degli errori nelle attività ad alto rischio (ad esempio, la modifica degli eventi del calendario) e l'abilitazione di flussi di lavoro più autonomi (ad esempio, l'esecuzione di attività composite che interagiscono con le API e le persone) richiedono ai nostri agenti di prendere decisioni e previsioni più accurate in molti tipi diversi di situazioni.
Abbiamo scoperto che l'integrazione del «pensiero passo dopo passo» nei nostri flussi di lavoro aumenta significativamente la loro precisione e capacità di generalizzazione. Il pensiero passo-passo è un processo che prevede: la pianificazione, la suddivisione delle attività, il backtracking, la verifica e la riflessione prima di eseguire le attività mediante chiamate intelligenti di funzioni. I recenti modelli di ragionamento hanno applicato con successo il «pensiero passo dopo passo» per risolvere complessi problemi matematici, scientifici e di programmazione. Tuttavia, a causa delle seguenti limitazioni, questi modelli non sono adatti ai nostri flussi di lavoro Ninja Agentic:
Innanzitutto, la maggior parte dei modelli di ragionamento attuali sono molto costosi. Ad esempio, un singolo compito agentico complesso che utilizza API O1 di OpenAI potrebbe costare tra $0,75 e $2,251 - vale a dire il costo «per attività», un prezzo economicamente insostenibile per noi come azienda e anche non sostenibile per i clienti se trasferissimo loro i costi per attività.
1Supponendo che ogni attività agentica richieda da 5.000 a 10.000 token di input e da 10.000 a 30.000 token di output
In secondo luogo, i modelli di ragionamento più convenienti non hanno le caratteristiche necessarie per alimentare i flussi di lavoro agentici. Ad esempio, DeepSeek R1 è un modello di ragionamento gratuito, ma è limitato. R1, a causa delle sue dimensioni, richiede GPU Nvidia H200s (o superiori) per garantire un'elevata latenza e un basso throughput per il modello, il che rende difficile l'utilizzo in un sistema di chat in tempo reale orientato alle attività. L'uso dell'H200s ne rende inoltre costoso l'utilizzo. Inoltre, R1 presenta difficoltà nella gestione delle capacità generali e delle attività di ingegneria del software: queste limitazioni sono confermate dall'ultima sezione del Carta R1.
Inoltre, i modelli di ragionamento esistenti mancano delle personalizzazioni. In Ninja, aspiriamo a creare il sistema agentico più avanzato per la produttività. Pertanto, abbiamo bisogno della capacità di mettere a punto i modelli per adattarli meglio alle nostre esigenze. Ciò non è possibile quando si accede ai modelli di ragionamento attuali tramite API o si utilizzano modelli di ragionamento open source di grandi dimensioni esistenti (come il parametro 671B R1).
Alla luce di questi inconvenienti, abbiamo deciso di progettare il nostro sistema di ragionamento, SuperAgent-R 2.0, per aiutarci a creare un sistema agentico sostenibile che sia veloce, conveniente e ottimizzabile per i clienti.






