Le raisonnement rentable est la clé des flux de travail Agentic
Chez Ninja AI, nous pensons que l'IA de pointe doit être à la fois puissante et accessible, afin d'aider les utilisateurs à augmenter leur productivité sans se ruiner. Au cours des deux dernières années, nous nous sommes concentrés sur la création d'un système de productivité agentique, en ajoutant continuellement les dernières avancées en matière d'IA à Ninja AI pour le rendre plus intelligent, plus rapide et plus performant.
En cours de route, nous avons introduit des fonctionnalités qui nécessitent des flux de travail d'agence sophistiqués, telles que Recherche approfondie et Analyse de fichiers à plusieurs tours. Nous avons également lancé une version bêta d'un flux de travail de planification, permettant à Ninja de négocier les horaires des réunions avec plusieurs participants par e-mail.
Au fur et à mesure que nous perfectionnons ces compétences, nous reconnaissons un besoin essentiel : améliorer l'intelligence et la prise de décision de Ninja. La réduction des erreurs dans les tâches à haut risque (par exemple, la modification des événements du calendrier) et la mise en place de flux de travail plus autonomes (par exemple, l'exécution de tâches composites qui interagissent avec des API et des personnes) obligent nos agents à prendre des décisions et à faire des prévisions plus précises dans de nombreux types de situations.
Nous avons découvert que l'intégration d'une « réflexion étape par étape » dans nos flux de travail améliore considérablement leur précision et leur capacité à généraliser. La réflexion étape par étape est un processus qui implique : planifier, décomposer les tâches, revenir en arrière, vérifier et réfléchir avant d'exécuter des tâches en appelant des fonctions intelligentes. Des modèles de raisonnement récents ont appliqué avec succès la « réflexion étape par étape » pour résoudre des problèmes mathématiques, scientifiques et de codage complexes. Cependant, en raison des limites suivantes, ces modèles ne sont pas adaptés à nos flux de travail Ninja Agentic :
Tout d'abord, la plupart des modèles de raisonnement actuels sont très coûteux. Par exemple, une seule tâche agentique complexe utilisant API O1 d'OpenAI pourrait coûter entre 0,75$ et 2,25$1 - il s'agit du coût « par tâche », un prix qui n'est pas viable sur le plan économique pour nous en tant qu'entreprise et qui n'est pas non plus viable pour les clients si nous leur répercutions les coûts par tâche.
1En supposant que chaque tâche agentique nécessite environ 5 000 à 10 000 jetons d'entrée et 10 000 à 30 000 jetons de sortie
Deuxièmement, les modèles de raisonnement les plus abordables ne disposent pas des fonctionnalités nécessaires pour optimiser les flux de travail des agences. Par exemple, DeepSeek R1 est un modèle de raisonnement libre, mais il est limité. En raison de sa taille, la R1 nécessite des GPU Nvidia H200s (ou mieux) pour une latence élevée et un faible débit pour le modèle, ce qui rend difficile son utilisation dans un système de discussion en temps réel axé sur les tâches. L'utilisation des H200 rend également leur fonctionnement coûteux. En outre, R1 a des difficultés à gérer les tâches générales de capacité et de génie logiciel. Ces limites sont confirmées par la dernière section du Papier R1.
De plus, les modèles de raisonnement existants ne sont pas personnalisés. Chez Ninja, nous aspirons à créer le système d'agence le plus avancé en matière de productivité. Nous devons donc être en mesure d'ajuster les modèles pour mieux répondre à nos besoins. Cela n'est pas possible lorsque vous accédez aux modèles de raisonnement actuels via une API ou que vous utilisez de grands modèles de raisonnement open source existants (tels que le paramètre 671B R1).
Compte tenu de ces inconvénients, nous avons décidé de concevoir notre propre système de raisonnement, SuperAgent-R 2.0, pour nous aider à mettre en place un système d'agence durable, rapide, abordable et parfaitement ajustable pour les clients.






