SuperAgent de Ninja AI établit une nouvelle référence pour ce qu'un système d'IA peut accomplir. En combinant des technologies de pointe optimisation du niveau d'inférence avec orchestration multimodèle et raffinement basé sur la critique, SuperAgent fournit des résultats qui surpassent même les modèles de base les plus populaires tels que GPT-4o, Gemini 1.5 Pro et Claude Sonnet 3.5.
Ninja a atteint SOTA dans le benchmark Arena-Hard, dont nous parlerons dans cet article de blog, ainsi que ses performances dans d'autres benchmarks.
Qu'est-ce que SuperAgent ?
Nous avons précédemment a présenté notre SuperAgent, un puissant système d'IA conçu pour générer de meilleures réponses que n'importe quel modèle seul. SuperAgent utilise l'optimisation du niveau d'inférence, qui consiste à combiner les réponses de plusieurs modèles d'IA. Cela signifie qu'au lieu de s'appuyer sur une seule perspective, SuperAgent utilise une combinaison de modèles, puis affine le résultat à l'aide d'un modèle critique afin de fournir des réponses plus complètes, précises et utiles. Il en résulte un niveau de qualité supérieur aux approches traditionnelles à modèle unique.
Le SuperAgent est une extension naturelle de notre fonctionnalité multi-modèles et de notre conviction que vous devriez avoir le choix du modèle que vous utilisez. En s'appuyant sur les bases que nous avons créées pour nos abonnés Pro et Ultra, SuperAgent va encore plus loin en alignant ces modèles de manière fluide. Cela signifie qu'au lieu de simplement choisir un modèle, SuperAgent les réunit pour fournir les réponses les plus complètes, nuancées et optimisées possibles.
Nous avons créé trois versions du SuperAgent pour trouver un équilibre entre vitesse, profondeur et coût.
SuperAgent Turbo
Pour des réponses rapides comme l'éclair. Turbo fournit des réponses instantanées à l'aide de nos modèles personnalisés et affinés en interne et est disponible pour tous les abonnés.
SuperAgent Nexus
Version la plus robuste de SuperAgent, elle fournit des réponses complètes et minutieusement étudiées. Il combine plusieurs modèles d'IA phares pour obtenir des informations de niveau expert et est disponible pour les abonnés Ultra et Business.
SuperAgent-R 2.0
Pour les problèmes complexes qui nécessitent un raisonnement avancé. SuperAgent-R est basé sur DeepSeek R1 distillé sur Llama 70B et est disponible pour les abonnés Ultra et Business.

Pourquoi nous avons testé SuperAgent par rapport aux critères de référence du secteur
Pour évaluer les performances du SuperAgent, nous avons effectué des tests de pointe sur plusieurs modèles fondamentaux tels que GPT-4, Gemini 1.5 Pro et Claude Sonnet 3.5. Les tests de référence comme celui-ci sont une pratique courante en informatique et nous aident à évaluer comment notre approche de l'IA se compare à l'approche à modèle unique.
Voici les benchmarks que nous avons utilisés :
Arena-Hard-Auto (Chat)
Une référence conçue pour tester des capacités conversationnelles complexes, en mettant l'accent sur la capacité à gérer des scénarios de dialogue complexes qui nécessitent une compréhension nuancée et une conscience contextuelle.
MATHÉMATIQUES 500
Une référence visant à évaluer les capacités de raisonnement mathématique et de résolution de problèmes d'une IA, en se concentrant spécifiquement sur les problèmes complexes impliquant des mathématiques de niveau supérieur.
Livecodebench (Codage)
Un test de codage qui mesure la capacité d'une IA à comprendre et à générer du code. Ce benchmark évalue la capacité du modèle à écrire un code précis en réponse à diverses demandes, y compris des défis de programmation de base et intermédiaires.
Livecodebench Hard (Codage)
Une extension de Livecodebench, axée sur les tâches de codage avancées qui impliquent la résolution de problèmes complexes et des défis algorithmiques. Il est conçu pour repousser les limites des compétences de codage d'une IA et évaluer sa capacité à gérer des scénarios de programmation plus difficiles.
GPQA (Résolution générale de problèmes et réponses aux questions)
Un point de référence qui teste les capacités de raisonnement général d'une IA en l'obligeant à répondre à des questions impliquant une logique complexe en plusieurs étapes, un rappel factuel et une inférence.
AIME2024 (Inférence avancée et évaluation mathématique)
Une référence axée sur le raisonnement avancé et l'évaluation mathématique. Il évalue la capacité du modèle à traiter des problèmes qui nécessitent à la fois des calculs logiques et numériques.
Ces benchmarks constituent un moyen complet et conforme aux normes de l'industrie d'évaluer divers aspects des performances de l'IA, ce qui nous permet d'évaluer les capacités de SuperAgent par rapport à des modèles autonomes.
SuperAgent surpasse les modèles fondamentaux sur Arena-Hard
Comme nous l'avons mentionné, SuperAgent a obtenu des résultats exceptionnels par rapport à tous les modèles fondamentaux dans de nombreux benchmarks. Regardons de plus près Arena-Hard sans contrôle de style, l'un des critères de référence les plus cruciaux pour évaluer la capacité d'un système d'IA à gérer les tâches quotidiennes courantes. Cette référence est essentielle pour comprendre les performances pratiques de l'IA, et SuperAgent a excellé, démontrant des capacités bien supérieures à celles des autres modèles de pointe.
Les résultats : SuperAgent a dépassé tous les autres modèles fondamentaux tels que mesurés par Arena-Hard.
Arena-Hard

Nous tenons à souligner que le SuperAgent de Ninja a surpassé les modèles o1-mini et o1-preview d'OpenAI, deux modèles de raisonnement. C'est très intéressant car o1-mini et o1-preview ne sont pas simplement des modèles d'IA, ce sont des systèmes de raisonnement avancés qui, en général, ne sont pas comparés à des modèles fondamentaux tels que Gemini 1.5 pro ou Claude 3.5. Le fait que Ninja fonctionne mieux que deux modèles de raisonnement prouve que l'approche SuperAgent, qui combine les résultats de plusieurs modèles à l'aide d'un modèle critique, peut produire des résultats supérieurs à ceux d'un seul système d'IA.
SuperAgent excelle dans les autres benchmarks
Au-delà d'Arena-Hard, la version Apex de SuperAgent de Ninja a démontré des performances exceptionnelles en mathématiques, en codage et en résolution de problèmes en général. Ces résultats mettent en évidence la capacité exceptionnelle de SuperAgent à résoudre des problèmes complexes, faisant preuve d'une logique et d'une précision avancées par rapport aux autres modèles. Sa capacité à générer un code précis et fonctionnel a toujours surpassé les autres modèles testés.
LiveCodeBench - Codage

LiveCodeBench - Codage - Difficile

AIME2024 - Raisonnement

GPQA - Raisonnement

Mathématiques - 500

Sur tous les indices de référence, SuperAgent a affiché un niveau de performance supérieur à celui de nombreux modèles fondamentaux bien connus, dépassant parfois les modèles de raisonnement les plus avancés du marché.
Réflexions finales
Les résultats parlent d'eux-mêmes : SuperAgent représente une avancée dans notre façon de concevoir les solutions basées sur l'IA. En s'appuyant sur plusieurs modèles, un système de critique raffiné et une optimisation avancée des niveaux d'inférence, SuperAgent fournit des réponses plus détaillées, plus précises et plus pertinentes pour vos besoins. Que vous ayez besoin d'une solution de codage complexe, d'un raisonnement avancé ou simplement du meilleur support conversationnel possible, SuperAgent a prouvé qu'il pouvait surpasser les approches traditionnelles à modèle unique.
Alors que nous continuons à innover, notre engagement reste le même : fournir le système d'IA le plus intelligent, le plus efficace et le plus puissant possible, car de meilleures réponses signifient une meilleure expérience pour vous.



