Chez NinjaTech AI, nous repoussons constamment les limites du possible avec les agents d'IA autonomes. SuperNinja, notre plateforme avancée d'agents généraux, déploie un ordinateur cloud (VM) dédié pour chaque tâche, permettant ainsi un cycle complet de recherche → Création → Déploiement pour le code complexe, les tableaux de bord en direct, les sites Web, etc. Notre échafaudage est spécialement conçu pour tirer parti de l'appel, du codage et du raisonnement d'outils à long terme, des fonctionnalités qui impliquent la récupération d'informations en plusieurs étapes, ce que nous appelons la recherche approfondie.

Aujourd'hui, nous sommes ravis de partager notre analyse complète du modèle Sonnet 4.5 récemment lancé par Anthropic en tant que principale source d'intelligence de SuperNinja. Après des tests rigoureux sur nos benchmarks internes et sur des scénarios clients réels, nous pouvons affirmer avec certitude : Sonnet 4.5 est une merveille qui représente un changement significatif pour les performances des agents autonomes.

Les principales conclusions en un coup d'œil

  • Taux d'achèvement 12,5 % plus élevé lors de nos tests internes par rapport à Sonnet 4.0
  • Exécution des tâches 20 % plus rapide grâce à moins d'erreurs et à un meilleur raisonnement
  • 18,2 % d'économies grâce à une utilisation plus efficace des jetons
  • Des sorties visiblement de meilleure qualité avec un meilleur suivi des instructions
  • Modèle le plus performant que nous ayons testé à ce jour sur nos benchmarks

Pourquoi c'est important pour les utilisateurs de SuperNinja

L'architecture unique de SuperNinja exige des performances exceptionnelles de la part de son modèle de langage sous-jacent. Contrairement aux chatbots traditionnels qui traitent des requêtes simples, SuperNinja gère des flux de travail complexes en plusieurs étapes qui peuvent impliquer des dizaines, voire des centaines de décisions séquentielles. Chaque tâche nécessite une planification stratégique du modèle, une exécution précise, une vérification des résultats et une adaptation dynamique lorsque des défis se présentent.

Les améliorations que nous constatons avec Sonnet 4.5 se traduisent directement par des avantages tangibles pour nos utilisateurs. Des délais de traitement plus rapides vous permettent d'obtenir des résultats plus rapidement. Des taux d'achèvement plus élevés signifient moins de tâches échouées et moins de frustration. Des résultats de meilleure qualité se traduisent par des livrables plus soignés et prêts pour la production. Et la réduction de l'utilisation des jetons se traduit par une baisse des coûts sans sacrifier les capacités.

Visual of parallel tasks being completed by SuperNinja

Tests de référence

Phase 1 : test de fumée GAIA

Nous commençons notre processus d'évaluation des modèles par le benchmark GAIA, un test difficile de raisonnement en plusieurs étapes et d'utilisation d'outils conçu pour mesurer les capacités des agents dans le monde réel. Sonnet 4.5 a enregistré une amélioration de la précision d'environ 5 % par rapport à Sonnet 3.7 et d'environ 7 % par rapport à Sonnet 4.0 sur cette référence. Cela en fait le modèle le plus performant que nous ayons testé à ce jour sur GAIA.

Phase 2 : Suite de référence interne

Après avoir réussi le test de fumée GAIA, nous sommes passés à notre test de référence interne propriétaire : notre analyse a révélé qu'AgencyBench [1,2] représente fidèlement la distribution des demandes réelles des clients que nous observons en production. Tirant parti de cet alignement, nous avons développé notre suite de tests interne en suivant la structure et la distribution d'AgencyBench, tout en l'adaptant pour inclure des scénarios supplémentaires et en définissant plusieurs rubriques d'évaluation pour capturer des dimensions de performance nuancées. Le tableau suivant montre la distribution du domaine et des catégories de l'ensemble de données :

Sonnet 4.5 a affiché un taux d'achèvement supérieur de 12,5 % à celui du modèle de pointe précédent (Sonnet 4.0), avec des sorties toujours plus attrayantes visuellement et mieux adaptées à l'intention de l'utilisateur.

L'amélioration des performances variait considérablement selon le type de tâche. Dans le cadre de tâches de recherche approfondies, c'est-à-dire des flux de travail complexes nécessitant une collecte et une synthèse d'informations approfondies, Sonnet 4.5 a amélioré la précision d'environ 10 % par rapport à Sonnet 4.0. Les gains ont été encore plus spectaculaires dans les scénarios d'agents de codage, où la précision est passée de 80 % à 96 %, soit une amélioration de 16 points de pourcentage.

Au-delà de la précision, Sonnet 4.5 a démontré une efficacité supérieure. Dans 81 % des cas de test, le modèle a nécessité des étapes moins nombreuses ou égales pour effectuer les tâches, ce qui indique des approches de résolution de problèmes plus directes et une réduction des frais de calcul.

Try SuperNinja

Where General AI meets real world productivity

Performances réelles : le défi des analystes boursiers

Pour démontrer l'impact pratique de ces améliorations, nous avons effectué un test complet dans le monde réel en utilisant une invite identique sur plusieurs modèles d'IA de premier plan. La tâche était complexe et représentative des types de défis auxquels les utilisateurs de SuperNinja sont confrontés quotidiennement :

« Créez un analyseur boursier moderne et professionnel basé sur le Web pour Mag7 avec des graphiques et des prévisions. Donnez-moi des suggestions avec différents facteurs de risque sur la façon d'allouer 1 million de dollars afin de le doubler au cours des 6 prochains mois via Mag7 et justifiez-les. Résumez les dernières actualités concernant chaque entreprise et assurez-vous que tous les liens externes fonctionnent correctement. Réfléchissez et ajoutez des fonctionnalités utiles pour mieux apprendre et analyser pour l'application Web. Créez, testez puis déployez un lien permanent pour celui-ci. »

Résultats comparatifs

Remarque : tous les modèles ont été testés avec des instructions zéro tir identiques (aucun exemple ni réglage précis). Des liens permettant de consulter les résultats réels du déploiement sont fournis ci-dessous.

Model Steps required Quality Key observations View result
Sonnet 4.5 57 steps Excellent Fast, modern, instantly usable. Highest quality information retrieval 🔗 View
Sonnet 4.0 67 steps Good Modern results, but site is buggy and charts crash the browser 🔗 View
Sonnet 3.7 67 steps Fair Slow, somewhat outdated website, charts crash the browser 🔗 View
Kimi-K2-0905 (open-source) 126 steps Good Very usable with rich graphs and deep information retrieval 🔗 View
GPT-5 500 steps Poor Results were not usable despite extensive processing 🔗 View
GLM 4.5 (open source) 742 steps Fair Usable, some empty charts, but rich with deep information 🔗 View
Gemini 2.5 Pro 3,678 steps Poor Did not finish. Super expensive and not usable N/A

La puissance des appels d'outils parallèles

L'une des fonctionnalités les plus intéressantes de Sonnet 4.5 est sa prise en charge des appels d'outils parallèles, une fonctionnalité qui était particulièrement absente dans les versions précédentes. Notre analyse montre qu'environ 20 % des tâches de SuperNinja peuvent bénéficier de manière significative de cette fonctionnalité. L'appel d'outils en parallèle permet au modèle d'exécuter plusieurs opérations indépendantes simultanément plutôt que de manière séquentielle.

SupeNinja parallel tool calling using Sonnet 4.5

Rentabilité : faire plus avec moins

En plus d'améliorer les performances, Sonnet 4.5 permet de réaliser d'importantes économies de coûts. Notre analyse montre une réduction d'environ 15 % des coûts globaux lors de l'exécution de tâches SuperNinja avec Sonnet 4.5 par rapport aux modèles précédents. Ces économies proviennent de multiples sources : réduction du nombre d'étapes, baisse des taux d'erreur et amélioration de l'efficacité.

FAQs

Q1: Quelles sont les principales améliorations de performances d'Anthropic Sonnet 4.5 par rapport aux modèles précédents ?

UNE : Anthropic Sonnet 4.5 permet d'obtenir des taux d'achèvement plus élevés, un raisonnement plus rapide et plus précis et une exécution des flux de travail plus efficace par rapport à Sonnet 4.0 et Sonnet 3.7, comme le montrent les tests de référence de SuperNinja.

DEUXIÈME TRIMESTRE : Comment Sonnet 4.5 améliore-t-il les fonctionnalités des agences et l'utilisation des outils pour les flux de travail autonomes ?

UNE : Sonnet 4.5 introduit des appels d'outils parallèles avancés et une gestion du contexte améliorée, permettant aux agents d'exécuter des tâches en plusieurs étapes et d'exploiter plusieurs outils simultanément, ce qui se traduit par une meilleure qualité de sortie et une meilleure fiabilité dans les tâches de recherche, de codage et d'automatisation.

3E TRIMESTRE : Quels tests de référence démontrent les avantages réels de Sonnet 4.5 ?

UNE : L'analyse de SuperNinja met en évidence un taux d'achèvement supérieur de 12,5 % et une gestion supérieure des flux de travail de recherche approfondis dans les benchmarks GAIA et AgencyBench, avec beaucoup moins d'échecs et d'erreurs par rapport aux modèles concurrents.

QUATRIÈME TRIMESTRE : Comment le Sonnet 4.5 se compare-t-il aux autres principaux modèles d'IA en termes de performances pratiques ?

UNE : Lors des tests côte à côte, Sonnet 4.5 nécessitait moins d'étapes, fournissait un code et des analyses de meilleure qualité et était plus rentable que des modèles tels que GPT-5, Gemini 2.5 Pro et des alternatives open source pour des tâches complexes telles que les analyseurs de stocks et les applications Web agentiques

Q5 : Quelles sont les caractéristiques techniques et les tailles de fenêtres contextuelles prises en charge par Sonnet 4.5 pour les cas d'utilisation avancés ?

UNE : Sonnet 4.5 propose une gestion intelligente des fenêtres contextuelles avec jusqu'à 1 000 000 de jetons bêta, une mémoire d'agent persistante entre les sessions, un fonctionnement autonome étendu et jusqu'à 64 000 jetons de sortie pour des scénarios de programmation et d'analyse de données complexes.

Références et lectures complémentaires

[1] AgencyBench : analyse comparative des systèmes d'IA agentic - https://arxiv.org/abs/2509.17567

[2] Classement AgencyBench - https://agencybench.opensii.ai/

[3] Indice de référence GAIA - https://arxiv.org/abs/2311.12983

[4] Plateforme SuperNinja - https://super.myninja.ai/