在 NinjaTech AI,我们不断突破自主人工智能代理的可能性极限。我们的高级通用代理平台 SuperNinja 为每项任务部署专用的云计算机 (VM),为复杂代码、实时仪表板、网站等提供了完整的研究 → 构建 → 部署周期。我们的脚手架专为利用远距离工具调用、编码和推理而设计,这些功能涉及多步信息检索,我们称之为 Deep Research。

今天,我们很高兴分享我们对Anthropic新推出的十四行诗4.5模型的全面分析,该模型是SuperNinja的核心情报。在对我们的内部基准测试和现实客户场景进行了严格测试之后,我们可以自信地说:Sonnet 4.5是一款出色的野兽,它代表了自主代理性能的重大变革。

主要发现一览

  • 完成率提高 12.5% 在我们的内部测试中,与 Sonnet 4.0 进行了比较
  • 任务完成速度加快 20% 因为错误更少,推理更好
  • 节省了 18.2% 的成本 通过更有效的代币使用
  • 通过改进的指令跟踪,输出质量明显更高
  • 迄今为止我们在基准测试中测试过的最佳模型

为什么这对超级忍者用户很重要

SuperNinja 的独特架构要求其底层语言模型具有卓越的性能。与处理简单查询的传统聊天机器人不同,SuperNinja 处理复杂的多阶段工作流程,这些工作流程可能涉及数十甚至数百个连续决策。每项任务都需要模型进行战略规划,精确执行,验证结果,并在挑战出现时进行动态调整。

我们在Sonnet 4.5中看到的改进直接为我们的用户带来了切实的好处。更快的完成时间意味着您可以更快地获得结果。更高的完成率意味着更少的失败任务和更少的挫败感。更高质量的产出意味着更精致、可随时投入生产的可交付成果。减少代币使用量意味着在不牺牲能力的情况下降低成本。

Visual of parallel tasks being completed by SuperNinja

基准测试

第 1 阶段:GAIA 烟雾测试

我们从GAIA基准开始模型评估流程,这是一项具有挑战性的多步推理和工具使用测试,旨在衡量现实世界中的代理能力。在此基准测试中,十四行诗4.5的准确性与十四行诗3.7相比提高了约5%,与十四行诗4.0相比提高了约7%。这使其成为迄今为止我们在GAIA上测试过的性能最好的模型。

第 2 阶段:内部基准测试套件

通过GAIA烟雾测试后,我们采用了专有的内部基准测试——我们的分析显示,AgencyBench [1,2] 密切代表了我们在生产中观察到的真实客户查询的分布。利用这种调整,我们按照AgencyBench的结构和分布开发了内部测试套件,同时将其扩展到包括其他场景,并定义了多个评估标准以捕捉细微的性能维度。下表显示了数据集中域和类别的分布:

与之前的最先进模型(十四行诗4.0)相比,十四行诗4.5的完成率提高了12.5%,其输出始终更具视觉吸引力,也更符合用户意图。

性能改进因任务类型而异。在深度研究任务(需要大量信息收集和综合的复杂工作流程)中,Sonnet 4.5的准确性比十四行诗4.0提高了约10%。在编码代理场景中,增长更为显著,准确性从80%提高到96%,相当于提高了16个百分点。

除了准确性之外,十四行诗4.5还表现出卓越的效率。在 81% 的测试用例中,该模型需要更少或相等的步骤才能完成任务,这表明更直接的问题解决方法和更低的计算开销。

Try SuperNinja

Where General AI meets real world productivity

现实世界表现:股票分析器挑战赛

为了证明这些改进的实际影响,我们在多个领先的人工智能模型中使用相同的提示进行了一次全面的真实测试。这项任务很复杂,代表了SuperNinja用户每天面临的挑战类型:

“使用带有预测的图表为Mag7构建基于网络的现代专业股票分析器。就如何通过Mag7在未来6个月内将100万美元拨款翻一番,向我提出具有不同风险因素的建议,并提供理由。总结有关每家公司的最新新闻,并确保所有外部链接都正常运行。思考并添加有用的功能,以便更好地学习和分析 Web 应用程序。构建、测试,然后为其部署永久链接。”

比较结果

注意:所有模型均使用相同的零点提示进行测试(没有示例或微调)。下面提供了查看实际部署结果的链接。

Model Steps required Quality Key observations View result
Sonnet 4.5 57 steps Excellent Fast, modern, instantly usable. Highest quality information retrieval 🔗 View
Sonnet 4.0 67 steps Good Modern results, but site is buggy and charts crash the browser 🔗 View
Sonnet 3.7 67 steps Fair Slow, somewhat outdated website, charts crash the browser 🔗 View
Kimi-K2-0905 (open-source) 126 steps Good Very usable with rich graphs and deep information retrieval 🔗 View
GPT-5 500 steps Poor Results were not usable despite extensive processing 🔗 View
GLM 4.5 (open source) 742 steps Fair Usable, some empty charts, but rich with deep information 🔗 View
Gemini 2.5 Pro 3,678 steps Poor Did not finish. Super expensive and not usable N/A

并行工具调用的力量

Sonnet 4.5 最令人兴奋的功能之一是它支持并行工具调用,这一功能在以前的版本中明显不存在。我们的分析表明,大约20%的SuperNinja任务可以从这种功能中受益匪浅。并行工具调用使模型能够同时执行多个独立的操作,而不是按顺序执行。

SupeNinja parallel tool calling using Sonnet 4.5

成本效率:用更少的资源做更多的事情

除了性能改进外,Sonnet 4.5还节省了大量成本。我们的分析表明,与之前的型号相比,使用Sonnet 4.5运行SuperNinja任务时的总成本降低了约15%。这些节省来自多个来源:减少步数、降低错误率和提高效率。

常见问题解答

Q1: 与之前的模型相比,Anthropic Sonnet 4.5的主要性能改进有哪些?

A: 如SuperNinja的基准测试所示,与十四行诗4.0和十四行诗3.7相比,人类十四行诗4.5实现了更高的完成率、更快、更准确的推理以及更高效的工作流程执行。

第二季度: Sonnet 4.5 如何增强自主工作流程的代理能力和工具的使用?

A: Sonnet 4.5 引入了高级并行工具调用和改进的上下文管理,使代理能够运行多步任务并同时利用多个工具,从而提高研究、编码和自动化任务的输出质量和可靠性。

第 3 季度: 哪些基准测试证明了Sonnet 4.5的实际优势?

A: SuperNinja的分析显示,在GAIA和AgencyBench基准测试中,完成率提高了12.5%,深度研究工作流程的处理能力也比竞争模型高出12.5%,任务失败和错误明显减少。

第 4 季度: 在实际性能方面,Sonnet 4.5与其他领先的人工智能模型相比如何?

A: 在并行测试中,Sonnet 4.5 所需的步骤更少,提供了更高质量的代码和分析,并且比 GPT-5、Gemini 2.5 Pro 等模型以及股票分析器和代理网络应用程序等复杂任务的开源替代方案更具成本效益

第 5 季度: Sonnet 4.5 支持哪些技术功能和上下文窗口大小以支持高级用例?

A: Sonnet 4.5 提供智能上下文窗口管理,其中包含多达 1,000,000 个 beta 令牌、跨会话的永久代理内存、扩展的自主操作以及高达 64K 的输出令牌,适用于复杂的编程和数据分析场景。

参考文献和进一步阅读

[1] AgencyBench:对代理人工智能系统进行基准测试- https://arxiv.org/abs/2509.17567

[2] AgencyBench 排行榜- https://agencybench.opensii.ai/

[3] GAIA 基准测试- https://arxiv.org/abs/2311.12983

[4] 超级忍者平台- https://super.myninja.ai/