Announcements

Anthropic 的 4.5 十四行诗：一只为超级忍者的下一次进化提供动力的壮丽野兽

By The Ninja AI Team

September 29, 2025

8 分钟阅读

在 NinjaTech AI，我们不断突破自主人工智能代理的可能性极限。我们的高级通用代理平台 SuperNinja 为每项任务部署专用的云计算机 (VM)，为复杂代码、实时仪表板、网站等提供了完整的研究 → 构建 → 部署周期。我们的脚手架专为利用远距离工具调用、编码和推理而设计，这些功能涉及多步信息检索，我们称之为 Deep Research。

今天，我们很高兴分享我们对Anthropic新推出的十四行诗4.5模型的全面分析，该模型是SuperNinja的核心情报。在对我们的内部基准测试和现实客户场景进行了严格测试之后，我们可以自信地说：Sonnet 4.5是一款出色的野兽，它代表了自主代理性能的重大变革。

主要发现一览

完成率提高 12.5% 在我们的内部测试中，与 Sonnet 4.0 进行了比较
任务完成速度加快 20% 因为错误更少，推理更好
节省了 18.2% 的成本 通过更有效的代币使用
通过改进的指令跟踪，输出质量明显更高
迄今为止我们在基准测试中测试过的最佳模型

‍

为什么这对超级忍者用户很重要

SuperNinja 的独特架构要求其底层语言模型具有卓越的性能。与处理简单查询的传统聊天机器人不同，SuperNinja 处理复杂的多阶段工作流程，这些工作流程可能涉及数十甚至数百个连续决策。每项任务都需要模型进行战略规划，精确执行，验证结果，并在挑战出现时进行动态调整。

我们在Sonnet 4.5中看到的改进直接为我们的用户带来了切实的好处。更快的完成时间意味着您可以更快地获得结果。更高的完成率意味着更少的失败任务和更少的挫败感。更高质量的产出意味着更精致、可随时投入生产的可交付成果。减少代币使用量意味着在不牺牲能力的情况下降低成本。

Visual of parallel tasks being completed by SuperNinja

‍

基准测试

第 1 阶段：GAIA 烟雾测试

我们从GAIA基准开始模型评估流程，这是一项具有挑战性的多步推理和工具使用测试，旨在衡量现实世界中的代理能力。在此基准测试中，十四行诗4.5的准确性与十四行诗3.7相比提高了约5％，与十四行诗4.0相比提高了约7％。这使其成为迄今为止我们在GAIA上测试过的性能最好的模型。

‍

第 2 阶段：内部基准测试套件

通过GAIA烟雾测试后，我们采用了专有的内部基准测试——我们的分析显示，AgencyBench [1,2] 密切代表了我们在生产中观察到的真实客户查询的分布。利用这种调整，我们按照AgencyBench的结构和分布开发了内部测试套件，同时将其扩展到包括其他场景，并定义了多个评估标准以捕捉细微的性能维度。下表显示了数据集中域和类别的分布：

‍

与之前的最先进模型（十四行诗4.0）相比，十四行诗4.5的完成率提高了12.5％，其输出始终更具视觉吸引力，也更符合用户意图。

性能改进因任务类型而异。在深度研究任务（需要大量信息收集和综合的复杂工作流程）中，Sonnet 4.5的准确性比十四行诗4.0提高了约10％。在编码代理场景中，增长更为显著，准确性从80％提高到96％，相当于提高了16个百分点。

除了准确性之外，十四行诗4.5还表现出卓越的效率。在 81% 的测试用例中，该模型需要更少或相等的步骤才能完成任务，这表明更直接的问题解决方法和更低的计算开销。

Try SuperNinja

Where General AI meets real world productivity

View plans Try SuperNinja

‍

现实世界表现：股票分析器挑战赛

为了证明这些改进的实际影响，我们在多个领先的人工智能模型中使用相同的提示进行了一次全面的真实测试。这项任务很复杂，代表了SuperNinja用户每天面临的挑战类型：

“使用带有预测的图表为Mag7构建基于网络的现代专业股票分析器。就如何通过Mag7在未来6个月内将100万美元拨款翻一番，向我提出具有不同风险因素的建议，并提供理由。总结有关每家公司的最新新闻，并确保所有外部链接都正常运行。思考并添加有用的功能，以便更好地学习和分析 Web 应用程序。构建、测试，然后为其部署永久链接。”

‍

比较结果

注意：所有模型均使用相同的零点提示进行测试（没有示例或微调）。下面提供了查看实际部署结果的链接。

Model	Steps required	Quality	Key observations	View result
Sonnet 4.5	57 steps	Excellent	Fast, modern, instantly usable. Highest quality information retrieval	🔗 View
Sonnet 4.0	67 steps	Good	Modern results, but site is buggy and charts crash the browser	🔗 View
Sonnet 3.7	67 steps	Fair	Slow, somewhat outdated website, charts crash the browser	🔗 View
Kimi-K2-0905 (open-source)	126 steps	Good	Very usable with rich graphs and deep information retrieval	🔗 View
GPT-5	500 steps	Poor	Results were not usable despite extensive processing	🔗 View
GLM 4.5 (open source)	742 steps	Fair	Usable, some empty charts, but rich with deep information	🔗 View
Gemini 2.5 Pro	3,678 steps	Poor	Did not finish. Super expensive and not usable	N/A