经济高效的推理是 Agentic 工作流程的关键

在Ninja AI,我们认为尖端的人工智能应该既强大又易于使用,帮助用户在不花很多钱的情况下提高工作效率。在过去的两年中,我们一直专注于构建代理生产力系统,不断将最新的人工智能进步添加到Ninja AI中,使其更智能、更快、更强大。

在此过程中,我们引入了需要复杂代理工作流程的功能,例如 深度研究多回合文件分析。我们还推出了 beta 版本的 日程安排工作流程,允许 Ninja 通过电子邮件与多个参与者协商会议时间。

随着我们不断完善这些技能,我们意识到一项关键需求——提高忍者的智力和决策能力。减少高风险任务(例如修改日历事件)中的错误并启用更自主的工作流程(例如,执行与 API 和人员交互的复合任务),需要我们的代理在许多不同类型的情况下做出更准确的决策和预测。

我们发现,将 “循序渐进思考” 融入我们的工作流程可以显著提高其准确性和概括能力。循序渐进思维是一个过程,它涉及:通过智能函数调用在执行任务之前计划、分解任务、回溯、验证和反思。最近的推理模型成功地应用了 “循序渐进思考” 来解决复杂的数学、科学和编码问题。但是,由于以下限制,这些模型不适合我们的 Ninja Agentic 工作流程:

首先,大多数当前的推理模型都非常昂贵。例如,单个复杂的代理任务使用 OpenAI 的 O1 API 价格可能在 0.75 美元到 2.25 美元之间1 -这是 “每项任务” 的成本,这个价格对我们企业来说在经济上是不可持续的,如果我们将每项任务的成本转嫁给客户,也是不可行的。

1假设每项代理任务大约需要 5,000 到 10,000 个输入代币和 10,000 到 30,000 个输出令牌

其次,更实惠的推理模型不具备推动机构工作流程的必要功能。例如,DeepSeek R1是一种自由的推理模型,但它是有限的。由于其大小,R1 需要 Nvidia H200(或更好)的 GPU 来实现模型的高延迟和低吞吐量;因此,很难在以任务为导向的实时聊天系统中使用它。使用 H200 还会使其运行成本高昂。此外,R1 在处理一般能力和软件工程任务方面存在挑战——这些限制已在最后一节中得到证实 R1 论文

此外,现有的推理模型缺乏自定义。在 Ninja,我们渴望构建最先进的代理系统以提高生产力。因此,我们需要能够微调模型以更好地满足我们的需求。当通过 API 访问当前推理模型或使用现有的大型开源推理模型(例如 671B 参数 R1)时,这是不可能的。

鉴于这些缺点,我们决定设计自己的推理系统——SuperAgent-R 2.0,以帮助我们为客户提供一个快速、实惠且可微调的可持续代理系统。\

忍者的推理模型-SuperAgent-R 2.0

SuperAgent-R 2.0 是一款 复合人工智能系统: 它利用了 Ninja 自己的微调模型和推理能力,该模型基于在 Llama 70B 上提炼的 DeepSeek R1。SuperAgent-R 2.0 还使用其他模型通过高级推理级优化来支持推理。整个系统端到端运行 AWS 基础设施,这使其经济实惠且可扩展。最终结果提供了接近最先进的性能,而成本只是OpenAI的O、O3-mini(高)或Anthropic的Sonnet 3.7(思维模式)等专有模型的一小部分。

SuperAgent-R 2.0 汇集了多项业界首创的创新,创建了一个能够以低成本完成复杂推理任务的系统。该系统的一个关键组成部分是一种新的多齿轮推理方法。与其他强制用户进入固定计算级别的模型不同,我们的系统根据任务复杂度动态调整推理工作。SuperAgent 的计算水平为:

  • 不加思索 — 可实现直观的查询和快速的响应。
  • 轻度思考 — 适用于中等复杂度的任务,例如结构化推理。
  • High Thinking — 适用于需要高级逻辑的深度多步推理任务。

SuperAgent-R 2.0 可以自行决定推理工作量,并自动根据用户的要求进行调整。诚然,这很难一直实现,因为系统仍然可以过度思考。我们一直在审查客户反馈,并将继续进行改进。

SuperAgent-R 2.0已根据领先的人工智能基准测试进行了严格的测试,在多个领域表现出一流的性能。在这些测试中,SuperAgent-R 2.0一直与领先的人工智能模型相比具有竞争力,这证明了其卓越的推理和解决问题的能力。

SuperAgent-R 2.0 与 DeepSeek R1 相比的优势

DeepSeek-R1作为一种高质量的免费推理模型,最近受到了很多关注,这是正确的。但是,它有一些明显的缺点。一个主要限制是它的硬件要求(我们在上面提到过)——它必须在 Nvidia H200 GPU(或更好)上运行,这可能会增加运营成本;即便如此,它也不是实时快速推理的快速模型。

此外,在我们评估DeepSeek-R1并查看其文档时,我们发现了其他可能影响客户的缺点:

  • 一般能力:DeepSeek-R1在函数调用、多回合交互和复杂的角色扮演等关键领域不及DeepSeek-v3。
  • 语言能力:DeepSeek-R1针对中文和英文进行了优化,这在处理其他语言的查询时可能会导致问题。由于我们支持多种语言的用户,因此更广泛的语言支持至关重要。
  • 提示灵敏度:DeepSeek-R1 对提示变化高度敏感。少量射击提示(这在客户中很常见)会降低整体性能,使其无法满足我们的需求。
  • 软件工程任务:基准测试结果表明 DeepSeek-R1 的软件工程能力有限。鉴于我们的许多客户依赖 Ninja 来完成与软件相关的任务,这种限制将显著影响他们的体验。

DeepSeek R1是一个很棒的模型,但是这些因素使DeepSeek R1不太适合我们的需求,也促使我们决定开发SeuperAgent-R 2.0。

竞赛数学(AIME 2024)

对于竞争数学(推理能力的决定因素),我们的测试表明,SuperAgent-R 2.0的性能超过了OpenAI O1、Sonnet 3.7(64k扩展思维)、DeepSeek R1模型和SuperAgent-R 2.0的性能,与OpenAI O3-High推理模型相当。OpenAI 有 已发布的数据 像AIME 2024这样的擅长竞争数学的模型将擅长自主机构工作流程。

博士级科学问题(GPQA 钻石级)

该测试衡量系统解决博士级别科学问题的能力。这项测试对于我们在许多不同行业工作并具有各种工作职能的用户来说非常重要。在这个物理、生物学和化学问题基准测试中,SuperAgent-R 2.0超过了人类博士级别的准确性。

竞争守则(Codeforces)

在Codeforces竞争性编程中,SuperAgent-R 2.0获得的ELO分数逐渐高于DeepSeek V3和许多OpenAI模型的竞争性分数。

LiveBench-编码

用于测试现实世界的编码性能。

SuperAgent-R 2.0 可在 myninja.ai 上获得

与市场上的各种产品不同,我们不会为无限制访问SuperAgent-R 2.0模型收取额外的订阅费。此模型适用于我们所有的Ultra用户(每月15美元)和商业套餐用户(每席20美元/月)。 定价详情。请注意,我们保留因过度使用而限制使用的权利。

试试看 myninja.ai

下一步是什么:新技能和 API 访问权限

展望未来,我们将继续提供由SuperAgent-R 2.0支持的代理工作流程,以帮助我们的用户提高工作效率。我们计划使用SuperAgent-R 2.0的首批方法之一是增强我们的DeepResearch功能。

我们还计划很快提供SuperAgent-R 2.0的API访问权限,帮助开发人员和企业构建自己的自定义系统。