忍者人工智能的超级特工 正在为人工智能系统可以实现的目标设定新的基准。通过结合前沿技术 推理级别优化 和 多模型编排 和 基于批判的改进,SuperAgent的业绩甚至超过了最受欢迎的基础型号,例如GPT-4O、Gemini 1.5 Pro和Claude Sonnet 3.5。
Ninja在Arena-Hard基准测试中获得了SOTA,我们将在本篇博客文章中讨论这一点,以及它在其他基准测试中的表现。
什么是 SuperAgent?
我们以前 介绍了我们的 SuperAgent,一个强大的人工智能系统,旨在生成比任何单一模型都更好的答案。SuperAgent 使用推理级别优化,包括组合来自多个 AI 模型的响应。这意味着,SuperAgent不依赖单一视角,而是混合使用模型,然后使用批判模型细化输出,以提供更全面、更准确、更有用的答案。结果是质量水平超过了传统的单一模型方法。
SuperAgent 是我们多模型功能的自然延伸,我们相信您应该在使用哪种模型时有一些选择余地。在我们为 Pro 和 Ultra 订阅者创建的基础上,SuperAgent 通过将这些模型无缝地结合在一起,进一步推动了发展。这意味着,SuperAgent 不仅仅是选择模型,而是将它们组合在一起,尽可能提供最全面、最细致和最优化的响应。
我们构建了三个版本的 SuperAgent,以平衡速度、深度和成本。
超级特工涡轮增压
实现闪电般的响应。Turbo 使用我们定制的内部微调模型提供即时响应,所有订阅者均可使用。
超级特工 Nexus
作为最强大的SuperAgent版本,它提供了经过深入研究和全面的响应。它结合了多种旗舰人工智能模型,提供专家级见解,可供Ultra和Business订阅者使用。
SuperAgent-R 2.0
适用于需要高级推理的复杂问题。SuperAgent-R 建立在 Llama 70B 上提炼的 DeepSeek R1 基础上,可供超级用户和商业版订阅者使用。

为什么我们对照行业基准测试了 SuperAgent
为了评估 SuperAgent 的性能,我们对 GPT-4、Gemini 1.5 Pro 和 Claude Sonnet 3.5 等多种基础模型进行了最先进的测试。像这样的基准测试是计算机科学中的常见做法,可以帮助我们评估我们的人工智能方法与单一模型方法相比如何。
以下是我们使用的基准:
Arena-Hard-Auto(聊天)
该基准测试旨在测试复杂的对话能力,侧重于处理需要细致理解和情境感知的复杂对话场景的能力。
MATH-500
该基准测试旨在评估人工智能的数学推理和问题解决能力,特别关注涉及更高层次数学的复杂问题。
LiveCodebench(编码)
一项衡量人工智能理解和生成代码能力的编码测试。该基准评估了模型根据各种提示(包括基本和中级编程挑战)编写准确代码的能力。
Livecodebench Hard(编码)
Livecodebench 的扩展,专注于涉及复杂问题解决和算法挑战的高级编码任务。它旨在突破人工智能编程技能的极限,评估其管理更困难的编程场景的能力。
GPQA(一般问题解决和问题解答)
一种基准测试,要求人工智能回答涉及复杂的多步逻辑、事实回忆和推理的问题,从而测试其一般推理能力。
AIME2024(高级推理和数学评估)
侧重于高级推理和数学评估的基准。它评估模型处理需要逻辑和数值计算的问题的能力。
这些基准测试代表了一种评估人工智能性能各个方面的全面的行业标准方式,使我们能够评估SuperAgent与独立模型相比的能力。
SuperAgent 在 Arena-Hard 上的表现优于基础模型
正如我们已经提到的,与多个基准测试中的所有基础模型相比,SuperAgent取得了出色的结果。让我们仔细看看 Arena-Hard 没有风格控制,这是评估人工智能系统处理常见日常任务的最关键基准之一。该基准测试对于理解实际的人工智能性能至关重要,SuperAgent表现出色,其能力远远超出了其他领先模型的水平。
结果:根据以下标准,SuperAgent 击败了所有其他基础模型 Arena-Hard。
Arena-Hard

我们想强调的是,忍者的 SuperAgent 的表现优于 OpenAI 的 o1-mini 和 o1-preview 这两种推理模型。这非常令人兴奋,因为o1-mini和o1-preview不仅仅是人工智能模型,它们是高级推理系统,通常无法与Gemini 1.5 pro或Claude 3.5等基础模型相提并论。要让 Ninja 比两个推理模型表现更好,这证明了 SuperAgent 方法(使用批判模型合并多个模型的结果)可以产生比单一人工智能系统更好的结果。
SuperAgent 在其他基准测试中表现出色
除了 Arena-Hard 之外,忍者的 SuperAgent 的 Apex 版本在数学、编程和一般问题解决方面表现出卓越的表现。这些结果突显了SuperAgent解决复杂问题的出色能力,与其他模型相比,显示出先进的逻辑和精度。它生成准确和功能代码的能力始终优于其他测试模型。
LiveCodeBench-编码

LiveCodeBench-编码-困难

AIME2024-推理

GPQA-推理

数学-500

在所有基准测试中,SuperAgent的性能水平都超过了许多知名的基础模型,有时甚至超过了市场上最先进的推理模型。
最后的想法
结果不言自明——SuperAgent是我们对人工智能解决方案的看法的一次飞跃。通过利用多种模型、完善的批评系统和先进的推理级别优化,SuperAgent 可提供更深入、更准确、更符合您的需求的答案。无论你需要复杂的编码解决方案、高级推理,还是仅仅是最好的对话支持,SuperAgent已经证明它可以胜过传统的单一模型方法。
在我们不断创新的过程中,我们的承诺不变:尽可能提供最智能、最高效、最强大的人工智能系统,因为更好的答案意味着更好的体验。



