忍者 LLM 套件

世界上第一个复合人工智能系统

智能 AI 模型低延迟实惠的价格 通过我们的复合人工智能系统。

与传统的人工智能模型不同,每个 Ninja 的 LLM 都利用了 混合了行业领先的 AI 模型 和推理级别优化,可在各种用例中提供卓越的性能,例如 编码深入研究。

忍者 LLM 套件

Ninja 的 LLM 旨在超越市场上可用模型的局限性。我们经常观察到用户比较不同的模型或进行多次来回对话以找到最佳答案。我们希望解决这些挑战,从第一次互动开始,就以无与伦比的速度和经济实惠的价格提供最全面、最准确的答案,以满足您的需求。

涡轮 1.0

实现闪电般的响应。
Turbo 使用我们定制的内部微调模型提供即时响应,所有订阅者均可使用。

Apex 1.0

实现无与伦比的深度和精度。
Apex 结合了多种旗舰人工智能模型,可提供专家级见解,可供Ultra和Business订阅者使用。

推理 2.0

适用于需要高级推理的复杂问题。
Reasoning 2.0 建立在 Llama 70B 上提炼的 DeepSeek R1 基础上,可供超级用户和商业版订阅者使用。

Reasoning 2.0 旨在提高数学、科学、编码等领域的推理能力。当前的模型有许多局限性。对于企业和客户来说,它们既昂贵又不可持续。或者缺乏必要的自定义、功能和性能来支持代理工作流程。因此,我们开发了一种推理模型,该模型可微调、快速且每个人都能负担得起。

了解更多
深度研究

获取最复杂的研究和专家级别的见解。
我们的人工智能研究助理制定和执行计划,这些计划会随着学习新信息而变化。

在 Ninja,我们着手为每个人提供自己的个人人工智能助手。它不仅限于简单的请求,还可以自主交互并代表你完成任务。这就是为什么我们创新了由推理模型和工具支持的代理工作流程。我们从 “深度研究” 功能开始了这段旅程,不久还将增加更多功能。

了解更多

忍者的法学硕士福利

提高了准确性

性能与领先型号相当。Ninja 的模型可确保您获得根据您的提示量身定制的经过充分研究、全面的答案。

更丰富的视角

通过借鉴多个模型的独特优势,Ninja's Models提供的答案比单一模型所能实现的更加细致和全面。

以低廉的价格无限制访问

与市场上的其他产品不同,我们的 Ultra 和 Business 用户可以无限制地使用 Ninja 的模型功能——起步价仅为 29 美元/月

更快的结果

与市场上的其他产品相比,我们的Ninja模型可提供即时且更精确的结果。现在,您无需等待很长时间即可获得所需的答案。

代理功能

现在可用的是 深度研究,一款人工智能助手,旨在在收集信息时进行批判性思考并发展其研究策略。与返回表面级结果的简单 AI 助手不同,Deep Research 旨在分析、调整和完善其方法,以提供高质量的专家级见解。

忍者 LLM 用例

推理 2.0
软件工程

生成优化的代码片段,检测错误并提高代码质量。

深度研究
金融

通过合并来自多个来源的数据(例如收益报告、经济指标和行业趋势)来进行财务分析。识别隐藏的模式并提供专家级分析。

Apex 1.0
市场营销

根据消费者行为、行业趋势和竞争对手分析的见解,制定活动创意、策略和战术。或者简化复杂的概念,使其更易于理解和更具吸引力。

涡轮 1.0
客户支持

针对客户询问和支持票据做出清晰、专业的回复,以匹配客户的情绪,解决顾虑并提高整体满意度。

忍者的模型与其他模型相比如何

忍者旗舰模型:Turbo 1.0 和 Apex 1.0

Apex 1.0在行业标准的Arena-Hard-Auto(聊天)测试中得分最高。它衡量了人工智能处理复杂现实对话的能力,重点是其驾驭需要细致理解和情境感知的场景的能力。
这些模型在其他基准测试中也表现出色:Math-500、AIME2024-推理、GPQA-推理、LiveCodeBench-编码,以及LiveCodeBench-编程-困难。

Arena-Hard(自动)-聊天
数学-500
AIME 2024-推理
GPQA-推理
LiveCodeBench-编码
LiveCodeBench-编码-困难

忍者旗舰模型:推理 2.0

在AIME测试的竞争数学中,Reasoning 2.0的表现优于OpenAI O1和Sonnet 3.7。它评估了人工智能处理需要逻辑和高级推理的问题的能力。

在GPQA测试中,推理2.0的准确度也超过了人类博士级别的准确性。它通过复杂的多步骤问题来评估一般推理,这些问题需要回忆事实、推断和解决问题。

竞赛数学(AIME 2024)
博士级科学问题(GPQA 钻石级)
竞争守则(Codeforces)

忍者旗舰模型:深度研究 2.0

Deep Research 在 SimpleQA 测试中实现了 91.2% 的准确率。它是检测模型幻觉水平的最佳代理之一。这凸显了Deep Research在准确识别事实信息方面的卓越能力,超过了该领域的领先模型。

在GAIA测试中,Deep Research得分为57.64%,这表明在浏览现实世界信息环境、合成来自多个来源的数据以及得出真实而简洁的答案方面表现出色。

Deep Research还在人工智能领域取得了重大突破,在HLE测试中得分为17.47%。它被广泛认为是评估 100 多个学科的人工智能系统的严格基准。深度研究的表现明显高于其他几种领先的人工智能模型,包括o3-mini、o1和DeepSeek-R1。

SimpleQA 精度(越高越好)
SimpleQA 幻觉率(越低越好)
GAIA 基准测试

提供商(Pass @1)

第 1 级

第 2 级

第 3 级

平均值

OpenAI 的深度研究

74.29

69.06

47.6

67.36

忍者的深度研究

69.81

56.97

46.15

57.64

数据来源:OpenAI 博客文章 —阅读更多

人类最后一次考试 (HLE) 基准测试

经常问的问题

根据我们最常被问到的问题,您需要了解以下有关Ninja模型的信息。

什么是复合人工智能?

复合人工智能是一项利用先进的人工智能模型的混合技术,在编码和研究等各种任务中提供卓越的性能。它会将您的提示发送到最强大的 AI 模型,批评他们的响应,然后根据您的需求提供更全面、更准确、更有用的答案。

为什么使用多个模型比仅使用一个模型更好?

每个 AI 模型都有独特的优势和专长。通过组合来自多个模型的响应,Ninja 的模型提供了更丰富的视角、增强的问题解决能力和更细致的答案——所有这些都在一个界面中完成。

谁可以访问忍者的模型?

所有付费用户都可以使用Turbo 1.0。但是,只有 Ninja Ultra、SuperNinja 和 Business 订阅者才能访问 Apex 1.0、Reasoning 2.0 和 Deep Research 2.

我可以自定义 Ninja 的 LLM 使用哪些模型吗?

不,模型的选择是由 Ninja 根据对每个模型能力的全面分析来决定的。这样可以确保您收到最准确、最相关的答案。