介绍

深度研究—人工智能研究技术

跳过数小时的研究。Deep Research 以自主人工智能代理的身份在数字世界中航行,制定和执行研究计划,这些计划会随着学习新信息而发展。
畅享无限制访问权限
SuperNinja 和商务等级

尝试深度研究

什么是深度研究

Deep Research 是一个多步骤、自主的 AI 代理,旨在处理最复杂的研究和规划问题。Deep Research不是一个简单的搜索工具,它是一个先进的复合人工智能系统,它通过逐步解决复杂的问题来解决问题,在每个步骤编写实时代码以确保准确的答案。Deep Research制定了量身定制的研究计划,从数百个来源收集信息,分析结果,根据需要完善计划,并调用各种工具来提供专家级别的答案。

高级推理引擎

忍者的深度研究由先进的人工智能推理模型提供支持。自主人工智能代理执行多步计划以找到所需的数据,进行回溯、反思和验证,这使其能够在必要时对实时信息做出反应。

动态编码以提高精度

Ninja 使用人工智能代码生成研究计划的每个步骤来精确定位所需的信息。这种动态方法不仅提高了数据的准确性,而且还显著降低了产生幻觉的风险,确保了高质量和可信的结果。

全面的网络搜索和工具调用

Ninja 的工具调用功能包括网络浏览器、文件代理、音频和视频转录器、日期/时间分析器等工具。因此,您的自主 AI 代理可以浏览数百个网页,以确定所需的日期/时间感知信息。此外,它可以处理用户上传的文件,提供完整而详尽的答案。

专家级见解

Ninja's Deep Research 是多模态的,能够处理图像、文本、视频和音频。此外,通过积极减少幻觉和提供易于阅读的见解,Ninja 确保答案保持全面且参考性良好,使用户能够更深入地验证发现结果和探索信息。

如何使用深度研究

深度研究可在以下网址获得 myninja.ai

Deep Research Button
激活深度研究

单击 “深度研究” 按钮开启深度研究,或键入 “/researcher-deep” 并添加您的研究请求。

prompt improver capabilities
优化您的查询

从一个简单的查询开始,或者使用以下命令完善您的请求 '改善提示' 获取更多量身定制的答案

Download features of the deep research response
获取您的自定义报告

通过可下载的报告获得深度研究答案—以您的首选格式导出

探索用例

深度研究可以帮助你解决

未找到任何物品。
未找到任何物品。
未找到任何物品。

深度研究表现

Ninja's Deep Research 根据顶级 AI 基准测试进行了严格测试。这些评估证实了其分析复杂主题、调整方法和高效提供高质量研究的能力。

SimpleQA 基准测试

SimpleQA 是检测模型幻觉水平的最佳代理之一。忍者 得分 91.2% 精度在 SimpleQA 基准 — Ninja's Deep Research在准确识别事实信息方面表现出卓越的性能,超过了该领域的领先模型。这种表现基于严格的测试,使用了专门为评估事实性而设计的数千个问题。我们的系统表现优于其他系统的原因之一是我们在启动 Deep Research 的第一次迭代时收到了大量的用户反馈,这使我们能够微调和提高 SimpleQA 基准测试所展示的质量。

SimpleQA 精度(越高越好)
SimpleQA 幻觉率(越低越好)
GAIA 基准测试

盖亚 (通用人工智能助手)是由来自Meta、HuggingFace、AutoGPT和GenAI的研究人员开发的开创性基准,它极大地推动了我们评估人工智能系统研究能力的方式。与侧重于专业知识或日益困难的人类任务的传统基准测试不同,GAIA通过一系列精心设计的问题来测试深入研究所必需的基本能力,这些问题需要推理、多模式、网页浏览和工具使用熟练程度。

该基准测试与衡量深度研究系统的准确性特别相关,因为它评估了人工智能在现实世界信息环境中导航、合成来自多个来源的数据以及得出真实、简洁的答案——自主研究工具的核心技能。

通过专注于需要自主规划和执行复杂研究工作流程的问题,而不是专业领域的专业知识,GAIA提供了一个全面的评估框架,该框架与评估深度研究系统在实际现实应用中的准确性和可靠性完美契合。Ninja Deep Research的准确性与OpenAI Deep Research相当,同时每月仅提供15美元的无限任务。

提供商(Pass @1)

第 1 级

第 2 级

第 3 级

平均值

OpenAI 的深度研究

74.29

69.06

47.6

67.36

忍者的深度研究

69.81

56.97

46.15

57.64

数据来源:OpenAI 博客文章 —阅读更多

人类最后一次考试 (HLE) 基准测试

人类的最后一次考试 代表了人工智能评估的重大进步,它提供了一个全面的基准,可以有效衡量跨领域深入研究的准确性。该基准测试使用了3,000多个问题,涵盖100多个学科,包括数学、科学、历史、文学和许多其他领域。它是专家级别的问题,旨在测试除简单检索能力之外的前沿知识,使其具有独特的优势,可以评估人工智能系统在人类知识边界上进行准确、专业研究的情况。

由 NinjaTech 开发的 Deep Research 已经取得了成就 在 Humanity's Last Exam 中获得了 17.47% 的准确性分数,这是人工智能领域的重大突破。这种性能明显高于其他几种领先的人工智能模型,包括OpenAI o3-mini、o1、DeepSeek-R1等。

我们如何改善深度研究

Ninja 于 2024 年第二季度启动了首个深度研究。最初的版本侧重于研究规划和全面的搜索能力,收到了来自用户的压倒性积极反馈。随着时间的推移,我们发现了提高准确性的机会,我们衷心感谢用户的宝贵反馈,这些反馈帮助我们确定了这些改进。

随着 Deep Research 2.0 的推出,Ninja 从 Deep Research 的 3 级成熟度提高到了 5 级的成熟度,从而提高了其作为自主人工智能代理的能力。我们从自己的复合推理系统中吸取了经验教训,以具有成本效益的方式做到了这一点。

Ninja 将所有积木组合在一起,可提供高精度和高灵活性

下一步是什么

我们将 Deep Research 设计为具有多功能性,并计划随着时间的推移扩展其能力。我们将在未来几周内添加其他工具,以使深度研究人员代表您采取 “行动”。此外,我们将发布深度研究API,这样您就可以将深度研究整合到自己的应用程序中。我们的目标是帮助您提高个人和专业任务的生产力,使 Deep Research 成为您日常工作流程中不可或缺的工具。

体验忍者深度研究

立即免费试用 Ninja。计划起价为每月19美元。