Benchmarks

Umfassende Benchmarks, in denen die Leistung von Ninja in Bezug auf Argumentation, Codierung und Agentenaufgaben mit führenden Modellen verglichen wird.

Super-Ninja

Gaia-Benchmark

GAIA ist ein Benchmark für die Bewertung allgemeiner KI-Assistenten bei der Lösung realer Probleme. SuperNinja hat Grenzmodelle auf Level 1 übertroffen.

SuperNinja scores for the GAIA benchmark

Tiefgründige Recherche 2.0

Ninja's Deep Research wird rigoros anhand der besten KI-Benchmarks getestet. Diese Bewertungen bestätigen die Fähigkeit des Unternehmens, komplexe Themen zu analysieren, seinen Ansatz anzupassen und qualitativ hochwertige Forschungsarbeiten effizient durchzuführen.

Einfacher QA-Benchmark

SimpleQA ist einer der besten Proxys zur Erkennung der Halluzinationswerte des Modells. Ninja Punkte 91.2% Genauigkeit auf der Einfache Qualitätssicherung Benchmark — Ninja's Deep Research hat eine außergewöhnliche Leistung bei der genauen Identifizierung von Fakteninformationen bewiesen und damit führende Modelle auf diesem Gebiet übertroffen. Diese Leistung basiert auf strengen Tests, bei denen eine umfangreiche Sammlung von mehreren tausend Fragen verwendet wurde, die speziell zur Bewertung von Fakten entwickelt wurden. Einer der Gründe, warum unser System besser abschneidet als andere, liegt in der riesigen Menge an Benutzerfeedback, das wir bei der Einführung der ersten Iteration von Deep Research erhalten haben. Dadurch konnten wir die Qualität, die jetzt im SimpleQA-Benchmark zum Ausdruck kommt, verfeinern und verbessern.

Einfache QA-Genauigkeit (höher ist besser)
Einfache QA-Halluzinationsrate (niedriger ist besser)
GAIA-Benchmark

GAIA (General AI Assistants) ist ein bahnbrechender Benchmark, der von Forschern von Meta, HuggingFace, AutoGPT und GenAI entwickelt wurde und die Art und Weise, wie wir die Forschungskapazitäten von KI-Systemen bewerten, erheblich verbessert. Im Gegensatz zu herkömmlichen Benchmarks, die sich auf Fachwissen oder zunehmend schwierige menschliche Aufgaben konzentrieren, testet GAIA grundlegende Fähigkeiten, die für eine gründliche Recherche unerlässlich sind, anhand einer Reihe sorgfältig ausgearbeiteter Fragen, die logisches Denken, Multimodalität, Surfen im Internet und Beherrschung der Werkzeuge erfordern.

Der Benchmark ist besonders relevant für die Messung der Genauigkeit von Tiefenforschungssystemen, da er bewertet, wie gut KI in realen Informationsumgebungen navigieren, Daten aus mehreren Quellen synthetisieren und sachliche, präzise Antworten liefern kann — Kernkompetenzen für autonome Recherchetools.

GAIA konzentriert sich auf Fragen, die eine autonome Planung und Durchführung komplexer Forschungsabläufe erfordern — und nicht auf spezielle Fachkenntnisse — und bietet einen umfassenden Bewertungsrahmen, der perfekt auf die Bewertung der Genauigkeit und Zuverlässigkeit von Tiefenforschungssystemen in praktischen, realen Anwendungen abgestimmt ist. Ninja Deep Research weist eine vergleichbare Genauigkeit wie OpenAI Deep Research auf und bietet gleichzeitig eine unbegrenzte Anzahl von Aufgaben für nur 15 $/Monat.

Anbieter (Pass @1)

Stufe 1

Stufe 2

Stufe 3

Durchschnittlich

Die gründliche Recherche von OpenAI

74,29

69,06

47,6

67,36

Die tiefgründige Recherche der Ninjas

69,81

56,97

46,15

57,64

Benchmark für die letzte Prüfung der Menschheit (HLE)

Die letzte Prüfung der Menschheit stellt einen bedeutenden Fortschritt in der KI-Bewertung dar und bietet einen umfassenden Benchmark, der die Genauigkeit eingehender Untersuchungen in mehreren Bereichen effektiv misst. Der Benchmark verwendet über 3.000 Fragen aus einem breiten Spektrum von mehr als 100 Fächern, darunter Mathematik, Naturwissenschaften, Geschichte, Literatur und zahlreiche andere Bereiche. Es handelt sich um Fragen auf Expertenebene, die darauf ausgelegt sind, Grundlagenwissen zu testen, das über einfache Abrufmöglichkeiten hinausgeht. Dadurch ist es einzigartig positioniert, um zu beurteilen, wie gut KI-Systeme präzise, spezialisierte Forschungen an den Grenzen des menschlichen Wissens durchführen können.

Deep Research, entwickelt von NinjaTech, hat ein bedeutender Durchbruch in der künstlichen Intelligenz, da bei Humanity's Last Exam eine Genauigkeit von 17,47% erreicht wurde. Diese Leistung ist deutlich höher als bei mehreren anderen führenden KI-Modellen, darunter OpenAI o3-mini, o1, DeepSeek-R1 und andere.

Argumentation 2.0

Reasoning 2.0 übertraf OpenAI O1 und Sonnet 3.7 in kompetitiver Mathematik im AIME-Test. Es bewertet die Fähigkeit der KI, Probleme zu lösen, die Logik und fortgeschrittenes Denken erfordern.

Reasoning 2.0 übertraf auch die Genauigkeit des menschlichen Doktorats beim GPQA-Test. Es bewertet das allgemeine Denken anhand komplexer, mehrstufiger Fragen, die die Erinnerung an Fakten, Schlussfolgerungen und Problemlösung erfordern.

Wettkampf Mathe (AIME 2024)
Wissenschaftliche Fragen auf Doktorandenebene (GPQA Diamond)
Wettbewerbsordnung (Codeforces)

Turbo 1.0 und Apex 1.0

Apex 1.0 erzielte beim branchenüblichen Arena-Hard-Auto (Chat) -Test die höchste Punktzahl. Es misst, wie gut KI komplexe, reale Konversationen bewältigen kann, und konzentriert sich dabei auf ihre Fähigkeit, sich in Szenarien zurechtzufinden, die ein differenziertes Verständnis und eine kontextuelle Wahrnehmung erfordern.

Die Modelle zeichnen sich auch in anderen Benchmarks aus: Math-500, AIME2024 — Reasoning, GPQA — Reasoning, LiveCodeBench — Coding und LiveCodeBench — Coding — Hard.

Arena-Hard (Auto) - Chat
Mathe - 500
Argumentation - AIME 2024
Argumentation - GPQA
LiveCodeBench - Codierung
LiveCodeBench - Codieren - Schwer

Erste Schritte mit SuperNinja

Wo allgemeine KI auf reale Produktivität trifft.