Der Superagent von Ninja AI setzt neue Maßstäbe für das, was ein KI-System leisten kann. Durch die Kombination modernster Technologien Optimierung der Inferenzebene mit Orchestrierung mit mehreren Modellen und kritikbasierte Verfeinerung, SuperAgent liefert Ergebnisse, die selbst die beliebtesten Basismodelle wie GPT-4o, Gemini 1.5 Pro und Claude Sonnet 3.5 übertreffen.

Ninja hat im Arena-Hard-Benchmark SOTA erreicht, was wir in diesem Blogbeitrag besprechen werden, zusammen mit seiner Leistung in anderen Benchmarks.

Was ist SuperAgent?

Wir zuvor stellte unseren SuperAgent vor, ein leistungsstarkes KI-System, das darauf ausgelegt ist, bessere Antworten zu generieren als jedes einzelne Modell allein. SuperAgent verwendet eine Optimierung auf Inferenzebene, bei der Antworten mehrerer KI-Modelle kombiniert werden. Das bedeutet, dass SuperAgent, anstatt sich auf eine einzige Perspektive zu verlassen, eine Mischung von Modellen verwendet und das Ergebnis dann mithilfe eines Kritikmodells verfeinert, um umfassendere, genauere und hilfreichere Antworten zu liefern. Das Ergebnis ist ein Qualitätsniveau, das über herkömmlichen Einzelmodellansätzen liegt.

Der SuperAgent ist eine natürliche Erweiterung unserer Multimodell-Funktion und unserer Überzeugung, dass Sie die Wahl haben sollten, welches Modell Sie verwenden. SuperAgent baut auf dem Fundament auf, das wir für unsere Pro- und Ultra-Abonnenten geschaffen haben, und geht noch einen Schritt weiter, indem es diese Modelle nahtlos aneinander anpasst. Das bedeutet, dass SuperAgent nicht nur ein Modell auswählt, sondern sie zusammenbringt, um möglichst umfassende, nuancierte und optimierte Antworten zu liefern.

Wir haben drei Versionen des SuperAgent entwickelt, um Geschwindigkeit, Tiefe und Kosten in Einklang zu bringen.

SuperAgent Turbo

Für blitzschnelle Antworten. Turbo liefert sofortige Antworten mithilfe unserer maßgeschneiderten internen, fein abgestimmten Modelle und steht allen Abonnenten zur Verfügung.

Superagent Nexus

Die robusteste Version von SuperAgent bietet gründlich recherchierte und umfassende Antworten. Sie kombiniert mehrere erstklassige KI-Modelle für Einblicke auf Expertenebene und steht Ultra- und Business-Abonnenten zur Verfügung.

SuperAgent-R 2.0

Für komplexe Probleme, die fortgeschrittenes Denken erfordern. SuperAgent-R basiert auf DeepSeek R1, destilliert auf Llama 70B, und ist für Ultra- und Business-Abonnenten verfügbar.

Available versions of SuperAgent

Warum wir SuperAgent anhand von Branchen-Benchmarks getestet haben

Um die Leistung des SuperAgents zu bewerten, haben wir hochmoderne Tests mit mehreren Basismodellen wie GPT-4, Gemini 1.5 Pro und Claude Sonnet 3.5 durchgeführt. Benchmark-Tests wie dieser sind in der Informatik eine gängige Praxis und helfen uns zu beurteilen, wie unser KI-Ansatz im Vergleich zum Ansatz mit einem einzigen Modell abschneidet.

Hier sind die Benchmarks, die wir verwendet haben:

Arena-Hard-Auto (Chat)

Ein Benchmark, der entwickelt wurde, um komplexe Konversationsfähigkeiten zu testen, wobei der Schwerpunkt auf der Fähigkeit liegt, komplizierte Dialogszenarien zu bewältigen, die ein differenziertes Verständnis und ein differenziertes Kontextbewusstsein erfordern.

MATHE-500

Ein Benchmark, der darauf abzielt, die mathematischen Denk- und Problemlösungsfähigkeiten einer KI zu bewerten, wobei der Schwerpunkt insbesondere auf komplexen Problemen liegt, die Mathematik auf höherer Ebene beinhalten.

Livecodebench (Codierung)

Ein Codierungstest, der die Fähigkeit einer KI misst, Code zu verstehen und zu generieren. Dieser Benchmark bewertet die Fähigkeit des Modells, als Reaktion auf eine Vielzahl von Eingabeaufforderungen, einschließlich grundlegender und mittlerer Programmierprobleme, genauen Code zu schreiben.

Livecodebench Hard (Codierung)

Eine Erweiterung von Livecodebench, die sich auf fortgeschrittene Programmieraufgaben konzentriert, die komplexe Problemlösungen und algorithmische Herausforderungen beinhalten. Es wurde entwickelt, um die Grenzen der Programmierkenntnisse einer KI auszuloten und ihre Fähigkeit zu evaluieren, schwierigere Programmierszenarien zu bewältigen.

GPQA (Allgemeine Problemlösung und Beantwortung von Fragen)

Ein Benchmark, der die allgemeinen Denkfähigkeiten einer KI testet, indem sie von ihr verlangt, Fragen zu beantworten, die komplexe, mehrstufige Logik, Faktenerinnerung und Inferenz beinhalten.

AIME2024 (Fortgeschrittene Inferenz und mathematische Bewertung)

Ein Benchmark, der sich auf fortgeschrittenes Denken und mathematische Bewertung konzentriert. Es bewertet die Fähigkeit des Modells, Probleme zu lösen, die sowohl logische als auch numerische Berechnungen erfordern.

Diese Benchmarks stellen eine umfassende, branchenübliche Methode zur Bewertung verschiedener Aspekte der KI-Leistung dar und ermöglichen es uns, die Fähigkeiten von SuperAgent im Vergleich zu eigenständigen Modellen zu bewerten.

SuperAgent übertrifft grundlegende Modelle auf Arena-Hard

Wie bereits erwähnt, lieferte SuperAgent in mehreren Benchmarks herausragende Ergebnisse im Vergleich zu allen Basismodellen. Schauen wir uns das genauer an Arena-Hard ohne Style-Kontrolle, einer der wichtigsten Benchmarks, um zu beurteilen, wie gut ein KI-System allgemeine, alltägliche Aufgaben bewältigt. Dieser Benchmark ist für das Verständnis der praktischen KI-Leistung unerlässlich, und SuperAgent hat sich durch seine Fähigkeiten ausgezeichnet, die weit über denen anderer führender Modelle liegen.

Die Ergebnisse: SuperAgent übertraf alle anderen Basismodelle, gemessen an Arena-Hart.

Arena-Hart

SuperAgent Accuracy on Arena-Hard

 

Wir möchten hervorheben, dass Ninjas SuperAgent die o1-mini und o1-preview von OpenAI übertraf — zwei Argumentationsmodelle. Das ist sehr aufregend, da es sich bei o1-mini und o1-preview nicht nur um KI-Modelle handelt, sondern um fortschrittliche Denksysteme, die im Allgemeinen nicht mit grundlegenden Modellen wie Gemini 1.5 pro oder Claude 3.5 verglichen werden. Dass Ninja besser abschneidet als zwei Argumentationsmodelle, beweist, dass der SuperAgent-Ansatz, bei dem die Ergebnisse mehrerer Modelle mithilfe eines Kritikmodells kombiniert werden, zu besseren Ergebnissen führen kann als ein einzelnes KI-System.

SuperAgent zeichnet sich bei anderen Benchmarks aus

Neben Arena-Hard zeigte die Apex-Version von Ninjas SuperAgent außergewöhnliche Leistungen in Mathematik, Codierung und allgemeiner Problemlösung. Diese Ergebnisse unterstreichen die herausragende Fähigkeit von SuperAgent, komplexe Probleme zu lösen, und zeichnen sich im Vergleich zu anderen Modellen durch eine höhere Logik und Präzision aus. Seine Fähigkeit, genauen und funktionalen Code zu generieren, übertraf andere getestete Modelle durchweg.

LiveCodeBench - Codierung

SuperAgent Accuracy on LiveCodeBench - Coding

LiveCodeBench - Codieren - Schwer

SuperAgent Accuracy on LiveCodeBench - Coding - Hard

AIME2024 - Argumentation

SuperAgent Accuracy on AIME2024 - Reasoning

GPQA - Argumentation

SuperAgent accuracy on GPQA - Reasoning

Mathe - 500

SuperAgent Accuracy on Math - 500

Bei allen Benchmarks zeigte SuperAgent ein Leistungsniveau, das viele bekannte Basismodelle übertraf und manchmal sogar die fortschrittlichsten Argumentationsmodelle auf dem Markt übertraf.

Letzte Gedanken

Die Ergebnisse sprechen für sich — SuperAgent ist ein großer Fortschritt in unserer Denkweise über KI-gestützte Lösungen. Durch die Nutzung mehrerer Modelle, eines ausgeklügelten Kritiksystems und einer fortschrittlichen Optimierung der Inferenzebene liefert SuperAgent tiefgründige, genauere und für Ihre Anforderungen relevantere Antworten. Ganz gleich, ob Sie eine komplexe Codierungslösung, fortgeschrittenes Denken oder einfach nur die bestmögliche Gesprächsunterstützung benötigen, SuperAgent hat bewiesen, dass es herkömmliche Einzelmodellansätze übertreffen kann.

Während wir kontinuierlich an Innovationen arbeiten, bleibt unser Anspruch unverändert: Wir liefern das intelligenteste, effizienteste und leistungsfähigste KI-System, das möglich ist — denn bessere Antworten bedeuten ein besseres Erlebnis für Sie.