Bei NinjaTech AI erweitern wir ständig die Grenzen dessen, was mit autonomen KI-Agenten möglich ist. SuperNinja, unsere fortschrittliche Plattform für allgemeine Agenten, stellt für jede Aufgabe einen dedizierten Cloud-Computer (VM) bereit und ermöglicht so einen kompletten Zyklus von Recherche → Build → Deploy für komplexen Code, Live-Dashboards, Websites und mehr. Unser Gerüst wurde speziell für die Nutzung von Tool-Calling, Coding und Reasoning auf lange Sicht konzipiert — Funktionen, die das Abrufen von Informationen in mehreren Schritten beinhalten, was wir Deep Research nennen.

Heute freuen wir uns, Ihnen unsere umfassende Analyse des neu vorgestellten Sonnet 4.5-Modells von Anthropic als der Kernintelligenz von SuperNinja vorstellen zu können. Nach strengen Tests mit unseren internen Benchmarks und realen Kundenszenarien können wir mit Zuversicht sagen: Sonnet 4.5 ist ein großartiges Biest, das eine deutliche Verbesserung der Leistung autonomer Agenten darstellt.

Die wichtigsten Ergebnisse auf einen Blick

  • 12.5% höhere Abschlussrate in unseren internen Tests im Vergleich zu Sonnet 4.0
  • 20% schnellere Erledigung von Aufgaben aufgrund weniger Fehler und besserer Argumentation
  • 18,2% Kosteneinsparung durch effizientere Token-Nutzung
  • Sichtbar hochwertigere Ausgaben mit verbesserter Befehlsbefolgung
  • Modell mit der besten Leistung, das wir bisher in unseren Benchmarks getestet haben

Warum das für SuperNinja-Benutzer wichtig ist

Die einzigartige Architektur von SuperNinja verlangt vom zugrunde liegenden Sprachmodell eine außergewöhnliche Leistung. Im Gegensatz zu herkömmlichen Chatbots, die einfache Abfragen verarbeiten, befasst sich SuperNinja mit komplexen, mehrstufigen Workflows, die Dutzende oder sogar Hunderte von aufeinanderfolgenden Entscheidungen beinhalten können. Jede Aufgabe erfordert, dass das Modell strategisch plant, präzise ausführt, Ergebnisse verifiziert und sich dynamisch anpasst, wenn Herausforderungen auftreten.

Die Verbesserungen, die wir mit Sonnet 4.5 sehen, schlagen sich direkt in greifbaren Vorteilen für unsere Nutzer nieder. Schnellere Bearbeitungszeiten bedeuten, dass Sie schneller Ergebnisse erzielen. Höhere Abschlussraten bedeuten weniger fehlgeschlagene Aufgaben und weniger Frustration. Bessere Ergebnisse bedeuten ausgefeiltere, produktionsbereitere Ergebnisse. Und eine geringere Token-Nutzung bedeutet geringere Kosten ohne Einbußen bei der Leistungsfähigkeit.

Visual of parallel tasks being completed by SuperNinja

Benchmark-Tests

Phase 1: GAIA-Rauchtest

Wir beginnen unseren Modellbewertungsprozess mit dem GAIA-Benchmark — einem herausfordernden Test, bei dem das Denken in mehreren Schritten und die Verwendung von Tools zur Messung der Fähigkeiten von Agenten in der realen Welt getestet werden. Sonnet 4.5 erzielte bei diesem Benchmark eine Verbesserung der Genauigkeit um etwa 5% im Vergleich zu Sonnet 3.7 und eine Verbesserung von rund 7% im Vergleich zu Sonnet 4.0. Damit ist es das leistungsstärkste Modell, das wir bisher auf GAIA getestet haben.

Phase 2: Interne Benchmark-Suite

Nachdem wir den GAIA-Rauchtest bestanden hatten, gingen wir zu unserem firmeneigenen internen Benchmark über. Unsere Analyse ergab, dass AgencyBench [1,2] die Verteilung der tatsächlichen Kundenanfragen, die wir in der Produktion beobachten, sehr genau abbildet. Auf der Grundlage dieser Ausrichtung entwickelten wir unsere interne Testsuite, die der Struktur und Verteilung von AgencyBench folgte. Gleichzeitig skalierten wir sie, um zusätzliche Szenarien einzubeziehen, und definierten mehrere Bewertungsrubriken, um differenzierte Leistungsdimensionen zu erfassen. Die folgende Tabelle zeigt die Verteilung der Domain und der Kategorien im Datensatz:

Sonnet 4.5 wies im Vergleich zum Vorgängermodell (Sonnet 4.0) eine um 12,5% höhere Abschlussrate auf. Die Ausgaben waren durchweg optisch ansprechender und besser auf die Nutzerabsicht abgestimmt.

Die Leistungsverbesserungen waren je nach Aufgabentyp sehr unterschiedlich. Bei tiefgreifenden Forschungsaufgaben — komplexen Arbeitsabläufen, die eine umfangreiche Informationserfassung und -synthese erfordern — erzielte Sonnet 4.5 eine um etwa 10% höhere Genauigkeit als Sonnet 4.0. Noch dramatischer waren die Zuwächse in Szenarien mit Programmierern, in denen die Genauigkeit von 80 auf 96% stieg, was einer Verbesserung um 16 Prozentpunkte entspricht.

Neben der Genauigkeit zeigte Sonnet 4.5 auch eine überragende Effizienz. In 81% der Testfälle erforderte das Modell weniger oder gleich viele Schritte, um die Aufgaben zu erledigen, was auf direktere Problemlösungsansätze und einen geringeren Rechenaufwand hindeutet.

Try SuperNinja

Where General AI meets real world productivity

Leistung in der realen Welt: Die Stock Analyzer Challenge

Um die praktischen Auswirkungen dieser Verbesserungen zu demonstrieren, haben wir einen umfassenden Praxistest durchgeführt, bei dem eine identische Aufforderung für mehrere führende KI-Modelle verwendet wurde. Die Aufgabe war komplex und repräsentativ für die Arten von Herausforderungen, mit denen SuperNinja-Benutzer täglich konfrontiert sind:

„Erstellen Sie einen webbasierten modernen und professionellen Aktienanalysator für Mag7 mit Diagrammen mit Prognosen. Nennen Sie mir Vorschläge mit verschiedenen Risikofaktoren, wie man 1 Million $ über Mag7 verteilen kann, um es in den nächsten 6 Monaten zu verdoppeln, und begründen Sie dies. Fassen Sie die wichtigsten Neuigkeiten rund um jedes Unternehmen zusammen und stellen Sie sicher, dass alle externen Links korrekt funktionieren. Denken Sie nach und fügen Sie nützliche Funktionen hinzu, um besser lernen und analysieren zu können, was die Webanwendung angeht. Erstellen Sie einen permanenten Link dafür, testen Sie ihn und stellen Sie ihn dann bereit.“

Vergleichende Ergebnisse

Hinweis: Alle Modelle wurden mit identischen Zero-Shot-Prompts getestet (keine Beispiele oder Feinabstimmungen). Links zum Anzeigen der tatsächlich eingesetzten Ergebnisse finden Sie unten.

Model Steps required Quality Key observations View result
Sonnet 4.5 57 steps Excellent Fast, modern, instantly usable. Highest quality information retrieval 🔗 View
Sonnet 4.0 67 steps Good Modern results, but site is buggy and charts crash the browser 🔗 View
Sonnet 3.7 67 steps Fair Slow, somewhat outdated website, charts crash the browser 🔗 View
Kimi-K2-0905 (open-source) 126 steps Good Very usable with rich graphs and deep information retrieval 🔗 View
GPT-5 500 steps Poor Results were not usable despite extensive processing 🔗 View
GLM 4.5 (open source) 742 steps Fair Usable, some empty charts, but rich with deep information 🔗 View
Gemini 2.5 Pro 3,678 steps Poor Did not finish. Super expensive and not usable N/A

Die Macht des parallelen Tool-Calls

Eine der aufregendsten Funktionen von Sonnet 4.5 ist die Unterstützung des parallelen Aufrufs von Tools — eine Funktion, die in früheren Versionen auffallend fehlte. Unsere Analyse zeigt, dass ungefähr 20% der SuperNinja-Aufgaben erheblich von dieser Funktion profitieren können. Durch den parallelen Werkzeugaufruf kann das Modell mehrere unabhängige Operationen gleichzeitig und nicht nacheinander ausführen.

SupeNinja parallel tool calling using Sonnet 4.5

Kosteneffizienz: Mit weniger mehr erreichen

Sonnet 4.5 bietet nicht nur Leistungsverbesserungen, sondern auch erhebliche Kosteneinsparungen. Unsere Analyse zeigt, dass die Gesamtkosten bei der Ausführung von SuperNinja-Aufgaben mit Sonnet 4.5 im Vergleich zu früheren Modellen um etwa 15% gesenkt werden. Diese Einsparungen stammen aus mehreren Quellen: geringere Anzahl von Schritten, geringere Fehlerraten und verbesserte Effizienz.

Häufig gestellte Fragen

Q1: Was sind die wichtigsten Leistungsverbesserungen in Anthropic Sonnet 4.5 gegenüber früheren Modellen?

EIN: Anthropic Sonnet 4.5 erzielt im Vergleich zu Sonnet 4.0 und Sonnet 3.7 höhere Abschlussraten, schnellere und genauere Überlegungen und eine effizientere Workflow-Ausführung, wie die Benchmark-Tests von SuperNinja gezeigt haben.

Q 2: Wie verbessert Sonnet 4.5 die Agentenfunktionen und den Einsatz von Tools für autonome Arbeitsabläufe?

EIN: Sonnet 4.5 bietet erweiterte parallele Werkzeugabrufe und ein verbessertes Kontextmanagement, sodass Agenten mehrstufige Aufgaben ausführen und mehrere Tools gleichzeitig nutzen können, was zu einer besseren Ausgabequalität und Zuverlässigkeit bei Forschungs-, Codierungs- und Automatisierungsaufgaben führt.

Q3: Welche Benchmark-Tests belegen die realen Vorteile von Sonnet 4.5?

EIN: Die Analyse von SuperNinja zeigt, dass die Abschlussrate in GAIA- und AgencyBench-Benchmarks um 12,5% höher ist und dass tiefgreifende Recherche-Workflows in den Benchmarks von GAIA und AgencyBench besser abgewickelt werden können. Im Vergleich zu Konkurrenzmodellen gab es deutlich weniger Fehlschläge und Fehler bei Aufgaben.

Q4: Wie schneidet Sonnet 4.5 in Bezug auf die praktische Leistung von anderen führenden KI-Modellen ab?

EIN: Bei parallelen Tests erforderte Sonnet 4.5 weniger Schritte, lieferte qualitativ hochwertigeren Code und Analysen und war kostengünstiger als Modelle wie GPT-5, Gemini 2.5 Pro und Open-Source-Alternativen für komplexe Aufgaben wie Aktienanalysatoren und agentische Webanwendungen

Q 5: Welche technischen Funktionen und Kontextfenstergrößen unterstützt Sonnet 4.5 für fortgeschrittene Anwendungsfälle?

EIN: Sonnet 4.5 bietet eine intelligente Kontextfensterverwaltung mit bis zu 1.000.000 Betatokens, persistentem Agentenspeicher für alle Sitzungen, erweitertem autonomen Betrieb und bis zu 64.000 Ausgangstoken für komplexe Programmier- und Datenanalyseszenarien.

Referenzen und weiterführende Literatur

[1] AgencyBench: Benchmarking agentischer KI-Systeme - https://arxiv.org/abs/2509.17567

[2] AgencyBench-Bestenliste - https://agencybench.opensii.ai/

[3] GAIA-Benchmark - https://arxiv.org/abs/2311.12983

[4] SuperNinja-Plattform - https://super.myninja.ai/