忍者AIのスーパーエージェント AIシステムが達成できることの新しいベンチマークを設定しています。最先端技術を組み合わせることによって 推論レベルの最適化マルチモデルオーケストレーション そして 批評に基づく洗練、SuperAgentは、GPT-4o、Gemini 1.5 Pro、Claude Sonnet 3.5などの最も人気のあるファンデーションモデルをも上回る結果を出しています。

NinjaはArena-HardベンチマークでSOTAを達成しました。これについては、他のベンチマークでのパフォーマンスとともに、このブログ投稿で説明します。

スーパーエージェントとは

私たちは以前 スーパーエージェントを紹介しましたは、単一のモデルだけよりも優れた答えを生み出すように設計された強力なAIシステムです。SuperAgent は、複数の AI モデルからの応答を組み合わせる推論レベル最適化を採用しています。つまり、SuperAgent は 1 つの視点に頼るのではなく、複数のモデルを組み合わせて利用し、批評モデルを使用して結果を絞り込むことで、より包括的で正確で役立つ回答が得られるということです。その結果、従来の単一モデルのアプローチを上回るレベルの品質が得られます。

SuperAgentは、当社のマルチモデル機能を自然に拡張したものであり、どのモデルを使用するかについてはある程度選択できるはずだという当社の信念を自然に拡張したものです。SuperAgentは、ProとUltraのサブスクライバー向けに構築した基盤を基盤として、これらのモデルをシームレスに連携させることでさらに発展させています。つまり、SuperAgentはモデルを選ぶだけでなく、それらをまとめて、可能な限り最も包括的で微妙な、最適化された対応を提供できるということです。

スピード、奥行き、コストのバランスをとるために、SuperAgent の 3 つのバージョンを構築しました。

スーパーエージェントターボ

超高速応答用。Turboは、社内で微調整されたカスタムモデルを使用して即時応答を提供し、すべてのサブスクライバーが利用できます。

スーパーエージェントネクサス

SuperAgentの最も堅牢なバージョンであり、徹底的に調査された包括的な応答を提供します。複数の主力の AI モデルを組み合わせて専門家レベルの洞察を得ることができ、Ultra および Business のサブスクライバーが利用できます。

スーパーエージェント-R 2.0

高度な推論を必要とする複雑な問題用。SuperAgent-RはLlama 70Bで蒸留されたDeepSeek R1をベースに構築されており、ウルトラとビジネスのサブスクライバーが利用できます。

Available versions of SuperAgent

SuperAgentを業界ベンチマークと照らし合わせてテストした理由

SuperAgentのパフォーマンスを評価するために、GPT-4、Gemini 1.5 Pro、Claude Sonnet 3.5などの複数の基本モデルに対して最先端のテストを実施しました。このようなベンチマークテストはコンピュータサイエンスでは一般的に行われており、当社の AI へのアプローチが単一モデルのアプローチと比べてどうかを評価するのに役立ちます。

使用したベンチマークは次のとおりです。

アリーナハードオート (チャット)

複雑な会話能力をテストするために設計されたベンチマークで、微妙な理解と文脈認識を必要とする複雑な対話シナリオを処理する能力に焦点を当てています。

数学-500

AIの数学的推論能力と問題解決能力を評価することを目的としたベンチマークで、特に高レベルの数学が関係する複雑な問題に焦点を当てています。

ライブコードベンチ (コーディング)

AI がコードを理解して生成する能力を測定するコーディングテスト。このベンチマークは、基本的なプログラミング課題や中級レベルのプログラミング課題など、さまざまなプロンプトに応答して正確なコードを記述するモデルの能力を評価します。

ライブコードベンチハード (コーディング)

Livecodebenchの拡張版で、複雑な問題解決やアルゴリズムの課題を伴う高度なコーディングタスクに焦点を当てています。AI のコーディングスキルの限界に挑戦し、より難しいプログラミングシナリオを管理する能力を評価するように設計されています。

GPQA (一般的な問題解決と質問応答)

複雑な多段階論理、事実の想起、推論を含む質問に回答させることで、AIの一般的な推論能力をテストするベンチマークです。

AIME2024 (高度な推論と数学的評価)

高度な推論と数学的評価に焦点を当てたベンチマーク。論理計算と数値計算の両方を必要とする問題を処理するモデルの能力を評価します。

これらのベンチマークは、AIパフォーマンスのさまざまな側面を評価するための包括的な業界標準の方法であり、スタンドアロンモデルと比較してSuperAgentの機能を評価することができます。

スーパーエージェントはアリーナハードのファンダショナルモデルよりも優れています

すでに述べたように、SuperAgentは複数のベンチマークですべての基本モデルと比較して優れた結果をもたらしました。詳しく見てみましょう。 アリーナハード、ノースタイルコントロールは、AIシステムが一般的な日常的なタスクをどの程度うまく処理するかを評価するための最も重要なベンチマークの1つです。このベンチマークは実際の AI パフォーマンスを理解するために不可欠であり、SuperAgent は他の主要モデルをはるかに上回る能力を示して優れていました。

結果:SuperAgentは、以下によって測定された他のすべての基本モデルよりも優れていました アリーナハード

アリーナハード

SuperAgent Accuracy on Arena-Hard

 

NinjaのスーパーエージェントがOpenAIのO1-miniとo1-previewという2つの推論モデルを上回ったことを強調したいと思います。o1-miniとo1-previewは単なるAIモデルではなく、一般にGemini 1.5 proやClaude 3.5のような基礎モデルとは比較されない高度な推論システムであるため、これは非常にエキサイティングです。Ninja が 2 つの推論モデルよりも優れたパフォーマンスを発揮するには、批判モデルを使用して複数のモデルの結果を組み合わせる SuperAgent アプローチが、単一の AI システムよりも優れた結果を生み出すことができることが証明されています。

スーパーエージェントは他のベンチマークで優れている

Arena-Hard以外にも、NinjaのスーパーエージェントのApexバージョンは、数学、コーディング、および一般的な問題解決において並外れたパフォーマンスを示しました。これらの結果は、他のモデルと比較して高度なロジックと精度を示し、複雑な問題に取り組むSuperAgentの優れた能力を浮き彫りにしています。正確で機能的なコードを生成するその能力は、テストした他のモデルよりも一貫して優れていました。

ライブコードベンチ-コーディング

SuperAgent Accuracy on LiveCodeBench - Coding

ライブコードベンチ-コーディング-ハード

SuperAgent Accuracy on LiveCodeBench - Coding - Hard

AIME2024-推論

SuperAgent Accuracy on AIME2024 - Reasoning

GPA-推論

SuperAgent accuracy on GPQA - Reasoning

数学-500

SuperAgent Accuracy on Math - 500

すべてのベンチマークで、SuperAgentは多くの有名な基本モデルを上回るレベルのパフォーマンスを示しました。市場で最も高度な推論モデルを上回ることもありました。

最終思考

結果はそれ自体を物語っています。SuperAgentは、AIを活用したソリューションに対する私たちの考え方を飛躍的に前進させたものです。SuperAgent は、複数のモデル、洗練された批評システム、高度な推論レベルの最適化を活用することで、より深く、より正確で、よりニーズに合った回答を提供します。複雑なコーディングソリューション、高度な推論、あるいは可能な限り最高の会話サポートが必要な場合でも、SuperAgent は従来の単一モデルアプローチよりも優れていることが実証されています。

イノベーションを続けても、私たちのコミットメントは変わりません。つまり、可能な限り最もインテリジェントで効率的で強力なAIシステムを提供することです。より良い答えは、お客様にとってより良い体験につながるからです。