NinjaTech AI では、自律型 AI エージェントで可能なことの限界に常に挑戦しています。当社の高度なジェネラルエージェントプラットフォームであるSuperNinjaは、タスクごとに専用のクラウドコンピュータ (VM) をデプロイし、複雑なコード、ライブダッシュボード、ウェブサイトなどのリサーチ → ビルド → デプロイという完全なサイクルを可能にします。当社のスキャフォールドは、長期的なツールコール、コーディング、推論を活用するように特別に設計されています。これらの機能には、ディープ・リサーチと呼ばれる多段階の情報検索が含まれます。
本日、SuperNinjaを支えるコアインテリジェンスとして、Anthropicが新たに発売したSonnet 4.5モデルの包括的な分析を共有できることを嬉しく思います。社内のベンチマークと実際の顧客シナリオを徹底的にテストした結果、自信を持って言えるようになりました。Sonnet 4.5は、自律型エージェントのパフォーマンスに大きな変化をもたらす素晴らしい製品です。
一目でわかる主な調査結果
- 12.5% 高い修了率 社内テストでソネット4.0と比較したところ
- タスク完了時間が 20% 短縮 間違いが減り、推論が良くなるため
- 18.2% のコスト削減 より効率的なトークン使用を通じて
- 指示の流れが改善され、出力品質が目に見えて向上しました
- ベンチマークでこれまでにテストした中で最もパフォーマンスの高いモデル
なぜこれがSuperNinjaユーザーにとって重要なのか
SuperNinja独自のアーキテクチャには、基盤となる言語モデルに並外れたパフォーマンスが求められます。単純なクエリを処理する従来のチャットボットとは異なり、SuperNinja は数十から数百の連続した意思決定を伴う複雑な多段階のワークフローに対応します。各タスクには、モデルが戦略的に計画を立て、正確に実行し、結果を検証し、課題が生じたときに動的に適応する必要があります。
Sonnet 4.5で見られる改善は、ユーザーにとって目に見えるメリットに直接つながります。完了までの時間が短縮されれば、結果も早く得られます。完了率が高いほど、失敗したタスクが減り、フラストレーションが減ります。アウトプットの品質が高いほど、より洗練された、すぐに生産できる成果物が増えます。また、トークンの使用量が減れば、機能を犠牲にすることなくコストを削減できます。

ベンチマークテスト
フェーズ 1: GAIA スモークテスト
モデル評価プロセスは、まずGAIAベンチマークから始めます。これは、実際のエージェントの能力を測定するために設計された、多段階の推論とツールの使用に関する挑戦的なテストです。このベンチマークでは、ソネット 4.5 はソネット 3.7 と比較して約 5%、ソネット 4.0 と比較して約 7% の精度向上を達成しました。これにより、これまでGAIAでテストした中で最もパフォーマンスの高いモデルとなっています。
フェーズ 2: 内部ベンチマークスイート
GAIAスモークテストに合格した後、独自の内部ベンチマークに移行しました。分析の結果、AgencyBench [1,2] は、本番環境で観察した実際の顧客からの問い合わせの分布をほぼ表していることがわかりました。この連携を活かして、私たちはAgencyBenchの構造と分布に従って内部テストスイートを開発しながら、追加のシナリオを含むように拡張し、パフォーマンスの微妙な側面を捉えるために複数の評価ルーブリックを定義しました。次の表は、データセット内のドメインとカテゴリの分布を示しています。

Sonnet 4.5は、以前の最先端モデル(Sonnet 4.0)と比較して12.5%高い完成率を示し、アウトプットは一貫して視覚的に魅力的であり、ユーザーの意図とより一致していました。
パフォーマンスの向上は、タスクの種類によって大きく異なりました。詳細な調査作業(広範囲にわたる情報収集と合成を必要とする複雑なワークフロー)では、Sonnet 4.5はSonnet 4.0よりも約 10% の精度向上を達成しました。コーディング・エージェント・シナリオでは、精度が 80% から 96% に向上し、16% ポイント向上したことで、さらに劇的な向上が見られました。
正確さだけでなく、Sonnet 4.5は優れた効率性を示しました。テストケースの 81% で、モデルでタスクを完了するのに必要なステップ数はそれ以下か、同等でした。これは、より直接的な問題解決アプローチと計算オーバーヘッドの削減を示唆しています。
現実世界のパフォーマンス:ストックアナライザーチャレンジ
これらの改善の実際的な影響を実証するために、複数の主要なAIモデルにわたって同じプロンプトを使用して包括的な現実世界テストを実施しました。このタスクは複雑で、SuperNinja ユーザーが日々直面している課題の代表的なものでした。
「予測付きのチャートを使用して、Mag7用のWebベースのモダンでプロフェッショナルな株価アナライザーを構築してください。Mag7を使って今後6か月で100万ドルを2倍に配分する方法について、さまざまなリスク要因の提案と、その理論的根拠を教えてください。各企業に関する最新ニュースをまとめ、すべての外部リンクが正しく機能していることを確認してください。Web アプリケーションの学習と分析に役立つ機能を考えて追加してください。そのためのパーマネント・リンクをビルド、テスト、デプロイしてください。」
比較結果
注:すべてのモデルが同一のゼロショットプロンプトでテストされました (例や微調整はありません)。実際の展開結果を表示するリンクを以下に示します。
並列ツール呼び出しの力
Sonnet 4.5の最もエキサイティングな機能の1つは、並列ツール呼び出しのサポートです。これは、以前のバージョンには特になかった機能です。私たちの分析によると、SuperNinja のタスクの約 20% がこの機能の恩恵を大きく受けていることがわかりました。並列ツール呼び出しにより、モデルは複数の独立した操作を順次ではなく同時に実行できます。

コスト効率:より少ないリソースでより多くのことを実現
パフォーマンスの向上に加えて、Sonnet 4.5は大幅なコスト削減を実現します。当社の分析によると、Sonnet 4.5でSuperNinjaタスクを実行すると、以前のモデルと比較して全体のコストが約 15% 削減されたことが分かりました。これらの節約は、ステップ数の減少、エラー率の低下、効率の向上など、複数の要因によるものです。
よくある質問
Q1: 以前のモデルと比較して、Anthropic Sonnet 4.5の主なパフォーマンス改善点は何ですか?
A: Anthropic Sonnet 4.5は、SuperNinjaのベンチマークテストで示されているように、Sonnet 4.0やSonnet 3.7と比較して、より高い完了率、より迅速かつ正確な推論、より効率的なワークフロー実行を実現しています。
Q2: Sonnet 4.5は、自律的なワークフローのためのエージェント機能とツールの使用をどのように強化するのでしょうか?
A: Sonnet 4.5では、高度な並列ツール呼び出しと改善されたコンテキスト管理が導入され、エージェントは複数ステップのタスクを実行して複数のツールを同時に活用できるようになり、リサーチ、コーディング、自動化タスクにおける出力品質と信頼性が向上します。
Q3: Sonnet 4.5の実際の利点を実証しているベンチマークテストはどれですか?
A: SuperNinjaの分析によると、GAIAとAgencyBenchのベンチマークでは、競合モデルと比較してタスクの失敗やエラーが大幅に少なく、完了率が12.5%高く、詳細な調査ワークフローの処理が優れていることが明らかになりました。
Q4: Sonnet 4.5は、実際のパフォーマンスにおいて他の主要なAIモデルと比べてどうですか?
A: サイドバイサイドテストでは、Sonnet 4.5はGPT-5、Gemini 2.5 Proなどのモデルや、株価分析装置やエージェントWebアプリケーションなどの複雑なタスクに対応するオープンソースの代替モデルよりも必要なステップが少なく、高品質のコードと分析が可能で、費用対効果も高かった
Q5: Sonnet 4.5は高度なユースケース向けにどのような技術的機能とコンテキストウィンドウサイズをサポートしていますか?
A: Sonnet 4.5は、最大1,000,000のベータトークン、セッションにわたる永続的なエージェントメモリ、拡張された自律操作、複雑なプログラミングおよびデータ分析シナリオ用の最大64K出力トークンによるスマートコンテキストウィンドウ管理を提供します。
参考文献と参考文献
[1] エージェンシーベンチ:エージェンシーAIシステムのベンチマーキング- https://arxiv.org/abs/2509.17567
[2] エージェンシーベンチ・リーダーボード- https://agencybench.opensii.ai/
[3] ガイアベンチマーク- https://arxiv.org/abs/2311.12983
[4] スーパーニンジャプラットフォーム- https://super.myninja.ai/
.avif)


