費用対効果の高い推論がエージェントワークフローのカギ

Ninja AI では、最先端の AI は強力かつ利用しやすく、ユーザーがお金をかけずに生産性を高めることができるようにすべきだと考えています。過去 2 年間、私たちはエージェント生産性システムの構築に注力してきました。Ninja AI をよりスマートに、より速く、より高性能にするために、最新の AI の進歩を継続的に取り入れています。

その過程で、次のような高度なエージェントワークフローを必要とする機能を導入してきました。 ディープ・リサーチ そして マルチターンファイル分析。また、のベータ版もリリースしました スケジューリングワークフローこれにより、Ninjaは電子メールで複数の参加者と会議時間を交渉できます。

こうしたスキルを磨き続ける中で、私たちはNinjaの知性と意思決定力を高めることが極めて重要であることを認識しています。リスクの高いタスク (カレンダーイベントの変更など) におけるエラーを減らし、より自律的なワークフロー (API やユーザーとやり取りする複合タスクの実行など) を可能にするには、エージェントがさまざまな状況でより正確な意思決定と予測を行う必要があります。

ワークフローに「ステップバイステップ思考」を組み込むことで、ワークフローの正確性と一般化能力が大幅に向上することがわかりました。ステップバイステップ思考とは、インテリジェントな関数呼び出しによってタスクを実行する前に、計画、タスクの分解、バックトラッキング、検証、熟考を行うプロセスです。最近の推論モデルは、複雑な数学、科学、コーディングの問題を解決するために「段階的思考」を適用することに成功しています。ただし、以下の制限があるため、これらのモデルは Ninja Agentic のワークフローには適していません。

まず、現在の推論モデルのほとんどは非常に高価です。たとえば、次のような複雑なエージェントタスクが 1 つあるとします。 OpenAI の O1 API 0.75ドルから2.25ドルの間の費用がかかる可能性があります1 -これは「タスクごとの」コストです。これは、ビジネスとしての私たちにとって経済的に持続不可能な価格であり、タスクごとにコストを顧客に転嫁したとしても、顧客にとっても実行不可能な価格です。

1各エージェントタスクに推定5,000〜10,000の入力トークンと10,000〜30,000の出力トークンが必要であると仮定します。

第二に、より手頃な価格の推論モデルには、エージェントのワークフローを強化するために必要な機能がありません。たとえば、DeepSeek R1は無料の推論モデルですが、制限があります。R1はサイズが大きいため、モデルの高レイテンシと低スループットのためにNvidia H200s GPU(またはそれ以上)が必要です。そのため、リアルタイムのタスク指向のチャットシステムでは使用が困難です。H200 を使用すると実行コストも高くなります。さらに、R1には一般的な機能やソフトウェアエンジニアリングのタスクを処理するうえで課題があります。これらの制限については、の最後のセクションで確認しています。 R1 ペーパー

さらに、既存の推論モデルにはカスタマイズがありません。Ninjaでは、生産性を向上させる最先端のエージェントシステムを構築することを目指しています。そのため、ニーズに合わせてモデルを微調整する能力が必要です。これは、API を介して現在の推論モデルにアクセスする場合や、既存の大規模なオープンソース推論モデル (671B パラメータ R1 など) を使用する場合には不可能です。

これらの欠点を踏まえ、私たちは独自の推論システムであるSuperAgent-R 2.0を設計することにしました。これは、高速で手頃な価格で、お客様にとって微調整可能な持続可能なエージェントシステムを実現するためのものです。\

忍者の推理モデル-スーパーエージェント-R 2.0

スーパーエージェント-R 2.0は 複合 AI システム: Llama 70Bで蒸留されたDeepSeek R1をベースにした、推論機能を備えたNinja独自の微調整モデルを活用しています。SuperAgent-R 2.0 では他のモデルも使用しており、高度な推論レベルの最適化による推論をサポートしています。システム全体が AWS インフラストラクチャでエンドツーエンドで動作するため、手頃な価格でスケーラブルです。その結果、OpenAI の O、O3-mini (高)、Anthropic の Sonnet 3.7 (思考モード) などのプロプライエタリモデルの数分の1のコストで、ほぼ最先端のパフォーマンスを実現できます。

SuperAgent-R 2.0は、業界初のいくつかのイノベーションを組み合わせて、複雑な推論タスクを低コストで完了できるシステムを構築しています。このシステムの主要コンポーネントは、新しいマルチギア推論アプローチです。ユーザーに一定の計算レベルを強制する他のモデルとは異なり、このシステムはタスクの複雑さに基づいて推論の労力を動的に調整します。SuperAgent の計算レベルは以下のとおりです。

  • 何も考えない—簡単な検索と迅速な対応が可能です。
  • ライトシンキング — 構造化された推論のような中程度に複雑なタスクに適しています。
  • ハイシンキング — 高度なロジックが必要な、深い複数ステップの推論タスクに適しています。

SuperAgent-R 2.0は、推論作業を自分で決定し、ユーザーの要求に合わせて自動的に調整できます。確かに、システムがまだ考えすぎている可能性があるため、これを常に実現することは困難です。私たちは常にお客様からのフィードバックを見直し、改善を続けていきます。

SuperAgent-R 2.0は、主要なAIベンチマークに対して厳しいテストを受け、複数のドメインでクラス最高のパフォーマンスを実証しています。これらのテストでは、SuperAgent-R 2.0は主要なAIモデルと常に競合しており、その優れた推論能力と問題解決能力が証明されています。

ディープシーク R1と比較したスーパーエージェントR 2.0のメリット

DeepSeek-R1は、当然のことながら、高品質で自由な推論モデルとして最近大きな注目を集めています。ただし、これにはいくつかの顕著な欠点があります。主な制限の 1 つは、ハードウェア要件 (前述のとおり) です。Nvidia H200 GPU (またはそれ以上) で動作する必要があるため、運用コストが増加する可能性がありますが、それでも、リアルタイムで迅速に推論するための高速モデルではありません。

さらに、DeepSeek-R1を評価し、そのドキュメントを確認したところ、お客様に影響を与える可能性のあるその他の欠点もわかりました。

  • 一般的な機能:DeepSeek-R1は、関数呼び出し、マルチターンインタラクション、複雑なロールプレイングなどの重要な領域ではDeepSeek-V3には及ばない。
  • 言語機能:DeepSeek-R1は中国語と英語に最適化されているため、他の言語でクエリを処理する際に問題が発生する可能性があります。複数の言語でユーザーをサポートしているため、幅広い言語のサポートが不可欠です。
  • プロンプト感度:DeepSeek-R1はプロンプトの変化に非常に敏感です。お客様によく見られる数回のプロンプトでは、全体的なパフォーマンスが低下し、ニーズに対する信頼性が低下します。
  • ソフトウェアエンジニアリングタスク:ベンチマークの結果から、DeepSeek-R1のソフトウェアエンジニアリング機能は限られていることが分かりました。多くのお客様がソフトウェア関連のタスクをNinjaに頼っていることを考えると、この制限はお客様のエクスペリエンスに大きな影響を与えるでしょう。

DeepSeek R1は素晴らしいモデルですが、これらの要因によりDeepSeek R1は私たちのニーズにあまり適さなくなり、SeuperAgent-R 2.0を開発する決心をしました。

コンペティション・マッチ (AIME 2024)

推論能力の決定要因である競争数学については、私たちのテストにより、SuperAgent-R 2.0はOpenAI O1、Sonnet 3.7(64k拡張思考)、DeepSeek R1モデルのパフォーマンスを上回り、SuperAgent-R 2.0はOpenAI O3高推論モデルと同等であることが示されました。OpenAI には 公開データ AIME 2024のような競争数学が得意なモデルは、自律型エージェントワークフローにも優れているということです。

博士レベルの科学問題(GPQAダイヤモンド)

このテストでは、システムが博士レベルの科学問題をどれだけうまく解決できるかを測定します。このテストは、さまざまな業界で働き、さまざまな職務を持つユーザーにとって重要です。SuperAgent-R 2.0は、物理学、生物学、化学問題のこのベンチマークにおいて、人間の博士号レベルの精度を上回りました。

コンペティションコード (コードフォース)

CodeForceの競合プログラミングでは、SuperAgent-R 2.0はDeepSeek V3よりも次第に高いELOスコアを達成し、多くのOpenAIモデルで競争スコアも高くなっています。

ライブベンチ-コーディング

実際のコーディングパフォーマンスをテストするために使用されます。

SuperAgent-R 2.0 は myninja.ai で入手できます

市場に出回っているさまざまな製品とは異なり、SuperAgent-R 2.0モデルへの無制限アクセスに対して追加のサブスクリプション料金を請求することはありません。このモデルは、すべてのUltraユーザー (月額15ドル) とビジネスプランユーザー (1シートあたり月額20ドル) が利用できます。 価格詳細。過度な使用に基づいて使用を制限する権利を留保していることにご注意ください。

で試してみてください myninja.ai

次のステップ:新しいスキルと API アクセス

将来を見据えて、ユーザーの生産性向上を支援するために、SuperAgent-R 2.0を搭載したエージェントワークフローを引き続き提供していきます。SuperAgent-R 2.0 を使用する最初の方法の 1 つは、ディープリサーチ機能を強化することです。

また、間もなくSuperAgent-R 2.0へのAPIアクセスを提供し、開発者や企業が独自のカスタムシステムを構築できるようにする予定です。