NinjaTech AIの使命は、高速で手頃な価格の人工知能(AI)エージェントで時間のかかる複雑なタスクを処理することで、すべての人の生産性を高めることです。私たちは最近、立ち上げました。 MyNinja.aiは、世界初のマルチエージェント・パーソナルAIアシスタントのひとつで、私たちの使命に向かって前進してくれました。MyNinja.ai は、会議のスケジュール設定、Web からの詳細な調査の実施、コード生成、執筆支援などのタスクをお客様に代わって実行できる専門のエージェントを使用してゼロから構築されています。これらのエージェントは、複雑な複数ステップのタスクを分岐ソリューションに分解することができ、過去の経験から継続的に学習しながら、生成されたソリューションを動的に評価することができます。これらのタスクはすべて完全に自律的かつ非同期的に実行されるため、Ninja がバックグラウンドでこれらのタスクに取り組んでいる間、ユーザーは自由に 1 日の作業を続けることができます。また、入力が必要なときには関与できます。

すべてのタスクに最適な単一の大規模言語モデル (LLM) は存在しないため、個人用 AI アシスタントを構築するには、さまざまなタスクに特に最適化された複数の LLM が必要であることを私たちは知っていました。また、ユーザーに喜ばれる精度と機能を提供するためには、これらの複数のモデルが連携して機能する必要があることもわかっていました。最後に、これらのさまざまなモデルをトレーニングするためのスケーラブルで費用対効果の高い方法が必要でした。これまで、ほとんどのスタートアップ企業にとって、この取り組みにはコストがかかっていました。この投稿では、MyNinja.ai のバックボーンである最先端の生産性エージェント NinjallM を、どのように構築したかを説明します。 AWS トレイニウム チップス。
データセットの構築
ユーザーに代わってタスクに取り組むという使命を果たすには、特定のタスクに最適化された複数のモデルが必要であることを早くから認識していました。例としては、ディープリサーチャー、ディープコーダー、アドバイザーモデルなどがあります。入手可能なオープンソースモデルをテストした結果、すぐに使える機能とレスポンスでは、迅速なエンジニアリングだけではニーズを満たすには不十分だと感じました。具体的には、オープンソースモデルを使ったテストでは、各モデルがリアクト/思考連鎖スタイルのプロンプトに最適化されていることを確認したかったのです。さらに、モデルがその一部としてデプロイされたときに、そのモデルが正しく動作することを確認したかったのです。 検索拡張生成 (RAG)システムでは、各出典を正確に引用し、誤った回答を生成するのではなく、「わからない」と言う方向への偏見も示してください。そのために、さまざまな下流タスクに合わせてモデルを微調整することにしました。
トレーニングデータセットを構築するにあたり、私たちの目標は2つありました。1つは、各モデルを適切な下流のタスクとペルソナ(研究者、アドバイザー、コーダーなど)に適合させることと、特定の出力構造に従うようにモデルを調整することです。そのために、私たちは以下のことを実践しました。 リマアプローチ 微調整用。約2,000万トークンのトレーニングサンプルサイズを使用し、出力の形式とトーンに重点を置きながら、多様ではあるが比較的小さいサンプルサイズを使用しました。教師付き微調整データセットを構築するために、まず各モデルの初期シードタスクを作成することから始めました。これらのシードタスクでは、Meta の Llama 2 モデルを使用して初期合成データセットを生成しました。合成データセットを使用して最初の微調整を行うことができました。この微調整されたモデルのパフォーマンスを最初に評価するために、ユーザーからのフィードバックをクラウドソーシングして、さらにサンプルを繰り返し作成しました。また、一連のベンチマーク(社内および公開)を使用してモデルのパフォーマンスを評価し、反復を続けました。
トレイニウムの微調整
私たちはいくつかの理由から、事前にトレーニングされた基本モデルとして Llama モデルを選びました。その主な理由は、すぐに使用できる優れたパフォーマンス、さまざまなライブラリによる強力なエコシステムサポート、そして真にオープンソースで寛容なライセンスです。当時、私たちは Llama 2 から始め、さまざまなサイズ (7B、13B、70B) でテストしていました。トレーニングでは、トライニウムチップを活用するために trn1.32xlarge インスタンスのクラスターを使用することにしました。トレーニングを効率的に並列処理するために、32 個のインスタンスのクラスターを使用しました。また、以下も使用しました。 AWS パラレルクラスタ クラスタオーケストレーションを管理します。Trainiumインスタンスのクラスターを使用することで、各微調整の反復にかかる時間は3時間未満で、費用は1,000ドル未満でした。この短い反復時間と低コストにより、モデルのチューニングとテストを迅速に行い、モデルの精度を向上させることができました。次のセクションで説明する精度を実現するには、約3万ドルしか費やさなかったため、従来のトレーニングアクセラレータでトレーニングする必要があった場合は数百万ドルとは言わないまでも、数十万ドルも節約できました。
次の図は、トレーニングアーキテクチャを示しています。

Trainium上に構築された微調整パイプラインを確立した後、Neuron Distributedトレーニングライブラリのおかげでモデルの微調整と改良が可能になりました。MyNinja.ai の発売に先立って Meta の Llama 3 モデルがリリースされていたので、これは非常に便利でタイムリーなことでした。Llama 3 と Llama 2 は似たようなアーキテクチャを共有しているので、新しいモデルにすばやくアップグレードできました。この迅速な切り替えにより、モデル精度の本質的な向上を活用し、Llama 3のウエイトを使った次の微調整を非常に迅速に行い、発売の準備をすることができました。
モデル評価
モデルを評価する目的は2つありました。1つは、ユーザーの質問に答えるモデルの能力を評価することと、提供されたソースを使用して質問に回答するシステムの能力を評価することです。これは、パーソナルAIアシスタントの主要なインターフェースだからです。私たちは以下を選択しました。 ホットポット QA そして ナチュラルクエスチョン (NQ) オープン データセット。どちらも公開リーダーボードを備えたオープンベンチマークデータセットがあるため、適しています。
ウィキペディアのコーパスから取得した上位10節を使用して、モデルの回答を期待される回答と照合して精度を計算しました。以下を使用してコンテンツのフィルタリングとランク付けを行いました。 コルバーTV2、BERT ベースの検索モデル。強化された Llama 3 RAG モデルを使用することで、NQ Open データセットで 62.22%、HotPotQA で 58.84% の精度を達成しました。これは、他のベースラインモデルに比べて顕著な改善が実証されています。次の図は、私たちの結果をまとめたものです。

今後の仕事
将来を見据えて、モデルのパフォーマンスとユーザーエクスペリエンスを継続的に改善するために、いくつかの開発に取り組んでいます。まず、使用するつもりです。 オルポ モデルを微調整するためです。ORPO は従来の微調整とプリファレンスアラインメントを組み合わせて、両方に単一のプリファレンス配置データセットを使用します。これにより、モデルをより適切に調整して、ユーザーにより良い結果をもたらすことができると考えています。
さらに、これまでに微調整したさまざまなモデルからカスタムアンサンブルモデルを構築する予定です。Mixture of Expert (MoE) モデルアーキテクチャに触発されて、さまざまなモデルにルーティングレイヤーを導入する予定です。これにより、ユーザーがパーソナルAIアシスタントに期待するさまざまなタスクの品質を維持しながら、モデルの提供とスケーリングアーキテクチャを大幅に簡素化できると考えています。
結論
NinjaTech AI のミッション達成への道筋は、次世代の AI エージェントを構築して全員の生産性を高めることです。この革新的なテクノロジーへのアクセスを民主化するには、高性能コンピューティング、オープンソースモデル、そして新しいエージェントのトレーニングを手頃な価格で迅速に実施できるツールのエコシステムを利用することが重要です。AWS の専用の AI チップ、トップクラスのオープンソースモデルへのアクセス、トレーニングアーキテクチャにより、これが可能になります。
NinjaTech AIのマルチエージェントパーソナルAIをどのように構築したかについて詳しくは、こちらをご覧ください ホワイトペーパー。これらの AI エージェントは、次の場所で無料で試すこともできます。 MyNinja.ai。
著者について

アラシュ・サドリエ Ninjatech.ai の共同創設者兼最高科学責任者です。Arash は、AI エージェントを使って時間のかかるタスクを処理することで、全員の生産性を高めるというビジョンを持って Ninjatech.ai を共同設立しました。このビジョンは、AWS でシニア・アプライド・サイエンティストとして在職中に形作られました。そこで彼は、6 年間にわたってインフラストラクチャの効率性を大幅に改善する主要な研究イニシアチブを推進し、コアインフラストラクチャの最適化に関する複数の特許を取得しました。学歴にはコンピューターモデリングとシミュレーションの博士号があり、オックスフォード大学、シドニー大学、CSIRO などの著名な機関との共同研究も行っています。業界での在職に先立ち、Arashはポスドク研究員としてNature Communicationsなどの影響力の大きいジャーナルに掲載されたことが特徴でした。

タヒル・アジム NinjaTechのスタッフソフトウェアエンジニアです。Tahirは、NinjaTechのInf2およびTrn1ベースのトレーニングおよび推論プラットフォーム、これらのプラットフォームにアクセスするための統合ゲートウェイ、およびRAGベースの研究スキルに焦点を当てています。それ以前は Amazon でシニア・ソフトウェア・エンジニアとして働き、Amazon のグローバルなインターネット・エッジ・インフラストラクチャを最適に活用し、コスト、混雑、レイテンシーを削減するためのデータ主導型システムを構築していました。産業界に転向する前、タヒルはスタンフォード大学でコンピューターサイエンスの修士号と博士号を取得し、NUST (パキスタン) で助教授として3年間教鞭をとり、EPFLで高速データ分析システムのポスドクを務めました。Tahirは、VLDB、USENIX ATC、MobiCom、MobiHocなどの一流カンファレンスで発表されたいくつかの出版物を執筆してきました。

テンフェイ・スエ ニンジャテックAIの応用科学者です。彼の現在の研究対象は、自然言語処理とマルチモーダル学習、特に大規模言語モデルと大規模マルチモーダルモデルを使用したマルチモーダル学習です。Tengfeiはシドニー大学コンピューターサイエンス学部で博士課程を修了し、さまざまなモダリティを用いた医療向けディープラーニングに焦点を当てました。また、ハーバード大学イメージング数学研究所(LMI)の客員博士課程の候補者でもあり、複雑な幾何学的データの3Dコンピュータービジョンの研究にも携わっていました。



