التفكير الفعال من حيث التكلفة هو مفتاح سير عمل الوكيل

في Ninja AI، نعتقد أن الذكاء الاصطناعي المتطور يجب أن يكون قويًا ويمكن الوصول إليه، مما يساعد المستخدمين على زيادة الإنتاجية دون إفلاس. على مدار العامين الماضيين، ركزنا على بناء نظام إنتاجي فعال، وإضافة أحدث تطورات الذكاء الاصطناعي باستمرار إلى Ninja AI لجعله أكثر ذكاءً وأسرع وأكثر قدرة.

على طول الطريق، قدمنا ميزات تتطلب عمليات سير عمل معقدة للوكالات، مثل البحث العميق و تحليل الملفات متعددة الأدوار. أطلقنا أيضًا إصدارًا تجريبيًا من جدولة سير العمل، مما يسمح لـ Ninja بالتفاوض على أوقات الاجتماعات مع العديد من المشاركين عبر البريد الإلكتروني.

بينما نعمل باستمرار على تحسين هذه المهارات، ندرك الحاجة الماسة - لتعزيز ذكاء النينجا واتخاذ القرار. يتطلب تقليل الأخطاء في المهام عالية الخطورة (مثل تعديل أحداث التقويم) وتمكين المزيد من عمليات سير العمل المستقلة (على سبيل المثال، تنفيذ المهام المركبة التي تتفاعل مع واجهات برمجة التطبيقات والأشخاص) من وكلائنا اتخاذ قرارات وتنبؤات أكثر دقة في العديد من أنواع المواقف المختلفة.

لقد اكتشفنا أن دمج «التفكير خطوة بخطوة» في عمليات سير العمل لدينا يعزز بشكل كبير دقتها وقدرتها على التعميم. التفكير خطوة بخطوة هو عملية تتضمن: التخطيط، وتقسيم المهام، والتراجع، والتحقق والتفكير قبل تنفيذ المهام عن طريق استدعاء الوظائف الذكي. نجحت نماذج التفكير الحديثة في تطبيق «التفكير خطوة بخطوة» لحل مشاكل الرياضيات والعلوم والترميز المعقدة. ومع ذلك، نظرًا للقيود التالية، فإن هذه النماذج ليست مناسبة لسير عمل Ninja Agentic الخاص بنا:

أولاً، معظم نماذج التفكير الحالية مكلفة للغاية. على سبيل المثال، مهمة وكيل معقدة واحدة باستخدام واجهة برمجة تطبيقات O1 من OpenAI يمكن أن تكلف ما بين 0.75 دولار إلى 2.25 دولار1 - هذه هي تكلفة «لكل مهمة» وهو سعر غير مستدام اقتصاديًا بالنسبة لنا كشركة وأيضًا غير قابل للتطبيق للعملاء إذا أردنا تمرير التكاليف إليهم لكل مهمة.

1بافتراض أن كل مهمة وكيل تتطلب ما يقدر بـ 5,000 إلى 10,000 رمز إدخال و 10,000 إلى 30,000 رمز إخراج

ثانيًا، لا تحتوي نماذج التفكير ذات الأسعار المعقولة على الميزات الضرورية لتشغيل تدفقات عمل الوكلاء. على سبيل المثال، يعد DeepSeek R1 نموذجًا للتفكير الحر - ولكنه محدود. يتطلب R1، نظرًا لحجمه، وحدات معالجة الرسومات Nvidia H200s (أو أفضل) لوقت استجابة مرتفع وإنتاجية منخفضة للنموذج؛ مما يجعل من الصعب استخدامه في نظام الدردشة الموجه نحو المهام في الوقت الفعلي. استخدام H200s يجعل تشغيله مكلفًا أيضًا. بالإضافة إلى ذلك، يواجه R1 تحديات في التعامل مع القدرات العامة ومهام هندسة البرمجيات - يتم تأكيد هذه القيود من خلال القسم الأخير من ورقة R1.

علاوة على ذلك، تفتقر نماذج التفكير الحالية إلى التخصيصات. في Ninja، نطمح إلى بناء نظام الوكيل الأكثر تقدمًا للإنتاجية. على هذا النحو، نحتاج إلى القدرة على ضبط النماذج لتناسب احتياجاتنا بشكل أفضل. هذا غير ممكن عند الوصول إلى نماذج التفكير الحالية عبر API أو استخدام نماذج التفكير الكبيرة مفتوحة المصدر الحالية (مثل 671B param R1).

نظرًا لهذه العيوب، قررنا تصميم نظام التفكير الخاص بنا - Superagent-R 2.0 - لمساعدتنا على تمكين نظام وكيل مستدام سريع وميسور التكلفة وقابل للضبط بشكل جيد للعملاء. \

نموذج التفكير للنينجا - SuperAgent-R 2.0

سوبراجينت-آر 2.0 هو نظام الذكاء الاصطناعي المركب: إنه يستفيد من نموذج Ninja الخاص الذي تم ضبطه بدقة مع القدرة على التفكير، والذي يعتمد على DeepSeek R1 المقطر على Llama 70B. يستخدم Superagent-R 2.0 أيضًا نماذج أخرى لدعم التفكير من خلال التحسينات المتقدمة على مستوى الاستدلال. يعمل النظام بأكمله من البداية إلى النهاية إلى البنية التحتية لـ AWS مما يجعله ميسور التكلفة وقابل للتطوير. توفر النتيجة النهائية أداءً قريبًا من أحدث التقنيات بجزء بسيط من تكلفة النماذج الاحتكارية مثل OpenAi's O أو O3-mini (عالي) أو Sonnet 3.7 من Anthropic (وضع التفكير).

يجمع Superagent-R 2.0 العديد من الابتكارات الأولى من نوعها في الصناعة لإنشاء نظام يمكنه إكمال مهام التفكير المعقدة بتكاليف منخفضة. أحد المكونات الرئيسية للنظام هو نهج التفكير متعدد السرعات الجديد. على عكس النماذج الأخرى التي تجبر المستخدمين على مستوى ثابت من الحساب، يقوم نظامنا ديناميكيًا بضبط جهد التفكير بناءً على تعقيد المهام. مستوى حساب SuperAgent هو:

  • عدم التفكير - لعمليات البحث المباشرة والاستجابات السريعة.
  • التفكير الخفيف - للمهام متوسطة التعقيد مثل التفكير المنظم.
  • التفكير العالي - لمهام التفكير العميق متعدد الخطوات التي تتطلب منطقًا متقدمًا.

يمكن لـ Superagent-R 2.0 تحديد جهد التفكير ذاتيًا والتكيف تلقائيًا مع طلب المستخدم. من المسلم به أنه من الصعب تحقيق ذلك طوال الوقت لأن النظام لا يزال بإمكانه الإفراط في التفكير. نحن نراجع ملاحظات العملاء باستمرار وسنواصل إجراء التحسينات.

خضع Superagent-R 2.0 لاختبارات صارمة مقابل معايير الذكاء الاصطناعي الرائدة، مما يدل على الأداء الأفضل في فئته عبر مجالات متعددة. في هذه الاختبارات، يتنافس SuperAgent-R 2.0 باستمرار مع نماذج الذكاء الاصطناعي الرائدة، مما يثبت قدراته الفائقة على التفكير وحل المشكلات.

مزايا الوكيل الفائق- R 2.0 مقارنة بـ DeepSeek R1

تلقى Deepseek-R1، عن حق، الكثير من الاهتمام مؤخرًا كنموذج تفكير حر عالي الجودة. ومع ذلك، فإنه يأتي مع بعض العيوب البارزة. أحد القيود الرئيسية هو متطلبات الأجهزة (التي ذكرناها أعلاه) - يجب أن تعمل على وحدات معالجة الرسومات Nvidia H200 (أو أفضل)، والتي يمكن أن تزيد من تكاليف التشغيل؛ وحتى مع ذلك، فهو ليس نموذجًا سريعًا للاستدلال السريع في الوقت الفعلي.

بالإضافة إلى ذلك، عندما قمنا بتقييم Deepseek-R1 ومراجعة وثائقها، حددنا العيوب الأخرى التي يمكن أن تؤثر على عملائنا:

  • القدرة العامة: لا يرقى DeepSeek-R1 إلى Deepseek-v3 في المجالات الرئيسية مثل استدعاء الوظائف والتفاعلات متعددة الأدوار ولعب الأدوار المعقد.
  • قدرات اللغة: تم تحسين DeepSeek-R1 للغة الصينية والإنجليزية، مما قد يؤدي إلى حدوث مشكلات عند التعامل مع الاستعلامات بلغات أخرى. نظرًا لأننا ندعم المستخدمين بلغات متعددة، فإن دعم اللغة الأوسع أمر ضروري.
  • حساسية المطالبة: يعتبر Deepseek-R1 حساسًا للغاية للتغيرات السريعة. تؤدي المطالبة بضربات قليلة - وهي شائعة بين العملاء - إلى تدهور الأداء العام، مما يجعله أقل موثوقية لتلبية احتياجاتنا.
  • مهام هندسة البرمجيات: تشير النتائج المعيارية إلى أن Deepseek-R1 لديها قدرات محدودة في هندسة البرمجيات. نظرًا لأن العديد من عملائنا يعتمدون على Ninja في المهام المتعلقة بالبرمجيات، فإن هذا القيد سيؤثر بشكل كبير على تجربتهم.

يعد DeepSeek R1 نموذجًا رائعًا، ولكن هذه العوامل تجعل DeepSeek R1 أقل ملاءمة لاحتياجاتنا ودفعت قرارنا بتطوير Seuperagent-R 2.0.

رياضيات المسابقة (AIME 2024)

بالنسبة للرياضيات التنافسية، وهي أحد محددات القدرة على التفكير، أظهر اختبارنا أن SuperAgent-R 2.0 يتجاوز أداء OpenAI O1 و Sonnet 3.7 (تفكير موسع بسعة 64 كيلو بايت) ونماذج DeepSeek R1 و SuperAgent-R 2.0 على قدم المساواة مع نموذج OpenAI O3 عالي التفكير. لدى أوبن إيه آي البيانات المنشورة أن النموذج الجيد في الرياضيات التنافسية مثل AIME 2024، سيكون جيدًا في سير عمل الوكيل المستقل.

أسئلة العلوم على مستوى الدكتوراه (GPQA Diamond)

يقيس هذا الاختبار مدى قدرة النظام على حل الأسئلة العلمية على مستوى الدكتوراه. هذا الاختبار مهم لمستخدمينا الذين يعملون في العديد من الصناعات المختلفة ولديهم وظائف وظيفية مختلفة. تجاوز Superagent-R 2.0 دقة مستوى الدكتوراه البشري في هذا المعيار الخاص بمشاكل الفيزياء والبيولوجيا والكيمياء.

كود المنافسة (كود فورس)

في البرمجة التنافسية لـ Codeforces، يحقق SuperAgent-R 2.0 درجات ELO أعلى تدريجيًا من DeepSeek V3 ودرجات تنافسية مع العديد من نماذج OpenAI.

LiveBench - الترميز

تستخدم لاختبار أداء الترميز في العالم الحقيقي.

سوبراجينت-آر 2.0 متاح على myninja.ai

على عكس المنتجات المختلفة في السوق، لن نفرض رسوم اشتراك إضافية للوصول غير المحدود إلى طراز SuperAgent-R 2.0. هذا النموذج متاح لجميع مستخدمي Ultra (15 دولارًا شهريًا) ومستخدمي خطة الأعمال (20 دولارًا شهريًا للمقعد). تفاصيل التسعير. يرجى ملاحظة أننا نحتفظ بالحق في الحد من الاستخدام على أساس الاستخدام المفرط.

جربها في myninja.ai

ما هي الخطوة التالية: المهارات الجديدة والوصول إلى API

وبينما نتطلع إلى المستقبل، سنستمر في تقديم عمليات سير عمل فعالة، مدعومة بـ SuperAgent-R 2.0 - لمساعدة مستخدمينا على أن يكونوا أكثر إنتاجية. تتمثل إحدى الطرق الأولى التي نخطط بها لاستخدام SuperAgent-R 2.0 في تحسين ميزة DeepSearch الخاصة بنا.

نخطط أيضًا لتوفير وصول API إلى Superagent-R 2.0 قريبًا - لمساعدة المطورين والشركات على بناء أنظمتهم المخصصة.