الوكيل الخارق لـ Ninja AI يضع معيارًا جديدًا لما يمكن أن يحققه نظام الذكاء الاصطناعي. من خلال الجمع بين أحدث التقنيات تحسين مستوى الاستدلال مع تنسيق متعدد النماذج و صقل قائم على النقد، تقدم SuperAgent نتائج تتفوق حتى على النماذج التأسيسية الأكثر شيوعًا مثل GPT-4o و Gemini 1.5 Pro و Claude Sonnet 3.5.
حققت Ninja SOTA في معيار Arena-Hard، والذي سنناقشه في منشور المدونة هذا، إلى جانب أدائها في معايير أخرى.
ما هو سوبر اجينت؟
نحن في السابق قدم وكيلنا الخارق، وهو نظام ذكاء اصطناعي قوي مصمم لتوليد إجابات أفضل من أي نموذج منفرد. يستخدم SuperAgent تحسين مستوى الاستدلال، والذي يتضمن الجمع بين الاستجابات من نماذج الذكاء الاصطناعي المتعددة. هذا يعني أنه بدلاً من الاعتماد على منظور واحد، يستخدم SuperAgent مزيجًا من النماذج ثم يقوم بتحسين المخرجات باستخدام نموذج نقدي لتقديم إجابات أكثر شمولاً ودقة ومفيدة. والنتيجة هي مستوى من الجودة يتفوق على الأساليب التقليدية أحادية النموذج.
يعد SuperAgent امتدادًا طبيعيًا لميزة النماذج المتعددة لدينا وإيماننا بأنه يجب أن يكون لديك بعض الخيارات في النموذج الذي تستخدمه. استنادًا إلى الأساس الذي أنشأناه لمشتركي Pro و Ultra، تأخذ SuperAgent الأمور إلى الأمام من خلال مواءمة هذه النماذج معًا بسلاسة. هذا يعني أنه بدلاً من مجرد اختيار نموذج، فإن SuperAgent يجمعهم معًا لتقديم الاستجابات الأكثر شمولاً ودقة وتحسينًا الممكنة.
قمنا ببناء ثلاثة إصدارات من SuperAgent لتحقيق التوازن بين السرعة والعمق والتكلفة.
سوبر اجينت توربو
للاستجابات بسرعة البرق. تقدم Turbo ردودًا فورية باستخدام نماذجنا المخصصة والمضبوطة داخليًا وهي متاحة لجميع المشتركين.
سوبر إيجنت نيكسوس
الإصدار الأكثر قوة من SuperAgent، فهو يقدم ردودًا مدروسة بدقة وشاملة. فهو يجمع بين العديد من نماذج الذكاء الاصطناعي الرائدة للحصول على رؤى على مستوى الخبراء وهو متاح لمشتركي Ultra and Business.
سوبر أجين-آر 2.0
للمشاكل المعقدة التي تتطلب التفكير المتقدم. تم تصميم Superagent-R على DeepSeek R1 المقطر على اللاما 70B، وهو متاح لمشتركي Ultra و Business.

لماذا اختبرنا SuperAgent مقابل معايير الصناعة
لتقييم أداء SuperAgent، أجرينا أحدث الاختبارات على نماذج أساسية متعددة مثل GPT-4 و Gemini 1.5 Pro و Claude Sonnet 3.5. تعد الاختبارات المعيارية مثل هذه ممارسة شائعة في علوم الكمبيوتر وتساعدنا على تقييم كيفية مقارنة نهجنا في الذكاء الاصطناعي بنهج النموذج الفردي.
فيما يلي المعايير التي استخدمناها:
أرينا هارد أوتو (دردشة)
معيار مصمم لاختبار قدرات المحادثة المعقدة، مع التركيز على القدرة على التعامل مع سيناريوهات الحوار المعقدة التي تتطلب فهمًا دقيقًا ووعيًا بالسياق.
الرياضة-500
معيار يهدف إلى تقييم التفكير الرياضي للذكاء الاصطناعي وقدرات حل المشكلات، مع التركيز بشكل خاص على المشكلات المعقدة التي تنطوي على رياضيات ذات مستوى أعلى.
طاولة الترميز المباشرة (الترميز)
اختبار ترميز يقيس قدرة الذكاء الاصطناعي على فهم التعليمات البرمجية وإنشائها. يقيّم هذا المعيار قدرة النموذج على كتابة كود دقيق استجابة لمجموعة متنوعة من المطالبات، بما في ذلك تحديات البرمجة الأساسية والمتوسطة.
طاولة الترميز المباشرة الصلبة (الترميز)
امتداد لـ Livecodebench، مع التركيز على مهام الترميز المتقدمة التي تنطوي على حل المشكلات المعقدة والتحديات الخوارزمية. إنه مصمم لتجاوز حدود مهارات الترميز الخاصة بالذكاء الاصطناعي وتقييم قدرته على إدارة سيناريوهات البرمجة الأكثر صعوبة.
GPQA (حل المشكلات العامة والإجابة على الأسئلة)
معيار يختبر قدرات التفكير العامة للذكاء الاصطناعي من خلال مطالبته بالإجابة على الأسئلة التي تتضمن المنطق المعقد والمتعدد الخطوات والتذكر الواقعي والاستدلال.
AIME2024 (الاستدلال المتقدم والتقييم الرياضي)
معيار يركز على التفكير المتقدم والتقييم الرياضي. يقوم بتقييم قدرة النموذج على التعامل مع المشكلات التي تتطلب حسابات منطقية ورقمية.
تمثل هذه المعايير طريقة شاملة متوافقة مع معايير الصناعة لتقييم الجوانب المختلفة لأداء الذكاء الاصطناعي، مما يسمح لنا بتقييم قدرات SuperAgent مقارنة بالنماذج المستقلة.
SuperAgent يتفوق على النماذج التأسيسية في Arena-Hard
كما ذكرنا، قدمت SuperAgent نتائج رائعة مقارنة بجميع النماذج التأسيسية في معايير متعددة. دعونا نلقي نظرة فاحصة على Arena-Hard مع عدم التحكم في الأسلوب، أحد أهم المعايير لتقييم مدى كفاءة نظام الذكاء الاصطناعي في التعامل مع المهام اليومية الشائعة. يعد هذا المعيار ضروريًا لفهم الأداء العملي للذكاء الاصطناعي، وقد تفوقت SuperAgent في إظهار قدرات تتجاوز بكثير تلك الموجودة في النماذج الرائدة الأخرى.
النتائج: تفوقت SuperAgent على جميع النماذج التأسيسية الأخرى وفقًا للقياس أرينا هارد.
أرينا هارد

نريد أن نسلط الضوء على أن برنامج SuperAgent الخاص بـ Ninja تفوق على معاينة o1-mini و o1 من OpenAI - وهما نموذجان منطقيان. هذا أمر مثير للغاية لأن o1-mini و o1-preview ليسا مجرد نماذج للذكاء الاصطناعي، بل هما أنظمة تفكير متقدمة لا تتم مقارنتها بشكل عام بالنماذج التأسيسية مثل Gemini 1.5 pro أو Claude 3.5. إن أداء Ninja أفضل من نموذجين منطقيين، يثبت أن نهج SuperAgent - الذي يجمع النتائج من نماذج متعددة باستخدام نموذج نقدي - يمكن أن ينتج نتائج فائقة لنظام ذكاء اصطناعي واحد.
تتفوق SuperAgent على المعايير الأخرى
بعيدًا عن Arena-Hard، أظهر إصدار Apex من Ninja SuperAgent أداءً استثنائيًا في الرياضيات والترميز وحل المشكلات بشكل عام. تسلط هذه النتائج الضوء على قدرة SuperAgent المتميزة على معالجة المشكلات المعقدة، مما يُظهر المنطق المتقدم والدقة مقارنة بالنماذج الأخرى. تفوقت قدرتها على إنشاء كود دقيق وعملي باستمرار على النماذج الأخرى التي تم اختبارها.
LiveCodeBench - الترميز

LiveCodeBench - الترميز - صعب

AIME2024 - التفكير

GPQA - التفكير

الرياضيات - 500

عبر جميع المعايير، أظهر SuperAgent مستوى من الأداء تجاوز العديد من النماذج التأسيسية المعروفة - متفوقًا أحيانًا على نماذج التفكير الأكثر تقدمًا في السوق.
أفكار نهائية
النتائج تتحدث عن نفسها - SuperAgent هي قفزة إلى الأمام في كيفية تفكيرنا في الحلول المدعومة بالذكاء الاصطناعي. من خلال الاستفادة من النماذج المتعددة ونظام النقد المكرر والتحسين المتقدم لمستوى الاستدلال، تقدم SuperAgent إجابات أعمق وأكثر دقة وأكثر ملاءمة لاحتياجاتك. سواء كنت بحاجة إلى حل ترميز معقد أو تفكير متقدم أو ببساطة أفضل دعم ممكن للمحادثة، فقد أثبتت SuperAgent أنها قادرة على التفوق على الأساليب التقليدية أحادية النموذج.
مع استمرارنا في الابتكار، يظل التزامنا هو نفسه: تقديم نظام الذكاء الاصطناعي الأكثر ذكاءً وكفاءة وقوة - لأن الإجابات الأفضل تعني تجربة أفضل لك.



