المعايير

معايير شاملة تقارن أداء Ninja بالنماذج الرائدة عبر التفكير والترميز ومهام الوكيل.

سوبر نينجا

معيار غايا

GAIA هو معيار لتقييم مساعدي الذكاء الاصطناعي العامين في حل مشاكل العالم الحقيقي. لقد تجاوزت SuperNinja النماذج الحدودية في المستوى 1.

SuperNinja scores for the GAIA benchmark

ديب ريسيرش 2.0

تم اختبار Ninja's Deep Research بدقة مقابل أفضل معايير الذكاء الاصطناعي. تؤكد هذه التقييمات قدرتها على تحليل الموضوعات المعقدة وتكييف نهجها وتقديم أبحاث عالية الجودة بكفاءة.

معيار ضمان الجودة البسيط

SimpleQA هو أحد أفضل الوكلاء لاكتشاف مستويات الهلوسة في النموذج. نينجا الدرجات 91.2% الدقة على ضمان الجودة البسيط المعيار - أظهر Ninja's Deep Research أداءً استثنائيًا في تحديد المعلومات الواقعية بدقة، متجاوزًا النماذج الرائدة في هذا المجال. يعتمد هذا الأداء على اختبارات صارمة باستخدام مجموعة كبيرة من عدة آلاف من الأسئلة المصممة خصيصًا لتقييم الواقع. يرجع أحد أسباب تفوق نظامنا على الآخرين إلى الكم الهائل من تعليقات المستخدمين التي تلقيناها عندما أطلقنا الإصدار الأول من Deep Research، مما مكننا من ضبط وتحسين الجودة التي يعرضها الآن معيار SimpleQA.

دقة QA البسيطة (الأعلى هو الأفضل)
معدل الهلوسة البسيط (الأقل هو الأفضل)
معيار غايا

غايا (المساعدون العامون للذكاء الاصطناعي) هو معيار رائد طوره باحثون من Meta و HuggingFace و AutoGPT و GenAI والذي يعزز بشكل كبير كيفية تقييمنا للقدرات البحثية لأنظمة الذكاء الاصطناعي. على عكس المعايير التقليدية التي تركز على المعرفة المتخصصة أو المهام البشرية المتزايدة الصعوبة، تختبر GAIA القدرات الأساسية الضرورية للبحث العميق من خلال مجموعة من الأسئلة المصممة بعناية والتي تتطلب التفكير، وتعدد الأساليب، وتصفح الويب، وإتقان استخدام الأدوات.

يعتبر المعيار مهمًا بشكل خاص لقياس دقة أنظمة البحث العميق لأنه يقيم مدى قدرة الذكاء الاصطناعي على التنقل في بيئات المعلومات في العالم الحقيقي، وتجميع البيانات من مصادر متعددة، وإنتاج إجابات واقعية وموجزة - المهارات الأساسية لأدوات البحث المستقلة.

من خلال التركيز على الأسئلة التي تتطلب التخطيط المستقل وتنفيذ مسارات العمل البحثية المعقدة - بدلاً من الخبرة في المجال المتخصص - توفر GAIA إطارًا تقييمًا شاملاً يتوافق تمامًا مع تقييم دقة وموثوقية أنظمة البحث العميقة في التطبيقات العملية في العالم الحقيقي. يُظهر Ninja Deep Research دقة مماثلة لـ OpenAI Deep Research، مع تقديم مهام غير محدودة مقابل 15 دولارًا فقط في الشهر.

الموفر (باس @1)

المستوى 1

المستوى 2

المستوى 3

متوسط

أبحاث OpenAI العميقة

74.29

69.06

47.6

67.36

أبحاث النينجا العميقة

69.81

56.97

46.15

57.64

معيار الاختبار الأخير للإنسانية (HLE)

امتحان الإنسانية الأخير يمثل تقدمًا كبيرًا في تقييم الذكاء الاصطناعي، حيث يوفر معيارًا شاملاً يقيس بشكل فعال دقة البحث العميق عبر مجالات متعددة. يستخدم المعيار أكثر من 3000 سؤال تغطي نطاقًا متنوعًا من أكثر من 100 موضوع، بما في ذلك الرياضيات والعلوم والتاريخ والأدب والعديد من المجالات الأخرى. إنها أسئلة على مستوى الخبراء، مصممة لاختبار المعرفة الحدودية بما يتجاوز قدرات الاسترجاع البسيطة، مما يجعلها في وضع فريد لتقييم مدى قدرة أنظمة الذكاء الاصطناعي على إجراء أبحاث دقيقة ومتخصصة على حدود المعرفة البشرية.

حققت الأبحاث العميقة، التي طورتها NinjaTech، طفرة كبيرة في الذكاء الاصطناعي من خلال تحقيق درجة دقة بنسبة 17.47٪ في الاختبار الأخير للإنسانية. هذا الأداء أعلى بشكل ملحوظ من العديد من نماذج الذكاء الاصطناعي الرائدة الأخرى، بما في ذلك OpenAI o3-mini و o1 و Deepseek-R1 وغيرها.

المنطق 2.0

تفوق التفكير 2.0 على OpenAI O1 و Sonnet 3.7 في الرياضيات التنافسية في اختبار AIME. يقوم بتقييم قدرة الذكاء الاصطناعي على التعامل مع المشكلات التي تتطلب المنطق والتفكير المتقدم.

تجاوز التفكير 2.0 أيضًا دقة مستوى الدكتوراه البشري في اختبار GPQA. يقوم بتقييم التفكير العام من خلال أسئلة معقدة متعددة الخطوات تتطلب الاسترجاع الواقعي والاستدلال وحل المشكلات.

رياضيات المسابقة (AIME 2024)
أسئلة العلوم على مستوى الدكتوراه (GPQA Diamond)
كود المنافسة (كود فورس)

توربو 1.0 وأبيكسس 1.0

سجل Apex 1.0 أعلى الدرجات في اختبار Arena-Hard-Auto (الدردشة) المتوافق مع معايير الصناعة. وهو يقيس مدى قدرة الذكاء الاصطناعي على التعامل مع المحادثات المعقدة في العالم الحقيقي، مع التركيز على قدرته على التنقل في السيناريوهات التي تتطلب فهمًا دقيقًا ووعيًا بالسياق.

تتفوق النماذج أيضًا في معايير أخرى: Math-500، AIME2024 - التفكير، GPQA - الاستدلال، LiveCodeBench - الترميز، و LiveCodeBench - الترميز - الصعب.

أرينا هارد (تلقائي) - دردشة
الرياضيات - 500
التفكير - AIME 2024
التفكير - GPA
LiveCodeBench - الترميز
LiveCodeBench - الترميز - صعب

ابدأ مع سوبر نينجا

حيث يلتقي الذكاء الاصطناعي العام بالإنتاجية في العالم الحقيقي.