في NinjaTech AI، نعمل باستمرار على تجاوز حدود ما هو ممكن مع وكلاء الذكاء الاصطناعي المستقلين. تقوم SuperNinja، منصة الوكيل العام المتقدمة الخاصة بنا، بنشر كمبيوتر سحابي مخصص (VM) لكل مهمة، مما يتيح دورة كاملة من البحث ← البناء ← النشر للكود المعقد ولوحات المعلومات المباشرة ومواقع الويب والمزيد. تم تصميم الدعامة الخاصة بنا خصيصًا للاستفادة من استدعاء الأدوات ذات الأفق الطويل والترميز والاستدلال - وهي قدرات تتضمن استرداد المعلومات متعدد الخطوات، وهو ما نسميه Deep Research.
اليوم، يسعدنا مشاركة تحليلنا الشامل لنموذج Sonnet 4.5 الذي تم إطلاقه حديثًا من Anthropic باعتباره الذكاء الأساسي الذي يعمل على تشغيل SuperNinja. بعد إجراء اختبارات صارمة عبر معاييرنا الداخلية وسيناريوهات العملاء في العالم الحقيقي، يمكننا أن نقول بثقة: Sonnet 4.5 هو وحش رائع يمثل تغييرًا كبيرًا في أداء الوكيل المستقل.
نظرة سريعة على النتائج الرئيسية
- معدل إنجاز أعلى بنسبة 12.5% في اختباراتنا الداخلية مقارنة بـ Sonnet 4.0
- إنجاز المهام بشكل أسرع بنسبة 20% بسبب أخطاء أقل واستدلال أفضل
- توفير في التكاليف بنسبة 18.2% من خلال استخدام الرمز المميز بشكل أكثر كفاءة
- مخرجات عالية الجودة بشكل واضح مع التعليمات المحسنة التالية
- النموذج الأفضل أداءً الذي اختبرناه حتى الآن وفقًا لمعاييرنا
لماذا هذا مهم لمستخدمي SuperNinja
تتطلب بنية SuperNinja الفريدة أداءً استثنائيًا من نموذج اللغة الأساسي الخاص بها. على عكس روبوتات المحادثة التقليدية التي تتعامل مع الاستعلامات البسيطة، يعالج SuperNinja عمليات سير العمل المعقدة والمتعددة المراحل التي يمكن أن تتضمن عشرات أو حتى مئات القرارات المتسلسلة. تتطلب كل مهمة أن يقوم النموذج بالتخطيط الاستراتيجي والتنفيذ بدقة والتحقق من النتائج والتكيف ديناميكيًا عند ظهور التحديات.
تُترجم التحسينات التي نراها مع Sonnet 4.5 مباشرة إلى فوائد ملموسة لمستخدمينا. تعني أوقات الإنجاز الأسرع حصولك على النتائج في وقت أقرب. معدلات الإنجاز الأعلى تعني عددًا أقل من المهام الفاشلة وإحباطًا أقل. مخرجات ذات جودة أفضل تعني المزيد من المخرجات المصقولة والجاهزة للإنتاج. ويعني الاستخدام المنخفض للرموز انخفاض التكاليف دون التضحية بالقدرة.

اختبار المعيار
المرحلة 1: اختبار GAIA للدخان
نبدأ عملية تقييم النموذج باستخدام معيار GAIA - وهو اختبار صعب للتفكير متعدد الخطوات واستخدام الأدوات المصمم لقياس قدرات الوكيل في العالم الحقيقي. حققت Sonnet 4.5 تحسنًا بنسبة 5٪ تقريبًا في الدقة مقارنة بـ Sonnet 3.7 وتحسنًا بنسبة 7٪ تقريبًا مقارنة بـ Sonnet 4.0 في هذا المعيار. هذا يجعله النموذج الأفضل أداءً الذي اختبرناه حتى الآن على GAIA.
المرحلة 2: مجموعة المعايير الداخلية
بعد اجتياز اختبار GAIA للدخان، انتقلنا إلى المعيار الداخلي الخاص بنا - كشف تحليلنا أن AgencyBench [1,2] يمثل عن كثب توزيع استفسارات العملاء الحقيقية التي نلاحظها في الإنتاج. وبالاستفادة من هذه المواءمة، قمنا بتطوير مجموعة الاختبارات الداخلية الخاصة بنا وفقًا لهيكل AgencyBench وتوزيعه مع توسيع نطاقها لتشمل سيناريوهات إضافية وتحديد نماذج تقييم متعددة لالتقاط أبعاد الأداء الدقيقة. يوضح الجدول التالي توزيع المجال والفئات في مجموعة البيانات:

أظهر Sonnet 4.5 معدل إنجاز أعلى بنسبة 12.5٪ مقارنة بالنموذج الحديث السابق (Sonnet 4.0)، مع مخرجات كانت دائمًا أكثر جاذبية بصريًا وأكثر توافقًا مع نية المستخدم.
اختلفت تحسينات الأداء بشكل كبير حسب نوع المهمة. في مهام البحث العميق - عمليات سير العمل المعقدة التي تتطلب جمع المعلومات وتوليفها على نطاق واسع - حقق Sonnet 4.5 تحسينات دقة بنسبة 10٪ تقريبًا مقارنة بـ Sonnet 4.0. كانت المكاسب أكثر إثارة في سيناريوهات عامل الترميز، حيث زادت الدقة من 80٪ إلى 96٪، مما يمثل تحسنًا بنسبة 16 نقطة مئوية.
بالإضافة إلى الدقة، أظهر Sonnet 4.5 كفاءة فائقة. في 81٪ من حالات الاختبار، تطلب النموذج خطوات أقل أو متساوية لإكمال المهام، مما يشير إلى المزيد من أساليب حل المشكلات المباشرة وتقليل النفقات الحسابية.
الأداء في العالم الحقيقي: تحدي محلل الأسهم
ولإثبات التأثير العملي لهذه التحسينات، أجرينا اختبارًا شاملاً في العالم الحقيقي باستخدام موجه مماثل عبر العديد من نماذج الذكاء الاصطناعي الرائدة. كانت المهمة معقدة وممثلة لأنواع التحديات التي يواجهها مستخدمو SuperNinja يوميًا:
«قم ببناء محلل أسهم حديث ومحترف قائم على الويب لـ Mag7 باستخدام الرسوم البيانية مع التوقعات. أعطني اقتراحات بعوامل خطر مختلفة حول كيفية تخصيص مليون دولار من أجل مضاعفته في الأشهر الستة المقبلة عبر Mag7 وتقديم الأساس المنطقي لذلك. لخص آخر الأخبار حول كل شركة وتأكد من أن جميع الروابط الخارجية تعمل بشكل صحيح. فكر وأضف ميزات مفيدة للتعلم والتحليل بشكل أفضل لتطبيق الويب. قم بإنشاء ارتباط دائم له واختباره ثم نشره.»
نتائج مقارنة
ملاحظة: تم اختبار جميع الموديلات باستخدام مطالبات zero-shot المتطابقة (لا توجد أمثلة أو ضبط دقيق). يتم توفير روابط لعرض النتائج الفعلية المنشورة أدناه.
قوة استدعاء الأدوات المتوازية
واحدة من أكثر إمكانيات Sonnet 4.5 إثارة هي دعمها لاستدعاء الأدوات المتوازية - وهي ميزة كانت غائبة بشكل ملحوظ في الإصدارات السابقة. يُظهر تحليلنا أن ما يقرب من 20٪ من مهام SuperNinja يمكن أن تستفيد بشكل كبير من هذه الإمكانية. يمكّن استدعاء الأدوات المتوازية النموذج من تنفيذ عمليات مستقلة متعددة في وقت واحد بدلاً من التسلسل.

كفاءة التكلفة: إنجاز المزيد بموارد أقل
بالإضافة إلى تحسينات الأداء، يوفر Sonnet 4.5 وفورات كبيرة في التكاليف. يُظهر تحليلنا انخفاضًا بنسبة 15٪ تقريبًا في التكاليف الإجمالية عند تشغيل مهام SuperNinja مع Sonnet 4.5 مقارنة بالنماذج السابقة. تأتي هذه الوفورات من مصادر متعددة: تقليل عدد الخطوات، وانخفاض معدلات الخطأ، وتحسين الكفاءة.
الأسئلة الشائعة
Q1: ما هي تحسينات الأداء الرئيسية في Anthropic Sonnet 4.5 مقارنة بالنماذج السابقة؟
أ: يحقق Anthropic Sonnet 4.5 معدلات إنجاز أعلى، واستدلال أسرع وأكثر دقة، وتنفيذ سير عمل أكثر كفاءة مقارنة بـ Sonnet 4.0 و Sonnet 3.7، كما هو موضح في اختبار SuperNinja القياسي.
Q2: كيف يعمل Sonnet 4.5 على تحسين قدرات الوكلاء واستخدام الأدوات لسير العمل المستقل؟
أ: يقدم Sonnet 4.5 مكالمات متقدمة للأدوات المتوازية وإدارة السياق المحسّنة، مما يمكّن الوكلاء من تشغيل مهام متعددة الخطوات والاستفادة من أدوات متعددة في وقت واحد، مما يؤدي إلى تحسين جودة الإنتاج والموثوقية في مهام البحث والترميز والأتمتة.
Q3: ما الاختبارات المعيارية التي توضح مزايا Sonnet 4.5 في العالم الحقيقي؟
أ: يسلط تحليل SuperNinja الضوء على معدل إنجاز أعلى بنسبة 12.5٪ ومعالجة فائقة لسير العمل البحثي العميق في معايير GAIA و AgencyBench، مع عدد أقل بكثير من حالات الفشل والأخطاء في المهام مقارنة بالنماذج المنافسة.
الربع الرابع: كيف يمكن مقارنة Sonnet 4.5 بنماذج الذكاء الاصطناعي الرائدة الأخرى في الأداء العملي؟
أ: في الاختبار جنبًا إلى جنب، تطلب Sonnet 4.5 خطوات أقل، وقدم تعليمات برمجية وتحليلًا بجودة أعلى، وكان أكثر فعالية من حيث التكلفة من نماذج مثل GPT-5 و Gemini 2.5 Pro والبدائل مفتوحة المصدر للمهام المعقدة مثل أجهزة تحليل المخزون وتطبيقات الويب الفعالة
س 5: ما الميزات التقنية وأحجام نوافذ السياق التي يدعمها Sonnet 4.5 لحالات الاستخدام المتقدمة؟
أ: يوفر Sonnet 4.5 إدارة نافذة السياق الذكية مع ما يصل إلى 1,000,000 رمز بيتا، وذاكرة الوكيل الدائمة عبر الجلسات، والتشغيل الذاتي الممتد، وما يصل إلى 64 ألف رمز إخراج لسيناريوهات البرمجة وتحليل البيانات المعقدة.
المراجع والمزيد من القراءة
[1] AgencyBench: قياس أنظمة الذكاء الاصطناعي الفعالة - https://arxiv.org/abs/2509.17567
[2] لوحة المتصدرين في مقعد الوكالة - https://agencybench.opensii.ai/
[3] معيار غايا - https://arxiv.org/abs/2311.12983
[4] منصة سوبر نينجا - https://super.myninja.ai/
.avif)


