बेंचमार्क
निंजा के प्रदर्शन की तुलना रीजनिंग, कोडिंग और एजेंट कार्यों के प्रमुख मॉडलों से करने वाले व्यापक बेंचमार्क।
सुपर निंजा
गैया बेंचमार्क
GAIA वास्तविक दुनिया की समस्याओं को हल करने के लिए जनरल AI सहायकों का मूल्यांकन करने के लिए एक बेंचमार्क है। सुपरनिंजा ने लेवल 1 पर फ्रंटियर मॉडल को पीछे छोड़ दिया है।

डीप रिसर्च 2.0
निंजा के डीप रिसर्च का शीर्ष एआई बेंचमार्क के खिलाफ कड़ाई से परीक्षण किया गया है। ये मूल्यांकन जटिल विषयों का विश्लेषण करने, इसके दृष्टिकोण को अनुकूलित करने और उच्च गुणवत्ता वाले शोध को कुशलतापूर्वक वितरित करने की इसकी क्षमता की पुष्टि करते हैं।
मॉडल के मतिभ्रम के स्तर का पता लगाने के लिए SimpleQA सबसे अच्छे प्रॉक्सी में से एक है। निंजा स्कोर 91.2% पर सटीकता सरल क्यूए बेंचमार्क - निंजा के डीप रिसर्च ने क्षेत्र में अग्रणी मॉडलों को पीछे छोड़ते हुए तथ्यात्मक जानकारी की सही पहचान करने में असाधारण प्रदर्शन किया है। यह प्रदर्शन विशेष रूप से तथ्यात्मकता का आकलन करने के लिए डिज़ाइन किए गए कई हज़ार प्रश्नों के विशाल संग्रह का उपयोग करके कठोर परीक्षणों पर आधारित है। इसका एक कारण यह है कि हमारा सिस्टम दूसरों से बेहतर प्रदर्शन कर रहा है, जब हमने Deep Research का पहला संस्करण लॉन्च किया था, तब हमें बड़ी मात्रा में यूज़र फ़ीडबैक मिला था, जिसने हमें SimpleQA बेंचमार्क द्वारा प्रदर्शित गुणवत्ता को बेहतर बनाने और बेहतर बनाने में सक्षम बनाया।
गैया (जनरल एआई असिस्टेंट) मेटा, हगिंगफेस, ऑटोजीपीटी और जेनएआई के शोधकर्ताओं द्वारा विकसित एक अभूतपूर्व बेंचमार्क है जो एआई सिस्टम की अनुसंधान क्षमताओं का मूल्यांकन करने के तरीके को काफी आगे बढ़ाता है। विशिष्ट ज्ञान या तेजी से कठिन मानवीय कार्यों पर ध्यान केंद्रित करने वाले पारंपरिक बेंचमार्क के विपरीत, GAIA सावधानीपूर्वक तैयार किए गए प्रश्नों के एक सेट के माध्यम से गहन शोध के लिए आवश्यक मूलभूत क्षमताओं का परीक्षण करता है, जिसमें तर्क, बहु-तौर-तरीके, वेब ब्राउज़िंग और टूल-उपयोग प्रवीणता की आवश्यकता होती है।
बेंचमार्क गहन शोध प्रणालियों की सटीकता को मापने के लिए विशेष रूप से प्रासंगिक है क्योंकि यह मूल्यांकन करता है कि AI वास्तविक दुनिया के सूचना वातावरण को कितनी अच्छी तरह नेविगेट कर सकता है, कई स्रोतों से डेटा को संश्लेषित कर सकता है, और तथ्यात्मक, संक्षिप्त उत्तर—स्वायत्त अनुसंधान उपकरणों के लिए मुख्य कौशल का उत्पादन कर सकता है।
विशिष्ट डोमेन विशेषज्ञता के बजाय स्वायत्त योजना और जटिल शोध वर्कफ़्लो के निष्पादन की आवश्यकता वाले प्रश्नों पर ध्यान केंद्रित करके - GAIA एक व्यापक मूल्यांकन ढांचा प्रदान करता है जो व्यावहारिक, वास्तविक दुनिया के अनुप्रयोगों में गहन शोध प्रणालियों की सटीकता और विश्वसनीयता का मूल्यांकन करने के साथ पूरी तरह से संरेखित होता है। निंजा डीप रिसर्च केवल $15/माह के लिए असीमित कार्यों की पेशकश करते हुए, OpenAI Deep Research की तुलना में तुलनीय सटीकता दिखाता है।
प्रदाता (पास @1)
लेवल 1
लेवल 2
लेवल 3
औसत
OpenAI का गहन शोध
74.29
69.06
47.6
67.36
निन्जास डीप रिसर्च
69.81
56.97
46.15
57.64
मानवता की आखिरी परीक्षा एआई मूल्यांकन में एक महत्वपूर्ण प्रगति का प्रतिनिधित्व करता है, जो एक व्यापक बेंचमार्क प्रदान करता है जो कई डोमेन में गहन शोध की सटीकता को प्रभावी ढंग से मापता है। बेंचमार्क गणित, विज्ञान, इतिहास, साहित्य और कई अन्य क्षेत्रों सहित 100 से अधिक विषयों की विविध रेंज में फैले 3,000 से अधिक प्रश्नों का उपयोग करता है। ये विशेषज्ञ स्तर के प्रश्न हैं, जिन्हें सरल पुनर्प्राप्ति क्षमताओं से परे सीमांत ज्ञान का परीक्षण करने के लिए डिज़ाइन किया गया है, जिससे यह मूल्यांकन किया जा सके कि AI सिस्टम मानव ज्ञान की सीमाओं पर सटीक, विशिष्ट शोध कितनी अच्छी तरह कर सकते हैं, इसका मूल्यांकन करने के लिए इसे विशिष्ट स्थिति में रखते हैं।
निंजाटेक द्वारा विकसित डीप रिसर्च ने हासिल किया है मानवता की अंतिम परीक्षा में 17.47% सटीकता स्कोर प्राप्त करके कृत्रिम बुद्धिमत्ता में एक महत्वपूर्ण सफलता। यह प्रदर्शन कई अन्य प्रमुख AI मॉडलों की तुलना में काफी अधिक है, जिनमें OpenAI o3-mini, o1, Deepseek-R1 और अन्य शामिल हैं।
रीज़निंग 2.0
रीज़निंग 2.0 ने AIME टेस्ट में प्रतिस्पर्धी गणित में OpenAI O1 और Sonnet 3.7 से बेहतर प्रदर्शन किया। यह तर्क और उन्नत तर्क की आवश्यकता वाली समस्याओं को संभालने के लिए AI की क्षमता का आकलन करता है।
रीज़निंग 2.0 ने GPQA परीक्षण पर मानव PHD-स्तर की सटीकता को भी पार कर लिया। यह जटिल, बहु-चरणीय प्रश्नों के माध्यम से सामान्य तर्क का मूल्यांकन करता है, जिसमें तथ्यात्मक स्मरण, अनुमान और समस्या-समाधान की आवश्यकता होती है।
टर्बो 1.0 और एपेक्स 1.0
एपेक्स 1.0 ने उद्योग-मानक एरिना-हार्ड-ऑटो (चैट) टेस्ट में सर्वोच्च स्कोर किया। यह मापता है कि AI जटिल, वास्तविक दुनिया की बातचीत को कितनी अच्छी तरह संभाल सकता है, यह उन परिदृश्यों को नेविगेट करने की अपनी क्षमता पर ध्यान केंद्रित करता है, जिनके लिए सूक्ष्म समझ और प्रासंगिक जागरूकता की आवश्यकता होती है।
मॉडल अन्य बेंचमार्क में भी उत्कृष्ट हैं: Math-500, AIME2024 - रीज़निंग, GPQA - रीज़निंग, LiveCodeBench - कोडिंग, और LiveCodeBench - कोडिंग - हार्ड।
SuperNinja के साथ शुरुआत करें
जहां सामान्य AI वास्तविक दुनिया की उत्पादकता को पूरा करता है।