निंजा एआई का सुपरएजेंट एआई सिस्टम क्या हासिल कर सकता है, इसके लिए एक नया बेंचमार्क सेट कर रहा है। अत्याधुनिक चीजों को मिलाकर अनुमान स्तर का अनुकूलन साथ मल्टी-मॉडल ऑर्केस्ट्रेशन और समालोचना आधारित शुद्धिकरण, SuperAgent ऐसे परिणाम दे रहा है जो GPT-4o, Gemini 1.5 Pro और Claude Sonnet 3.5 जैसे सबसे लोकप्रिय मूलभूत मॉडल से भी बेहतर प्रदर्शन करते हैं।
निंजा ने एरिना-हार्ड बेंचमार्क में SOTA हासिल किया, जिसकी चर्चा हम इस ब्लॉग पोस्ट में करेंगे, साथ ही अन्य बेंचमार्क में इसके प्रदर्शन के साथ।
सुपरएजेंट क्या है?
हम पहले हमारे सुपरएजेंट का परिचय दिया, एक शक्तिशाली AI सिस्टम जिसे अकेले किसी एक मॉडल की तुलना में बेहतर उत्तर देने के लिए डिज़ाइन किया गया है। SuperAgent अनुमान स्तर के अनुकूलन का उपयोग करता है, जिसमें कई AI मॉडल से प्रतिक्रियाओं का संयोजन शामिल होता है। इसका मतलब यह है कि एक ही परिप्रेक्ष्य पर भरोसा करने के बजाय, SuperAgent मॉडल के मिश्रण का उपयोग करता है और फिर अधिक व्यापक, सटीक और उपयोगी उत्तर देने के लिए क्रिटिकिंग मॉडल का उपयोग करके आउटपुट को परिष्कृत करता है। इसका परिणाम गुणवत्ता का वह स्तर है जो पारंपरिक सिंगल-मॉडल दृष्टिकोणों से ऊपर है।
सुपरएजेंट हमारे मल्टी-मॉडल फीचर का एक स्वाभाविक विस्तार है और हमारा विश्वास है कि आपके पास कुछ विकल्प होना चाहिए कि आप किस मॉडल का उपयोग करते हैं। हमने अपने प्रो और अल्ट्रा सब्सक्राइबर्स के लिए जो आधार तैयार किया है, उस आधार पर, SuperAgent इन मॉडलों को एक साथ, निर्बाध रूप से जोड़कर चीजों को और आगे ले जाता है। इसका मतलब यह है कि केवल एक मॉडल चुनने के बजाय, SuperAgent उन्हें सबसे व्यापक, सूक्ष्म और अनुकूलित प्रतिक्रियाएँ देने के लिए एक साथ लाता है।
हमने गति, गहराई और लागत को संतुलित करने के लिए SuperAgent के तीन संस्करण बनाए।
सुपरएजेंट टर्बो
तेज़ प्रतिक्रियाओं के लिए। टर्बो हमारे कस्टम इन-हाउस फाइन-ट्यून किए गए मॉडल का उपयोग करके तुरंत प्रतिक्रिया देता है और सभी सब्सक्राइबर्स के लिए उपलब्ध है।
सुपरएजेंट नेक्सस
SuperAgent का सबसे मजबूत संस्करण, यह पूरी तरह से शोधित और व्यापक प्रतिक्रियाएँ देता है। यह विशेषज्ञ स्तर की जानकारी के लिए कई फ्लैगशिप AI मॉडल को जोड़ती है और यह अल्ट्रा और बिज़नेस सब्सक्राइबर्स के लिए उपलब्ध है।
सुपरएजेंट-आर 2.0
उन जटिल समस्याओं के लिए जिनके लिए उन्नत तर्क की आवश्यकता होती है। SuperAgent-R को लामा 70B पर डिस्टिल्ड DeepSeek R1 पर बनाया गया है, और यह अल्ट्रा और बिज़नेस सब्सक्राइबर्स के लिए उपलब्ध है।

हमने उद्योग बेंचमार्क के खिलाफ सुपरएजेंट का परीक्षण क्यों किया
SuperAgent के प्रदर्शन का मूल्यांकन करने के लिए हमने GPT-4, Gemini 1.5 Pro, और Claude Sonnet 3.5 जैसे कई मूलभूत मॉडल के खिलाफ अत्याधुनिक परीक्षण किया। इस तरह के बेंचमार्क परीक्षण कंप्यूटर विज्ञान में एक आम बात है और हमें यह मूल्यांकन करने में मदद करती है कि AI के प्रति हमारा दृष्टिकोण एकल-मॉडल दृष्टिकोण की तुलना में कैसा है।
हमारे द्वारा उपयोग किए गए बेंचमार्क यहां दिए गए हैं:
एरिना-हार्ड-ऑटो (चैट)
जटिल संवादात्मक क्षमताओं का परीक्षण करने के लिए डिज़ाइन किया गया एक बेंचमार्क, जो जटिल संवाद परिदृश्यों को संभालने की क्षमता पर ध्यान केंद्रित करता है, जिसके लिए सूक्ष्म समझ और प्रासंगिक जागरूकता की आवश्यकता होती है।
गणित-500
एक बेंचमार्क जिसका उद्देश्य AI के गणितीय तर्क और समस्या-समाधान क्षमताओं का मूल्यांकन करना है, विशेष रूप से जटिल समस्याओं पर ध्यान केंद्रित करना जिसमें उच्च-स्तरीय गणित शामिल है।
लाइव कोडबेंच (कोडिंग)
एक कोडिंग टेस्ट जो कोड को समझने और जेनरेट करने की AI की क्षमता को मापता है। यह बेंचमार्क बुनियादी और मध्यवर्ती प्रोग्रामिंग चुनौतियों सहित विभिन्न संकेतों के जवाब में सटीक कोड लिखने की मॉडल की क्षमता का आकलन करता है।
लाइव कोडबेंच हार्ड (कोडिंग)
लाइवकोडबेंच का एक विस्तार, उन्नत कोडिंग कार्यों पर ध्यान केंद्रित करता है जिसमें जटिल समस्या-समाधान और एल्गोरिथम चुनौतियां शामिल हैं। इसे AI के कोडिंग कौशल की सीमाओं को आगे बढ़ाने और अधिक कठिन प्रोग्रामिंग परिदृश्यों को प्रबंधित करने की इसकी क्षमता का मूल्यांकन करने के लिए डिज़ाइन किया गया है।
GPQA (सामान्य समस्या-समाधान और प्रश्न उत्तर)
एक बेंचमार्क जो AI की सामान्य तर्क क्षमताओं का परीक्षण करता है, जिसके लिए उसे जटिल, बहु-चरणीय तर्क, तथ्यात्मक याद और अनुमान से जुड़े सवालों के जवाब देने की आवश्यकता होती है।
AIME2024 (उन्नत अनुमान और गणितीय मूल्यांकन)
एक बेंचमार्क उन्नत तर्क और गणितीय मूल्यांकन पर केंद्रित है। यह उन समस्याओं को संभालने के लिए मॉडल की क्षमता का आकलन करता है जिनके लिए तर्क और संख्यात्मक गणना दोनों की आवश्यकता होती है।
ये बेंचमार्क AI प्रदर्शन के विभिन्न पहलुओं का मूल्यांकन करने के लिए एक व्यापक, उद्योग-मानक तरीके का प्रतिनिधित्व करते हैं, जिससे हम स्टैंडअलोन मॉडल की तुलना में SuperAgent की क्षमताओं का मूल्यांकन कर सकते हैं।
सुपरएजेंट एरिना-हार्ड पर फाउंडेशनल मॉडल से बेहतर प्रदर्शन करता है
जैसा कि हमने उल्लेख किया है, SuperAgent ने कई बेंचमार्क में सभी मूलभूत मॉडलों की तुलना में उत्कृष्ट परिणाम दिए हैं। आइए इस पर करीब से नज़र डालते हैं एरेना-हार्ड नो-स्टाइल कंट्रोल के साथ, यह आकलन करने के लिए सबसे महत्वपूर्ण बेंचमार्क में से एक है कि AI सिस्टम सामान्य, रोजमर्रा के कार्यों को कितनी अच्छी तरह से संभालता है। व्यावहारिक AI प्रदर्शन को समझने के लिए यह बेंचमार्क आवश्यक है, और SuperAgent ने उत्कृष्ट प्रदर्शन किया है, जो अन्य प्रमुख मॉडलों से कहीं अधिक क्षमताओं का प्रदर्शन करता है।
परिणाम: SuperAgent ने अन्य सभी मूलभूत मॉडलों को मात दी, जैसा कि इसके द्वारा मापा गया है एरिना-हार्ड।
एरिना-हार्ड

हम इस बात पर प्रकाश डालना चाहते हैं कि निंजा के सुपरएजेंट ने OpenAI के o1-mini और o1-preview - दो तर्क मॉडल से बेहतर प्रदर्शन किया। यह बहुत रोमांचक है क्योंकि o1-mini और o1-preview सिर्फ AI मॉडल नहीं हैं, वे एडवांस रीजनिंग सिस्टम हैं, जिनकी तुलना सामान्य तौर पर, Gemini 1.5 pro या Claude 3.5 जैसे फाउंडेशनल मॉडल से नहीं की जाती है। निंजा के लिए दो रीज़निंग मॉडल से बेहतर प्रदर्शन करना, यह साबित करता है कि सुपरएजेंट दृष्टिकोण - एक क्रिटिकिंग मॉडल का उपयोग करके कई मॉडलों के परिणामों को जोड़ना - एकल AI सिस्टम के लिए बेहतर परिणाम दे सकता है।
अन्य बेंचमार्क पर सुपरएजेंट एक्सेल
एरिना-हार्ड से परे, निंजा के सुपरएजेंट के एपेक्स संस्करण ने गणित, कोडिंग और सामान्य समस्या-समाधान में असाधारण प्रदर्शन किया। ये परिणाम जटिल समस्याओं से निपटने के लिए SuperAgent की उत्कृष्ट क्षमता को उजागर करते हैं, जो अन्य मॉडलों की तुलना में उन्नत तर्क और सटीकता दिखाते हैं। सटीक और कार्यात्मक कोड जेनरेट करने की इसकी क्षमता लगातार परीक्षण किए गए अन्य मॉडलों से बेहतर प्रदर्शन करती है।
लाइव कोडबेंच - कोडिंग

लाइवकोडबेंच - कोडिंग - हार्ड

AIME2024 - रीज़निंग

GPQA - रीज़निंग

गणित - 500

सभी बेंचमार्क के पार, SuperAgent ने प्रदर्शन का एक स्तर दिखाया, जो कई प्रसिद्ध फाउंडेशनल मॉडल को पीछे छोड़ देता है - कभी-कभी बाजार के सबसे उन्नत रीज़निंग मॉडल को मात देता है।
अंतिम विचार
परिणाम खुद बोलते हैं—सुपरएजेंट एआई-संचालित समाधानों के बारे में हमारे सोचने के तरीके में एक छलांग है। कई मॉडलों, एक परिष्कृत समालोचना प्रणाली, और उन्नत अनुमान स्तर अनुकूलन का लाभ उठाकर, SuperAgent ऐसे उत्तर देता है जो आपकी आवश्यकताओं के लिए गहरे, अधिक सटीक और अधिक प्रासंगिक होते हैं। चाहे आपको एक जटिल कोडिंग समाधान, उन्नत तर्क, या बस सर्वोत्तम संभव संवादात्मक समर्थन की आवश्यकता हो, SuperAgent ने साबित कर दिया है कि यह पारंपरिक एकल-मॉडल दृष्टिकोणों से बेहतर प्रदर्शन कर सकता है।
जैसे-जैसे हम कुछ नया करना जारी रखते हैं, हमारी प्रतिबद्धता एक जैसी रहती है: जितना संभव हो उतना बुद्धिमान, कुशल और शक्तिशाली AI सिस्टम प्रदान करना—क्योंकि बेहतर उत्तरों का अर्थ है आपके लिए बेहतर अनुभव।



