एजेंटिक वर्कफ़्लो के लिए लागत-कुशल तर्क महत्वपूर्ण है
Ninja AI में, हम मानते हैं कि अत्याधुनिक AI शक्तिशाली और सुलभ दोनों होनी चाहिए, जिससे उपयोगकर्ताओं को बैंक को तोड़े बिना उत्पादकता बढ़ाने में मदद मिले। पिछले दो वर्षों से हम एक एजेंटिक उत्पादकता प्रणाली बनाने पर ध्यान केंद्रित कर रहे हैं, निंजा एआई को स्मार्ट, तेज और अधिक सक्षम बनाने के लिए इसमें नवीनतम AI प्रगति को लगातार शामिल कर रहे हैं।
साथ ही हमने ऐसी सुविधाएँ पेश की हैं जिनके लिए परिष्कृत एजेंटिक वर्कफ़्लो की आवश्यकता होती है, जैसे कि डीप रिसर्च और मल्टी-टर्न फाइल विश्लेषण। हमने a. का बीटा संस्करण भी लॉन्च किया शेड्यूलिंग वर्कफ़्लो, निंजा को ईमेल के माध्यम से कई प्रतिभागियों के साथ बैठक के समय पर बातचीत करने की अनुमति देता है।
जैसे-जैसे हम इन कौशलों को लगातार परिष्कृत करते हैं, हम निंजा की बुद्धिमत्ता और निर्णय लेने को बढ़ाने के लिए एक महत्वपूर्ण आवश्यकता को पहचानते हैं। उच्च जोखिम वाले कार्यों में त्रुटियों को कम करना (उदाहरण के लिए, कैलेंडर ईवेंट को संशोधित करना) और अधिक स्वायत्त वर्कफ़्लो को सक्षम करना (उदाहरण के लिए, API और लोगों के साथ इंटरैक्ट करने वाले समग्र कार्यों को निष्पादित करना) के लिए हमारे एजेंटों को कई अलग-अलग प्रकार की स्थितियों में अधिक सटीक निर्णय और पूर्वानुमान लगाने की आवश्यकता होती है।
हमने पाया है कि हमारे वर्कफ़्लो में “चरण-दर-चरण सोच” को शामिल करने से उनकी सटीकता और सामान्यीकरण करने की क्षमता में काफी वृद्धि होती है। चरण-दर-चरण सोच एक ऐसी प्रक्रिया है जिसमें शामिल हैं: इंटेलिजेंट फ़ंक्शन-कॉलिंग द्वारा कार्यों को निष्पादित करने से पहले योजना बनाना, कार्यों को तोड़ना, पीछे हटना, सत्यापित करना और प्रतिबिंबित करना। हाल के रीज़निंग मॉडल ने जटिल गणित, विज्ञान और कोडिंग समस्याओं को हल करने के लिए 'चरण-दर-चरण सोच' को सफलतापूर्वक लागू किया है। हालांकि, निम्न सीमाओं के कारण, ये मॉडल हमारे निंजा एजेंटिक वर्कफ़्लो के लिए उपयुक्त नहीं हैं:
सबसे पहले, अधिकांश मौजूदा तर्क मॉडल बहुत महंगे हैं। उदाहरण के लिए, किसी एकल जटिल एजेंट कार्य का उपयोग OpenAI का O1 API $0.75 से $2.25 के बीच कहीं भी खर्च हो सकता है1 - यह “प्रति कार्य” लागत है जो एक ऐसी कीमत है जो एक व्यवसाय के रूप में हमारे लिए आर्थिक रूप से अस्थिर है और ग्राहकों के लिए भी अव्यवहार्य है यदि हम उन्हें प्रति कार्य लागत देते हैं।
1मान लें कि प्रत्येक एजेंटिक कार्य के लिए अनुमानित 5,000 से 10,000 इनपुट टोकन और 10,000 से 30,000 आउटपुट टोकन की आवश्यकता होती है
दूसरा, अधिक किफायती रीज़निंग मॉडल में एजेंट वर्कफ़्लो को पावर देने के लिए आवश्यक सुविधाएँ नहीं होती हैं। उदाहरण के लिए, DeepSeek R1 एक फ्री रीजनिंग मॉडल है - लेकिन यह सीमित है। R1, अपने आकार के कारण, मॉडल के लिए उच्च विलंबता और कम थ्रूपुट के लिए Nvidia H200s GPU (या बेहतर) की आवश्यकता होती है; इसलिए, रीयल-टाइम टास्क-ओरिएंटेड चैट सिस्टम में इसका उपयोग करना मुश्किल हो जाता है। H200s का उपयोग करने से इसे चलाना भी महंगा हो जाता है। इसके अतिरिक्त, R1 में सामान्य क्षमता और सॉफ़्टवेयर इंजीनियरिंग कार्यों को संभालने में चुनौतियां हैं - इन सीमाओं की पुष्टि इसके अंतिम भाग द्वारा की जाती है R1 पेपर।
इसके अलावा, मौजूदा रीज़निंग मॉडल में कस्टमाइज़ेशन की कमी है। निंजा में, हम उत्पादकता के लिए सबसे उन्नत एजेंट सिस्टम बनाने की आकांक्षा रखते हैं। इस तरह, हमें अपनी ज़रूरतों के हिसाब से मॉडल को बेहतर ढंग से ट्यून करने की क्षमता चाहिए। API के माध्यम से मौजूदा रीज़निंग मॉडल को एक्सेस करते समय या मौजूदा बड़े ओपन-सोर्स रीज़निंग मॉडल (जैसे कि 671B परम R1) का उपयोग करते समय यह संभव नहीं है।
इन कमियों को देखते हुए, हमने अपनी खुद की रीज़निंग सिस्टम - SuperAgent-R 2.0 - डिज़ाइन करने का निर्णय लिया, ताकि हमें एक स्थायी एजेंट सिस्टम को सक्षम करने में मदद मिल सके, जो ग्राहकों के लिए तेज़, सस्ती और बढ़िया ट्यून करने योग्य हो। \
निंजा का रीज़निंग मॉडल - सुपरएजेंट-आर 2.0
सुपरएजेंट-आर 2.0 एक है कंपाउंड एआई सिस्टम: यह तर्क क्षमता के साथ निंजा के अपने फाइन-ट्यून किए गए मॉडल का लाभ उठाता है, जो लामा 70बी पर डिस्टिल्ड डीपसेक आर 1 पर आधारित है। SuperAgent-R 2.0 उन्नत अनुमान-स्तरीय अनुकूलन के माध्यम से तर्क का समर्थन करने के लिए अन्य मॉडलों का भी उपयोग करता है। पूरा सिस्टम शुरू से अंत तक AWS इंफ्रास्ट्रक्चर पर चलता है जो इसे सस्ता और स्केलेबल बनाता है। अंतिम परिणाम OpenAI के O, O3-mini (high) या Anthropic's Sonnet 3.7 (थिंकिंग मोड) जैसे मालिकाना मॉडल की लागत के एक अंश पर लगभग अत्याधुनिक प्रदर्शन प्रदान करता है।
SuperAgent-R 2.0 एक ऐसी प्रणाली बनाने के लिए कई उद्योग-प्रथम नवाचारों को एक साथ लाता है जो कम लागत पर जटिल तर्क कार्यों को पूरा कर सकता है। सिस्टम का एक प्रमुख घटक एक नया, मल्टी-गियर रीज़निंग दृष्टिकोण है। अन्य मॉडलों के विपरीत, जो यूज़र को एक निश्चित स्तर की गणना के लिए बाध्य करते हैं, हमारा सिस्टम कार्य की जटिलता के आधार पर तर्क के प्रयासों को गतिशील रूप से समायोजित करता है। सुपरएजेंट की गणना का स्तर इस प्रकार है:
- नो थिंकिंग - सीधे लुकअप और तेज़ प्रतिक्रियाओं के लिए।
- हल्की सोच - संरचित तर्क जैसे मध्यम-जटिलता वाले कार्यों के लिए।
- उच्च सोच - उन्नत तर्क की आवश्यकता वाले गहन, बहु-चरणीय तर्क कार्यों के लिए।
SuperAgent-R 2.0 तर्क प्रयास को स्वयं निर्धारित कर सकता है और उपयोगकर्ता के अनुरोध में स्वचालित रूप से समायोजित हो सकता है। बेशक, यह हर समय हासिल करना मुश्किल होता है क्योंकि सिस्टम अभी भी ज्यादा सोच सकता है। हम ग्राहकों की प्रतिक्रिया की लगातार समीक्षा कर रहे हैं और सुधार करना जारी रखेंगे।
SuperAgent-R 2.0 ने प्रमुख AI बेंचमार्क के खिलाफ कठोर परीक्षण किया है, जो कई डोमेन में सर्वश्रेष्ठ प्रदर्शन का प्रदर्शन करता है। इन परीक्षणों में, SuperAgent-R 2.0 लगातार अग्रणी AI मॉडल के साथ प्रतिस्पर्धी है, जो इसकी बेहतर तर्क और समस्या सुलझाने की क्षमताओं को साबित करता है।
DeepSeek R1 की तुलना में SuperAgent-R 2.0 के फायदे
Deepseek-R1, ठीक ही है, ने हाल ही में एक उच्च-गुणवत्ता, मुक्त तर्क मॉडल के रूप में बहुत ध्यान आकर्षित किया है। हालाँकि, इसमें कुछ उल्लेखनीय कमियाँ हैं। एक प्रमुख सीमा इसकी हार्डवेयर आवश्यकता है (जिसका हमने ऊपर उल्लेख किया है) —इसे Nvidia H200 GPU (या बेहतर) पर चलना चाहिए, जिससे परिचालन लागत बढ़ सकती है; और फिर भी, यह वास्तविक समय के त्वरित अनुमान के लिए एक तेज़ मॉडल नहीं है।
इसके अतिरिक्त, जब हमने Deepseek-R1 का मूल्यांकन किया और इसके दस्तावेज़ों की समीक्षा की, तो हमने अन्य कमियों की पहचान की जो हमारे ग्राहकों को प्रभावित कर सकती हैं:
- सामान्य क्षमता: Deepseek-R1 फंक्शन कॉलिंग, मल्टी-टर्न इंटरैक्शन और जटिल रोल-प्लेइंग जैसे प्रमुख क्षेत्रों में Deepseek-v3 से कम है।
- भाषा क्षमताएं: Deepseek-R1 को चीनी और अंग्रेजी के लिए अनुकूलित किया गया है, जिससे अन्य भाषाओं में प्रश्नों को संभालते समय समस्याएँ हो सकती हैं। चूंकि हम कई भाषाओं में उपयोगकर्ताओं का समर्थन करते हैं, इसलिए व्यापक भाषा समर्थन आवश्यक है।
- उत्साहजनक संवेदनशीलता: Deepseek-R1 त्वरित बदलावों के प्रति अत्यधिक संवेदनशील है। कुछ शॉट प्रॉम्प्टिंग - जो ग्राहकों के बीच आम है - समग्र प्रदर्शन को खराब करता है, जिससे यह हमारी ज़रूरतों के लिए कम विश्वसनीय हो जाता है।
- सॉफ़्टवेयर इंजीनियरिंग कार्य: बेंचमार्क परिणाम बताते हैं कि Deepseek-R1 में सीमित सॉफ़्टवेयर इंजीनियरिंग क्षमताएं हैं। यह देखते हुए कि हमारे कई ग्राहक सॉफ़्टवेयर से संबंधित कार्यों के लिए निंजा पर भरोसा करते हैं, यह सीमा उनके अनुभव को महत्वपूर्ण रूप से प्रभावित करेगी।
DeepSeek R1 एक शानदार मॉडल है, लेकिन ये कारक DeepSeek R1 को हमारी ज़रूरतों के लिए कम उपयुक्त बनाते हैं और सुपरएजेंट-R 2.0 को विकसित करने के हमारे निर्णय को आगे बढ़ाते हैं।
प्रतियोगिता गणित (AIME 2024)
प्रतियोगी गणित के लिए, तर्क क्षमता का निर्धारक, हमारे परीक्षण से पता चला है कि SuperAgent-R 2.0 OpenAI O1, Sonnet 3.7 (64k विस्तारित सोच), DeepSeek R1 मॉडल के प्रदर्शन से अधिक है और SuperAgent-R 2.0 OpenAI O3-उच्च तर्क मॉडल के बराबर है। OpenAI के पास है प्रकाशित डेटा कि एक मॉडल जो प्रतिस्पर्धी गणित जैसे कि AIME 2024 में अच्छा है, स्वायत्त एजेंटिक वर्कफ़्लो में अच्छा होगा।

पीएचडी स्तर के विज्ञान प्रश्न (GPQA डायमंड)
यह परीक्षण मापता है कि एक प्रणाली पीएचडी स्तर के विज्ञान के प्रश्नों को कितनी अच्छी तरह हल कर सकती है। यह परीक्षण हमारे उन उपयोगकर्ताओं के लिए महत्वपूर्ण है जो कई अलग-अलग उद्योगों में काम करते हैं और उनके विभिन्न कार्य हैं। SuperAgent-R 2.0 ने भौतिकी, जीव विज्ञान और रसायन विज्ञान की समस्याओं के इस बेंचमार्क पर मानव पीएचडी स्तर की सटीकता को पार कर लिया है।

प्रतियोगिता कोड (कोडफोर्स)
कोडफोर्स प्रतिस्पर्धी प्रोग्रामिंग पर, SuperAgent-R 2.0 DeepSeek V3 की तुलना में उत्तरोत्तर उच्च ELO स्कोर और कई OpenAI मॉडल के साथ प्रतिस्पर्धी स्कोर प्राप्त करता है।

लाइवबेंच - कोडिंग
वास्तविक दुनिया के कोडिंग प्रदर्शन का परीक्षण करने के लिए उपयोग किया जाता है।


SuperAgent-R 2.0 myninja.ai पर उपलब्ध है
बाजार में विभिन्न उत्पादों के विपरीत, हम SuperAgent-R 2.0 मॉडल तक असीमित पहुंच के लिए अतिरिक्त सदस्यता शुल्क नहीं लेंगे। यह मॉडल हमारे सभी अल्ट्रा यूज़र ($15/मो) और बिज़नेस प्लान यूज़र ($20/mo/seat) के लिए उपलब्ध है। मूल्य निर्धारण का विवरण। कृपया ध्यान दें कि हम अत्यधिक उपयोग के आधार पर उपयोग को सीमित करने का अधिकार सुरक्षित रखते हैं।
इसे यहां आजमाएं myninja.ai
आगे क्या होगा: नए कौशल और API एक्सेस
जैसा कि हम आगे देखते हैं, हम अपने उपयोगकर्ताओं को अधिक उत्पादक बनने में मदद करने के लिए सुपरएजेंट-आर 2.0 द्वारा संचालित एजेंटिक वर्कफ़्लो वितरित करना जारी रखेंगे। SuperAgent-R 2.0 का उपयोग करने का पहला तरीका हमारी DeepResearch सुविधा को बढ़ाना है।
हम जल्द ही SuperAgent-R 2.0 को API एक्सेस प्रदान करने की भी योजना बना रहे हैं - जिससे डेवलपर्स और व्यवसायों को अपने स्वयं के कस्टम सिस्टम बनाने में मदद मिलती है।



