NinjaTech AI में, हम स्वायत्त AI एजेंटों के साथ जो संभव है उसकी सीमाओं को लगातार आगे बढ़ा रहे हैं। SuperNinja, हमारा एडवांस जनरल एजेंट प्लेटफ़ॉर्म, प्रत्येक कार्य के लिए एक समर्पित क्लाउड कंप्यूटर (VM) का उपयोग करता है, जिससे जटिल कोड, लाइव डैशबोर्ड, वेबसाइट आदि के लिए रिसर्च → बिल्ड → डिप्लॉय का एक पूरा चक्र सक्षम होता है। हमारे स्कैफोल्ड को विशेष रूप से लॉन्ग-होराइजन टूल कॉलिंग, कोडिंग और रीजनिंग क्षमताओं का लाभ उठाने के लिए डिज़ाइन किया गया है, जिसमें बहु-चरणीय जानकारी पुनर्प्राप्ति शामिल है, जिसे हम डीप रिसर्च कहते हैं।
आज, हम सुपरनिंजा को शक्ति प्रदान करने वाले कोर इंटेलिजेंस के रूप में एंथ्रोपिक के नए लॉन्च किए गए सॉनेट 4.5 मॉडल के अपने व्यापक विश्लेषण को साझा करने के लिए रोमांचित हैं। हमारे आंतरिक बेंचमार्क और वास्तविक दुनिया के ग्राहक परिदृश्यों में कठोर परीक्षण के बाद, हम विश्वास के साथ कह सकते हैं: सॉनेट 4.5 एक शानदार जानवर है जो स्वायत्त एजेंट के प्रदर्शन के लिए एक महत्वपूर्ण कदम परिवर्तन का प्रतिनिधित्व करता है।
मुख्य निष्कर्ष एक नज़र में
- 12.5% अधिक पूर्णता दर सॉनेट 4.0 की तुलना में हमारे आंतरिक परीक्षणों में
- 20% तेजी से कार्य पूरा करना कम गलतियों और बेहतर तर्क के कारण
- 18.2% लागत बचत अधिक कुशल टोकन उपयोग के माध्यम से
- बेहतर अनुदेश के साथ दृश्यमान रूप से उच्च गुणवत्ता वाले आउटपुट
- सबसे अच्छा प्रदर्शन करने वाला मॉडल जिसे हमने अपने बेंचमार्क पर आज तक परीक्षण किया है
SuperNinja उपयोगकर्ताओं के लिए यह क्यों मायने रखता है
SuperNinja की अनूठी वास्तुकला इसके अंतर्निहित भाषा मॉडल से असाधारण प्रदर्शन की मांग करती है। साधारण प्रश्नों को हैंडल करने वाले पारंपरिक चैटबॉट्स के विपरीत, SuperNinja जटिल, मल्टी-स्टेज वर्कफ़्लो से निपटता है, जिसमें दर्जनों या सैकड़ों अनुक्रमिक निर्णय शामिल हो सकते हैं। प्रत्येक कार्य के लिए मॉडल को रणनीतिक रूप से योजना बनाने, सटीक रूप से निष्पादित करने, परिणामों को सत्यापित करने और चुनौतियों के आने पर गतिशील रूप से अनुकूलित करने की आवश्यकता होती है।
सॉनेट 4.5 के साथ हम जो सुधार देख रहे हैं, वे सीधे हमारे उपयोगकर्ताओं के लिए मूर्त लाभों में तब्दील हो जाते हैं। तेज़ी से पूरा होने का मतलब है कि आपको परिणाम जल्द मिलेंगे। उच्च पूर्णता दर का अर्थ है कम असफल कार्य और कम निराशा। बेहतर गुणवत्ता वाले आउटपुट का मतलब है अधिक पॉलिश, उत्पादन के लिए तैयार डिलिवरेबल्स। और टोकन के उपयोग में कमी का मतलब है क्षमता का त्याग किए बिना कम लागत।

बेंचमार्क टेस्टिंग
चरण 1: GAIA स्मोक टेस्ट
हम GAIA बेंचमार्क के साथ अपनी मॉडल मूल्यांकन प्रक्रिया शुरू करते हैं - जो वास्तविक दुनिया की एजेंट क्षमताओं को मापने के लिए डिज़ाइन किए गए बहु-चरणीय तर्क और टूल उपयोग का एक चुनौतीपूर्ण परीक्षण है। सॉनेट 4.5 ने सॉनेट 3.7 की तुलना में सटीकता में लगभग 5% सुधार हासिल किया और इस बेंचमार्क पर सॉनेट 4.0 की तुलना में लगभग 7% सुधार किया। यह इसे सबसे अच्छा प्रदर्शन करने वाला मॉडल बनाता है जिसे हमने GAIA पर आज तक परीक्षण किया है।
चरण 2: आंतरिक बेंचमार्क सुइट
GAIA स्मोक टेस्ट पास करने के बाद, हम अपने मालिकाना आंतरिक बेंचमार्क पर चले गए- हमारे विश्लेषण से पता चला है कि AgencyBench [1,2] उत्पादन में हमारे द्वारा देखे जाने वाले वास्तविक ग्राहक प्रश्नों के वितरण का बारीकी से प्रतिनिधित्व करता है। इस संरेखण का लाभ उठाते हुए, हमने एजेंसीबेंच की संरचना और वितरण का अनुसरण करते हुए अपना आंतरिक परीक्षण सूट विकसित किया, जबकि इसे स्केल करते हुए अतिरिक्त परिदृश्यों को शामिल किया और सूक्ष्म प्रदर्शन आयामों को कैप्चर करने के लिए कई मूल्यांकन रूब्रिक को परिभाषित किया। निम्न तालिका डेटासेट में डोमेन और श्रेणियों के वितरण को दर्शाती है:

सॉनेट 4.5 ने पिछले अत्याधुनिक मॉडल (सॉनेट 4.0) की तुलना में 12.5% अधिक पूर्णता दर का प्रदर्शन किया, जिसमें आउटपुट लगातार अधिक आकर्षक थे और उपयोगकर्ता के इरादे के साथ बेहतर रूप से संरेखित थे।
कार्य प्रकार के अनुसार प्रदर्शन में सुधार काफी भिन्न होता है। गहन शोध कार्यों में - जटिल वर्कफ़्लोज़ जिसमें व्यापक जानकारी एकत्र करने और संश्लेषण की आवश्यकता होती है - सॉनेट 4.5 ने सॉनेट 4.0 की तुलना में लगभग 10% सटीकता सुधार हासिल किया। कोडिंग एजेंट परिदृश्यों में लाभ और भी नाटकीय थे, जहां सटीकता 80% से बढ़कर 96% हो गई, जो 16 प्रतिशत अंक सुधार का प्रतिनिधित्व करती है।
सटीकता से परे, सॉनेट 4.5 ने बेहतर दक्षता का प्रदर्शन किया। 81% परीक्षण मामलों में, मॉडल को कार्यों को पूरा करने के लिए कम या समान चरणों की आवश्यकता होती है, जो अधिक प्रत्यक्ष समस्या-समाधान दृष्टिकोण और कम कम्प्यूटेशनल ओवरहेड को दर्शाता है।
रियल-वर्ल्ड परफॉरमेंस: द स्टॉक एनालाइजर चैलेंज
इन सुधारों के व्यावहारिक प्रभाव को प्रदर्शित करने के लिए, हमने कई प्रमुख AI मॉडलों में समान प्रॉम्प्ट का उपयोग करके एक व्यापक वास्तविक दुनिया का परीक्षण किया। यह कार्य जटिल था और यह दर्शाता था कि SuperNinja यूज़र रोज़ाना किस प्रकार की चुनौतियों का सामना करते हैं:
“पूर्वानुमान के साथ चार्ट के साथ Mag7 के लिए एक वेब-आधारित आधुनिक और पेशेवर स्टॉक विश्लेषक बनाएं। Mag7 के माध्यम से अगले 6 महीनों में इसे दोगुना करने के लिए $1M आवंटित करने के तरीके के बारे में मुझे विभिन्न जोखिम कारकों के साथ सुझाव दें और इसके लिए तर्क प्रदान करें। प्रत्येक कंपनी के शीर्ष नवीनतम समाचारों को सारांशित करें और सुनिश्चित करें कि सभी बाहरी लिंक सही तरीके से काम कर रहे हैं। वेब एप्लिकेशन के लिए बेहतर तरीके से जानने और विश्लेषण करने के लिए उपयोगी सुविधाओं के बारे में सोचें और जोड़ें। इसके लिए एक स्थायी लिंक बनाएं, उसका परीक्षण करें और फिर उसे तैनात करें.”
तुलनात्मक परिणाम
ध्यान दें: सभी मॉडलों का परीक्षण समान ज़ीरो-शॉट प्रॉम्प्ट (कोई उदाहरण या फ़ाइन-ट्यूनिंग नहीं) के साथ किया गया था। वास्तविक परिनियोजित परिणाम देखने के लिए लिंक नीचे दिए गए हैं।
समांतर टूल कॉलिंग की शक्ति
सॉनेट 4.5 की सबसे रोमांचक क्षमताओं में से एक समानांतर टूल कॉलिंग के लिए इसका समर्थन है - एक ऐसी सुविधा जो पिछले संस्करणों में उल्लेखनीय रूप से अनुपस्थित थी। हमारे विश्लेषण से पता चलता है कि लगभग 20% SuperNinja कार्यों को इस क्षमता से काफी फायदा हो सकता है। समांतर टूल कॉलिंग मॉडल को क्रमिक रूप से नहीं बल्कि एक साथ कई स्वतंत्र ऑपरेशन निष्पादित करने में सक्षम बनाता है।

लागत दक्षता: कम के साथ अधिक करना
प्रदर्शन में सुधार के अलावा, सॉनेट 4.5 सार्थक लागत बचत प्रदान करता है। हमारे विश्लेषण से पता चलता है कि पिछले मॉडल की तुलना में सॉनेट 4.5 के साथ सुपरनिंजा कार्यों को चलाते समय कुल लागत में लगभग 15% की कमी आई है। ये बचतें कई स्रोतों से आती हैं: चरणों की संख्या में कमी, कम त्रुटि दर और बेहतर दक्षता।
पूछे जाने वाले प्रश्न
Q1: पिछले मॉडल की तुलना में एंथ्रोपिक सॉनेट 4.5 में प्रमुख प्रदर्शन सुधार क्या हैं?
एक: एंथ्रोपिक सॉनेट 4.5 सॉनेट 4.0 और सॉनेट 3.7 की तुलना में उच्च पूर्णता दर, तेज और अधिक सटीक तर्क, और अधिक कुशल वर्कफ़्लो निष्पादन प्राप्त करता है, जैसा कि सुपरनिंजा के बेंचमार्क परीक्षण में दिखाया गया है।
Q2: स्वायत्त वर्कफ़्लोज़ के लिए सॉनेट 4.5 एजेंटिक क्षमताओं और टूल के उपयोग को कैसे बढ़ाता है?
एक: सॉनेट 4.5 उन्नत समानांतर टूल कॉलिंग और बेहतर संदर्भ प्रबंधन का परिचय देता है, जिससे एजेंट बहु-चरणीय कार्य चला सकते हैं और एक साथ कई टूल का लाभ उठा सकते हैं, जिसके परिणामस्वरूप अनुसंधान, कोडिंग और स्वचालन कार्यों में बेहतर आउटपुट गुणवत्ता और विश्वसनीयता मिलती है।
Q3: कौन से बेंचमार्क परीक्षण सॉनेट 4.5 के वास्तविक दुनिया के लाभों को प्रदर्शित करते हैं?
एक: सुपरनिंजा का विश्लेषण प्रतिस्पर्धी मॉडलों की तुलना में काफी कम कार्य विफलताओं और त्रुटियों के साथ, GAIA और एजेंसीबेंच बेंचमार्क में 12.5% उच्च पूर्णता दर और गहन शोध वर्कफ़्लोज़ की बेहतर हैंडलिंग पर प्रकाश डालता है।
Q4: व्यावहारिक प्रदर्शन में सॉनेट 4.5 की तुलना अन्य प्रमुख AI मॉडल से कैसे की जाती है?
एक: साइड-बाय-साइड परीक्षण में, सॉनेट 4.5 को कम चरणों की आवश्यकता थी, उच्च गुणवत्ता वाला कोड और विश्लेषण दिया गया था, और GPT-5, जेमिनी 2.5 प्रो जैसे मॉडलों की तुलना में अधिक लागत प्रभावी था, और स्टॉक एनालाइज़र और एजेंटिक वेब एप्लिकेशन जैसे जटिल कार्यों के लिए ओपन-सोर्स विकल्प
Q5: उन्नत उपयोग के मामलों के लिए Sonnet 4.5 किन तकनीकी विशेषताओं और संदर्भ विंडो आकारों का समर्थन करता है?
एक: सॉनेट 4.5 1,000,000 बीटा टोकन तक स्मार्ट कॉन्टेक्स्ट विंडो प्रबंधन, सत्रों में लगातार एजेंट मेमोरी, विस्तारित स्वायत्त ऑपरेशन और जटिल प्रोग्रामिंग और डेटा विश्लेषण परिदृश्यों के लिए 64K तक आउटपुट टोकन प्रदान करता है।
सन्दर्भ और आगे का पठन
[1] एजेंसीबेंच: बेंचमार्किंग एजेंटिक एआई सिस्टम्स - https://arxiv.org/abs/2509.17567
[2] एजेंसीबेंच लीडरबोर्ड - https://agencybench.opensii.ai/
[3] GAIA बेंचमार्क - https://arxiv.org/abs/2311.12983
[4] सुपरनिंजा प्लेटफार्म - https://super.myninja.ai/
.avif)


