NinjaTech AI में, हम स्वायत्त AI एजेंटों के साथ जो संभव है उसकी सीमाओं को लगातार आगे बढ़ा रहे हैं। SuperNinja, हमारा एडवांस जनरल एजेंट प्लेटफ़ॉर्म, प्रत्येक कार्य के लिए एक समर्पित क्लाउड कंप्यूटर (VM) का उपयोग करता है, जिससे जटिल कोड, लाइव डैशबोर्ड, वेबसाइट आदि के लिए रिसर्च → बिल्ड → डिप्लॉय का एक पूरा चक्र सक्षम होता है। हमारे स्कैफोल्ड को विशेष रूप से लॉन्ग-होराइजन टूल कॉलिंग, कोडिंग और रीजनिंग क्षमताओं का लाभ उठाने के लिए डिज़ाइन किया गया है, जिसमें बहु-चरणीय जानकारी पुनर्प्राप्ति शामिल है, जिसे हम डीप रिसर्च कहते हैं।

आज, हम सुपरनिंजा को शक्ति प्रदान करने वाले कोर इंटेलिजेंस के रूप में एंथ्रोपिक के नए लॉन्च किए गए सॉनेट 4.5 मॉडल के अपने व्यापक विश्लेषण को साझा करने के लिए रोमांचित हैं। हमारे आंतरिक बेंचमार्क और वास्तविक दुनिया के ग्राहक परिदृश्यों में कठोर परीक्षण के बाद, हम विश्वास के साथ कह सकते हैं: सॉनेट 4.5 एक शानदार जानवर है जो स्वायत्त एजेंट के प्रदर्शन के लिए एक महत्वपूर्ण कदम परिवर्तन का प्रतिनिधित्व करता है।

मुख्य निष्कर्ष एक नज़र में

  • 12.5% अधिक पूर्णता दर सॉनेट 4.0 की तुलना में हमारे आंतरिक परीक्षणों में
  • 20% तेजी से कार्य पूरा करना कम गलतियों और बेहतर तर्क के कारण
  • 18.2% लागत बचत अधिक कुशल टोकन उपयोग के माध्यम से
  • बेहतर अनुदेश के साथ दृश्यमान रूप से उच्च गुणवत्ता वाले आउटपुट
  • सबसे अच्छा प्रदर्शन करने वाला मॉडल जिसे हमने अपने बेंचमार्क पर आज तक परीक्षण किया है

SuperNinja उपयोगकर्ताओं के लिए यह क्यों मायने रखता है

SuperNinja की अनूठी वास्तुकला इसके अंतर्निहित भाषा मॉडल से असाधारण प्रदर्शन की मांग करती है। साधारण प्रश्नों को हैंडल करने वाले पारंपरिक चैटबॉट्स के विपरीत, SuperNinja जटिल, मल्टी-स्टेज वर्कफ़्लो से निपटता है, जिसमें दर्जनों या सैकड़ों अनुक्रमिक निर्णय शामिल हो सकते हैं। प्रत्येक कार्य के लिए मॉडल को रणनीतिक रूप से योजना बनाने, सटीक रूप से निष्पादित करने, परिणामों को सत्यापित करने और चुनौतियों के आने पर गतिशील रूप से अनुकूलित करने की आवश्यकता होती है।

सॉनेट 4.5 के साथ हम जो सुधार देख रहे हैं, वे सीधे हमारे उपयोगकर्ताओं के लिए मूर्त लाभों में तब्दील हो जाते हैं। तेज़ी से पूरा होने का मतलब है कि आपको परिणाम जल्द मिलेंगे। उच्च पूर्णता दर का अर्थ है कम असफल कार्य और कम निराशा। बेहतर गुणवत्ता वाले आउटपुट का मतलब है अधिक पॉलिश, उत्पादन के लिए तैयार डिलिवरेबल्स। और टोकन के उपयोग में कमी का मतलब है क्षमता का त्याग किए बिना कम लागत।

Visual of parallel tasks being completed by SuperNinja

बेंचमार्क टेस्टिंग

चरण 1: GAIA स्मोक टेस्ट

हम GAIA बेंचमार्क के साथ अपनी मॉडल मूल्यांकन प्रक्रिया शुरू करते हैं - जो वास्तविक दुनिया की एजेंट क्षमताओं को मापने के लिए डिज़ाइन किए गए बहु-चरणीय तर्क और टूल उपयोग का एक चुनौतीपूर्ण परीक्षण है। सॉनेट 4.5 ने सॉनेट 3.7 की तुलना में सटीकता में लगभग 5% सुधार हासिल किया और इस बेंचमार्क पर सॉनेट 4.0 की तुलना में लगभग 7% सुधार किया। यह इसे सबसे अच्छा प्रदर्शन करने वाला मॉडल बनाता है जिसे हमने GAIA पर आज तक परीक्षण किया है।

चरण 2: आंतरिक बेंचमार्क सुइट

GAIA स्मोक टेस्ट पास करने के बाद, हम अपने मालिकाना आंतरिक बेंचमार्क पर चले गए- हमारे विश्लेषण से पता चला है कि AgencyBench [1,2] उत्पादन में हमारे द्वारा देखे जाने वाले वास्तविक ग्राहक प्रश्नों के वितरण का बारीकी से प्रतिनिधित्व करता है। इस संरेखण का लाभ उठाते हुए, हमने एजेंसीबेंच की संरचना और वितरण का अनुसरण करते हुए अपना आंतरिक परीक्षण सूट विकसित किया, जबकि इसे स्केल करते हुए अतिरिक्त परिदृश्यों को शामिल किया और सूक्ष्म प्रदर्शन आयामों को कैप्चर करने के लिए कई मूल्यांकन रूब्रिक को परिभाषित किया। निम्न तालिका डेटासेट में डोमेन और श्रेणियों के वितरण को दर्शाती है:

सॉनेट 4.5 ने पिछले अत्याधुनिक मॉडल (सॉनेट 4.0) की तुलना में 12.5% अधिक पूर्णता दर का प्रदर्शन किया, जिसमें आउटपुट लगातार अधिक आकर्षक थे और उपयोगकर्ता के इरादे के साथ बेहतर रूप से संरेखित थे।

कार्य प्रकार के अनुसार प्रदर्शन में सुधार काफी भिन्न होता है। गहन शोध कार्यों में - जटिल वर्कफ़्लोज़ जिसमें व्यापक जानकारी एकत्र करने और संश्लेषण की आवश्यकता होती है - सॉनेट 4.5 ने सॉनेट 4.0 की तुलना में लगभग 10% सटीकता सुधार हासिल किया। कोडिंग एजेंट परिदृश्यों में लाभ और भी नाटकीय थे, जहां सटीकता 80% से बढ़कर 96% हो गई, जो 16 प्रतिशत अंक सुधार का प्रतिनिधित्व करती है।

सटीकता से परे, सॉनेट 4.5 ने बेहतर दक्षता का प्रदर्शन किया। 81% परीक्षण मामलों में, मॉडल को कार्यों को पूरा करने के लिए कम या समान चरणों की आवश्यकता होती है, जो अधिक प्रत्यक्ष समस्या-समाधान दृष्टिकोण और कम कम्प्यूटेशनल ओवरहेड को दर्शाता है।

Try SuperNinja

Where General AI meets real world productivity

रियल-वर्ल्ड परफॉरमेंस: द स्टॉक एनालाइजर चैलेंज

इन सुधारों के व्यावहारिक प्रभाव को प्रदर्शित करने के लिए, हमने कई प्रमुख AI मॉडलों में समान प्रॉम्प्ट का उपयोग करके एक व्यापक वास्तविक दुनिया का परीक्षण किया। यह कार्य जटिल था और यह दर्शाता था कि SuperNinja यूज़र रोज़ाना किस प्रकार की चुनौतियों का सामना करते हैं:

“पूर्वानुमान के साथ चार्ट के साथ Mag7 के लिए एक वेब-आधारित आधुनिक और पेशेवर स्टॉक विश्लेषक बनाएं। Mag7 के माध्यम से अगले 6 महीनों में इसे दोगुना करने के लिए $1M आवंटित करने के तरीके के बारे में मुझे विभिन्न जोखिम कारकों के साथ सुझाव दें और इसके लिए तर्क प्रदान करें। प्रत्येक कंपनी के शीर्ष नवीनतम समाचारों को सारांशित करें और सुनिश्चित करें कि सभी बाहरी लिंक सही तरीके से काम कर रहे हैं। वेब एप्लिकेशन के लिए बेहतर तरीके से जानने और विश्लेषण करने के लिए उपयोगी सुविधाओं के बारे में सोचें और जोड़ें। इसके लिए एक स्थायी लिंक बनाएं, उसका परीक्षण करें और फिर उसे तैनात करें.”

तुलनात्मक परिणाम

ध्यान दें: सभी मॉडलों का परीक्षण समान ज़ीरो-शॉट प्रॉम्प्ट (कोई उदाहरण या फ़ाइन-ट्यूनिंग नहीं) के साथ किया गया था। वास्तविक परिनियोजित परिणाम देखने के लिए लिंक नीचे दिए गए हैं।

Model Steps required Quality Key observations View result
Sonnet 4.5 57 steps Excellent Fast, modern, instantly usable. Highest quality information retrieval 🔗 View
Sonnet 4.0 67 steps Good Modern results, but site is buggy and charts crash the browser 🔗 View
Sonnet 3.7 67 steps Fair Slow, somewhat outdated website, charts crash the browser 🔗 View
Kimi-K2-0905 (open-source) 126 steps Good Very usable with rich graphs and deep information retrieval 🔗 View
GPT-5 500 steps Poor Results were not usable despite extensive processing 🔗 View
GLM 4.5 (open source) 742 steps Fair Usable, some empty charts, but rich with deep information 🔗 View
Gemini 2.5 Pro 3,678 steps Poor Did not finish. Super expensive and not usable N/A

समांतर टूल कॉलिंग की शक्ति

सॉनेट 4.5 की सबसे रोमांचक क्षमताओं में से एक समानांतर टूल कॉलिंग के लिए इसका समर्थन है - एक ऐसी सुविधा जो पिछले संस्करणों में उल्लेखनीय रूप से अनुपस्थित थी। हमारे विश्लेषण से पता चलता है कि लगभग 20% SuperNinja कार्यों को इस क्षमता से काफी फायदा हो सकता है। समांतर टूल कॉलिंग मॉडल को क्रमिक रूप से नहीं बल्कि एक साथ कई स्वतंत्र ऑपरेशन निष्पादित करने में सक्षम बनाता है।

SupeNinja parallel tool calling using Sonnet 4.5

लागत दक्षता: कम के साथ अधिक करना

प्रदर्शन में सुधार के अलावा, सॉनेट 4.5 सार्थक लागत बचत प्रदान करता है। हमारे विश्लेषण से पता चलता है कि पिछले मॉडल की तुलना में सॉनेट 4.5 के साथ सुपरनिंजा कार्यों को चलाते समय कुल लागत में लगभग 15% की कमी आई है। ये बचतें कई स्रोतों से आती हैं: चरणों की संख्या में कमी, कम त्रुटि दर और बेहतर दक्षता।

पूछे जाने वाले प्रश्न

Q1: पिछले मॉडल की तुलना में एंथ्रोपिक सॉनेट 4.5 में प्रमुख प्रदर्शन सुधार क्या हैं?

एक: एंथ्रोपिक सॉनेट 4.5 सॉनेट 4.0 और सॉनेट 3.7 की तुलना में उच्च पूर्णता दर, तेज और अधिक सटीक तर्क, और अधिक कुशल वर्कफ़्लो निष्पादन प्राप्त करता है, जैसा कि सुपरनिंजा के बेंचमार्क परीक्षण में दिखाया गया है।

Q2: स्वायत्त वर्कफ़्लोज़ के लिए सॉनेट 4.5 एजेंटिक क्षमताओं और टूल के उपयोग को कैसे बढ़ाता है?

एक: सॉनेट 4.5 उन्नत समानांतर टूल कॉलिंग और बेहतर संदर्भ प्रबंधन का परिचय देता है, जिससे एजेंट बहु-चरणीय कार्य चला सकते हैं और एक साथ कई टूल का लाभ उठा सकते हैं, जिसके परिणामस्वरूप अनुसंधान, कोडिंग और स्वचालन कार्यों में बेहतर आउटपुट गुणवत्ता और विश्वसनीयता मिलती है।

Q3: कौन से बेंचमार्क परीक्षण सॉनेट 4.5 के वास्तविक दुनिया के लाभों को प्रदर्शित करते हैं?

एक: सुपरनिंजा का विश्लेषण प्रतिस्पर्धी मॉडलों की तुलना में काफी कम कार्य विफलताओं और त्रुटियों के साथ, GAIA और एजेंसीबेंच बेंचमार्क में 12.5% उच्च पूर्णता दर और गहन शोध वर्कफ़्लोज़ की बेहतर हैंडलिंग पर प्रकाश डालता है।

Q4: व्यावहारिक प्रदर्शन में सॉनेट 4.5 की तुलना अन्य प्रमुख AI मॉडल से कैसे की जाती है?

एक: साइड-बाय-साइड परीक्षण में, सॉनेट 4.5 को कम चरणों की आवश्यकता थी, उच्च गुणवत्ता वाला कोड और विश्लेषण दिया गया था, और GPT-5, जेमिनी 2.5 प्रो जैसे मॉडलों की तुलना में अधिक लागत प्रभावी था, और स्टॉक एनालाइज़र और एजेंटिक वेब एप्लिकेशन जैसे जटिल कार्यों के लिए ओपन-सोर्स विकल्प

Q5: उन्नत उपयोग के मामलों के लिए Sonnet 4.5 किन तकनीकी विशेषताओं और संदर्भ विंडो आकारों का समर्थन करता है?

एक: सॉनेट 4.5 1,000,000 बीटा टोकन तक स्मार्ट कॉन्टेक्स्ट विंडो प्रबंधन, सत्रों में लगातार एजेंट मेमोरी, विस्तारित स्वायत्त ऑपरेशन और जटिल प्रोग्रामिंग और डेटा विश्लेषण परिदृश्यों के लिए 64K तक आउटपुट टोकन प्रदान करता है।

सन्दर्भ और आगे का पठन

[1] एजेंसीबेंच: बेंचमार्किंग एजेंटिक एआई सिस्टम्स - https://arxiv.org/abs/2509.17567

[2] एजेंसीबेंच लीडरबोर्ड - https://agencybench.opensii.ai/

[3] GAIA बेंचमार्क - https://arxiv.org/abs/2311.12983

[4] सुपरनिंजा प्लेटफार्म - https://super.myninja.ai/