NinjaTech AI का मिशन तेज़ और किफायती आर्टिफिशियल इंटेलिजेंस (AI) एजेंटों के साथ समय लेने वाले जटिल कार्यों की देखभाल करके सभी को अधिक उत्पादक बनाना है। हमने हाल ही में लॉन्च किया है MyNinja.ai, जो हमारे मिशन की ओर बढ़ने के लिए दुनिया के पहले मल्टी-एजेंट पर्सनल AI सहायकों में से एक है। MyNinja.ai को विशिष्ट एजेंटों का उपयोग करके शुरू से बनाया गया है, जो आपकी ओर से कार्यों को पूरा करने में सक्षम हैं, जिसमें मीटिंग शेड्यूल करना, वेब से गहन शोध करना, कोड जनरेट करना और लिखने में मदद करना शामिल है। ये एजेंट जटिल, बहु-चरणीय कार्यों को शाखित समाधानों में विभाजित कर सकते हैं, और पिछले अनुभवों से लगातार सीखते हुए जेनरेट किए गए समाधानों का गतिशील रूप से मूल्यांकन करने में सक्षम हैं। ये सभी कार्य पूरी तरह से स्वायत्त और अतुल्यकालिक तरीके से पूरे किए जाते हैं, जिससे निंजा पृष्ठभूमि में इन कार्यों पर काम करते समय अपना दिन जारी रखने के लिए आपको मुक्त कर देते हैं, और जब आपके इनपुट की आवश्यकता होती है तब आप व्यस्त रहते हैं।

क्योंकि कोई भी बड़ा भाषा मॉडल (LLM) हर कार्य के लिए उपयुक्त नहीं है, हम जानते थे कि व्यक्तिगत AI सहायक बनाने के लिए विशेष रूप से विभिन्न कार्यों के लिए अनुकूलित कई LLM की आवश्यकता होगी। अपने यूज़र को खुश करने के लिए सटीकता और क्षमताएं प्रदान करने के लिए, हम यह भी जानते थे कि हमें एक साथ मिलकर काम करने के लिए इन कई मॉडलों की आवश्यकता होगी। अंत में, हमें इन विभिन्न मॉडलों को प्रशिक्षित करने के लिए मापनीय और लागत प्रभावी तरीकों की आवश्यकता थी—एक ऐसा उपक्रम जिसे अधिकांश स्टार्टअप्स के लिए अपनाना ऐतिहासिक रूप से महंगा रहा है। इस पोस्ट में, हम बताते हैं कि कैसे हमने MyNinja.ai का उपयोग करके अपने अत्याधुनिक उत्पादकता एजेंट NinJallm का निर्माण किया, जो की रीढ़ है एडब्ल्यूएस ट्रेनियम चिप्स।
डेटासेट बनाना
हमने पहले ही पहचान लिया था कि उपयोगकर्ता की ओर से कार्यों को निपटाने के मिशन को पूरा करने के लिए, हमें ऐसे कई मॉडलों की आवश्यकता थी जो विशिष्ट कार्यों के लिए अनुकूलित किए गए थे। उदाहरणों में हमारे डीप रिसर्चर, डीप कोडर और एडवाइजर मॉडल शामिल हैं। उपलब्ध ओपन सोर्स मॉडल का परीक्षण करने के बाद, हमने महसूस किया कि हमारी ज़रूरतों को पूरा करने के लिए केवल प्रॉम्प्ट इंजीनियरिंग के कारण आउट-ऑफ़-द-बॉक्स क्षमताएं और प्रतिक्रियाएँ अपर्याप्त थीं। विशेष रूप से, ओपन सोर्स मॉडल के साथ हमारे परीक्षण में, हम यह सुनिश्चित करना चाहते थे कि प्रत्येक मॉडल को प्रॉम्प्टिंग की रिएक्ट/चेन-ऑफ-थॉट शैली के लिए अनुकूलित किया गया हो। इसके अतिरिक्त, हम यह सुनिश्चित करना चाहते थे कि मॉडल को, जब किसी के हिस्से के रूप में तैनात किया जाए, तो वह मॉडल होगा रिट्रीवल ऑगमेंटेड जेनरेशन (RAG) प्रणाली, प्रत्येक स्रोत का सटीक रूप से हवाला देती है, साथ ही झूठे उत्तर उत्पन्न करने के विपरीत “मुझे नहीं पता” कहने के प्रति किसी भी पूर्वाग्रह का सटीक रूप से हवाला देती है। इस उद्देश्य के लिए, हमने विभिन्न डाउनस्ट्रीम कार्यों के लिए मॉडल को फाइन-ट्यून करना चुना।
हमारे प्रशिक्षण डेटासेट के निर्माण में, हमारा लक्ष्य दुगना था: प्रत्येक मॉडल को उसके उपयुक्त डाउनस्ट्रीम कार्य और व्यक्तित्व (शोधकर्ता, सलाहकार, कोडर, और इसी तरह) के लिए अनुकूलित करें, और एक विशिष्ट आउटपुट संरचना का पालन करने के लिए मॉडल को अनुकूलित करें। इसके लिए, हमने इसका अनुसरण किया लीमा दृष्टिकोण फाइन-ट्यूनिंग के लिए। हमने विविध लेकिन अपेक्षाकृत छोटे नमूना आकार का उपयोग करते हुए आउटपुट के प्रारूप और टोन पर ध्यान केंद्रित करते हुए लगभग 20 मिलियन टोकन के प्रशिक्षण नमूना आकार का उपयोग किया। हमारे पर्यवेक्षित फ़ाइन-ट्यूनिंग डेटासेट का निर्माण करने के लिए, हमने प्रत्येक मॉडल के लिए शुरुआती सीड टास्क बनाकर शुरुआत की। इन बीज कार्यों के साथ, हमने मेटा के लामा 2 मॉडल का उपयोग करके एक प्रारंभिक सिंथेटिक डेटासेट तैयार किया। हम फाइन-ट्यूनिंग के शुरुआती दौर को करने के लिए सिंथेटिक डेटासेट का उपयोग करने में सक्षम थे। शुरुआत में इस फाइन-ट्यून किए गए मॉडल के प्रदर्शन का मूल्यांकन करने के लिए, हमने पुनरावृत्त रूप से अधिक नमूने बनाने के लिए यूज़र फ़ीडबैक को क्राउड-सोर्स किया। हमने मॉडल के प्रदर्शन का आकलन करने के लिए आंतरिक और सार्वजनिक बेंचमार्क की एक श्रृंखला का भी इस्तेमाल किया और इसे फिर से जारी रखा।
ट्रेनियम पर फाइन-ट्यूनिंग
हमने कई कारणों से पूर्व-प्रशिक्षित बेस मॉडल के लिए लामा मॉडल के साथ शुरुआत करने का फैसला किया: विशेष रूप से शानदार आउट-ऑफ-द-बॉक्स प्रदर्शन, विभिन्न पुस्तकालयों से मजबूत पारिस्थितिकी तंत्र समर्थन, और वास्तव में खुला स्रोत और अनुज्ञेय लाइसेंस। उस समय, हमने लामा 2 के साथ शुरुआत की, जिसमें विभिन्न आकारों (7B, 13B, और 70B) में परीक्षण किया गया। प्रशिक्षण के लिए, हमने ट्रेनियम चिप्स का लाभ उठाने के लिए trn1.32xlarge इंस्टेंस के समूह का उपयोग करना चुना। हमने प्रशिक्षण को कुशलतापूर्वक समांतर बनाने के लिए 32 उदाहरणों के समूह का उपयोग किया। हमने इसका इस्तेमाल भी किया AWS समांतर क्लस्टर क्लस्टर ऑर्केस्ट्रेशन का प्रबंधन करने के लिए ट्रेनियम इंस्टेंस के समूह का उपयोग करके, प्रत्येक फाइन-ट्यूनिंग पुनरावृति में $1,000 से कम की लागत पर 3 घंटे से भी कम समय लगता था। इस त्वरित पुनरावर्तन समय और कम लागत के कारण, हम अपने मॉडल को तेज़ी से ट्यून कर सकते हैं और उनका परीक्षण कर सकते हैं और अपने मॉडल की सटीकता में सुधार कर सकते हैं। निम्नलिखित अनुभागों में चर्चा की गई सटीकता हासिल करने के लिए, अगर हमें पारंपरिक प्रशिक्षण एक्सेलेरेटर पर प्रशिक्षण लेना होता, तो हमें केवल $30k खर्च करने होते थे, अगर हमें लाखों डॉलर नहीं तो सैकड़ों हजारों की बचत होती थी।
निम्नलिखित चित्र हमारी प्रशिक्षण वास्तुकला को दर्शाता है।

ट्रेनियम के ऊपर बनी अपनी फाइन-ट्यूनिंग पाइपलाइनों को स्थापित करने के बाद, हम न्यूरॉन डिस्ट्रिब्यूटेड ट्रेनिंग लाइब्रेरी की बदौलत अपने मॉडल को फाइन-ट्यून और रिफाइन करने में सक्षम हुए। यह असाधारण रूप से उपयोगी और सामयिक था, क्योंकि MyNinja.ai के लॉन्च होने से पहले, मेटा के लामा 3 मॉडल जारी किए गए थे। लामा 3 और लामा 2 की वास्तुकला समान है, इसलिए हम तेजी से नए मॉडल में अपग्रेड करने में सक्षम हुए। स्विच करने की इस गति ने हमें मॉडल सटीकता में निहित लाभ का लाभ उठाने की अनुमति दी, और बहुत तेज़ी से लामा 3 वज़न के साथ फाइन-ट्यूनिंग के दूसरे दौर से गुज़रने और लॉन्च की तैयारी करने में मदद की।
मॉडल मूल्यांकन
मॉडल का मूल्यांकन करने के लिए, दो उद्देश्य थे: उपयोगकर्ता के सवालों के जवाब देने के लिए मॉडल की क्षमता का मूल्यांकन करना, और प्रदान किए गए स्रोतों के साथ सवालों के जवाब देने की सिस्टम की क्षमता का मूल्यांकन करना, क्योंकि यह हमारे व्यक्तिगत AI सहायक का प्राथमिक इंटरफ़ेस है। हमने इसका चयन किया हॉट पॉट क्यूए और प्राकृतिक प्रश्न (NQ) ओपन डेटासेट, जो दोनों सार्वजनिक लीडरबोर्ड के साथ अपने खुले बेंचमार्किंग डेटासेट के कारण उपयुक्त हैं।
हमने विकिपीडिया कॉर्पस से प्राप्त शीर्ष 10 अंशों का उपयोग करके मॉडल के उत्तर का अपेक्षित उत्तर से मिलान करके सटीकता की गणना की। हमने सामग्री फ़िल्टरिंग और रैंकिंग का उपयोग करके प्रदर्शन किया कोलबर्ट वी2, एक BERT- आधारित पुनर्प्राप्ति मॉडल। हमने अपने उन्नत लामा 3 RAG मॉडल का उपयोग करके NQ ओपन डेटासेट पर 62.22% और HotPotQA पर 58.84% की सटीकता हासिल की, जो अन्य बेसलाइन मॉडल पर उल्लेखनीय सुधार प्रदर्शित करता है। निम्नलिखित आंकड़ा हमारे परिणामों को सारांशित करता है।

भविष्य का काम
आगे देखते हुए, हम अपने मॉडल के प्रदर्शन और उपयोगकर्ता अनुभव को बेहतर बनाने के लिए कई विकासों पर काम कर रहे हैं। सबसे पहले, हम इसका उपयोग करना चाहते हैं ओरपो हमारे मॉडलों को ठीक करने के लिए। ORPO पारंपरिक फ़ाइन-ट्यूनिंग को प्राथमिकता संरेखण के साथ जोड़ता है, जबकि दोनों के लिए एकल वरीयता संरेखण डेटासेट का उपयोग करता है। हमें विश्वास है कि इससे हम यूज़र के लिए बेहतर परिणाम प्राप्त करने के लिए मॉडल को बेहतर ढंग से संरेखित कर सकेंगे।
इसके अतिरिक्त, हम उन विभिन्न मॉडलों से एक कस्टम एन्सेम्बल मॉडल बनाने का इरादा रखते हैं, जिन्हें हमने अभी तक ठीक से ट्यून किया है। मिक्सचर ऑफ एक्सपर्ट (MoE) मॉडल आर्किटेक्चर से प्रेरित होकर, हम अपने विभिन्न मॉडलों के लिए एक रूटिंग लेयर पेश करना चाहते हैं। हमारा मानना है कि यह हमारे मॉडल सर्विंग और स्केलिंग आर्किटेक्चर को मौलिक रूप से सरल बना देगा, साथ ही हमारे यूज़र द्वारा हमारे व्यक्तिगत AI सहायक से अपेक्षा किए जाने वाले विभिन्न कार्यों में गुणवत्ता बनाए रखेगा।
निष्कर्ष
हर किसी को अधिक उत्पादक बनाने के लिए अगली पीढ़ी के AI एजेंटों का निर्माण करना NinjaTech AI का अपने मिशन को प्राप्त करने का मार्ग है। इस परिवर्तनकारी तकनीक तक पहुंच का लोकतंत्रीकरण करने के लिए, उच्च शक्ति वाले कंप्यूट, ओपन सोर्स मॉडल और उपकरणों के एक इकोसिस्टम तक पहुंच होना महत्वपूर्ण है, जो प्रत्येक नए एजेंट के प्रशिक्षण को सस्ता और तेज़ बनाता है। AWS के उद्देश्य से निर्मित AI चिप्स, शीर्ष ओपन सोर्स मॉडल तक पहुंच और इसकी प्रशिक्षण संरचना इसे संभव बनाती है।
हमने NinjaTech AI के मल्टी-एजेंट पर्सनल AI का निर्माण कैसे किया, इसके बारे में अधिक जानने के लिए, आप हमारा पढ़ सकते हैं श्वेतपत्र। आप इन AI एजेंटों को मुफ्त में भी आज़मा सकते हैं MyNinja.ai।
लेखकों के बारे में

अराश सदरीह Ninjatech.ai में सह-संस्थापक और मुख्य विज्ञान अधिकारी हैं। अरश ने Ninjatech.ai की सह-स्थापना की, जिसका उद्देश्य AI एजेंटों के साथ समय लेने वाले कार्यों का ध्यान रखकर सभी को अधिक उत्पादक बनाना है। इस दृष्टिकोण को AWS में एक वरिष्ठ अनुप्रयुक्त वैज्ञानिक के रूप में उनके कार्यकाल के दौरान साकार किया गया, जहाँ उन्होंने प्रमुख अनुसंधान पहल की, जिससे छह वर्षों में बुनियादी ढाँचे की दक्षता में काफी सुधार हुआ, जिससे उन्हें मुख्य अवसंरचना के अनुकूलन के लिए कई पेटेंट मिले। उनकी शैक्षणिक पृष्ठभूमि में कंप्यूटर मॉडलिंग और सिमुलेशन में पीएचडी की डिग्री शामिल है, जिसमें ऑक्सफोर्ड यूनिवर्सिटी, सिडनी यूनिवर्सिटी और सीएसआईआरओ जैसे प्रतिष्ठित संस्थानों के साथ सहयोग शामिल है। अपने उद्योग के कार्यकाल से पहले, अरश का पोस्टडॉक्टरल शोध कार्यकाल था, जिसे नेचर कम्युनिकेशंस सहित उच्च प्रभाव वाली पत्रिकाओं में प्रकाशनों द्वारा चिह्नित किया गया था।

ताहिर अज़ीम निंजाटेक में स्टाफ सॉफ्टवेयर इंजीनियर हैं। ताहिर NinjaTech के Inf2 और Trn1 आधारित प्रशिक्षण और अनुमान प्लेटफार्मों, इन प्लेटफार्मों तक पहुँचने के लिए इसके एकीकृत गेटवे और इसके RAG- आधारित अनुसंधान कौशल पर ध्यान केंद्रित करता है। उन्होंने पहले Amazon में एक वरिष्ठ सॉफ़्टवेयर इंजीनियर के रूप में काम किया, Amazon के वैश्विक इंटरनेट एज इंफ्रास्ट्रक्चर के इष्टतम उपयोग के लिए डेटा-संचालित सिस्टम का निर्माण किया, जिससे लागत, भीड़ और विलंबता को कम किया जा सके। इंडस्ट्री में कदम रखने से पहले, ताहिर ने स्टैनफोर्ड यूनिवर्सिटी से कंप्यूटर साइंस में एमएस और पीएचडी की डिग्री हासिल की, एनयूएसटी (पाकिस्तान) में सहायक प्रोफेसर के रूप में तीन साल तक पढ़ाया, और ईपीएफएल में फास्ट डेटा एनालिटिक्स सिस्टम में पोस्ट-डॉक किया। ताहिर ने VLDB, USENIX ATC, MobiCom और MobiHoc जैसे शीर्ष स्तरीय सम्मेलनों में प्रस्तुत कई प्रकाशन लिखे हैं।

टेंगफेई ज़ू निंजाटेक एआई में एक एप्लाइड साइंटिस्ट हैं। उनकी वर्तमान शोध रुचियों में प्राकृतिक भाषा प्रसंस्करण और मल्टीमॉडल लर्निंग, विशेष रूप से बड़े भाषा मॉडल और बड़े मल्टीमॉडल मॉडल का उपयोग करना शामिल है। टेंगफेई ने सिडनी विश्वविद्यालय के कंप्यूटर साइंस स्कूल में पीएचडी की पढ़ाई पूरी की, जहां उन्होंने विभिन्न तौर-तरीकों का उपयोग करते हुए स्वास्थ्य देखभाल के लिए गहन शिक्षा पर ध्यान केंद्रित किया। वे हार्वर्ड यूनिवर्सिटी में लेबोरेटरी ऑफ मैथमेटिक्स इन इमेजिंग (LMI) में विजिटिंग पीएचडी उम्मीदवार भी थे, जहां उन्होंने जटिल ज्यामितीय डेटा के लिए 3D कंप्यूटर विज़न पर काम किया था।


.avif)
