किसी भी नई तकनीक के आगमन के साथ, मानवता का पहला प्रयास आम तौर पर पाशविक बल के माध्यम से हासिल किया जाता है। जैसे-जैसे तकनीक विकसित होती है, हम इसे अनुकूलित करने का प्रयास करते हैं और इस पाशविक सफलता के लिए और अधिक सुंदर समाधान निकालते हैं। आर्टिफिशियल इंटेलिजेंस (AI) में नवीनतम प्रगति के साथ — विशेष रूप से बड़े भाषा मॉडल (LLM) का विकास — हमने हाल के वर्षों में प्रभावशाली क्षमताओं का प्रदर्शन करते हुए महत्वपूर्ण प्रगति की है। लेकिन ये प्रगति अभी भी इस प्रौद्योगिकी के विकास के पाशविक बल चरण में बहुत अधिक हैं। हमने कैम्ब्रियन में ट्रांसफ़ॉर्मर-जैसे मॉडल का विस्फोट देखा है, जिससे बड़े-बड़े मॉडल सामने आए हैं, जो सभी तरह के खरबों मापदंडों तक के होते हैं। यह काफी हद तक दहन इंजन के अधिक कुशल इलेक्ट्रिक उत्तराधिकारी के रूप में परिवर्तित होने के समान है। यह परिवर्तन सेडान और मेरे पसंदीदा हॉबी टॉय: रेसिंग कारों में देखा गया। इसकी शुरुआत 1960 के दशक में पोंटिएक जीटीओ, शेल्बी कोबरा 427 या डॉज चार्जर आर/टी के साथ हुई, जिसमें डेट्रॉइट की मांसपेशी को एक बड़े ब्लॉक इंजन के साथ दिखाया गया था, गैस की गज़लिंग, 10 सेकंड में 0 से 60 मील प्रति घंटे की रफ्तार से चलने वाले स्ट्रीट हेमी इंजन, जिनका गैस माइलेज 7-14 मील प्रति गैलन (एमपीजी) तक था। आज, नवीनतम इलेक्ट्रिक कारों के साथ, जैसे कि रिमैक नेवरा, आप 54MPGe प्राप्त करते हुए 1.74 सेकंड में 0-से-60 MPH प्राप्त कर सकते हैं। इसके बाद होने वाली दक्षता को उत्प्रेरित करने के लिए प्रारंभिक ब्रूट बल एक आवश्यक कदम था।
मेरे लिए यह स्पष्ट हो गया है कि इतिहास को बड़े भाषा मॉडल के साथ खुद को दोहराने की जरूरत है; हम क्रूर प्रयासों से हटकर एआई मॉडल को संबोधित करने में और अधिक सुंदर समाधानों की ओर बढ़ने के कगार पर हैं; विशेष रूप से बड़े और अधिक जटिल भाषा मॉडल (जीटीओ, कोबरा और हेमी इंजन के हमारे आधुनिक समकक्ष) से दूर छोटे, बहुत अधिक कुशल मॉडल की ओर बढ़ रहे हैं। सच कहूँ तो, इस तरह की दक्षता को बढ़ाना पिछले कई सालों से मेरा मुख्य फोकस रहा है। सहकर्मियों की एक अविश्वसनीय टीम के साथ काम करते हुए, मुझे एआई के चौराहे पर काम करने और हाल की भूमिकाओं में गणना करने, त्वरित मशीनों को डिजाइन करने और मेटा के एआई इंफ्रास्ट्रक्चर को कोडडिजाइन करने का सौभाग्य मिला है। कब बाबक पहलवान और मैं अपना वर्तमान उद्यम बनाने के लिए निकल पड़ा — निंजाटेक एआई — हमने कंपनी की संस्कृति में अपने तकनीकी डीएनए का एक प्रमुख आधार अंकित किया है — पहले दिन से हमारे इंटेलिजेंस प्लेटफॉर्म का कुशल निष्पादन और संचालन। NinjaTech, शेड्यूलिंग, खर्च और यात्रा बुकिंग जैसे प्रशासनिक कार्यों को पूरा करके पेशेवरों को अधिक उत्पादक बनाने के लिए AI कार्यकारी सहायक का निर्माण कर रहा है, जिसमें काफी समय लगता है।
100 से अधिक अरबों मापदंडों वाले भाषा मॉडल वाले ऑटोरेग्रेसिव और जनरेटिव मॉडल का अध्ययन करते समय, मुझे यह स्पष्ट हो गया कि इन प्रशासनिक कार्यों को प्राप्त करने के लिए अधिक कुशल और सरल तरीका होना चाहिए। यदि आप “जीवन का अर्थ क्या है” सवालों के जवाब देने की कोशिश कर रहे हैं, या अपने मॉडल से स्वचालित संगीत निर्माता के लिए पायथन कोड लिखने के लिए कह रहे हैं, तो यह एक बात है। कई व्यवस्थापकीय कार्यों के लिए, सरल कम जटिल मॉडल पर्याप्त होते हैं। हमने विभिन्न प्रशासनिक कार्यों के लिए कई मॉडल आकारों का लाभ उठाकर इसका परीक्षण किया है, जिनमें से कुछ इतने छोटे और कुशल हैं कि उन्हें CPU पर चलाया जा सकता है! यह न केवल हमें उच्च लागत वाले बड़े पैमाने पर प्रशिक्षण नौकरियों के साथ बैंक तोड़ने से रोकता है, बल्कि यह हमारे मॉडलों की सेवा के लिए बड़े मेमोरी फ़ुटप्रिंट के साथ महंगे GPU इंस्टेंस की आवश्यकता नहीं होने से हमें अनुमान लगाने में लगने वाले समय की भी बचत करता है। ऊपर दिए गए दहन-से-बिजली के उदाहरणों की तरह, हम और अधिक कुशल होते जा रहे हैं, लेकिन बहुत तेज़ी से!
हम उद्योग और अनुसंधान समुदाय द्वारा अधिक कुशल संचालन की दिशा में बदलाव देखने के लिए उत्साहित हैं। ऐसे ही एक उदाहरण में मेटा शामिल है लामा जो जारी करें प्रदर्शन-मंजूषा उनका 13B पैरामीटर मॉडल ऑर्डर-ऑफ-मैग्निट्यूड छोटे मॉडल पर अधिक डेटा पर प्रशिक्षण देकर अधिकांश बेंचमार्क पर GPT-3 (175B) से बेहतर प्रदर्शन करता है। नतीजतन, मेटा रिसर्च ने खुद को फिर से पीछे छोड़ दिया लिमा (संरेखण के लिए कम है,) जो उच्च गुणवत्ता वाले परिणाम प्राप्त करने के लिए एक चतुर पूर्व-प्रशिक्षण पद्धति के रूप में 1000 “विविध” संकेतों का लाभ उठाने पर भरोसा करता है। एआई के लिए हमारी कंप्यूट मांग पर अंकुश लगाने के लिए यह वास्तव में उल्लेखनीय और अनिवार्य है, जो लगातार बढ़ रही है और एआई के कार्बन फुटप्रिंट के कारण हमारे ग्रह पर हानिकारक प्रभाव डाल सकती है। चीजों को परिप्रेक्ष्य में रखने के लिए, एक एमआईटी अध्ययन प्रदर्शित किया कि केवल 65M मापदंडों वाले छोटे ट्रांसफॉर्मर मॉडल प्रशिक्षित करने के लिए 27kWh और 26 पाउंड CO2e की खपत कर सकते हैं। GPT3 जैसे बड़े मॉडल को देखते समय यह संख्या नाटकीय रूप से बढ़ सकती है, जिससे अधिकतम मॉडल बनते हैं ~502 टन अकेले 2022 में कार्बन समतुल्य उत्सर्जन में। इसके अलावा, जबकि एक मॉडल प्रकाशित होने के बाद प्रशिक्षण की तुलना में अनुमान कम गहन होता है, लेकिन सेवा के लिए अनुमान का लाभ उठाते समय प्रशिक्षण की तुलना में इसका उत्सर्जन अपने जीवनकाल में 10-100 गुना तक बढ़ने लगता है।
हम एआई की विशाल संभावनाओं के साथ केवल हिमशैल के सिरे पर हैं; हालांकि, अधिक संकीर्ण पदचिह्न के भीतर और अधिक करने के लिए और क्लस्टर आकार और बजट को देखते हुए हमारे संचालन की दक्षता पर विचार करना अनिवार्य है। हमें गैस की खपत करने वाली हेमी पर अंकुश लगाने और अधिक कुशल छोटे मॉडल लगाने की ज़रूरत है - इससे परिचालन में सुधार होगा, लागत कम होगी और एआई के कार्बन फुटप्रिंट में सार्थक कमी आएगी।



