مع ظهور أي تقنية جديدة، عادة ما تتحقق المحاولة الأولى للبشرية من خلال القوة الغاشمة. مع تطور التكنولوجيا، نحاول التحسين والتوصل إلى حل أكثر أناقة للاختراق الغاشم. مع أحدث التطورات في الذكاء الاصطناعي (AI) - لا سيما تطوير نماذج اللغات الكبيرة (LLMs) - اتخذنا خطوات كبيرة في السنوات الأخيرة لإظهار قدرات رائعة. لكن هذه الخطوات لا تزال إلى حد كبير في مرحلة القوة الغاشمة لهذا التطور التكنولوجي. لقد رأينا الانفجار الكمبري للنماذج الشبيهة بالمحولات، مما أدى إلى ظهور نماذج كبيرة تتراوح حتى تريليونات من المعلمات. هذا مشابه تمامًا لانتقال محرك الاحتراق إلى الخلف الكهربائي الأكثر كفاءة. وقد لوحظ هذا الانتقال في سيارات السيدان وفي لعبة هوايتي المفضلة: سيارات السباق. بدأ هذا في الستينيات من القرن الماضي مع أمثال بونتياك جي تي أو أو شيلبي كوبرا 427 أو دودج تشارجر R/T التي تعرض عضلات ديترويت بمحرك كبير، تستهلك الغاز من 0 إلى 60 ميلاً في الساعة في 10 ثوانٍ، ومحركات Hemi في الشوارع بأميال غاز تتراوح من 7 إلى 14 ميلاً لكل جالون (MPG). اليوم، مع أحدث السيارات الكهربائية، مثل Rimac نيفيرا، يمكنك تحقيق 0 إلى 60 ميلاً في الساعة في 1.74 ثانية مع تحقيق 54 ميلاً في الساعة. كانت القوة الغاشمة المبكرة خطوة ضرورية لتحفيز الكفاءة التي تلت ذلك.

لقد أصبح واضحًا لي أن التاريخ بحاجة إلى تكرار نفسه مع نماذج اللغات الكبيرة؛ نحن على أعتاب التحول من المحاولات الغاشمة إلى حلول أكثر أناقة في معالجة نماذج الذكاء الاصطناعي؛ على وجه الخصوص الابتعاد عن نماذج اللغات الأكبر والأكثر تعقيدًا (معادلنا الحديث لمحرك GTO و Cobra و Hemi) نحو نماذج أصغر وأكثر كفاءة بكثير. لأكون صريحًا، كانت قيادة هذه الكفاءة محورًا رئيسيًا لي على مدار السنوات العديدة الماضية. من خلال العمل مع فريق مذهل من الزملاء، كنت محظوظًا بالعمل عند تقاطع الذكاء الاصطناعي والحوسبة في الأدوار الحديثة، وتصميم الآلات المتسارعة والتصميم المشترك للبنية التحتية للذكاء الاصطناعي لشركة Meta. عندما باباك بهلوان وشرعت في بناء مشروعنا الحالي - نينجا تيك بالذكاء الاصطناعي - قمنا بإدراج عنصر أساسي من الحمض النووي التقني لدينا في ثقافة الشركة - التنفيذ والتشغيل الفعالين لمنصة الذكاء الخاصة بنا منذ اليوم الأول. تقوم NinjaTech ببناء مساعد تنفيذي يعمل بالذكاء الاصطناعي لجعل المحترفين أكثر إنتاجية، من خلال تولي المهام الإدارية مثل الجدولة والنفقات وحجز السفر، والتي تستغرق وقتًا طويلاً.

أثناء دراسة نماذج الانحدار الذاتي والتوليدية بنماذج لغوية تتجاوز مئات المليارات من المعلمات، أصبح من الواضح لي أنه يجب أن تكون هناك طريقة أكثر كفاءة وبساطة لتحقيق هذه المهام الإدارية. إنه شيء واحد إذا كنت تحاول الإجابة على أسئلة «ما معنى الحياة»، أو تطلب من نموذجك كتابة كود الثعبان لمنتج موسيقى آلي. بالنسبة للعديد من المهام الإدارية، تكفي النماذج الأبسط والأقل تعقيدًا. لقد وضعنا هذا على المحك من خلال الاستفادة من مجموعة متنوعة من أحجام النماذج لمختلف المهام الإدارية، بعضها صغير جدًا وفعال بحيث يمكن تشغيلها على وحدة المعالجة المركزية! هذا لا يمنعنا فقط من الإفلاس بوظائف التدريب واسعة النطاق عالية التكلفة، ولكنه يوفر لنا أيضًا وقت الاستدلال من خلال عدم الحاجة إلى مثيلات GPU باهظة الثمن ذات آثار ذاكرة كبيرة لخدمة نماذجنا. تمامًا مثل أمثلة الاحتراق إلى الكهرباء المذكورة أعلاه، أصبحنا أكثر كفاءة، ولكن بسرعة كبيرة!

نحن متحمسون لرؤية التحول نحو التشغيل الأكثر كفاءة من قبل الصناعة ومجتمع الأبحاث. أحد الأمثلة على ذلك يشمل Meta's لهب أطلق سراح أي عرض يتفوق نموذج المعلمة 13B الخاص بهم على GPT-3 (175B) في معظم المعايير من خلال التدريب على المزيد من البيانات على نموذج أصغر بترتيب الحجم. وبالتالي، تفوقت أبحاث Meta على نفسها مرة أخرى ليما (Less Is More For Alignment) الذي اعتمد على الاستفادة من 1000 مطالبة «متنوعة» كطريقة ذكية للتدريب المسبق لتحقيق نتائج عالية الجودة. يعد هذا أمرًا رائعًا وضروريًا حقًا للحد من طلبنا على الحوسبة على الذكاء الاصطناعي، والذي يستمر في الارتفاع بشكل كبير ويمكن أن يكون له آثار ضارة على كوكبنا بسبب البصمة الكربونية للذكاء الاصطناعي. لوضع الأمور في نصابها، دراسة معهد ماساتشوستس للتكنولوجيا أظهر أن نماذج المحولات الصغيرة التي تحتوي على 65 مليونًا فقط يمكن أن تستهلك ما يصل إلى 27 كيلو وات في الساعة و 26 رطلاً من ثاني أكسيد الكربون للتدريب. يمكن أن ينمو هذا الرقم بشكل كبير عند النظر إلى النماذج الكبيرة مثل GPT3، مما يؤدي إلى إنشاء ما يصل إلى ~ 502 طن في انبعاثات مكافئ الكربون في عام 2022 وحده. علاوة على ذلك، في حين أن الاستدلال أقل كثافة في الحوسبة من التدريب بمجرد نشر النموذج، تبدأ انبعاثاته في الارتفاع بشكل كبير من 10 إلى 100 مرة على مدار عمره مقارنة بالتدريب عند الاستفادة من الاستدلال للخدمة.

نحن فقط على غيض من فيض مع الإمكانات الهائلة للذكاء الاصطناعي؛ ومع ذلك، للقيام بالمزيد ضمن نطاق أضيق وبالنظر إلى حجم الكتلة وميزانيتها، من الضروري النظر في كفاءة عملياتنا. نحن بحاجة إلى الحد من استهلاك الغاز لشركة Hemi واستخدام نماذج أصغر أكثر كفاءة - سيؤدي ذلك إلى تحسين العمليات وخفض التكاليف وتقليل البصمة الكربونية للذكاء الاصطناعي بشكل كبير.