Mit dem Aufkommen jeder neuen Technologie wird der erste Versuch der Menschheit in der Regel durch rohe Gewalt erreicht. Während sich die Technologie weiterentwickelt, versuchen wir, sie zu optimieren und eine elegantere Lösung für den brutalen Durchbruch zu finden. Mit den neuesten Fortschritten im Bereich der künstlichen Intelligenz (KI) — insbesondere der Entwicklung von Large Language Models (LLMs) — haben wir in den letzten Jahren erhebliche Fortschritte gemacht und beeindruckende Fähigkeiten unter Beweis gestellt. Diese Fortschritte befinden sich jedoch immer noch in der Phase der Brute-Force-Phase dieser technologischen Entwicklung. Wir haben die kambrische Explosion transformatorähnlicher Modelle erlebt, die große Modelle hervorgebracht haben, die bis zu Billionen von Parametern reichen. Das ist ziemlich analog zur Umstellung des Verbrennungsmotors auf den effizienteren elektrischen Nachfolger. Dieser Übergang wurde bei Limousinen und bei meinem liebsten Hobbyspielzeug, den Rennwagen, beobachtet. Dies begann in den 1960er Jahren mit Autos wie dem Pontiac GTO, dem Shelby Cobra 427 oder dem Dodge Charger R/T, bei denen die Muskeln Detroits mit einem großen Blockmotor, der Benzin fressend, in 10 Sekunden von 0 bis 60 Meilen pro Stunde in 10 Sekunden, Straßen-Hemi-Motoren mit einem Benzinverbrauch von 7 bis 14 Meilen pro Gallone (MPG), zur Schau stellten. Heute mit den neuesten Elektroautos wie dem von Rimac Nevera, Sie können in 1,74 Sekunden 0 bis 60 MPH erreichen und gleichzeitig 54 MPGe erreichen. Die frühe rohe Gewalt war ein notwendiger Schritt, um die darauf folgende Effizienz zu katalysieren.

Mir ist klar geworden, dass sich die Geschichte mit Large Language Models wiederholen muss. Wir stehen kurz davor, von brutalen Versuchen hin zu eleganteren Lösungen für KI-Modelle überzugehen; insbesondere weg von größeren, komplexeren Sprachmodellen (unserem modernen Äquivalent zur GTO-, Cobra- und Hemi-Engine) hin zu kleineren, viel effizienteren Modellen. Um ehrlich zu sein, war es in den letzten Jahren ein Hauptaugenmerk von mir, diese Effizienz zu steigern. Durch die Zusammenarbeit mit einem unglaublichen Team von Kollegen hatte ich das Glück, in letzter Zeit an der Schnittstelle von KI und Computer zu arbeiten. Ich habe beschleunigte Maschinen entworfen und die KI-Infrastruktur von Meta mitgestaltet. Wann Babak Pahlavan und ich machte mich daran, unser aktuelles Unternehmen aufzubauen — NinjaTech KI — wir haben eine wichtige Grundlage unserer technischen DNA in die Unternehmenskultur aufgenommen — die effiziente Ausführung und den effizienten Betrieb unserer Intelligence-Plattform vom ersten Tag an. NinjaTech entwickelt einen KI-Vorstandsassistenten, um die Produktivität von Fachleuten zu steigern, indem er die administrativen Aufgaben wie Planung, Ausgaben und Reisebuchung übernimmt, die viel Zeit in Anspruch nehmen.

Während ich autoregressive und generative Modelle mit Sprachmodellen studierte, die Hunderte von Milliarden von Parametern überschreiten, wurde mir klar, dass es einen effizienteren und einfacheren Weg geben muss, um diese administrativen Aufgaben zu erledigen. Es ist eine Sache, wenn Sie versuchen, Fragen zu beantworten, „was ist der Sinn des Lebens“, oder wenn Sie Ihr Model bitten, den Python-Code für einen automatisierten Musikproduzenten zu schreiben. Für viele administrative Aufgaben reichen einfachere, weniger komplexe Modelle aus. Wir haben dies auf die Probe gestellt, indem wir eine Reihe von Modellgrößen für verschiedene Verwaltungsaufgaben genutzt haben, von denen einige so klein und effizient sind, dass sie auf einer CPU ausgeführt werden können! Dies verhindert nicht nur, dass wir das Budget mit kostspieligen groß angelegten Schulungsaufträgen sprengen, sondern spart uns auch Zeit für Inferenzen, da wir keine teuren GPU-Instances mit großem Speicherbedarf für unsere Modelle benötigen. Ähnlich wie bei den obigen Beispielen von Verbrennung zu Elektrizität werden wir effizienter, aber sehr schnell!

Wir freuen uns über die Umstellung der Industrie und der Forschungsgemeinschaft auf einen effizienteren Betrieb. Ein solches Beispiel beinhaltet Metas Lama welche veröffentlichen präsentiert ihr 13B-Parametermodell übertraf GPT-3 (175B) bei den meisten Benchmarks, indem es mit mehr Daten auf einem um die Größenordnung kleineren Modell trainiert wurde. Folglich übertraf sich die Metaforschung erneut selbst mit LIMA (Less Is More For Alignment), das darauf setzte, 1000 „verschiedene“ Aufforderungen als clevere Methode vor dem Training zu nutzen, um qualitativ hochwertige Ergebnisse zu erzielen. Das ist wirklich bemerkenswert und unerlässlich, um unseren Computerbedarf an KI einzudämmen, der weiterhin exponentiell ansteigt und aufgrund des CO2-Fußabdrucks von Ai schädliche Auswirkungen auf unseren Planeten haben kann. Um die Dinge ins rechte Licht zu rücken: eine MIT-Studie hat gezeigt, dass Modelle mit kleinen Transformatoren mit nur 65 Millionen Parametern bis zu 27 kWh und 26 Pfund CO2e für das Training verbrauchen können. Diese Zahl kann bei großen Modellen wie GPT3 dramatisch ansteigen, sodass bis zu ~502 Tonnen allein in den Emissionen von Kohlenstoffäquivalenten im Jahr 2022. Darüber hinaus ist die Inferenz zwar weniger rechenintensiv als das Training, sobald ein Modell veröffentlicht ist, aber seine Emissionen steigen im Laufe seiner Lebensdauer um das 10- bis 100-fache an, verglichen mit Schulungen, bei denen Inferenz für die Auswertung genutzt wird.

Wir sind erst an der Spitze des Eisbergs mit den enormen Möglichkeiten von KI. Um jedoch auf kleinerem Raum und angesichts der Clustergröße und des Budgets mehr zu erreichen, ist es unerlässlich, die Effizienz unserer Abläufe zu berücksichtigen. Wir müssen den gasfressenden Hemi eindämmen und effizientere, kleinere Modelle einsetzen — das wird den Betrieb verbessern, die Kosten senken und den CO2-Fußabdruck der KI deutlich reduzieren.