Avec l'avènement de toute nouvelle technologie, la première tentative de l'humanité est généralement réalisée par la force brute. Au fur et à mesure que la technologie évolue, nous essayons d'optimiser et de proposer une solution plus élégante à cette avancée brutale. Grâce aux dernières avancées en matière d'intelligence artificielle (IA), en particulier le développement de grands modèles linguistiques (LLM), nous avons réalisé des progrès significatifs ces dernières années en démontrant des capacités impressionnantes. Mais ces avancées n'en sont encore qu'au stade de la force brute de cette évolution technologique. Nous avons assisté à l'explosion cambrienne de modèles similaires à des transformateurs, qui a donné naissance à de grands modèles pouvant atteindre des milliards de paramètres. Ceci est assez analogue à la transition du moteur à combustion vers le successeur électrique plus efficace. Cette transition a été observée dans les berlines et dans mon jouet de loisir préféré : les voitures de course. Cela a commencé dans les années 1960 avec la Pontiac GTO, la Shelby Cobra 427 ou la Dodge Charger R/T, mettant en valeur la puissance de Detroit avec un gros moteur à bloc, gourmand en essence, de 0 à 60 mi/h en 10 secondes. Des moteurs Street Hemi avec une consommation d'essence allant de 7 à 14 miles par gallon (MPG). Aujourd'hui, avec les dernières voitures électriques, comme celle de Rimac Nevera, vous pouvez atteindre 0 à 60 MPH en 1,74 seconde tout en atteignant 54 MPGe. La force brute initiale était une étape nécessaire pour catalyser l'efficacité qui a suivi.
Il est devenu évident que l'histoire doit se répéter avec les grands modèles de langage. Nous sommes sur le point de passer des tentatives brutales à des solutions plus élégantes pour aborder les modèles d'IA ; en particulier, nous abandonnons des modèles de langage plus grands et plus complexes (notre équivalent moderne des moteurs GTO, Cobra et Hemi) au profit de modèles plus petits et beaucoup plus efficaces. Pour être franc, la recherche d'une telle efficacité a été au cœur de mes préoccupations ces dernières années. En travaillant avec une incroyable équipe de collègues, j'ai eu la chance de travailler à l'intersection de l'IA et du calcul dans le cadre de rôles récents, en concevant des machines accélérées et en co-concevant l'infrastructure d'IA de Meta. Quand Babak Pahlavan et j'ai décidé de développer notre entreprise actuelle — IA NinjaTech — nous avons inscrit un élément fondamental de notre ADN technique dans la culture de l'entreprise : l'exécution et le fonctionnement efficaces de notre plateforme de renseignement dès le premier jour. NinjaTech est en train de créer un assistant exécutif basé sur l'IA pour rendre les professionnels plus productifs, en prenant en charge les tâches administratives telles que la planification, les dépenses et la réservation de voyages, qui prennent beaucoup de temps.
En étudiant des modèles autorégressifs et génératifs avec des modèles de langage dépassant des centaines de milliards de paramètres, il m'est apparu clairement qu'il devait exister un moyen plus efficace et plus simple d'accomplir ces tâches administratives. C'est une chose si vous essayez de répondre à des questions « quel est le sens de la vie » ou si vous demandez à votre modèle d'écrire le code python pour un producteur de musique automatisé. Pour de nombreuses tâches administratives, des modèles plus simples et moins complexes suffisent. Nous avons mis cela à l'épreuve en tirant parti d'un assortiment de tailles de modèles pour diverses tâches administratives, certaines étant si petites et efficaces qu'elles peuvent être exécutées sur le processeur ! Cela nous évite non seulement de nous ruiner avec des tâches de formation coûteuses à grande échelle, mais cela nous permet également de gagner du temps en matière d'inférence en n'ayant pas besoin d'instances GPU coûteuses avec une grande empreinte mémoire pour servir nos modèles. Tout comme les exemples de conversion de la combustion à l'électricité ci-dessus, nous devenons plus efficaces, mais très rapidement !
Nous sommes ravis de constater une évolution vers un fonctionnement plus efficace de la part de l'industrie et de la communauté des chercheurs. L'un de ces exemples inclut celui de Meta Lama publier lequel mis en valeur leur modèle de paramètres 13B surpasse GPT-3 (175B) sur la plupart des repères en s'entraînant sur un plus grand nombre de données sur un modèle plus petit d'un ordre de grandeur. Par conséquent, Meta research s'est une fois de plus surpassé avec LIMA (Less Is More For Alignment), qui a misé sur l'utilisation de 1 000 instructions « diverses » comme méthode intelligente de pré-entraînement pour obtenir des résultats de haute qualité. C'est vraiment remarquable et impératif pour réduire notre demande de calcul en IA, qui continue de monter en flèche de façon exponentielle et peut avoir des effets néfastes sur notre planète en raison de l'empreinte carbone de l'IA. Pour mettre les choses en perspective, une étude du MIT a démontré que les petits modèles de transformateurs avec seulement 65 millions de paramètres peuvent consommer jusqu'à 27 kWh et 26 livres de CO2e pour l'entraînement. Ce nombre peut augmenter considérablement si l'on considère de grands modèles tels que le GPT3, créant jusqu'à ~502 tonnes en émissions d'équivalent carbone rien qu'en 2022. En outre, bien que l'inférence nécessite moins de calculs que l'entraînement une fois qu'un modèle est publié, ses émissions commencent à monter en flèche de 10 à 100 fois au cours de sa durée de vie par rapport à l'entraînement lorsqu'il s'agit de tirer parti de l'inférence pour servir.
Nous ne sommes qu'à la pointe de l'iceberg en ce qui concerne les vastes possibilités de l'IA. Cependant, pour en faire plus dans un cadre plus restreint et compte tenu de la taille et du budget des clusters, il est impératif de prendre en compte l'efficacité de nos opérations. Nous devons réduire la consommation d'essence d'Hemi et utiliser des modèles plus petits et plus efficaces. Cela permettra d'améliorer les opérations, de réduire les coûts et de réduire de manière significative l'empreinte carbone de l'IA.



