Education

Lorsqu'il s'agit de grands modèles linguistiques, moins c'est plus !

By The Ninja AI Team

June 12, 2023

4 min de lecture

Avec l'avènement de toute nouvelle technologie, la première tentative de l'humanité est généralement réalisée par la force brute. Au fur et à mesure que la technologie évolue, nous essayons d'optimiser et de proposer une solution plus élégante à cette avancée brutale. Grâce aux dernières avancées en matière d'intelligence artificielle (IA), en particulier le développement de grands modèles linguistiques (LLM), nous avons réalisé des progrès significatifs ces dernières années en démontrant des capacités impressionnantes. Mais ces avancées n'en sont encore qu'au stade de la force brute de cette évolution technologique. Nous avons assisté à l'explosion cambrienne de modèles similaires à des transformateurs, qui a donné naissance à de grands modèles pouvant atteindre des milliards de paramètres. Ceci est assez analogue à la transition du moteur à combustion vers le successeur électrique plus efficace. Cette transition a été observée dans les berlines et dans mon jouet de loisir préféré : les voitures de course. Cela a commencé dans les années 1960 avec la Pontiac GTO, la Shelby Cobra 427 ou la Dodge Charger R/T, mettant en valeur la puissance de Detroit avec un gros moteur à bloc, gourmand en essence, de 0 à 60 mi/h en 10 secondes. Des moteurs Street Hemi avec une consommation d'essence allant de 7 à 14 miles par gallon (MPG). Aujourd'hui, avec les dernières voitures électriques, comme celle de Rimac Nevera, vous pouvez atteindre 0 à 60 MPH en 1,74 seconde tout en atteignant 54 MPGe. La force brute initiale était une étape nécessaire pour catalyser l'efficacité qui a suivi.

Il est devenu évident que l'histoire doit se répéter avec les grands modèles de langage. Nous sommes sur le point de passer des tentatives brutales à des solutions plus élégantes pour aborder les modèles d'IA ; en particulier, nous abandonnons des modèles de langage plus grands et plus complexes (notre équivalent moderne des moteurs GTO, Cobra et Hemi) au profit de modèles plus petits et beaucoup plus efficaces. Pour être franc, la recherche d'une telle efficacité a été au cœur de mes préoccupations ces dernières années. En travaillant avec une incroyable équipe de collègues, j'ai eu la chance de travailler à l'intersection de l'IA et du calcul dans le cadre de rôles récents, en concevant des machines accélérées et en co-concevant l'infrastructure d'IA de Meta. Quand Babak Pahlavan et j'ai décidé de développer notre entreprise actuelle — IA NinjaTech — nous avons inscrit un élément fondamental de notre ADN technique dans la culture de l'entreprise : l'exécution et le fonctionnement efficaces de notre plateforme de renseignement dès le premier jour. NinjaTech est en train de créer un assistant exécutif basé sur l'IA pour rendre les professionnels plus productifs, en prenant en charge les tâches administratives telles que la planification, les dépenses et la réservation de voyages, qui prennent beaucoup de temps.

En étudiant des modèles autorégressifs et génératifs avec des modèles de langage dépassant des centaines de milliards de paramètres, il m'est apparu clairement qu'il devait exister un moyen plus efficace et plus simple d'accomplir ces tâches administratives. C'est une chose si vous essayez de répondre à des questions « quel est le sens de la vie » ou si vous demandez à votre modèle d'écrire le code python pour un producteur de musique automatisé. Pour de nombreuses tâches administratives, des modèles plus simples et moins complexes suffisent. Nous avons mis cela à l'épreuve en tirant parti d'un assortiment de tailles de modèles pour diverses tâches administratives, certaines étant si petites et efficaces qu'elles peuvent être exécutées sur le processeur ! Cela nous évite non seulement de nous ruiner avec des tâches de formation coûteuses à grande échelle, mais cela nous permet également de gagner du temps en matière d'inférence en n'ayant pas besoin d'instances GPU coûteuses avec une grande empreinte mémoire pour servir nos modèles. Tout comme les exemples de conversion de la combustion à l'électricité ci-dessus, nous devenons plus efficaces, mais très rapidement !

Nous sommes ravis de constater une évolution vers un fonctionnement plus efficace de la part de l'industrie et de la communauté des chercheurs. L'un de ces exemples inclut celui de Meta Lama publier lequel mis en valeur leur modèle de paramètres 13B surpasse GPT-3 (175B) sur la plupart des repères en s'entraînant sur un plus grand nombre de données sur un modèle plus petit d'un ordre de grandeur. Par conséquent, Meta research s'est une fois de plus surpassé avec LIMA (Less Is More For Alignment), qui a misé sur l'utilisation de 1 000 instructions « diverses » comme méthode intelligente de pré-entraînement pour obtenir des résultats de haute qualité. C'est vraiment remarquable et impératif pour réduire notre demande de calcul en IA, qui continue de monter en flèche de façon exponentielle et peut avoir des effets néfastes sur notre planète en raison de l'empreinte carbone de l'IA. Pour mettre les choses en perspective, une étude du MIT a démontré que les petits modèles de transformateurs avec seulement 65 millions de paramètres peuvent consommer jusqu'à 27 kWh et 26 livres de CO2e pour l'entraînement. Ce nombre peut augmenter considérablement si l'on considère de grands modèles tels que le GPT3, créant jusqu'à ~502 tonnes en émissions d'équivalent carbone rien qu'en 2022. En outre, bien que l'inférence nécessite moins de calculs que l'entraînement une fois qu'un modèle est publié, ses émissions commencent à monter en flèche de 10 à 100 fois au cours de sa durée de vie par rapport à l'entraînement lorsqu'il s'agit de tirer parti de l'inférence pour servir.

Nous ne sommes qu'à la pointe de l'iceberg en ce qui concerne les vastes possibilités de l'IA. Cependant, pour en faire plus dans un cadre plus restreint et compte tenu de la taille et du budget des clusters, il est impératif de prendre en compte l'efficacité de nos opérations. Nous devons réduire la consommation d'essence d'Hemi et utiliser des modèles plus petits et plus efficaces. Cela permettra d'améliorer les opérations, de réduire les coûts et de réduire de manière significative l'empreinte carbone de l'IA.

Partagez cette publication

Créez votre première application en quelques minutes

Décrivez la tâche. Ninja en fait une application qui s'exécute étape par étape pour vous. Aucune carte de crédit n'est requise.

Essayez gratuitement

Afficher les tarifs

Ninja's SuperNinja interface showcasing the chat and tasks

Articles de blog connexes

Afficher tout

MyNinja vient de suralimenter votre assistant IA avec SuperGPT

Chez NinjaTech AI, nous avons pour mission de rendre tout le monde plus productif en démocratisant l'accès aux meilleurs agents d'IA et aux meilleurs modèles de fondation du monde. Avec plus d'un million d'utilisateurs mensuels qui font déjà confiance à myninja.ai

DeepSeek V3 est désormais disponible dans Ninja AI

Nous sommes ravis d'annoncer un nouvel ajout intéressant à Ninja AI : Deep Seek V3 ! Compte tenu de l'engouement suscité par DeepSeek, nous voulions proposer ce nouveau modèle d'IA passionnant à nos utilisateurs dès que possible, hébergé localement aux États-Unis.