Com o advento de qualquer nova tecnologia, a primeira tentativa da humanidade normalmente é alcançada por meio da força bruta. À medida que a tecnologia evolui, tentamos otimizar e criar uma solução mais elegante para a descoberta bruta. Com os últimos avanços em Inteligência Artificial (IA) — em particular o desenvolvimento de modelos de linguagem grande (LLMs) — fizemos avanços significativos nos últimos anos, demonstrando capacidades impressionantes. Mas esses avanços ainda estão no estágio de força bruta dessa evolução tecnológica. Vimos a explosão cambriana de modelos semelhantes a transformadores, gerando grandes modelos que variam de até trilhões de parâmetros. Isso é bastante análogo à transição do motor de combustão para o sucessor elétrico mais eficiente. Essa transição foi observada nos sedãs e no meu brinquedo favorito: carros de corrida. Isso começou na década de 1960 com nomes como o Pontiac GTO, o Shelby Cobra 427 ou o Dodge Charger R/T, mostrando a força de Detroit com um motor de bloco grande, consumindo gasolina, 0 a 60 MPH em 10 segundos. Motores Hemi de rua com consumo de combustível variando de 7 a 14 milhas por galão (MPG). Hoje, com os carros elétricos mais recentes, como os da Rimac Nevera, você pode atingir de 0 a 60 MPH em 1,74 segundos enquanto atinge 54 MPGe. A força bruta inicial foi uma etapa necessária para catalisar a eficiência que se seguiu.

Ficou evidente para mim que a história precisa se repetir com modelos de linguagem grandes; estamos prestes a mudar de tentativas brutas para soluções mais elegantes para lidar com modelos de IA; em particular, nos afastando de modelos de linguagem maiores e mais complexos (nosso equivalente moderno dos mecanismos GTO, Cobra e Hemi) para modelos menores e muito mais eficientes. Para ser franco, impulsionar essa eficiência tem sido um dos meus principais focos nos últimos anos. Trabalhando com uma equipe incrível de colegas, tive a sorte de trabalhar na interseção entre inteligência artificial e computação em funções recentes, projetando máquinas aceleradas e coprojetando a infraestrutura de inteligência artificial da Meta. Quando Babak Pahlavan e me propus a construir nosso empreendimento atual — Inteligência Artificial NinjaTech — inscrevemos um elemento fundamental de nosso DNA técnico na cultura da empresa — a execução e operação eficientes de nossa plataforma de inteligência desde o primeiro dia. A NinjaTech está criando um assistente executivo de IA para tornar os profissionais mais produtivos, assumindo tarefas administrativas como agendamento, despesas e reservas de viagens, que consomem um tempo considerável.

Ao estudar modelos autorregressivos e generativos com modelos de linguagem que excedem centenas de bilhões de parâmetros, ficou claro para mim que é preciso haver uma maneira mais eficiente e simples de realizar essas tarefas administrativas. Uma coisa é se você está tentando responder perguntas sobre “qual é o significado da vida” ou pedir ao seu modelo que escreva o código python para um produtor musical automatizado. Para muitas tarefas administrativas, modelos mais simples e menos complexos são suficientes. Testamos isso aproveitando uma variedade de tamanhos de modelos para várias tarefas administrativas, algumas tão pequenas e eficientes que podem ser executadas na CPU! Isso não apenas nos impede de gastar muito com trabalhos de treinamento de alto custo em grande escala, mas também economiza tempo de inferência ao não exigir instâncias de GPU caras com grande consumo de memória para servir nossos modelos. Assim como os exemplos de combustão elétrica acima, estamos nos tornando mais eficientes, mas muito rapidamente!

Estamos entusiasmados em ver uma mudança em direção a uma operação mais eficiente por parte do setor e da comunidade de pesquisa. Um desses exemplos inclui o Meta's Lhama libera qual exibida seu modelo de parâmetros 13B supera o GPT-3 (175B) na maioria dos benchmarks ao treinar com mais dados em um modelo menor de ordem de magnitude. Consequentemente, a meta-pesquisa se superou novamente com LIMA (Less Is More For Alignment), que apostou no aproveitamento de 1000 instruções “diversas” como um método inteligente de pré-treinamento para obter resultados de alta qualidade. Isso é realmente notável e imperativo para reduzir nossa demanda computacional por inteligência artificial, que continua aumentando exponencialmente e pode ter efeitos prejudiciais em nosso planeta devido à pegada de carbono da inteligência artificial. Para colocar as coisas em perspectiva, um estudo do MIT demonstraram que modelos de transformadores pequenos com apenas 65 milhões de parâmetros podem consumir até 27 kWh e 26 libras de CO2e para treinar. Esse número pode crescer dramaticamente quando se olha para modelos grandes, como o GPT3, criando até ~502 toneladas em emissões de carbono equivalente somente em 2022. Além disso, embora a inferência exija menos computação do que o treinamento quando um modelo é publicado, suas emissões começam a disparar de 10 a 100 vezes ao longo de sua vida útil em comparação com o treinamento quando se utiliza a inferência para servir.

Estamos apenas na ponta do iceberg com as vastas possibilidades da IA; no entanto, para fazer mais em um espaço mais restrito e considerando o tamanho e o orçamento do cluster, é imperativo considerar a eficiência de nossas operações. Precisamos reduzir o consumo de combustível Hemi e empregar modelos menores mais eficientes — isso melhorará as operações, reduzirá os custos e reduzirá significativamente a pegada de carbono da IA.