Con la llegada de cualquier nueva tecnología, el primer intento de la humanidad normalmente se logra mediante la fuerza bruta. A medida que la tecnología evoluciona, intentamos optimizarla y encontrar una solución más elegante para este avance brutal. Con los últimos avances en inteligencia artificial (IA), en particular el desarrollo de modelos lingüísticos extensos (LLM), hemos logrado avances significativos en los últimos años demostrando capacidades impresionantes. Sin embargo, estos avances aún se encuentran en la fase de fuerza bruta de esta evolución tecnológica. Hemos sido testigos de la explosión cámbrica de modelos similares a los transformadores, que ha dado lugar a modelos de gran tamaño que abarcan hasta billones de parámetros. Esto es bastante análogo a la transición del motor de combustión al sucesor eléctrico, más eficiente. Esta transición se observó en los sedanes y en mi juguete favorito: los coches de carreras. Esto comenzó en la década de 1960 con modelos como el Pontiac GTO, el Shelby Cobra 427 o el Dodge Charger R/T, que mostraban la potencia de Detroit con un motor de bloque grande, que consumía gasolina de 0 a 60 millas por hora en 10 segundos, motores Hemi de calle con un kilometraje de gasolina que oscilaba entre 7 y 14 millas por galón (MPG). Hoy en día, con los coches eléctricos más modernos, como el de Rimac Nevera, puede alcanzar de 0 a 60 MPH en 1,74 segundos mientras alcanza 54 MPGe. La fuerza bruta inicial fue un paso necesario para catalizar la eficiencia que le siguió.

Me he dado cuenta de que la historia tiene que repetirse con los modelos lingüísticos de gran tamaño; estamos a punto de pasar de los intentos brutos a soluciones más elegantes para abordar los modelos de IA; en particular, estamos pasando de los modelos lingüísticos más grandes y complejos (nuestro equivalente moderno del motor GTO, Cobra y Hemi) a modelos más pequeños y mucho más eficientes. Para ser sincero, impulsar esa eficiencia ha sido uno de mis principales objetivos durante los últimos años. Al trabajar con un increíble equipo de colegas, he tenido la suerte de trabajar en la intersección de la inteligencia artificial y la computación en puestos recientes, diseñando máquinas aceleradas y programando la infraestructura de inteligencia artificial de Meta. ¿Cuándo Babak Pahlavan y me propuse construir nuestra empresa actual: IA de NinjaTech — incorporamos un elemento fundamental de nuestro ADN técnico en la cultura de la empresa: la ejecución y el funcionamiento eficientes de nuestra plataforma de inteligencia desde el primer día. NinjaTech está creando un asistente ejecutivo con inteligencia artificial para aumentar la productividad de los profesionales, asumiendo tareas administrativas como la programación, los gastos y la reserva de viajes, que consumen mucho tiempo.

Mientras estudiaba modelos autorregresivos y generativos con modelos lingüísticos que superaban los cientos de miles de millones de parámetros, me quedó claro que es necesario que haya una forma más eficiente y sencilla de realizar estas tareas administrativas. Una cosa es que intentes responder a las preguntas sobre «cuál es el sentido de la vida» o si le pides a tu modelo que escriba el código en Python para un productor musical automatizado. Para muchas tareas administrativas, bastan modelos más simples y menos complejos. Lo hemos puesto a prueba aprovechando una variedad de tamaños de modelo para diversas tareas administrativas, ¡algunas tan pequeñas y eficientes que pueden ejecutarse en la CPU! Esto no solo nos impide arruinarnos con trabajos de formación a gran escala y costosos, sino que también nos ahorra tiempo de inferencia al no necesitar costosas instancias de GPU con un gran consumo de memoria para nuestros modelos. Al igual que en los ejemplos anteriores sobre la conversión de combustible a electricidad, somos cada vez más eficientes, ¡pero muy rápidamente!

Nos entusiasma ver un cambio hacia una operación más eficiente por parte de la industria y la comunidad investigadora. Un ejemplo de ello incluye Meta Llama liberar cuál mostrados su modelo de parámetros de 13B supera al GPT-3 (175B) en la mayoría de los puntos de referencia al entrenar con más datos en un modelo más pequeño del orden de magnitud. En consecuencia, Meta Research volvió a superarse a sí misma con LIMA (Menos es más para la alineación), que apostó por aprovechar 1000 indicaciones «diversas» como un método inteligente de preentrenamiento para lograr resultados de alta calidad. Esto es realmente notable e imprescindible para frenar nuestra demanda informática de IA, que sigue aumentando exponencialmente y puede tener efectos perjudiciales en nuestro planeta debido a la huella de carbono de la IA. Para poner las cosas en perspectiva, un estudio del MIT demostró que los modelos de transformadores pequeños con solo 65 millones de parámetros pueden consumir hasta 27 kWh y 26 libras de CO2e para entrenar. Esta cifra puede aumentar drásticamente si se utilizan modelos grandes como el GPT3, lo que puede generar hasta ~502 toneladas en emisiones equivalentes de carbono solo en 2022. Además, si bien la inferencia requiere menos computación que el entrenamiento una vez publicado un modelo, sus emisiones comienzan a multiplicarse entre 10 y 100 veces a lo largo de su vida útil, en comparación con el entrenamiento cuando se aprovecha la inferencia para servir.

Solo estamos en la punta del iceberg con las enormes posibilidades de la IA; sin embargo, para hacer más en un espacio más reducido y teniendo en cuenta el tamaño y el presupuesto de los clústeres, es imperativo tener en cuenta la eficiencia de nuestras operaciones. Tenemos que reducir el consumo de gasolina de Hemi y emplear modelos más pequeños y eficientes; esto mejorará las operaciones, reducirá los costes y reducirá significativamente la huella de carbono de la IA.