El superagente de Ninja AI está estableciendo un nuevo punto de referencia para lo que puede lograr un sistema de IA. Combinando la vanguardia optimización del nivel de inferencia con orquestación multimodelo y refinamiento basado en la crítica, SuperAgent ofrece resultados que superan incluso a los modelos básicos más populares, como GPT-4o, Gemini 1.5 Pro y Claude Sonnet 3.5.

Ninja logró SOTA en el punto de referencia Arena-Hard, del que hablaremos en esta entrada del blog, junto con su desempeño en otros puntos de referencia.

¿Qué es SuperAgent?

Anteriormente presentó nuestro SuperAgent, un potente sistema de IA diseñado para generar mejores respuestas que cualquier modelo por sí solo. SuperAgent utiliza la optimización del nivel de inferencia, que implica combinar las respuestas de varios modelos de IA. Esto significa que, en lugar de basarse en una única perspectiva, SuperAgent utiliza una combinación de modelos y, a continuación, refina el resultado mediante un modelo de crítica para ofrecer respuestas más completas, precisas y útiles. El resultado es un nivel de calidad que supera los enfoques tradicionales de un solo modelo.

El SuperAgent es una extensión natural de nuestra función multimodelo y creemos que debes poder elegir el modelo que utilizas. Partiendo de la base que creamos para nuestros suscriptores de Pro y Ultra, SuperAgent lleva las cosas más allá al alinear estos modelos sin problemas. Esto significa que, en lugar de simplemente elegir un modelo, SuperAgent los reúne para ofrecer las respuestas más completas, matizadas y optimizadas posibles.

Creamos tres versiones del SuperAgent para equilibrar la velocidad, la profundidad y el costo.

SuperAgent Turbo

Para respuestas rápidas como un rayo. Turbo ofrece respuestas instantáneas utilizando nuestros modelos internos personalizados y está disponible para todos los suscriptores.

SuperAgent Nexus

La versión más sólida de SuperAgent, ofrece respuestas exhaustivas y minuciosamente investigadas. Combina varios modelos emblemáticos de IA para obtener información de nivel experto y está disponible para los suscriptores de Ultra y Business.

SuperAgent-R 2.0

Para problemas complejos que requieren un razonamiento avanzado. SuperAgent-R se basa en DeepSeek R1 destilado en Llama 70B y está disponible para los suscriptores de Ultra y Business.

Available versions of SuperAgent

Por qué probamos SuperAgent comparándolo con los puntos de referencia de la industria

Para evaluar el rendimiento del SuperAgent, realizamos pruebas de última generación con varios modelos fundamentales, como el GPT-4, el Gemini 1.5 Pro y el Claude Sonnet 3.5. Las pruebas comparativas de este tipo son una práctica habitual en informática y nos ayudan a evaluar cómo nuestro enfoque de la IA se compara con el enfoque de modelo único.

Estos son los puntos de referencia que utilizamos:

Arena-Hard-Auto (Charla)

Un punto de referencia diseñado para poner a prueba habilidades conversacionales complejas, centrándose en la capacidad de manejar escenarios de diálogo intrincados que requieren una comprensión matizada y una conciencia contextual.

MATEMÁTICA-500

Un punto de referencia destinado a evaluar las capacidades de razonamiento matemático y resolución de problemas de una IA, centrándose específicamente en problemas complejos que involucran matemáticas de nivel superior.

Livecodebench (codificación)

Una prueba de codificación que mide la capacidad de una IA para comprender y generar código. Este punto de referencia evalúa la capacidad del modelo para escribir código preciso en respuesta a una variedad de indicaciones, incluidos los desafíos de programación básicos e intermedios.

Livecodebench Hard (codificación)

Una extensión de Livecodebench, que se centra en tareas de codificación avanzadas que implican desafíos algorítmicos y de resolución de problemas complejos. Está diseñado para superar los límites de las habilidades de codificación de una IA y evaluar su capacidad para gestionar escenarios de programación más difíciles.

GPQA (resolución de problemas generales y respuesta a preguntas)

Un punto de referencia que pone a prueba las capacidades generales de razonamiento de una IA al exigirle que responda a preguntas relacionadas con la lógica compleja de varios pasos, el recuerdo de hechos y la inferencia.

AIME2024 (Inferencia avanzada y evaluación matemática)

Un punto de referencia centrado en el razonamiento avanzado y la evaluación matemática. Evalúa la capacidad del modelo para manejar problemas que requieren cálculos tanto lógicos como numéricos.

Estos puntos de referencia representan una forma integral y estándar del sector de evaluar varios aspectos del rendimiento de la IA, lo que nos permite evaluar las capacidades de SuperAgent en comparación con los modelos independientes.

SuperAgent supera a los modelos fundamentales en Arena-Hard

Como mencionamos, SuperAgent obtuvo resultados sobresalientes en comparación con todos los modelos fundamentales en varios puntos de referencia. Echemos un vistazo más de cerca a Arena-Hard sin control de estilo, uno de los puntos de referencia más importantes para evaluar qué tan bien un sistema de IA gestiona las tareas cotidianas comunes. Este punto de referencia es esencial para comprender el rendimiento práctico de la IA, y SuperAgent se destacó al demostrar capacidades que superan con creces las de otros modelos líderes.

Los resultados: SuperAgent superó a todos los demás modelos fundamentales, según lo medido por Arena-Hard.

Arena-Hard

SuperAgent Accuracy on Arena-Hard

 

Queremos destacar que el SuperAgent de Ninja superó a los modelos o1-mini y o1-preview de OpenAI, dos modelos de razonamiento. Esto es muy interesante, ya que los modelos o1-mini y o1-preview no son solo modelos de IA, sino sistemas de razonamiento avanzados que, por lo general, no se comparan con los modelos básicos como el Gemini 1.5 pro o el Claude 3.5. El hecho de que Ninja funcione mejor que dos modelos de razonamiento demuestra que el enfoque SuperAgent (que combina los resultados de varios modelos utilizando un modelo de crítica) puede producir resultados superiores a los de un solo sistema de IA.

SuperAgent sobresale en otros puntos de referencia

Más allá de Arena-Hard, la versión Apex de SuperAgent de Ninja demostró un rendimiento excepcional en matemáticas, codificación y resolución de problemas generales. Estos resultados destacan la extraordinaria capacidad de SuperAgent para abordar problemas complejos, y muestran una lógica y una precisión avanzadas en comparación con otros modelos. Su capacidad para generar código preciso y funcional superó constantemente a otros modelos probados.

LiveCodeBench - Codificación

SuperAgent Accuracy on LiveCodeBench - Coding

LiveCodeBench - Codificación - Difícil

SuperAgent Accuracy on LiveCodeBench - Coding - Hard

AIME2024 - Razonamiento

SuperAgent Accuracy on AIME2024 - Reasoning

GPQA - Razonamiento

SuperAgent accuracy on GPQA - Reasoning

Matemáticas - 500

SuperAgent Accuracy on Math - 500

En todos los puntos de referencia, SuperAgent mostró un nivel de rendimiento que superó a muchos modelos fundamentales conocidos y, a veces, superó a los modelos de razonamiento más avanzados del mercado.

Reflexiones finales

Los resultados hablan por sí solos: SuperAgent representa un gran avance en nuestra forma de pensar en las soluciones impulsadas por la inteligencia artificial. Al aprovechar varios modelos, un sistema de crítica refinado y una optimización avanzada de los niveles de inferencia, SuperAgent ofrece respuestas más profundas, precisas y relevantes para sus necesidades. Ya sea que necesite una solución de codificación compleja, un razonamiento avanzado o simplemente el mejor soporte conversacional posible, SuperAgent ha demostrado que puede superar a los enfoques tradicionales de un solo modelo.

A medida que continuamos innovando, nuestro compromiso sigue siendo el mismo: ofrecer el sistema de IA más inteligente, eficiente y potente posible, porque mejores respuestas significan una mejor experiencia para usted.