El superagente de Ninja AI está estableciendo un nuevo punto de referencia para lo que puede lograr un sistema de IA. Combinando la vanguardia optimización del nivel de inferencia con orquestación multimodelo y refinamiento basado en la crítica, SuperAgent ofrece resultados que superan incluso a los modelos básicos más populares, como GPT-4o, Gemini 1.5 Pro y Claude Sonnet 3.5.
Ninja logró SOTA en el punto de referencia Arena-Hard, del que hablaremos en esta entrada del blog, junto con su desempeño en otros puntos de referencia.
¿Qué es SuperAgent?
Anteriormente presentó nuestro SuperAgent, un potente sistema de IA diseñado para generar mejores respuestas que cualquier modelo por sí solo. SuperAgent utiliza la optimización del nivel de inferencia, que implica combinar las respuestas de varios modelos de IA. Esto significa que, en lugar de basarse en una única perspectiva, SuperAgent utiliza una combinación de modelos y, a continuación, refina el resultado mediante un modelo de crítica para ofrecer respuestas más completas, precisas y útiles. El resultado es un nivel de calidad que supera los enfoques tradicionales de un solo modelo.
El SuperAgent es una extensión natural de nuestra función multimodelo y creemos que debes poder elegir el modelo que utilizas. Partiendo de la base que creamos para nuestros suscriptores de Pro y Ultra, SuperAgent lleva las cosas más allá al alinear estos modelos sin problemas. Esto significa que, en lugar de simplemente elegir un modelo, SuperAgent los reúne para ofrecer las respuestas más completas, matizadas y optimizadas posibles.
Creamos tres versiones del SuperAgent para equilibrar la velocidad, la profundidad y el costo.
SuperAgent Turbo
Para respuestas rápidas como un rayo. Turbo ofrece respuestas instantáneas utilizando nuestros modelos internos personalizados y está disponible para todos los suscriptores.
SuperAgent Nexus
La versión más sólida de SuperAgent, ofrece respuestas exhaustivas y minuciosamente investigadas. Combina varios modelos emblemáticos de IA para obtener información de nivel experto y está disponible para los suscriptores de Ultra y Business.
SuperAgent-R 2.0
Para problemas complejos que requieren un razonamiento avanzado. SuperAgent-R se basa en DeepSeek R1 destilado en Llama 70B y está disponible para los suscriptores de Ultra y Business.

Por qué probamos SuperAgent comparándolo con los puntos de referencia de la industria
Para evaluar el rendimiento del SuperAgent, realizamos pruebas de última generación con varios modelos fundamentales, como el GPT-4, el Gemini 1.5 Pro y el Claude Sonnet 3.5. Las pruebas comparativas de este tipo son una práctica habitual en informática y nos ayudan a evaluar cómo nuestro enfoque de la IA se compara con el enfoque de modelo único.
Estos son los puntos de referencia que utilizamos:
Arena-Hard-Auto (Charla)
Un punto de referencia diseñado para poner a prueba habilidades conversacionales complejas, centrándose en la capacidad de manejar escenarios de diálogo intrincados que requieren una comprensión matizada y una conciencia contextual.
MATEMÁTICA-500
Un punto de referencia destinado a evaluar las capacidades de razonamiento matemático y resolución de problemas de una IA, centrándose específicamente en problemas complejos que involucran matemáticas de nivel superior.
Livecodebench (codificación)
Una prueba de codificación que mide la capacidad de una IA para comprender y generar código. Este punto de referencia evalúa la capacidad del modelo para escribir código preciso en respuesta a una variedad de indicaciones, incluidos los desafíos de programación básicos e intermedios.
Livecodebench Hard (codificación)
Una extensión de Livecodebench, que se centra en tareas de codificación avanzadas que implican desafíos algorítmicos y de resolución de problemas complejos. Está diseñado para superar los límites de las habilidades de codificación de una IA y evaluar su capacidad para gestionar escenarios de programación más difíciles.
GPQA (resolución de problemas generales y respuesta a preguntas)
Un punto de referencia que pone a prueba las capacidades generales de razonamiento de una IA al exigirle que responda a preguntas relacionadas con la lógica compleja de varios pasos, el recuerdo de hechos y la inferencia.
AIME2024 (Inferencia avanzada y evaluación matemática)
Un punto de referencia centrado en el razonamiento avanzado y la evaluación matemática. Evalúa la capacidad del modelo para manejar problemas que requieren cálculos tanto lógicos como numéricos.
Estos puntos de referencia representan una forma integral y estándar del sector de evaluar varios aspectos del rendimiento de la IA, lo que nos permite evaluar las capacidades de SuperAgent en comparación con los modelos independientes.
SuperAgent supera a los modelos fundamentales en Arena-Hard
Como mencionamos, SuperAgent obtuvo resultados sobresalientes en comparación con todos los modelos fundamentales en varios puntos de referencia. Echemos un vistazo más de cerca a Arena-Hard sin control de estilo, uno de los puntos de referencia más importantes para evaluar qué tan bien un sistema de IA gestiona las tareas cotidianas comunes. Este punto de referencia es esencial para comprender el rendimiento práctico de la IA, y SuperAgent se destacó al demostrar capacidades que superan con creces las de otros modelos líderes.
Los resultados: SuperAgent superó a todos los demás modelos fundamentales, según lo medido por Arena-Hard.
Arena-Hard

Queremos destacar que el SuperAgent de Ninja superó a los modelos o1-mini y o1-preview de OpenAI, dos modelos de razonamiento. Esto es muy interesante, ya que los modelos o1-mini y o1-preview no son solo modelos de IA, sino sistemas de razonamiento avanzados que, por lo general, no se comparan con los modelos básicos como el Gemini 1.5 pro o el Claude 3.5. El hecho de que Ninja funcione mejor que dos modelos de razonamiento demuestra que el enfoque SuperAgent (que combina los resultados de varios modelos utilizando un modelo de crítica) puede producir resultados superiores a los de un solo sistema de IA.
SuperAgent sobresale en otros puntos de referencia
Más allá de Arena-Hard, la versión Apex de SuperAgent de Ninja demostró un rendimiento excepcional en matemáticas, codificación y resolución de problemas generales. Estos resultados destacan la extraordinaria capacidad de SuperAgent para abordar problemas complejos, y muestran una lógica y una precisión avanzadas en comparación con otros modelos. Su capacidad para generar código preciso y funcional superó constantemente a otros modelos probados.
LiveCodeBench - Codificación

LiveCodeBench - Codificación - Difícil

AIME2024 - Razonamiento

GPQA - Razonamiento

Matemáticas - 500

En todos los puntos de referencia, SuperAgent mostró un nivel de rendimiento que superó a muchos modelos fundamentales conocidos y, a veces, superó a los modelos de razonamiento más avanzados del mercado.
Reflexiones finales
Los resultados hablan por sí solos: SuperAgent representa un gran avance en nuestra forma de pensar en las soluciones impulsadas por la inteligencia artificial. Al aprovechar varios modelos, un sistema de crítica refinado y una optimización avanzada de los niveles de inferencia, SuperAgent ofrece respuestas más profundas, precisas y relevantes para sus necesidades. Ya sea que necesite una solución de codificación compleja, un razonamiento avanzado o simplemente el mejor soporte conversacional posible, SuperAgent ha demostrado que puede superar a los enfoques tradicionales de un solo modelo.
A medida que continuamos innovando, nuestro compromiso sigue siendo el mismo: ofrecer el sistema de IA más inteligente, eficiente y potente posible, porque mejores respuestas significan una mejor experiencia para usted.



.avif)