En NinjaTech AI, superamos constantemente los límites de lo que es posible con los agentes de IA autónomos. SuperNinja, nuestra plataforma avanzada de agentes generales, implementa una computadora en la nube (VM) dedicada a cada tarea, lo que permite un ciclo completo de investigación, creación e implementación, para códigos complejos, paneles en vivo, sitios web y mucho más. Nuestro andamiaje está diseñado específicamente para aprovechar las funciones de búsqueda, codificación y razonamiento con herramientas a largo plazo, capacidades que implican la recuperación de información en varios pasos, lo que denominamos investigación profunda.

Hoy, estamos encantados de compartir nuestro análisis exhaustivo del modelo Sonnet 4.5 recientemente lanzado por Anthropic como la inteligencia central que impulsa a SuperNinja. Tras realizar rigurosas pruebas con nuestros análisis de referencia internos y con clientes reales, podemos decir con confianza: el Sonnet 4.5 es una bestia magnífica que representa un cambio importante para el rendimiento de los agentes autónomos.

Hallazgos clave de un vistazo

  • Tasa de finalización un 12,5% más alta en nuestras pruebas internas en comparación con Sonnet 4.0
  • Finalización de tareas un 20% más rápida debido a un menor número de errores y a un mejor razonamiento
  • Ahorro de costes del 18,2% mediante un uso más eficiente de los tokens
  • Salidas de calidad visiblemente más alta con un mejor seguimiento de las instrucciones
  • El modelo con mejor rendimiento que hemos probado hasta la fecha en nuestros puntos de referencia

Por qué esto es importante para los usuarios de SuperNinja

La arquitectura única de SuperNinja exige un rendimiento excepcional de su modelo de lenguaje subyacente. A diferencia de los chatbots tradicionales que gestionan consultas sencillas, SuperNinja aborda flujos de trabajo complejos de varias etapas que pueden implicar docenas o incluso cientos de decisiones secuenciales. Cada tarea requiere que el modelo planifique estratégicamente, ejecute con precisión, verifique los resultados y se adapte dinámicamente cuando surjan desafíos.

Las mejoras que estamos viendo con Sonnet 4.5 se traducen directamente en beneficios tangibles para nuestros usuarios. Los tiempos de finalización más rápidos significan que obtendrá los resultados antes. Las tasas de finalización más altas significan menos tareas fallidas y menos frustración. Los resultados de mejor calidad se traducen en productos más pulidos y listos para la producción. Además, la reducción del uso de los tokens se traduce en menores costos sin sacrificar la capacidad.

Visual of parallel tasks being completed by SuperNinja

Pruebas comparativas

Fase 1: Prueba de humo GAIA

Comenzamos nuestro proceso de evaluación de modelos con el punto de referencia GAIA, una prueba desafiante de razonamiento en varios pasos y uso de herramientas diseñada para medir las capacidades de los agentes en el mundo real. En este punto de referencia, el Sonnet 4.5 logró una mejora de precisión de aproximadamente un 5% en comparación con el Sonnet 3.7 y una mejora de alrededor del 7% en comparación con el Sonnet 4.0. Esto lo convierte en el modelo con mejor rendimiento que hemos probado hasta la fecha en GAIA.

Fase 2: Internal Benchmark Suite

Tras superar la prueba de humo de GAIA, pasamos a nuestro punto de referencia interno patentado: nuestro análisis reveló que AgencyBench [1,2] representa fielmente la distribución de las consultas reales de los clientes que observamos en la producción. Aprovechando esta alineación, desarrollamos nuestro conjunto de pruebas interno siguiendo la estructura y distribución de AgencyBench, ampliándolo para incluir escenarios adicionales y definiendo múltiples rúbricas de evaluación para captar dimensiones de rendimiento matizadas. La siguiente tabla muestra la distribución del dominio y las categorías del conjunto de datos:

El Sonnet 4.5 demostró una tasa de finalización un 12,5% más alta en comparación con el modelo anterior de última generación (Sonnet 4.0), con resultados que eran consistentemente más atractivos visualmente y estaban mejor alineados con la intención del usuario.

Las mejoras de rendimiento variaron considerablemente según el tipo de tarea. En las tareas de investigación profunda (flujos de trabajo complejos que requieren una recopilación y síntesis exhaustivas de la información), el Sonnet 4.5 logró una mejora de precisión de aproximadamente un 10% en comparación con el Sonnet 4.0. Los beneficios fueron aún más notables en los escenarios con agentes de codificación, donde la precisión aumentó del 80 al 96%, lo que representa una mejora de 16 puntos porcentuales.

Más allá de la precisión, el Sonnet 4.5 demostró una eficiencia superior. En el 81% de los casos de prueba, el modelo requería menos pasos o los mismos pasos para completar las tareas, lo que indica enfoques de resolución de problemas más directos y una menor sobrecarga computacional.

Try SuperNinja

Where General AI meets real world productivity

Rendimiento en el mundo real: el desafío del analizador de acciones

Para demostrar el impacto práctico de estas mejoras, realizamos una prueba exhaustiva en el mundo real utilizando un indicador idéntico en varios modelos de IA líderes. La tarea era compleja y representativa de los tipos de desafíos a los que se enfrentan los usuarios de SuperNinja a diario:

«Cree un analizador bursátil moderno y profesional basado en la web para Mag7 con gráficos con previsiones. Deme sugerencias con diferentes factores de riesgo sobre cómo asignar 1 millón de dólares para duplicarlos en los próximos 6 meses a través de Mag7 y expóngame las razones para ello. Resuma las principales noticias más recientes sobre cada empresa y asegúrese de que todos los enlaces externos funcionan correctamente. Piense y añada funciones útiles para aprender y analizar mejor la aplicación web. Cree, pruebe y, a continuación, implemente un enlace permanente para ella».

Resultados comparativos

Nota: Todos los modelos se probaron con indicaciones idénticas de cero disparos (sin ejemplos ni ajustes). A continuación se proporcionan enlaces para ver los resultados reales de la implementación.

Model Steps required Quality Key observations View result
Sonnet 4.5 57 steps Excellent Fast, modern, instantly usable. Highest quality information retrieval 🔗 View
Sonnet 4.0 67 steps Good Modern results, but site is buggy and charts crash the browser 🔗 View
Sonnet 3.7 67 steps Fair Slow, somewhat outdated website, charts crash the browser 🔗 View
Kimi-K2-0905 (open-source) 126 steps Good Very usable with rich graphs and deep information retrieval 🔗 View
GPT-5 500 steps Poor Results were not usable despite extensive processing 🔗 View
GLM 4.5 (open source) 742 steps Fair Usable, some empty charts, but rich with deep information 🔗 View
Gemini 2.5 Pro 3,678 steps Poor Did not finish. Super expensive and not usable N/A

El poder de la llamada de herramientas en paralelo

Una de las funciones más interesantes de Sonnet 4.5 es su compatibilidad con la llamada de herramientas en paralelo, una función que estaba notablemente ausente en las versiones anteriores. Nuestro análisis muestra que aproximadamente el 20% de las tareas de SuperNinja pueden beneficiarse significativamente de esta capacidad. La llamada a herramientas en paralelo permite al modelo ejecutar varias operaciones independientes de forma simultánea en lugar de secuencialmente.

SupeNinja parallel tool calling using Sonnet 4.5

Eficiencia de costos: hacer más con menos

Además de las mejoras de rendimiento, el Sonnet 4.5 ofrece importantes ahorros de costos. Nuestro análisis muestra una reducción de aproximadamente un 15% en los costes totales al ejecutar las tareas de SuperNinja con el Sonnet 4.5 en comparación con los modelos anteriores. Estos ahorros provienen de múltiples fuentes: reducción del número de pasos, menores tasas de error y mejora de la eficiencia.

Preguntas frecuentes

Q1: ¿Cuáles son las principales mejoras de rendimiento del Anthropic Sonnet 4.5 con respecto a los modelos anteriores?

A: Anthropic Sonnet 4.5 logra tasas de finalización más altas, un razonamiento más rápido y preciso y una ejecución del flujo de trabajo más eficiente en comparación con Sonnet 4.0 y Sonnet 3.7, como se muestra en las pruebas comparativas de SuperNinja.

SEGUNDO TRIMESTRE: ¿Cómo mejora Sonnet 4.5 las capacidades de los agentes y el uso de herramientas para flujos de trabajo autónomos?

A: Sonnet 4.5 presenta llamadas de herramientas paralelas avanzadas y una gestión del contexto mejorada, lo que permite a los agentes ejecutar tareas de varios pasos y aprovechar varias herramientas simultáneamente, lo que se traduce en una mejor calidad de salida y confiabilidad en las tareas de investigación, codificación y automatización.

TERCER TRIMESTRE: ¿Qué pruebas comparativas demuestran las ventajas reales del Sonnet 4.5?

A: El análisis de SuperNinja destaca una tasa de finalización un 12,5% más alta y un manejo superior de los flujos de trabajo de investigación profunda en los puntos de referencia de GAIA y AgencyBench, con una cantidad significativamente menor de fallas y errores en las tareas en comparación con los modelos de la competencia.

CUARTO TRIMESTRE: ¿Cómo se compara el Sonnet 4.5 con otros modelos de IA líderes en cuanto a rendimiento práctico?

A: En las pruebas paralelas, el Sonnet 4.5 requirió menos pasos, proporcionó código y análisis de mayor calidad y resultó más rentable que modelos como el GPT-5, el Gemini 2.5 Pro y las alternativas de código abierto para tareas complejas, como los analizadores de stock y las aplicaciones web de agencia

Q5: ¿Qué características técnicas y tamaños de ventana contextual admite Sonnet 4.5 para casos de uso avanzados?

A: Sonnet 4.5 ofrece una administración inteligente de ventanas de contexto con hasta 1 000 000 de tokens beta, memoria de agente persistente en todas las sesiones, funcionamiento autónomo extendido y hasta 64 000 tokens de salida para escenarios complejos de programación y análisis de datos.

Referencias y lecturas adicionales

[1] AgencyBench: Evaluación comparativa de los sistemas de IA de las agencias - https://arxiv.org/abs/2509.17567

[2] Tabla de clasificación de AgencyBench - https://agencybench.opensii.ai/

[3] Punto de referencia GAIA - https://arxiv.org/abs/2311.12983

[4] Plataforma SuperNinja - https://super.myninja.ai/