SuperAgente da Ninja AI está estabelecendo uma nova referência para o que um sistema de IA pode alcançar. Combinando tecnologia de ponta otimização do nível de inferência com orquestração multimodelo e refinamento baseado em críticas, o SuperAgent está fornecendo resultados que superam até mesmo os modelos básicos mais populares, como GPT-4o, Gemini 1.5 Pro e Claude Sonnet 3.5.
A Ninja alcançou o SOTA no benchmark Arena-Hard, que discutiremos nesta postagem do blog, junto com seu desempenho em outros benchmarks.
O que é o SuperAgent?
Anteriormente, apresentou nosso SuperAgent, um poderoso sistema de IA projetado para gerar respostas melhores do que qualquer modelo isolado. O SuperAgent usa a otimização do nível de inferência, que envolve a combinação de respostas de vários modelos de IA. Isso significa que, em vez de confiar em uma única perspectiva, o SuperAgent utiliza uma mistura de modelos e, em seguida, refina a saída usando um modelo de crítica para fornecer respostas mais abrangentes, precisas e úteis. O resultado é um nível de qualidade superior às abordagens tradicionais de modelo único.
O SuperAgent é uma extensão natural de nosso recurso multimodelo e de nossa crença de que você deve ter alguma escolha em qual modelo usar. Com base na base que criamos para nossos assinantes Pro e Ultra, o SuperAgent leva as coisas ainda mais longe ao alinhar esses modelos de forma perfeita. Isso significa que, em vez de apenas escolher um modelo, o SuperAgent os reúne para oferecer as respostas mais abrangentes, diferenciadas e otimizadas possíveis.
Criamos três versões do SuperAgent para equilibrar velocidade, profundidade e custo.
SuperAgent Turbo
Para respostas ultrarrápidas. O Turbo oferece respostas instantâneas usando nossos modelos personalizados e ajustados internamente e está disponível para todos os assinantes.
SuperAgent Nexus
A versão mais robusta do SuperAgent, ela oferece respostas exaustivamente pesquisadas e abrangentes. Ele combina vários modelos emblemáticos de IA para obter insights de nível especializado e está disponível para assinantes Ultra e Business.
Superagente-R 2.0
Para problemas complexos que exigem raciocínio avançado. O SuperAgent-R é baseado no DeepSeek R1 destilado no Llama 70B e está disponível para assinantes Ultra e Business.

Por que testamos o SuperAgent em relação aos benchmarks do setor
Para avaliar o desempenho do SuperAgent, conduzimos testes de última geração em vários modelos fundamentais, como GPT-4, Gemini 1.5 Pro e Claude Sonnet 3.5. Testes de referência como esse são uma prática comum na ciência da computação e nos ajudam a avaliar como nossa abordagem de IA se compara à abordagem de modelo único.
Aqui estão os benchmarks que usamos:
Arena-Hard-Auto (Bate-papo)
Um benchmark projetado para testar habilidades conversacionais complexas, com foco na capacidade de lidar com cenários de diálogo intrincados que exigem compreensão diferenciada e consciência contextual.
MATEMÁTICA-500
Uma referência que visa avaliar o raciocínio matemático e as capacidades de resolução de problemas de uma IA, com foco específico em problemas complexos que envolvem matemática de alto nível.
Livecodebench (Codificação)
Um teste de codificação que mede a capacidade de uma IA de entender e gerar código. Esse benchmark avalia a capacidade do modelo de escrever código preciso em resposta a uma variedade de solicitações, incluindo desafios de programação básicos e intermediários.
Livecodebench Hard (Codificação)
Uma extensão do Livecodebench, com foco em tarefas avançadas de codificação que envolvem problemas complexos de resolução de problemas e desafios algorítmicos. Ele foi projetado para ultrapassar os limites das habilidades de codificação de uma IA e avaliar sua capacidade de gerenciar cenários de programação mais difíceis.
GPQA (Solução geral de problemas e resposta a perguntas)
Um benchmark que testa as habilidades de raciocínio geral de uma IA, exigindo que ela responda a perguntas envolvendo lógica complexa de várias etapas, recordação factual e inferência.
AIME2024 (Inferência avançada e avaliação matemática)
Uma referência focada em raciocínio avançado e avaliação matemática. Ele avalia a capacidade do modelo de lidar com problemas que exigem cálculos lógicos e numéricos.
Esses benchmarks representam uma forma abrangente e padrão do setor de avaliar vários aspectos do desempenho da IA, permitindo avaliar os recursos do SuperAgent em comparação com modelos independentes.
SuperAgent supera os modelos fundamentais no Arena-Hard
Como mencionamos, o SuperAgent apresentou resultados excepcionais em comparação com todos os modelos fundamentais em vários benchmarks. Vamos dar uma olhada mais de perto em Arena-Hard sem controle de estilo, um dos parâmetros de referência mais importantes para avaliar o quão bem um sistema de IA lida com tarefas comuns do dia a dia. Esse benchmark é essencial para entender o desempenho prático da IA, e o SuperAgent se destacou, demonstrando capacidades muito além das de outros modelos líderes.
Os resultados: o SuperAgent superou todos os outros modelos fundamentais, conforme medido por Arena - Difícil.
Arena - Difícil

Queremos destacar que o SuperAgent da Ninja superou o o1-mini e o o1-preview da OpenAI — dois modelos de raciocínio. Isso é muito empolgante, pois o1-mini e o1-preview não são apenas modelos de IA, são sistemas de raciocínio avançados que, em geral, não são comparados a modelos fundamentais como o Gemini 1.5 pro ou o Claude 3.5. O fato de o Ninja ter um desempenho melhor do que dois modelos de raciocínio prova que a abordagem SuperAgent — combinando os resultados de vários modelos usando um modelo crítico — pode produzir resultados superiores a um único sistema de IA.
O SuperAgent se destaca em outros benchmarks
Além do Arena-Hard, a versão Apex do SuperAgent da Ninja demonstrou um desempenho excepcional em matemática, codificação e solução geral de problemas. Esses resultados destacam a excelente capacidade do SuperAgent de resolver problemas complexos, mostrando lógica e precisão avançadas em comparação com outros modelos. Sua capacidade de gerar código preciso e funcional superou consistentemente outros modelos testados.
LiveCodeBench - Codificação

LiveCodeBench - Codificação - Difícil

AIME2024 - Raciocínio

GPQA - Raciocínio

Matemática - 500

Em todos os benchmarks, o SuperAgent mostrou um nível de desempenho que superou muitos modelos fundamentais conhecidos — às vezes superando os modelos de raciocínio mais avançados do mercado.
Considerações finais
Os resultados falam por si mesmos: o SuperAgent é um avanço na forma como pensamos sobre soluções baseadas em IA. Ao aproveitar vários modelos, um sistema crítico refinado e uma otimização avançada do nível de inferência, o SuperAgent fornece respostas mais profundas, precisas e relevantes às suas necessidades. Se você precisa de uma solução de codificação complexa, raciocínio avançado ou simplesmente o melhor suporte conversacional possível, o SuperAgent provou que pode superar as abordagens tradicionais de modelo único.
À medida que continuamos inovando, nosso compromisso continua o mesmo: oferecer o sistema de IA mais inteligente, eficiente e poderoso possível, porque respostas melhores significam uma experiência melhor para você.


.avif)
