Technical

O SuperAgent da Ninja AI define um novo padrão de desempenho de IA

By The Ninja AI Team

December 3, 2024

5 min de leitura

Expressão artística de aprimoramentos de desempenho

SuperAgente da Ninja AI está estabelecendo uma nova referência para o que um sistema de IA pode alcançar. Combinando tecnologia de ponta otimização do nível de inferência com orquestração multimodelo e refinamento baseado em críticas, o SuperAgent está fornecendo resultados que superam até mesmo os modelos básicos mais populares, como GPT-4o, Gemini 1.5 Pro e Claude Sonnet 3.5.

A Ninja alcançou o SOTA no benchmark Arena-Hard, que discutiremos nesta postagem do blog, junto com seu desempenho em outros benchmarks.

‍

O que é o SuperAgent?

Anteriormente, apresentou nosso SuperAgent, um poderoso sistema de IA projetado para gerar respostas melhores do que qualquer modelo isolado. O SuperAgent usa a otimização do nível de inferência, que envolve a combinação de respostas de vários modelos de IA. Isso significa que, em vez de confiar em uma única perspectiva, o SuperAgent utiliza uma mistura de modelos e, em seguida, refina a saída usando um modelo de crítica para fornecer respostas mais abrangentes, precisas e úteis. O resultado é um nível de qualidade superior às abordagens tradicionais de modelo único.

O SuperAgent é uma extensão natural de nosso recurso multimodelo e de nossa crença de que você deve ter alguma escolha em qual modelo usar. Com base na base que criamos para nossos assinantes Pro e Ultra, o SuperAgent leva as coisas ainda mais longe ao alinhar esses modelos de forma perfeita. Isso significa que, em vez de apenas escolher um modelo, o SuperAgent os reúne para oferecer as respostas mais abrangentes, diferenciadas e otimizadas possíveis.

Criamos três versões do SuperAgent para equilibrar velocidade, profundidade e custo.

SuperAgent Turbo

Para respostas ultrarrápidas. O Turbo oferece respostas instantâneas usando nossos modelos personalizados e ajustados internamente e está disponível para todos os assinantes.

SuperAgent Nexus

‍A versão mais robusta do SuperAgent, ela oferece respostas exaustivamente pesquisadas e abrangentes. Ele combina vários modelos emblemáticos de IA para obter insights de nível especializado e está disponível para assinantes Ultra e Business.

Superagente-R 2.0

‍Para problemas complexos que exigem raciocínio avançado. O SuperAgent-R é baseado no DeepSeek R1 destilado no Llama 70B e está disponível para assinantes Ultra e Business.

‍

Por que testamos o SuperAgent em relação aos benchmarks do setor

Para avaliar o desempenho do SuperAgent, conduzimos testes de última geração em vários modelos fundamentais, como GPT-4, Gemini 1.5 Pro e Claude Sonnet 3.5. Testes de referência como esse são uma prática comum na ciência da computação e nos ajudam a avaliar como nossa abordagem de IA se compara à abordagem de modelo único.

Aqui estão os benchmarks que usamos:

Arena-Hard-Auto (Bate-papo)

‍Um benchmark projetado para testar habilidades conversacionais complexas, com foco na capacidade de lidar com cenários de diálogo intrincados que exigem compreensão diferenciada e consciência contextual.

MATEMÁTICA-500

‍Uma referência que visa avaliar o raciocínio matemático e as capacidades de resolução de problemas de uma IA, com foco específico em problemas complexos que envolvem matemática de alto nível.

Livecodebench (Codificação)

‍Um teste de codificação que mede a capacidade de uma IA de entender e gerar código. Esse benchmark avalia a capacidade do modelo de escrever código preciso em resposta a uma variedade de solicitações, incluindo desafios de programação básicos e intermediários.

Livecodebench Hard (Codificação)

‍Uma extensão do Livecodebench, com foco em tarefas avançadas de codificação que envolvem problemas complexos de resolução de problemas e desafios algorítmicos. Ele foi projetado para ultrapassar os limites das habilidades de codificação de uma IA e avaliar sua capacidade de gerenciar cenários de programação mais difíceis.

GPQA (Solução geral de problemas e resposta a perguntas)

Um benchmark que testa as habilidades de raciocínio geral de uma IA, exigindo que ela responda a perguntas envolvendo lógica complexa de várias etapas, recordação factual e inferência.

AIME2024 (Inferência avançada e avaliação matemática)

‍Uma referência focada em raciocínio avançado e avaliação matemática. Ele avalia a capacidade do modelo de lidar com problemas que exigem cálculos lógicos e numéricos.

Esses benchmarks representam uma forma abrangente e padrão do setor de avaliar vários aspectos do desempenho da IA, permitindo avaliar os recursos do SuperAgent em comparação com modelos independentes.

‍

SuperAgent supera os modelos fundamentais no Arena-Hard

Como mencionamos, o SuperAgent apresentou resultados excepcionais em comparação com todos os modelos fundamentais em vários benchmarks. Vamos dar uma olhada mais de perto em Arena-Hard sem controle de estilo, um dos parâmetros de referência mais importantes para avaliar o quão bem um sistema de IA lida com tarefas comuns do dia a dia. Esse benchmark é essencial para entender o desempenho prático da IA, e o SuperAgent se destacou, demonstrando capacidades muito além das de outros modelos líderes.

Os resultados: o SuperAgent superou todos os outros modelos fundamentais, conforme medido por Arena - Difícil.

Arena - Difícil

Queremos destacar que o SuperAgent da Ninja superou o o1-mini e o o1-preview da OpenAI — dois modelos de raciocínio. Isso é muito empolgante, pois o1-mini e o1-preview não são apenas modelos de IA, são sistemas de raciocínio avançados que, em geral, não são comparados a modelos fundamentais como o Gemini 1.5 pro ou o Claude 3.5. O fato de o Ninja ter um desempenho melhor do que dois modelos de raciocínio prova que a abordagem SuperAgent — combinando os resultados de vários modelos usando um modelo crítico — pode produzir resultados superiores a um único sistema de IA.

‍

O SuperAgent se destaca em outros benchmarks

Além do Arena-Hard, a versão Apex do SuperAgent da Ninja demonstrou um desempenho excepcional em matemática, codificação e solução geral de problemas. Esses resultados destacam a excelente capacidade do SuperAgent de resolver problemas complexos, mostrando lógica e precisão avançadas em comparação com outros modelos. Sua capacidade de gerar código preciso e funcional superou consistentemente outros modelos testados.

LiveCodeBench - Codificação

SuperAgent Accuracy on LiveCodeBench - Coding

‍

LiveCodeBench - Codificação - Difícil

SuperAgent Accuracy on LiveCodeBench - Coding - Hard

‍

AIME2024 - Raciocínio

SuperAgent Accuracy on AIME2024 - Reasoning

‍

GPQA - Raciocínio

‍

Matemática - 500

‍

Em todos os benchmarks, o SuperAgent mostrou um nível de desempenho que superou muitos modelos fundamentais conhecidos — às vezes superando os modelos de raciocínio mais avançados do mercado.

Considerações finais

Os resultados falam por si mesmos: o SuperAgent é um avanço na forma como pensamos sobre soluções baseadas em IA. Ao aproveitar vários modelos, um sistema crítico refinado e uma otimização avançada do nível de inferência, o SuperAgent fornece respostas mais profundas, precisas e relevantes às suas necessidades. Se você precisa de uma solução de codificação complexa, raciocínio avançado ou simplesmente o melhor suporte conversacional possível, o SuperAgent provou que pode superar as abordagens tradicionais de modelo único.

À medida que continuamos inovando, nosso compromisso continua o mesmo: oferecer o sistema de IA mais inteligente, eficiente e poderoso possível, porque respostas melhores significam uma experiência melhor para você.

Compartilhe esta postagem

Crie seu primeiro aplicativo em minutos

Descreva a tarefa. O Ninja o transforma em um aplicativo que é executado passo a passo para você. Não é necessário cartão de crédito.

Experimente Grátis

Exibir preços

Ninja's SuperNinja interface showcasing the chat and tasks

Postagens de blog relacionadas

Exibir tudo

Apresentando o novo editor de imagens com ferramenta de mascaramento da Ninja AI

Estamos entusiasmados em compartilhar a mais recente adição ao conjunto de ferramentas da Ninja AI: o editor de imagens avançado. Esse novo recurso foi projetado para tornar a edição de imagens mais simples, rápida e intuitiva usando uma ferramenta de mascaramento. Seja você um profissional, um criador de conteúdo ou apenas alguém que deseja editar suas fotos, essa ferramenta oferece controle preciso sobre suas edições sem precisar de software ou experiência complexos.

Melhores práticas para o escritor de IA da Ninja

Os escritores de IA revolucionaram a forma como criamos conteúdo, tornando a escrita mais rápida e eficiente. Ao automatizar tarefas repetitivas, como redigir, editar e debater ideias, ferramentas de IA como a Ninja AI ajudam os escritores a se concentrarem no pensamento criativo de alto nível. Seja você um escritor profissional, profissional de marketing ou empreendedor, a IA pode aumentar significativamente a produtividade economizando tempo e fornecendo inspiração.