Na NinjaTech AI, estamos constantemente ultrapassando os limites do que é possível com agentes autônomos de IA. O SuperNinja, nossa plataforma avançada de agentes gerais, implanta um Computador em Nuvem (VM) dedicado para cada tarefa, permitindo um ciclo completo de Pesquisa → Construção → Implantação para códigos complexos, painéis dinâmicos, sites e muito mais. Nosso andaime foi projetado especificamente para aproveitar a chamada, a codificação e o raciocínio de ferramentas de longo prazo — recursos que envolvem a recuperação de informações em várias etapas, o que chamamos de Pesquisa Profunda.
Hoje, estamos entusiasmados em compartilhar nossa análise abrangente do recém-lançado modelo Sonnet 4.5 da Anthropic como a inteligência central que alimenta o SuperNinja. Depois de testes rigorosos em nossos benchmarks internos e em cenários reais de clientes, podemos afirmar com segurança: o Sonnet 4.5 é um animal magnífico que representa uma mudança significativa no desempenho de agentes autônomos.
Visão geral das principais descobertas
- Taxa de conclusão 12.5% maior em nossos testes internos em comparação com o Sonnet 4.0
- Conclusão de tarefas 20% mais rápida devido a menos erros e melhor raciocínio
- 18,2% de economia de custos por meio de um uso mais eficiente de tokens
- Saídas de qualidade visivelmente superior com instruções aprimoradas
- Modelo de melhor desempenho que testamos até o momento em nossos benchmarks
Por que isso é importante para os usuários do SuperNinja
A arquitetura exclusiva do SuperNinja exige um desempenho excepcional de seu modelo de linguagem subjacente. Ao contrário dos chatbots tradicionais que lidam com consultas simples, o SuperNinja lida com fluxos de trabalho complexos de vários estágios que podem envolver dezenas ou até centenas de decisões sequenciais. Cada tarefa exige que o modelo planeje estrategicamente, execute com precisão, verifique os resultados e se adapte dinamicamente quando surgirem desafios.
As melhorias que estamos vendo com o Sonnet 4.5 se traduzem diretamente em benefícios tangíveis para nossos usuários. Tempos de conclusão mais rápidos significam que você obtém resultados mais cedo. Taxas de conclusão mais altas significam menos tarefas fracassadas e menos frustração. Resultados de melhor qualidade significam produtos mais polidos e prontos para a produção. E a redução do uso de tokens significa custos mais baixos sem sacrificar a capacidade.

Teste de referência
Fase 1: Teste de fumaça GAIA
Começamos nosso processo de avaliação de modelos com o benchmark GAIA, um teste desafiador de raciocínio em várias etapas e uso de ferramentas projetado para medir as capacidades dos agentes no mundo real. O Sonnet 4.5 alcançou aproximadamente 5% de melhoria na precisão em comparação com o Sonnet 3.7 e cerca de 7% de melhoria em comparação com o Sonnet 4.0 nesse benchmark. Isso o torna o modelo de melhor desempenho que testamos até o momento no GAIA.
Fase 2: Suíte Benchmark interna
Depois de passar no teste de fumaça do GAIA, mudamos para nosso benchmark interno proprietário — Nossa análise revelou que o AgencyBench [1,2] representa de perto a distribuição das consultas reais dos clientes que observamos na produção. Aproveitando esse alinhamento, desenvolvemos nosso conjunto de testes internos seguindo a estrutura e a distribuição do AgencyBench, ao mesmo tempo em que o escalamos para incluir cenários adicionais e definimos várias rubricas de avaliação para capturar dimensões de desempenho diferenciadas. A tabela a seguir mostra a distribuição do domínio e das categorias no conjunto de dados:

O Sonnet 4.5 demonstrou uma taxa de conclusão 12,5% maior em comparação com o modelo de última geração anterior (Sonnet 4.0), com saídas que eram consistentemente mais atraentes visualmente e melhor alinhadas com a intenção do usuário.
As melhorias de desempenho variaram significativamente de acordo com o tipo de tarefa. Em tarefas de pesquisa aprofundada — fluxos de trabalho complexos que exigem ampla coleta e síntese de informações — o Sonnet 4.5 obteve aproximadamente 10% de melhorias de precisão em relação ao Sonnet 4.0. Os ganhos foram ainda mais dramáticos em cenários de agentes de codificação, em que a precisão aumentou de 80% para 96%, representando uma melhoria de 16 pontos percentuais.
Além da precisão, o Sonnet 4.5 demonstrou uma eficiência superior. Em 81% dos casos de teste, o modelo exigiu menos etapas ou etapas iguais para concluir as tarefas, indicando abordagens mais diretas de resolução de problemas e redução da sobrecarga computacional.
Desempenho no mundo real: o desafio do analisador de ações
Para demonstrar o impacto prático dessas melhorias, conduzimos um teste abrangente no mundo real usando um prompt idêntico em vários modelos líderes de IA. A tarefa era complexa e representativa dos tipos de desafios que os usuários do SuperNinja enfrentam diariamente:
“Crie um analisador de estoque moderno e profissional baseado na web para o Mag7 com gráficos com previsões. Dê-me sugestões com diferentes fatores de risco sobre como alocar $1 milhão para dobrá-lo nos próximos 6 meses via Mag7 e forneça uma justificativa para isso. Resuma as principais notícias mais recentes de cada empresa e verifique se todos os links externos estão funcionando corretamente. Pense e adicione recursos úteis para melhor aprender e analisar o aplicativo web. Crie, teste e implante um link permanente para ele.”
Resultados comparativos
Nota: Todos os modelos foram testados com instruções idênticas de zero disparo (sem exemplos ou ajustes finos). Links para visualizar os resultados reais implantados são fornecidos abaixo.
O poder da chamada paralela de ferramentas
Um dos recursos mais interessantes do Sonnet 4.5 é o suporte à chamada paralela de ferramentas — um recurso que estava notavelmente ausente nas versões anteriores. Nossa análise mostra que aproximadamente 20% das tarefas do SuperNinja podem se beneficiar significativamente dessa capacidade. A chamada paralela de ferramentas permite que o modelo execute várias operações independentes simultaneamente, em vez de sequencialmente.

Eficiência de custos: fazer mais com menos
Além das melhorias de desempenho, o Sonnet 4.5 oferece economias de custo significativas. Nossa análise mostra uma redução de aproximadamente 15% nos custos gerais ao executar tarefas do SuperNinja com o Sonnet 4.5 em comparação com os modelos anteriores. Essas economias vêm de várias fontes: número reduzido de etapas, menores taxas de erro e maior eficiência.
Perguntas frequentes
Q1: Quais são as principais melhorias de desempenho do Anthropic Sonnet 4.5 em relação aos modelos anteriores?
A: O Anthropic Sonnet 4.5 atinge taxas de conclusão mais altas, raciocínio mais rápido e preciso e execução mais eficiente do fluxo de trabalho em comparação com o Sonnet 4.0 e o Sonnet 3.7, conforme mostrado nos testes de benchmark do SuperNinja.
Q2: Como o Sonnet 4.5 aprimora os recursos do agente e o uso de ferramentas para fluxos de trabalho autônomos?
A: O Sonnet 4.5 introduz a chamada avançada de ferramentas paralelas e o gerenciamento aprimorado do contexto, permitindo que os agentes executem tarefas de várias etapas e utilizem várias ferramentas simultaneamente, resultando em melhor qualidade de saída e confiabilidade em tarefas de pesquisa, codificação e automação.
Q3: Quais testes de benchmark demonstram as vantagens reais do Sonnet 4.5?
A: A análise da SuperNinja destaca uma taxa de conclusão 12,5% maior e um tratamento superior de fluxos de trabalho de pesquisa profunda nos benchmarks GAIA e AgencyBench, com significativamente menos falhas e erros nas tarefas em comparação com os modelos concorrentes.
Q4: Como o Sonnet 4.5 se compara a outros modelos líderes de IA em desempenho prático?
A: Em testes lado a lado, o Sonnet 4.5 exigiu menos etapas, forneceu código e análise de maior qualidade e foi mais econômico do que modelos como GPT-5, Gemini 2.5 Pro e alternativas de código aberto para tarefas complexas, como analisadores de estoque e aplicativos web agentes
Q5: Quais recursos técnicos e tamanhos de janela de contexto são compatíveis com o Sonnet 4.5 para casos de uso avançados?
A: O Sonnet 4.5 oferece gerenciamento inteligente de janelas de contexto com até 1.000.000 de tokens beta, memória persistente do agente em todas as sessões, operação autônoma estendida e tokens de saída de até 64K para cenários complexos de programação e análise de dados.
Referências e leituras adicionais
[1] AgencyBench: Comparando sistemas de IA da Agentic - https://arxiv.org/abs/2509.17567
[2] Tabela de classificação do AgencyBench - https://agencybench.opensii.ai/
[3] Referência GAIA - https://arxiv.org/abs/2311.12983
[4] Plataforma SuperNinja - https://super.myninja.ai/
.avif)


