O raciocínio econômico é fundamental para os fluxos de trabalho da Agentic
Na Ninja AI, acreditamos que a IA de ponta deve ser poderosa e acessível, ajudando os usuários a aumentar a produtividade sem gastar muito. Nos últimos dois anos, nos concentramos em criar um sistema de produtividade agente, adicionando continuamente os mais recentes avanços de IA à Ninja AI para torná-la mais inteligente, rápida e capaz.
Ao longo do caminho, introduzimos recursos que exigem fluxos de trabalho agentes sofisticados, como Pesquisa profunda e Análise de arquivos Multi-Turn. Também lançamos uma versão beta de um fluxo de trabalho de agendamento, permitindo que o Ninja negocie horários de reunião com vários participantes por e-mail.
À medida que refinamos continuamente essas habilidades, reconhecemos uma necessidade crítica: aprimorar a inteligência e a tomada de decisões do Ninja. Reduzir erros em tarefas de alto risco (por exemplo, modificar eventos do calendário) e permitir fluxos de trabalho mais autônomos (por exemplo, executar tarefas compostas que interagem com APIs e pessoas) exigem que nossos agentes tomem decisões e previsões mais precisas em muitos tipos diferentes de situações.
Descobrimos que incorporar o “pensamento passo a passo” em nossos fluxos de trabalho aumenta significativamente sua precisão e capacidade de generalização. O pensamento passo a passo é um processo que envolve: planejar, dividir tarefas, retroceder, verificar e refletir antes de executar tarefas por meio de chamadas inteligentes de funções. Modelos de raciocínio recentes aplicaram com sucesso o “pensamento passo a passo” para resolver problemas complexos de matemática, ciências e codificação. No entanto, devido às seguintes limitações, esses modelos não são adequados para nossos fluxos de trabalho da Ninja Agentic:
Primeiro, os modelos de raciocínio mais atuais são muito caros. Por exemplo, uma única tarefa agente complexa usando API O1 da OpenAI pode custar entre $0,75 e $2,251 - esse é o custo “por tarefa”, que é um preço economicamente insustentável para nós como empresa e também inviável para os clientes se repassássemos os custos para eles por tarefa.
1Assumir que cada tarefa do agente exija cerca de 5.000 a 10.000 tokens de entrada e 10.000 a 30.000 tokens de saída
Em segundo lugar, os modelos de raciocínio mais acessíveis não têm os recursos necessários para potencializar fluxos de trabalho agentes. Por exemplo, o DeepSeek R1 é um modelo de raciocínio livre — mas é limitado. O R1, devido ao seu tamanho, requer GPUs Nvidia H200s (ou melhores) para alta latência e baixa taxa de transferência do modelo; portanto, dificulta seu uso em um sistema de bate-papo orientado a tarefas em tempo real. O uso do H200s também torna sua operação cara. Além disso, o R1 tem desafios em lidar com tarefas gerais de engenharia de software e de capacidade - essas limitações são confirmadas pela última seção do Papel R1.
Além disso, os modelos de raciocínio existentes carecem de personalizações. Na Ninja, aspiramos construir o sistema de agentes mais avançado para produtividade. Dessa forma, precisamos da capacidade de ajustar os modelos para melhor atender às nossas necessidades. Isso não é possível ao acessar os modelos de raciocínio atuais via API ou ao usar grandes modelos de raciocínio de código aberto existentes (como o parâmetro 671B R1).
Dadas essas desvantagens, decidimos projetar nosso próprio sistema de raciocínio - o SuperAgent-R 2.0 - para nos ajudar a viabilizar um sistema agente sustentável que seja rápido, acessível e ajustável para os clientes.






