닌자 AI의 슈퍼에이전트 AI 시스템이 달성할 수 있는 것에 대한 새로운 기준을 세우고 있습니다.최첨단 기술을 결합하여 추론 수준 최적화다중 모델 오케스트레이션비평 기반 개선, SuperAgent는 GPT-4o, 제미니 1.5 프로, 클로드 소넷 3.5와 같은 가장 인기 있는 기본 모델보다 성능이 뛰어난 결과를 제공하고 있습니다.

Ninja는 Arena-Hard 벤치마크에서 SOTA를 달성했습니다. 이에 대해서는 이 블로그 게시물에서 다른 벤치마크에서의 성능과 함께 설명하겠습니다.

수퍼에이전트란 무엇인가?

우리는 이전에 슈퍼에이전트를 소개했습니다, 단일 모델을 단독으로 사용하는 것보다 더 나은 해답을 생성하도록 설계된 강력한 AI 시스템입니다.SuperAgent는 여러 AI 모델의 응답을 결합하는 추론 수준 최적화를 사용합니다.즉, SuperAgent는 단일 관점에 의존하는 대신 다양한 모델을 활용한 다음 비평 모델을 사용하여 결과를 개선하여 보다 포괄적이고 정확하며 유용한 답변을 제공합니다.그 결과 기존의 단일 모델 접근 방식을 능가하는 수준의 품질을 얻을 수 있습니다.

SuperAgent는 멀티 모델 기능을 자연스럽게 확장한 것으로, 어떤 모델을 사용할지 선택할 수 있어야 한다는 우리의 신념을 반영한 것입니다.Pro와 Ultra 구독자를 위해 만든 토대를 바탕으로 SuperAgent는 이러한 모델을 원활하게 연계하여 한 단계 더 나아갑니다.즉, SuperAgent는 단순히 모델을 선택하는 것이 아니라 모델을 한데 모아 최대한 포괄적이고 미묘하며 최적화된 응답을 제공합니다.

속도, 깊이, 비용의 균형을 맞추기 위해 세 가지 버전의 SuperAgent를 구축했습니다.

슈퍼에이전트 터보

번개처럼 빠른 응답을 제공합니다.Turbo는 맞춤형 사내 미세 조정 모델을 사용하여 즉각적인 응답을 제공하며 모든 구독자가 사용할 수 있습니다.

슈퍼에이전트 넥서스

SuperAgent의 가장 강력한 버전은 철저하게 조사된 포괄적인 응답을 제공합니다.전문가 수준의 통찰력을 위해 여러 플래그십 AI 모델을 결합했으며 울트라 및 비즈니스 구독자가 사용할 수 있습니다.

슈퍼에이전트-R 2.0

고급 추론이 필요한 복잡한 문제에 적합합니다.SuperAgent-R은 라마 70B에서 증류된 DeepSeek R1을 기반으로 제작되었으며 울트라 및 비즈니스 구독자가 사용할 수 있습니다.

Available versions of SuperAgent

업계 벤치마크와 비교하여 SuperAgent를 테스트한 이유

슈퍼에이전트의 성능을 평가하기 위해 GPT-4, 제미니 1.5 프로, 클로드 소넷 3.5와 같은 여러 기본 모델을 대상으로 최첨단 테스트를 실시했습니다.이와 같은 벤치마크 테스트는 컴퓨터 과학의 일반적인 관행이며 AI에 대한 우리의 접근 방식이 단일 모델 접근 방식과 어떻게 비교되는지 평가하는 데 도움이 됩니다.

사용한 벤치마크는 다음과 같습니다.

아레나-하드-오토 (채팅)

복잡한 대화 능력을 테스트하기 위해 설계된 벤치마크로, 미묘한 이해와 상황 인식이 필요한 복잡한 대화 시나리오를 처리하는 능력에 초점을 맞춥니다.

수학-500

AI의 수학적 추론 및 문제 해결 능력을 평가하는 것을 목표로 하는 벤치마크, 특히 상위 수준의 수학과 관련된 복잡한 문제에 초점을 맞춥니다.

라이브 코드 벤치 (코딩)

코드를 이해하고 생성하는 AI의 능력을 측정하는 코딩 테스트입니다.이 벤치마크는 기본 및 중급 프로그래밍 문제를 비롯한 다양한 프롬프트에 응답하여 정확한 코드를 작성할 수 있는 모델의 능력을 평가합니다.

라이브코드벤치 하드 (코딩)

Livecodebench의 확장판으로, 복잡한 문제 해결 및 알고리즘 문제를 포함하는 고급 코딩 작업에 중점을 둡니다.AI의 코딩 기술의 한계를 뛰어넘고 더 어려운 프로그래밍 시나리오를 관리할 수 있는 능력을 평가하도록 설계되었습니다.

GPQA (일반 문제 해결 및 질문 답변)

복잡한 다단계 로직, 사실적 회상, 추론과 관련된 질문에 답하도록 요구하여 AI의 일반적인 추론 능력을 테스트하는 벤치마크입니다.

AIME2024 (고급 추론 및 수학적 평가)

고급 추론 및 수학적 평가에 중점을 둔 벤치마크입니다.논리와 수치 계산이 모두 필요한 문제를 처리하는 모델의 능력을 평가합니다.

이러한 벤치마크는 AI 성능의 다양한 측면을 평가하는 포괄적인 업계 표준 방법을 나타내므로 독립형 모델과 비교하여 SuperAgent의 기능을 평가할 수 있습니다.

슈퍼에이전트는 아레나-하드에서 기본 모델을 능가합니다

앞서 언급했듯이 SuperAgent는 여러 벤치마크에서 모든 기본 모델에 비해 뛰어난 결과를 제공했습니다.좀 더 자세히 살펴보도록 하겠습니다. 노스타일 컨트롤이 있는 아레나-하드AI 시스템이 일반적인 일상 작업을 얼마나 잘 처리하는지 평가하기 위한 가장 중요한 벤치마크 중 하나입니다.이 벤치마크는 실제 AI 성능을 이해하는 데 필수적이며, SuperAgent는 다른 주요 모델보다 훨씬 뛰어난 기능을 선보이며 탁월한 성과를 보였습니다.

결과: SuperAgent는 다음과 같이 측정했을 때 다른 모든 기본 모델을 능가했습니다. 아레나-하드.

아레나-하드

SuperAgent Accuracy on Arena-Hard

 

닌자의 슈퍼에이전트가 두 가지 추론 모델인 OpenAI의 o1-mini 및 o1-미리보기를 능가했다는 점을 강조하고 싶습니다.o1-mini와 o1-preview는 단순한 AI 모델이 아니라 일반적으로 제미니 1.5 프로나 클로드 3.5와 같은 기본 모델과 비교할 수 없는 고급 추론 시스템이라는 점에서 매우 흥미진진합니다.Ninja가 두 가지 추론 모델보다 더 나은 성능을 발휘한다는 것은 비판 모델을 사용하여 여러 모델의 결과를 결합하는 SuperAgent 접근 방식이 단일 AI 시스템보다 우수한 결과를 낼 수 있다는 것을 증명합니다.

SuperAgent는 다른 벤치마크에서 탁월한 성과를 거두었습니다

Arena-Hard 외에도 Apex 버전의 닌자 SuperAgent는 수학, 코딩 및 일반 문제 해결에서 뛰어난 성능을 보여주었습니다.이러한 결과는 복잡한 문제를 해결하는 SuperAgent의 뛰어난 능력을 강조하며, 다른 모델에 비해 고급 로직과 정밀도를 보여줍니다.정확하고 기능적인 코드를 생성하는 기능은 테스트한 다른 모델보다 일관되게 우수한 성능을 보였습니다.

라이브코드벤치 - 코딩

SuperAgent Accuracy on LiveCodeBench - Coding

라이브코드벤치 - 코딩 - 하드

SuperAgent Accuracy on LiveCodeBench - Coding - Hard

AIME2024 - 추론

SuperAgent Accuracy on AIME2024 - Reasoning

GPQA - 추론

SuperAgent accuracy on GPQA - Reasoning

수학 - 500

SuperAgent Accuracy on Math - 500

모든 벤치마크에서 SuperAgent는 잘 알려진 여러 기본 모델을 능가하는 수준의 성능을 보여주었으며, 때로는 시장에서 가장 발전된 추론 모델을 능가하기도 했습니다.

최종 생각

그 결과 수퍼에이전트는 AI 기반 솔루션에 대한 우리의 사고방식을 한 단계 도약시킨 사례라고 할 수 있습니다.SuperAgent는 다양한 모델, 정교한 평가 시스템, 고급 추론 수준 최적화를 활용하여 더 깊고 정확하며 사용자의 요구와 더 관련성이 높은 해답을 제공합니다.SuperAgent는 복잡한 코딩 솔루션, 고급 추론 또는 단순히 최상의 대화 지원이 필요한 경우 기존의 단일 모델 접근 방식을 능가할 수 있다는 것을 입증했습니다.

혁신을 거듭하면서도 우리의 약속은 변함이 없습니다. 즉, 가능한 가장 지능적이고 효율적이며 강력한 AI 시스템을 제공하는 것입니다. 더 나은 답변은 곧 더 나은 경험을 의미하기 때문입니다.