2025년 3월 10일

닌자의 SuperAgent-R 2.0: 복합 AI 기술을 사용한 비용 효율적인 복합 추론의 획기적인 발전.

AWS 인프라에서 완전히 구동되고 Amazon Nova Pro로 개선된 차세대 추론 수준 최적화 기술입니다.

작성자

바박 팔라반

설립자 겸 최고 경영자

아라쉬 사드리에

공동 설립자, 최고 과학 책임자

비용 효율적인 추론은 Agentic 워크플로우의 핵심입니다.

Ninja AI는 최첨단 AI가 강력하고 접근성이 뛰어나야 사용자가 큰 비용을 들이지 않고도 생산성을 높일 수 있어야 한다고 생각합니다.지난 2년 동안 우리는 에이전트 생산성 시스템을 구축하는 데 집중해 왔으며, 최신 AI 기술을 Ninja AI에 지속적으로 추가하여 더 스마트하고, 빠르고, 더 많은 기능을 제공합니다.

그 과정에서 다음과 같이 정교한 에이전트 워크플로가 필요한 기능을 도입했습니다. 딥 리서치 과 멀티턴 파일 분석.또한 베타 버전도 출시했습니다. 스케줄링 워크플로우, Ninja는 이메일을 통해 여러 참가자와 회의 시간을 협상할 수 있습니다.

이러한 기술을 지속적으로 개선하면서 닌자의 지능과 의사 결정을 향상시켜야 한다는 중요한 필요성을 깨닫게 되었습니다.고위험 작업 (예: 캘린더 이벤트 수정) 의 오류를 줄이고 보다 자율적인 워크플로우를 활성화 (예: API 및 사람과 상호 작용하는 복합 작업 실행) 하려면 상담원이 다양한 유형의 상황에서 더 정확한 의사 결정과 예측을 내려야 합니다.

“단계별 사고”를 워크플로에 통합하면 워크플로의 정확성과 일반화 능력이 크게 향상된다는 사실을 알게 되었습니다.단계별 사고는 지능형 함수 호출을 통해 작업을 실행하기 전에 계획, 작업 분류, 역추적, 확인 및 반영을 포함하는 프로세스입니다.최근의 추론 모델은 복잡한 수학, 과학 및 코딩 문제를 해결하기 위해 '단계별 사고'를 성공적으로 적용하고 있습니다.하지만 다음과 같은 한계로 인해 이러한 모델은 Ninja Agentic 워크플로우에 적합하지 않습니다.

첫째, 대부분의 최신 추론 모델은 매우 비쌉니다.예를 들어, 다음을 사용하는 복잡한 단일 에이전트 작업을 예로 들 수 있습니다. 오픈AI의 O1 API 비용은 0.75달러에서 2.25달러 사이일 수 있습니다.¹ - 이는 “작업당” 비용입니다. 이는 기업으로서 경제적으로 지속 가능하지 않으며 작업당 비용을 고객에게 전가할 경우 고객 입장에서도 실행 불가능한 가격입니다.

¹각 에이전트 작업에 약 5,000~10,000개의 입력 토큰과 10,000~30,000개의 출력 토큰이 필요하다고 가정합니다.

둘째, 합리적인 가격의 추론 모델에는 에이전트 워크플로를 지원하는 데 필요한 기능이 없습니다.예를 들어 DeepSeek R1은 무료 추론 모델이지만 제한적입니다.R1은 크기 때문에 모델의 지연 시간이 길고 처리량이 적기 때문에 Nvidia H200s GPU (또는 그 이상) 가 필요합니다. 따라서 실시간 작업 지향 채팅 시스템에서 사용하기가 어렵습니다.또한 H200을 사용하면 실행 비용도 많이 듭니다.또한 R1은 일반 기능 및 소프트웨어 엔지니어링 작업을 처리하는 데 어려움이 있습니다. 이러한 제한은 다음 섹션에서 확인할 수 있습니다. R1 페이퍼.

또한 기존 추론 모델에는 사용자 지정 기능이 없습니다.Ninja에서는 생산성을 높이는 최첨단 에이전트 시스템을 구축하고자 합니다.따라서 우리의 요구에 더 잘 맞도록 모델을 미세 조정할 수 있는 능력이 필요합니다.API를 통해 현재의 추론 모델에 액세스하거나 기존의 대규모 오픈 소스 추론 모델 (예: 671B param R1) 을 사용하는 경우에는 불가능합니다.

이러한 단점을 고려하여 당사는 고객이 빠르고 저렴하며 미세 조정할 수 있는 지속 가능한 에이전트 시스템을 구현할 수 있도록 자체 추론 시스템인 SuperAgent-R 2.0을 설계하기로 결정했습니다.

닌자의 추론 모델 - 슈퍼에이전트-R 2.0

슈퍼에이전트-R 2.0은 복합 AI 시스템: 라마 70B에서 증류된 DeepSeek R1을 기반으로 한 추론 기능을 갖춘 닌자 고유의 미세 조정 모델을 활용합니다.또한 SuperAgent-R 2.0은 다른 모델을 사용하여 고급 추론 수준 최적화를 통해 추론을 지원합니다.전체 시스템이 AWS 인프라에서 엔드투엔드 방식으로 실행되므로 저렴하고 확장 가능합니다.최종 결과는 OpenAI의 O, O3-mini (하이) 또는 Anthropic의 Sonnet 3.7 (씽킹 모드) 과 같은 독점 모델에 비해 훨씬 적은 비용으로 거의 최첨단에 가까운 성능을 제공합니다.

SuperAgent-R 2.0은 업계 최초의 여러 혁신을 결합하여 저렴한 비용으로 복잡한 추론 작업을 완료할 수 있는 시스템을 만듭니다.이 시스템의 핵심 구성 요소 중 하나는 새로운 멀티 기어 추론 접근 방식입니다.사용자에게 고정된 수준의 계산을 강요하는 다른 모델과 달리, 우리 시스템은 작업 복잡성에 따라 추론 노력을 동적으로 조정합니다.SuperAgent의 계산 수준은 다음과 같습니다.

생각 없음 — 간단한 검색과 빠른 응답이 가능합니다.
가벼운 사고 — 구조화된 추론과 같은 중간 정도의 복잡성 작업에 적합합니다.
높은 사고력 — 고급 논리가 필요한 심층적인 다단계 추론 작업에 적합합니다.

SuperAgent-R 2.0은 추론 노력을 스스로 결정하고 사용자 요청에 따라 자동으로 조정할 수 있습니다.물론 시스템이 여전히 지나치게 생각할 수 있기 때문에 항상 이를 달성하기는 어렵습니다.저희는 고객 피드백을 지속적으로 검토하고 있으며 지속적으로 개선해 나갈 것입니다.

SuperAgent-R 2.0은 주요 AI 벤치마크를 대상으로 엄격한 테스트를 거쳐 여러 도메인에서 동급 최고의 성능을 보여줍니다.이러한 테스트에서 SuperAgent-R 2.0은 선도적인 AI 모델과 지속적으로 경쟁하며 탁월한 추론 및 문제 해결 능력을 입증했습니다.

딥시크 R1과 비교했을 때 슈퍼에이전트-R 2.0의 장점

DeepSeek-R1은 당연히 고품질의 무료 추론 모델로 최근 많은 관심을 받고 있습니다.하지만 몇 가지 눈에 띄는 단점이 있습니다.한 가지 주요 제한 사항은 하드웨어 요구 사항 (위에서 언급했음) 입니다. Nvidia H200 GPU (또는 그 이상) 에서 실행되어야 하므로 운영 비용이 증가할 수 있습니다. 그렇다고 해도 실시간 빠른 추론을 위한 빠른 모델은 아닙니다.

또한 DeepSeek-R1을 평가하고 문서를 검토하면서 고객에게 영향을 미칠 수 있는 다른 단점을 확인했습니다.

일반 기능: DeepSeek-R1은 함수 호출, 다중 회전 상호 작용 및 복잡한 역할 수행과 같은 주요 영역에서 DeepSeek-v3에 미치지 못합니다.
언어 기능: DeepSeek-R1은 중국어와 영어에 최적화되어 있으므로 다른 언어로 쿼리를 처리할 때 문제가 발생할 수 있습니다.여러 언어로 사용자를 지원하므로 광범위한 언어 지원이 필수적입니다.
프롬프트 감도: DeepSeek-R1은 즉각적인 변화에 매우 민감합니다.고객들 사이에서 흔히 발생하는 몇 번의 프롬프트는 전반적인 성능을 저하시켜 우리의 요구에 대한 신뢰도를 떨어뜨립니다.
소프트웨어 엔지니어링 작업: 벤치 마크 결과에 따르면 DeepSeek-R1에는 제한된 소프트웨어 엔지니어링 기능이 있습니다.많은 고객이 소프트웨어 관련 작업을 위해 Ninja를 사용하고 있다는 점을 감안할 때 이러한 제한은 고객 경험에 상당한 영향을 미칠 수 있습니다.

DeepSeek R1은 환상적인 모델이지만 이러한 요인으로 인해 DeepSeek R1은 우리의 요구에 적합하지 않으며 SeuperAgent-R 2.0을 개발하기로 결정했습니다.

경쟁 수학 (애니메이션 2024)

추론 능력의 결정 요인인 경쟁 수학의 경우, 테스트 결과 SuperAgent-R 2.0은 OpenAI O1, Sonnet 3.7 (64k 확장된 사고), DeepSeek R1 모델의 성능을 능가하고 SuperAgent-R 2.0은 OpenAI O3-하이 추론 모델과 동등한 것으로 나타났습니다.OpenAI는 게시된 데이터 AIME 2024와 같이 경쟁 수학에 능숙한 모델이 자율 에이전트 워크플로우에도 적합하다는 것입니다.

박사 수준의 과학 질문 (GPQA 다이아몬드)

이 테스트는 시스템이 박사 수준의 과학 문제를 얼마나 잘 풀 수 있는지를 측정합니다.이 테스트는 다양한 산업 분야에서 일하고 다양한 직무를 수행하는 사용자에게 중요합니다.SuperAgent-R 2.0은 물리, 생물학, 화학 문제를 대상으로 한 이 벤치마크에서 인간 박사 수준의 정확도를 능가했습니다.

경쟁 코드 (코드포스)

코드포스의 경쟁 프로그래밍에서 SuperAgent-R 2.0은 DeepSeek V3보다 ELO 점수가 점진적으로 더 높으며 많은 OpenAI 모델에서 경쟁 점수를 획득했습니다.

라이브벤치 - 코딩

실제 코딩 성능을 테스트하는 데 사용됩니다.

아마존 노바 프로를 통한 슈퍼에이전트-R 2.0 개선

위에서 언급한 바와 같이 SuperAgent 2.0은 고급 추론 수준 최적화를 활용하는 다중 모델 시스템입니다.SuperAgent-R 2.0에서 사용할 모델을 평가하면서 고객의 요구 사항에 대해 끊임없이 고민했습니다.이들에게는 정확하고 효율적이며 자율적으로 복잡한 다단계 작업을 처리할 수 있는 AI가 필요했습니다.수학, 과학, 코딩에 관한 심층적인 기술을 갖춘 시스템입니다.또한 작업을 빠르게 완료하고 지속적으로 뛰어난 결과를 제공할 수 있습니다.

우리는 슈퍼에이전트 2.0 프로세스의 여러 단계에 아마존의 Nova Pro를 사용하기로 결정했습니다.속도, 비용 효율성, 품질이 균형을 이룬 Amazon Nova Pro를 선택했습니다.Nova Pro의 빠른 토큰 생성은 전체 시스템의 속도를 높여 응답 속도를 높이고 더 원활한 사용자 경험을 제공합니다.Nova Pro는 더 큰 입력 컨텍스트 창을 통해 긴 텍스트 입력을 처리할 수 있습니다.

또한 Nova Pro의 더 높은 출력 토큰 제한 (10k) 과 개선된 출력 형식 지정을 통해 사용자는 연구 요약, 코드, 문서 등 잘 구성된 고품질 출력을 받을 수 있습니다.또한 Nova Pro는 뛰어난 다국어 지원을 제공하여 SuperAgent-R 2.0이 더 광범위한 언어로 사용자를 지원할 수 있도록 합니다.

슈퍼에이전트-R 2.0은 myninja.ai 에서 사용할 수 있습니다

시중에 나와 있는 다양한 제품과 달리 SuperAgent-R 2.0 모델에 대한 무제한 액세스에 대해서는 추가 구독료를 부과하지 않을 것입니다.이 모델은 모든 울트라 사용자 (월 15달러) 와 비즈니스 플랜 사용자 (1인당 월 20달러) 가 이용할 수 있습니다. 요금 세부 정보.당사는 과도한 사용을 기준으로 사용을 제한할 권리가 있다는 점을 참고하시기 바랍니다.

에서 체험해 보세요 myninja.ai

다음 단계: 새로운 기술 및 API 액세스

앞으로도 SuperAgent-R 2.0을 기반으로 하는 에이전트 워크플로우를 계속 제공하여 사용자의 생산성을 높일 것입니다.SuperAgent-R 2.0을 가장 먼저 사용할 계획 중 하나는 딥리서치 기능을 개선하는 것입니다.

또한 SuperAgent-R 2.0에 대한 API 액세스를 곧 제공하여 개발자와 기업이 자체 맞춤형 시스템을 구축할 수 있도록 지원할 계획입니다.