비용 효율적인 추론은 Agentic 워크플로우의 핵심입니다.
Ninja AI는 최첨단 AI가 강력하고 접근성이 뛰어나야 사용자가 큰 비용을 들이지 않고도 생산성을 높일 수 있어야 한다고 생각합니다.지난 2년 동안 우리는 에이전트 생산성 시스템을 구축하는 데 집중해 왔으며, 최신 AI 기술을 Ninja AI에 지속적으로 추가하여 더 스마트하고, 빠르고, 더 많은 기능을 제공합니다.
그 과정에서 다음과 같이 정교한 에이전트 워크플로가 필요한 기능을 도입했습니다. 딥 리서치 과 멀티턴 파일 분석.또한 베타 버전도 출시했습니다. 스케줄링 워크플로우, Ninja는 이메일을 통해 여러 참가자와 회의 시간을 협상할 수 있습니다.
이러한 기술을 지속적으로 개선하면서 닌자의 지능과 의사 결정을 향상시켜야 한다는 중요한 필요성을 깨닫게 되었습니다.고위험 작업 (예: 캘린더 이벤트 수정) 의 오류를 줄이고 보다 자율적인 워크플로우를 활성화 (예: API 및 사람과 상호 작용하는 복합 작업 실행) 하려면 상담원이 다양한 유형의 상황에서 더 정확한 의사 결정과 예측을 내려야 합니다.
“단계별 사고”를 워크플로에 통합하면 워크플로의 정확성과 일반화 능력이 크게 향상된다는 사실을 알게 되었습니다.단계별 사고는 지능형 함수 호출을 통해 작업을 실행하기 전에 계획, 작업 분류, 역추적, 확인 및 반영을 포함하는 프로세스입니다.최근의 추론 모델은 복잡한 수학, 과학 및 코딩 문제를 해결하기 위해 '단계별 사고'를 성공적으로 적용하고 있습니다.하지만 다음과 같은 한계로 인해 이러한 모델은 Ninja Agentic 워크플로우에 적합하지 않습니다.
첫째, 대부분의 최신 추론 모델은 매우 비쌉니다.예를 들어, 다음을 사용하는 복잡한 단일 에이전트 작업을 예로 들 수 있습니다. 오픈AI의 O1 API 비용은 0.75달러에서 2.25달러 사이일 수 있습니다.1 - 이는 “작업당” 비용입니다. 이는 기업으로서 경제적으로 지속 가능하지 않으며 작업당 비용을 고객에게 전가할 경우 고객 입장에서도 실행 불가능한 가격입니다.
1각 에이전트 작업에 약 5,000~10,000개의 입력 토큰과 10,000~30,000개의 출력 토큰이 필요하다고 가정합니다.
둘째, 합리적인 가격의 추론 모델에는 에이전트 워크플로를 지원하는 데 필요한 기능이 없습니다.예를 들어 DeepSeek R1은 무료 추론 모델이지만 제한적입니다.R1은 크기 때문에 모델의 지연 시간이 길고 처리량이 적기 때문에 Nvidia H200s GPU (또는 그 이상) 가 필요합니다. 따라서 실시간 작업 지향 채팅 시스템에서 사용하기가 어렵습니다.또한 H200을 사용하면 실행 비용도 많이 듭니다.또한 R1은 일반 기능 및 소프트웨어 엔지니어링 작업을 처리하는 데 어려움이 있습니다. 이러한 제한은 다음 섹션에서 확인할 수 있습니다. R1 페이퍼.
또한 기존 추론 모델에는 사용자 지정 기능이 없습니다.Ninja에서는 생산성을 높이는 최첨단 에이전트 시스템을 구축하고자 합니다.따라서 우리의 요구에 더 잘 맞도록 모델을 미세 조정할 수 있는 능력이 필요합니다.API를 통해 현재의 추론 모델에 액세스하거나 기존의 대규모 오픈 소스 추론 모델 (예: 671B param R1) 을 사용하는 경우에는 불가능합니다.
이러한 단점을 고려하여 당사는 고객이 빠르고 저렴하며 미세 조정할 수 있는 지속 가능한 에이전트 시스템을 구현할 수 있도록 자체 추론 시스템인 SuperAgent-R 2.0을 설계하기로 결정했습니다.






