NinjaTech AI에서는 자율 AI 에이전트로 가능한 것의 한계를 끊임없이 넓히고 있습니다.당사의 고급 일반 에이전트 플랫폼인 SuperNinja는 각 작업에 전용 클라우드 컴퓨터 (VM) 를 배포하여 복잡한 코드, 라이브 대시보드, 웹 사이트 등에 대한 연구 → 구축 → 배포의 전체 주기를 지원합니다.당사의 스캐폴드는 장기 도구 호출, 코딩 및 추론 기능, 즉 다단계 정보 검색을 포함하는 딥 리서치 (Deep Research) 라고 부르는 기능을 활용하도록 특별히 설계되었습니다.

오늘, SuperNinja를 지원하는 핵심 인텔리전스로서 Anthropic에서 새로 출시한 Sonnet 4.5 모델에 대한 포괄적인 분석을 공유하게 되어 매우 기쁩니다.내부 벤치마크와 실제 고객 시나리오를 대상으로 엄격한 테스트를 거친 결과, 다음과 같이 자신 있게 말할 수 있습니다. Sonnet 4.5는 자율 상담원의 성능을 한 단계 크게 변화시킨 훌륭한 제품입니다.

주요 결과 한 눈에 보기

  • 12.5% 높은 완료율 내부 테스트에서 소넷 4.0과 비교했습니다.
  • 작업 완료 속도 20% 향상 실수가 적고 추론이 정확하기 때문입니다.
  • 18.2% 비용 절감 보다 효율적인 토큰 사용을 통해
  • 명령 추종 기능이 개선되어 출력 품질이 눈에 띄게 향상됨
  • 지금까지 벤치마크에서 테스트한 결과 가장 성능이 뛰어난 모델

슈퍼닌자 사용자에게 이것이 중요한 이유

SuperNinja의 고유한 아키텍처는 기본 언어 모델에서 뛰어난 성능을 요구합니다.단순한 쿼리를 처리하는 기존 챗봇과 달리 SuperNinja는 수십 또는 수백 개의 순차적 결정을 수반할 수 있는 복잡한 다단계 워크플로우를 처리합니다.각 작업에는 전략적으로 계획하고, 정확하게 실행하고, 결과를 검증하고, 문제 발생 시 동적으로 적응할 수 있는 모델이 필요합니다.

Sonnet 4.5의 개선 사항은 사용자에게 실질적인 혜택으로 직접 이어집니다.완료 시간이 빠르면 결과를 더 빨리 얻을 수 있습니다.완료율이 높으면 실패한 작업과 좌절감이 줄어듭니다.출력 품질이 좋으면 생산 준비가 완료된 결과물이 더욱 정교해집니다.또한 토큰 사용량을 줄이면 기능 저하 없이 비용을 절감할 수 있습니다.

Visual of parallel tasks being completed by SuperNinja

벤치마크 테스트

1단계: 가이아 스모크 테스트

우리는 GAIA 벤치마크로 모델 평가 프로세스를 시작합니다. GAIA 벤치마크는 실제 상담원의 능력을 측정하기 위해 설계된 다단계 추론 및 도구 사용에 대한 까다로운 테스트입니다.이 벤치마크에서 소넷 4.5는 소넷 3.7에 비해 정확도가 약 5% 향상되었고 소넷 4.0에 비해 약 7% 개선되었습니다.따라서 GAIA에서 현재까지 테스트한 모델 중 성능이 가장 뛰어납니다.

2단계: 내부 벤치마크 스위트

GAIA 스모크 테스트를 통과한 후 우리는 독자적인 내부 벤치마크로 이동했습니다. 분석 결과 AgencyBench [1,2] 가 프로덕션 환경에서 관찰한 실제 고객 쿼리의 분포를 거의 나타낸다는 것이 밝혀졌습니다.이러한 조정을 활용하여 AgencyBench의 구조 및 배포에 따라 내부 테스트 스위트를 개발했으며, 추가 시나리오를 포함하도록 확장하고 미묘한 성능 차원을 파악하기 위해 여러 평가 기준을 정의했습니다.다음 표는 데이터세트 내 도메인 및 범주의 분포를 보여줍니다.

Sonnet 4.5는 이전의 최첨단 모델 (Sonnet 4.0) 에 비해 12.5% 더 높은 완료율을 보였으며, 지속적으로 시각적으로 더 매력적이고 사용자 의도에 더 잘 맞는 출력을 보였습니다.

성능 향상은 작업 유형에 따라 크게 달랐습니다.광범위한 정보 수집 및 합성이 필요한 복잡한 워크플로와 같은 심층 연구 작업에서 Sonnet 4.5는 Sonnet 4.0에 비해 정확도가 약 10% 향상되었습니다.정확도가 80% 에서 96% 로 증가하여 16% 포인트 개선된 코딩 에이전트 시나리오에서는 이러한 개선이 훨씬 더 두드러졌습니다.

Sonnet 4.5는 정확성 외에도 뛰어난 효율성을 보여주었습니다.테스트 사례의 81% 에서 이 모델은 작업을 완료하는 데 필요한 단계가 더 적거나 같았으며, 이는 보다 직접적인 문제 해결 접근 방식과 계산 오버헤드의 감소를 나타냅니다.

Try SuperNinja

Where General AI meets real world productivity

실제 성과: 주식 분석기 챌린지

이러한 개선의 실질적인 효과를 입증하기 위해 여러 주요 AI 모델에서 동일한 프롬프트를 사용하여 포괄적인 실제 테스트를 실시했습니다.이 작업은 복잡했으며 SuperNinja 사용자가 매일 직면하는 문제 유형을 잘 보여줍니다.

“예측이 포함된 차트를 사용하여 Mag7용 웹 기반의 현대적이고 전문적인 주식 분석기를 구축하십시오.Mag7을 통해 향후 6개월 동안 두 배로 늘릴 수 있도록 1백만 달러를 할당하는 방법에 대해 다양한 위험 요인을 제시하고 이에 대한 근거를 제시해 주세요.각 회사의 주요 최신 뉴스를 요약하고 모든 외부 링크가 제대로 작동하는지 확인하세요.웹 애플리케이션을 더 잘 학습하고 분석할 수 있도록 유용한 기능을 생각하고 추가하세요.이를 위한 영구 링크를 빌드하고 테스트한 다음 배포하세요.”

비교 결과

참고: 모든 모델은 동일한 제로샷 프롬프트로 테스트되었습니다 (예제 또는 미세 조정 없음).실제 배포된 결과를 볼 수 있는 링크가 아래에 나와 있습니다.

Model Steps required Quality Key observations View result
Sonnet 4.5 57 steps Excellent Fast, modern, instantly usable. Highest quality information retrieval 🔗 View
Sonnet 4.0 67 steps Good Modern results, but site is buggy and charts crash the browser 🔗 View
Sonnet 3.7 67 steps Fair Slow, somewhat outdated website, charts crash the browser 🔗 View
Kimi-K2-0905 (open-source) 126 steps Good Very usable with rich graphs and deep information retrieval 🔗 View
GPT-5 500 steps Poor Results were not usable despite extensive processing 🔗 View
GLM 4.5 (open source) 742 steps Fair Usable, some empty charts, but rich with deep information 🔗 View
Gemini 2.5 Pro 3,678 steps Poor Did not finish. Super expensive and not usable N/A

병렬 툴 콜링의 힘

Sonnet 4.5의 가장 흥미로운 기능 중 하나는 병렬 도구 호출에 대한 지원인데, 이는 이전 버전에서는 눈에 띄게 없었던 기능입니다.우리의 분석에 따르면 SuperNinja 작업의 약 20% 가 이 기능을 통해 상당한 이점을 얻을 수 있는 것으로 나타났습니다.병렬 도구 호출을 사용하면 모델이 여러 개의 독립적인 작업을 순차적으로 실행하지 않고 동시에 실행할 수 있습니다.

SupeNinja parallel tool calling using Sonnet 4.5

비용 효율성: 적은 비용으로 더 많은 작업 수행

Sonnet 4.5는 성능 향상 외에도 상당한 비용 절감 효과를 제공합니다.분석 결과 Sonnet 4.5로 SuperNinja 작업을 실행할 때 이전 모델에 비해 전체 비용이 약 15% 감소한 것으로 나타났습니다.이러한 비용 절감은 단계 수 감소, 오류율 감소, 효율성 향상 등 다양한 원인에 기인합니다.

자주 묻는 질문

Q1: 앤트로픽 소넷 4.5에서 이전 모델에 비해 성능이 크게 개선된 점은 무엇입니까?

A: Anthropic Sonnet 4.5는 SuperNinja의 벤치마크 테스트에서 볼 수 있듯이 Sonnet 4.0 및 Sonnet 3.7에 비해 더 높은 완료율, 더 빠르고 정확한 추론, 더 효율적인 워크플로 실행을 제공합니다.

Q2: Sonnet 4.5는 자율 워크플로를 위한 에이전트 기능 및 도구 사용을 어떻게 개선합니까?

A: Sonnet 4.5에는 고급 병렬 도구 호출 및 향상된 컨텍스트 관리가 도입되어 에이전트가 다단계 작업을 실행하고 여러 도구를 동시에 활용할 수 있으므로 연구, 코딩 및 자동화 작업에서 출력 품질과 안정성이 향상됩니다.

Q3: Sonnet 4.5의 실제 이점을 보여주는 벤치마크 테스트는 무엇입니까?

A: SuperNinja의 분석에 따르면 GAIA 및 AgencyBench 벤치마크에서 12.5% 더 높은 완료율과 심층 연구 워크플로의 처리 능력이 뛰어나며 경쟁 모델에 비해 작업 실패와 오류가 훨씬 적었습니다.

질문 4: Sonnet 4.5는 실제 성능에서 다른 주요 AI 모델과 어떻게 비교됩니까?

A: Sonnet 4.5는 병렬 테스트에서 필요한 단계가 적고 코드 및 분석 품질이 우수했으며 주식 분석기 및 에이전트 웹 애플리케이션과 같은 복잡한 작업을 위한 오픈 소스 대안과 GPT-5, Gemini 2.5 Pro와 같은 모델보다 비용 효율적이었습니다.

질문 5: Sonnet 4.5는 고급 사용 사례에서 어떤 기술적 기능과 컨텍스트 창 크기를 지원합니까?

A: Sonnet 4.5는 최대 1,000,000개의 베타 토큰, 세션 전반의 영구 에이전트 메모리, 확장된 자율 운영, 복잡한 프로그래밍 및 데이터 분석 시나리오를 위한 최대 64K 출력 토큰을 통한 스마트 컨텍스트 창 관리를 제공합니다.

참고 문헌 및 추가 자료

[1] 에이전시 벤치: 에이전시 AI 시스템 벤치마킹 - https://arxiv.org/abs/2509.17567

[2] 에이전시 벤치 순위표 - https://agencybench.opensii.ai/

[3] 가이아 벤치마크 - https://arxiv.org/abs/2311.12983

[4] 슈퍼닌자 플랫폼 - https://super.myninja.ai/