NinjaTech AI의 사명은 빠르고 저렴한 인공 지능 (AI) 에이전트로 시간이 많이 걸리는 복잡한 작업을 처리하여 모든 사람의 생산성을 높이는 것입니다.최근에 출시했습니다. MyNinja.ai, 우리의 사명을 향해 달려가는 세계 최초의 다중 에이전트 개인용 AI 어시스턴트 중 하나입니다.MyNinja.ai 는 회의 일정 예약, 웹에서 심층 조사 수행, 코드 생성, 작성 지원 등 사용자를 대신하여 작업을 완료할 수 있는 전문 에이전트를 사용하여 처음부터 구축되었습니다.이러한 에이전트는 복잡한 다단계 작업을 분기된 솔루션으로 세분화할 수 있으며, 생성된 솔루션을 동적으로 평가하는 동시에 과거 경험을 통해 지속적으로 학습할 수 있습니다.이러한 모든 작업은 완전 자율적이고 비동기적인 방식으로 수행되므로 Ninja가 백그라운드에서 이러한 작업을 수행하는 동안 자유롭게 하루를 계속하고 사용자의 의견이 필요할 때 참여할 수 있습니다.

모든 작업에 적합한 단일 대형 언어 모델 (LLM) 은 없기 때문에 개인용 AI 어시스턴트를 구축하려면 다양한 작업에 맞게 특별히 최적화된 여러 LLM이 필요하다는 것을 알고 있었습니다.사용자의 만족도를 높일 수 있는 정확성과 기능을 제공하려면 이러한 여러 모델이 함께 작동해야 한다는 것도 알고 있었습니다.마지막으로 이러한 다양한 모델을 교육하기 위한 확장 가능하고 비용 효율적인 방법이 필요했습니다. 지금까지 대부분의 스타트업에서는 이러한 작업을 추진하는 데 비용이 많이 들었습니다.이 게시물에서는 MyNinja.ai 기반의 최첨단 생산성 에이전트인 NinJallM을 사용하여 어떻게 구축했는지 설명합니다. AWS 트레이니엄 칩.
데이터세트 구축
사용자를 대신하여 작업을 처리하는 임무를 완수하려면 특정 작업에 최적화된 여러 모델이 필요하다는 것을 일찍부터 인식했습니다.예로는 딥 리서치, 딥 코더, 어드바이저 모델이 있습니다.사용 가능한 오픈 소스 모델을 테스트한 결과 즉시 사용 가능한 기능과 대응으로는 신속한 엔지니어링만으로는 요구 사항을 충족하기에 충분하지 않다고 느꼈습니다.특히 오픈 소스 모델을 사용한 테스트에서는 각 모델이 React/Chain-of-Thought 스타일의 프롬프트에 최적화되었는지 확인하고 싶었습니다.또한 모델이 모델의 일부로 배포될 때 제대로 작동할 수 있는지 확인하고 싶었습니다. 어트리뷰션 어그멘티드 제너레이션 (RAG) 시스템은 각 출처를 정확하게 인용하며, 잘못된 답변을 생성하는 대신 “잘 모르겠다”고 말하는 편향도 있습니다.이를 위해 우리는 다양한 다운스트림 작업에 맞게 모델을 미세 조정하기로 결정했습니다.
교육 데이터 세트를 구성할 때 우리의 목표는 두 가지였습니다. 즉, 각 모델을 적합한 다운스트림 작업과 페르소나 (Researcher, Advisor, Coder 등) 에 맞게 조정하고, 특정 출력 구조를 따르도록 모델을 조정하는 것입니다.이를 위해 우리는 다음을 따랐습니다. 리마 접근법 미세 조정용.다양하지만 비교적 작은 샘플 크기를 사용하면서 출력의 형식과 어조에 초점을 맞춘 약 2천만 개의 토큰의 훈련 샘플을 사용했습니다.감독을 통해 미세 조정 데이터 세트를 구성하기 위해 먼저 각 모델에 대한 초기 시드 작업을 생성했습니다.이러한 시드 작업을 통해 Meta의 라마 2 모델을 사용하여 초기 합성 데이터세트를 생성했습니다.합성 데이터세트를 사용하여 초기 미세 조정 작업을 수행할 수 있었습니다.이 미세 조정된 모델의 성능을 처음에 평가하기 위해 사용자 피드백을 크라우드 소싱하여 반복적으로 더 많은 샘플을 생성했습니다.또한 일련의 내부 및 공개 벤치마크를 사용하여 모델 성능을 평가하고 계속 반복했습니다.
트레이니엄 미세 조정
사전 학습된 기본 모델을 위한 라마 모델부터 시작하기로 한 이유는 여러 가지가 있습니다. 그 이유는 바로 뛰어난 즉시 사용 가능한 성능, 다양한 라이브러리의 강력한 에코시스템 지원, 진정한 오픈 소스 및 허용형 라이선스가 그 예입니다.당시에는 라마 2를 시작으로 다양한 크기 (7B, 13B, 70B) 를 테스트했습니다.트레이닝에서는 트레니엄 칩을 활용하기 위해 trn1.32xlarge 인스턴스의 클러스터를 사용하기로 결정했습니다.훈련을 효율적으로 병렬화하기 위해 32개의 인스턴스로 구성된 클러스터를 사용했습니다.우리는 또한 다음을 사용했습니다. AWS 병렬 클러스터 클러스터 오케스트레이션을 관리합니다.Trainium 인스턴스 클러스터를 사용하면 1,000달러 미만의 비용으로 각 미세 조정을 반복하는 데 3시간 미만이 소요되었습니다.이렇게 빠른 반복 시간과 저렴한 비용 덕분에 모델을 빠르게 조정 및 테스트하고 모델 정확도를 개선할 수 있었습니다.다음 섹션에서 설명하는 정확도를 달성하기 위해 약 3만 달러만 지출하면 됩니다. 기존 교육 액셀러레이터로 교육해야 한다면 수백만 달러는 아니더라도 수십만 달러를 절감할 수 있었습니다.
다음 다이어그램은 교육 아키텍처를 보여줍니다.

Trainium을 기반으로 미세 조정 파이프라인을 구축한 후 Neuron Distributed 교육 라이브러리 덕분에 모델을 미세 조정하고 개선할 수 있었습니다.이는 매우 유용하고 시기적절했습니다. MyNinja.ai 출시에 앞서 메타의 라마 3 모델이 출시되었으니까요.라마 3와 라마 2는 비슷한 아키텍처를 공유하기 때문에 새 모델로 빠르게 업그레이드할 수 있었습니다.이러한 전환 속도 덕분에 모델 정확도의 고유한 이점을 활용하고 Lama 3 가중치로 또 다른 미세 조정을 매우 빠르게 진행하고 출시를 준비할 수 있었습니다.
모델 평가
모델 평가에는 두 가지 목표가 있었습니다. 사용자 질문에 답변하는 모델의 능력을 평가하는 것이고, 다른 하나는 제공된 소스를 사용하여 질문에 답변하는 시스템의 능력을 평가하는 것이었습니다. 이는 개인 AI 어시스턴트의 기본 인터페이스이기 때문입니다.우리는 다음을 선택했습니다. HotPotQA 과 자연스러운 질문 (NQ) 열기 데이터 세트. 두 데이터 세트 모두 공개 순위표가 있는 공개 벤치마킹 데이터 세트로 인해 적합합니다.
Wikipedia 코퍼스에서 검색한 상위 10개 구절을 사용하여 모델의 답변을 예상 답변과 일치시켜 정확도를 계산했습니다.다음을 사용하여 콘텐츠 필터링 및 순위 지정을 수행했습니다. 콜버트 V2, BERT 기반 검색 모델입니다.향상된 Lama 3 RAG 모델을 사용하여 NQ Open 데이터 세트에서 62.22%, HotPotQA에서 58.84% 의 정확도를 달성하여 다른 기준 모델에 비해 눈에 띄는 개선이 이루어졌습니다.다음 그림은 결과를 요약한 것입니다.

향후 작업
앞으로도 모델의 성능과 사용자 경험을 지속적으로 개선하기 위해 여러 가지 개발 작업을 진행하고 있습니다.먼저, 다음을 사용할 계획입니다. 오르포 모델을 미세 조정하기 위해서요.ORPO는 기존의 미세 조정과 선호도 정렬을 결합하는 동시에 두 가지 모두에 대해 단일 선호도 정렬 데이터 세트를 사용합니다.이를 통해 모델을 더 잘 정렬하여 사용자에게 더 나은 결과를 제공할 수 있을 것으로 믿습니다.
또한 지금까지 미세 조정한 다양한 모델을 바탕으로 맞춤형 앙상블 모델을 만들 계획입니다.Mixting of Expert (MoE) 모델 아키텍처에서 영감을 받아 다양한 모델에 라우팅 레이어를 도입할 계획입니다.이를 통해 사용자가 개인용 AI 어시스턴트에서 기대하는 다양한 작업의 품질을 유지하면서 모델 서비스 및 스케일링 아키텍처를 획기적으로 단순화할 수 있을 것으로 생각합니다.
결론
모든 사람의 생산성을 높이는 차세대 AI 에이전트를 구축하는 것이 NinjaTech AI가 사명을 달성하는 길입니다.이 혁신적인 기술에 대한 접근을 대중화하려면 고성능 컴퓨팅, 오픈 소스 모델 및 각 신규 에이전트를 저렴하고 빠르게 교육할 수 있는 도구 에코시스템에 액세스하는 것이 중요합니다.AWS의 특수 AI 칩, 상위 오픈 소스 모델에 대한 액세스, 교육 아키텍처가 이를 가능하게 합니다.
NinjaTech AI의 다중 에이전트 개인용 AI를 구축한 방법에 대해 자세히 알아보려면 다음을 읽어보십시오. 백서.에서 이러한 AI 에이전트를 무료로 사용해 볼 수도 있습니다. MyNinja.ai.
저자 소개

아라쉬 사드리에 Ninjatech.ai 의 공동 설립자이자 최고 과학 책임자입니다.Arash는 AI 에이전트로 시간이 많이 걸리는 작업을 처리하여 모든 사람의 생산성을 향상시키겠다는 비전을 가지고 Ninjatech.ai 를 공동 설립했습니다.이 비전은 AWS에서 선임 응용 과학자로 재직하면서 구체화되었습니다. 여기서 그는 6년에 걸쳐 인프라 효율성을 크게 개선한 주요 연구 이니셔티브를 주도하여 핵심 인프라 최적화에 대한 여러 특허를 획득했습니다.그의 학문적 배경에는 컴퓨터 모델링 및 시뮬레이션 분야에서 박사 학위를 받았으며 옥스퍼드 대학교, 시드니 대학교, CSIRO와 같은 명망 높은 기관과 협력했습니다.업계에서 근무하기 전, 아라쉬는 박사 후 연구 기간 동안 네이처 커뮤니케이션즈 (Nature Communications) 를 비롯한 영향력 있는 학술지에 게재되었습니다.

타히르 아짐 닌자테크 (NinjaTech) 의 스태프 소프트웨어 엔지니어입니다.Tahir는 NinjaTech의 Inf2 및 Trn1 기반 교육 및 추론 플랫폼, 이러한 플랫폼에 액세스하기 위한 통합 게이트웨이, RAG 기반 연구 기술에 중점을 둡니다.그는 이전에 Amazon에서 선임 소프트웨어 엔지니어로 일하면서 Amazon의 글로벌 인터넷 엣지 인프라를 최적으로 활용하기 위한 데이터 기반 시스템을 구축하여 비용, 혼잡 및 지연 시간을 줄였습니다.산업계로 옮기기 전, 타히르는 스탠포드 대학교에서 컴퓨터 공학 석사와 박사 학위를 취득하고, NUST (파키스탄) 에서 3년간 조교수로 가르쳤으며, EPFL에서 고속 데이터 분석 시스템 분야에서 박사후 과정을 거쳤습니다.타히르는 VLDB, USENIX ATC, 모비콤, 모비호크 등 최상위 컨퍼런스에서 발표된 여러 간행물을 저술했습니다.

텅페이 슈에 닌자테크 AI의 응용 과학자입니다.그의 현재 연구 관심 분야는 자연어 처리 및 멀티모드 학습, 특히 대규모 언어 모델과 대규모 멀티모달 모델을 사용하는 것입니다.Tengfei는 시드니 대학교 컴퓨터공학부에서 박사 과정을 마쳤으며, 이곳에서 다양한 방법을 사용하는 의료 분야의 딥 러닝에 중점을 두었습니다.그는 또한 하버드 대학교 이미징 수학 연구소 (LMI) 에서 방문 박사 과정을 밟았으며, 이곳에서 복잡한 기하학적 데이터를 위한 3D 컴퓨터 비전을 연구했습니다.



