새로운 기술의 출현으로 인류의 첫 번째 시도는 일반적으로 무차별 대입을 통해 이루어집니다.기술이 발전함에 따라 우리는 최적화를 시도하고 무자비한 혁신에 대한 보다 우아한 해결책을 찾아내려 합니다.인공 지능 (AI) 의 최신 발전, 특히 대형 언어 모델 (LLM) 의 개발을 통해 우리는 최근 몇 년 동안 인상적인 기능을 보여줌으로써 상당한 진전을 이루었습니다.하지만 이러한 발전은 이 기술 발전의 무차별 대입 단계에 아직 많이 남아 있습니다.우리는 캄브리아기 트랜스포머와 유사한 모델이 폭발적으로 등장하면서 최대 수조 파라미터에 이르는 대형 모델이 등장하는 것을 목격했습니다.이는 내연 엔진을 보다 효율적인 전기 후속 엔진으로 전환하는 것과 매우 유사합니다.이러한 변화는 세단과 제가 가장 좋아하는 취미 장난감인 경주용 자동차에서도 관찰되었습니다.1960년대 폰티악 GTO, 셸비 코브라 427, 닷지 차저 R/T 같은 차량들이 디트로이트 근육에 대형 블록 엔진을 장착하고 10초 만에 시속 0~60마일의 가스를 뿜어내는 모습을 선보이며 연비는 갤런당 7~14마일 (MPG) 에 달합니다.오늘날에는 리맥과 같은 최신 전기 자동차가 등장하고 있습니다. 네베라, 54MPGe를 달성하면서 1.74초 만에 0~60MPH를 달성할 수 있습니다.초반의 무력화는 뒤이은 효율을 높이는 데 꼭 필요한 단계였습니다.
대형 언어 모델을 통해 역사가 반복되어야 한다는 것이 분명해졌습니다. 우리는 AI 모델을 다루는 데 있어 무자비한 시도에서 벗어나 보다 우아한 솔루션으로 전환하기 직전에 있습니다. 특히 더 크고 복잡한 언어 모델 (GTO, Cobra 및 Hemi 엔진과 같은 현대식 모델) 에서 벗어나 더 작고 훨씬 효율적인 모델로 전환하고 있습니다.솔직히 말해서 이러한 효율성을 높이는 것이 지난 몇 년 동안 저의 주요 초점이었습니다.훌륭한 동료들과 함께 일하면서 운 좋게도 저는 운 좋게도 최근에 AI와 컴퓨팅이 교차하는 분야에서 일하고, 가속화된 머신을 설계하고, Meta의 AI 인프라를 공동 설계할 수 있었습니다.언제 바박 팔라반 그리고 저는 현재의 벤처를 만들기로 했습니다. 닌자테크 AI — 우리는 기술 DNA의 핵심 근간을 회사 문화에 새겼습니다. 바로 첫날부터 인텔리전스 플랫폼을 효율적으로 실행하고 운영하는 것이었습니다.닌자테크는 상당한 시간이 소요되는 일정 관리, 비용, 출장 예약과 같은 관리 업무를 맡아 전문가들의 생산성을 높일 수 있는 AI Executive Assistant를 구축하고 있습니다.
수천억 개의 파라미터가 넘는 언어 모델을 사용하는 자기회귀 및 생성 모델을 연구하면서 이러한 관리 작업을 수행하려면 더 효율적이고 간단한 방법이 필요하다는 것이 분명해졌습니다.“인생의 의미는 무엇인가”라는 질문에 답하거나, 모델에 자동화된 음악 제작자를 위한 파이썬 코드를 작성해 달라고 부탁하는 것도 한 가지일 것입니다.대부분의 관리 작업에는 단순하고 덜 복잡한 모델로도 충분합니다.다양한 관리 작업에 다양한 모델 크기를 활용하여 이 기능을 테스트해 보았습니다. 일부 모델은 CPU에서 실행할 수 있을 정도로 작고 효율적입니다!이렇게 하면 비용이 많이 드는 대규모 교육 작업으로 큰 비용을 들이지 않아도 될 뿐만 아니라 메모리 사용량이 많고 고가의 GPU 인스턴스가 모델을 처리하지 않아도 되므로 추론 시간도 절약할 수 있습니다.위의 연소-전기 예시와 마찬가지로, 우리도 효율성이 향상되고 있지만 속도가 매우 빨라지고 있습니다!
업계와 연구 커뮤니티가 보다 효율적인 운영으로 전환하는 것을 보게 되어 기쁩니다.그러한 예로는 메타가 있습니다. 라마 어느 것을 릴리스하십시오 전시 10배 더 작은 모델에서 더 많은 데이터를 학습시켜 대부분의 벤치마크에서 GPT-3 (175B) 를 능가하는 13B 파라미터 모델을 개발했습니다.그 결과, 메타 리서치 결과는 다음과 같이 다시 한 번 앞섰습니다. 리마 (Less Is More For Alignment) 는 1000개의 “다양한” 프롬프트를 영리한 사전 교육 방법으로 활용하여 고품질 결과를 달성했습니다.이는 기하급수적으로 계속 급증하고 있으며 Ai의 탄소 발자국으로 인해 지구에 해로운 영향을 미칠 수 있는 Ai에 대한 컴퓨팅 수요를 억제하는 데 정말 놀랍고 필수적입니다.상황을 좀 더 자세히 살펴보자면, MIT 연구 파라미터가 65M에 불과한 소형 변압기 모델은 훈련에 최대 27kWh 및 26lbs의 CO2e를 소비할 수 있음을 입증했습니다.GPT3와 같은 대형 모델을 살펴보면 이 수치가 급격히 증가하여 최대 성장률이 증가할 수 있습니다. 약 502톤 2022년에만 탄소 등가물 배출량 기준으로또한 추론은 일단 모델이 게시된 후 학습하는 것보다 컴퓨팅 집약도가 낮지만, 추론을 활용하여 서빙하는 경우와 비교할 때 전체 수명 동안 배출량이 10~100배 급증하기 시작합니다.
Ai의 무한한 가능성은 아직 빙산의 일각에 불과합니다. 하지만 더 좁은 공간에서 더 많은 작업을 수행하려면 클러스터 규모와 예산을 고려할 때 운영 효율성을 반드시 고려해야 합니다.우리는 가스를 많이 소비하는 헤미를 억제하고 더 효율적인 소형 모델을 사용해야 합니다. 그러면 운영이 개선되고 비용이 절감되며 AI의 탄소 발자국을 의미 있게 줄일 수 있습니다.



