[AI 개발에서의 스케일링 법칙 재고] 연구 결과에 따르면 정밀도는 이전에 인정했던 것보다 모델 성능 최적화에 훨씬 더 중요한 역할을 한다. 이러한 발견은 AI의 미래에 큰 영향을 미쳐 모델 개발을 안내하는 스케일링 법칙에 새로운 차원을 도입한다.https://www.unite.ai/rethinking-scaling-laws-in-ai-development/
AI 개발에서의 스케일링 법칙 재고
개발자와 연구자들이 LLM 성능의 경계를 넓히면서 효율성에 대한 의문이 커지고 있다. 최근까지는 모델의 크기와 학습 데이터 양을 늘리는 데 중점을 두었고, 계산 중에 숫자를 표현하는 데 사용되는 비트 수인 수치적 정밀도에는 거의 관심을 기울이지 않았다. 하버드, 스탠포드 및 기타 기관의 연구자들이 실시한 최근 연구는 이러한 전통적인 관점을 뒤집었다. 그들의 연구 결과에 따르면 정밀도는 이전에 인정했던 것보다 모델 성능 최적화에 훨씬 더 중요한 역할을 한다. 이러한 발견은 AI의 미래에 큰 영향을 미쳐 모델 개발을 안내하는 스케일링 법칙에 새로운 차원을 도입한다.
초점의 정밀도 AI의 수치적 정밀도는 일반적으로 비트 단위로 측정되는 계산 중 숫자를 표현하는 데 사용되는 세부 정보 수준을 말한다. 예를 들어, 16비트 정밀도는 8비트 정밀도보다 더 세부적으로 숫자를 표현하지만 더 많은 계산 능력이 필요하다. 이는 기술적 뉘앙스처럼 보일 수 있지만 정밀도는 AI 모델의 효율성과 성능에 직접적인 영향을 미친다.
정밀도를 위한 확장 법칙이라는 제목의 이 연구는 정밀도와 모델 성능 간의 종종 간과되는 관계를 탐구한다. 465회 이상의 광범위한 학습 실행을 수행한 연구원들은 3비트에서 16비트에 이르기까지 다양한 정밀도로 모델을 테스트했다. 최대 17억 개의 매개변수를 포함하는 모델은 최대 260억 개의 토큰으로 학습되었다.
결과는 명확한 추세를 보여주었다. 정밀도는 단순한 배경 변수가 아니라 모델의 효과적인 성능을 근본적으로 형성한다. 특히, 과도하게 훈련된 모델(크기에 대한 최적 비율보다 훨씬 더 많은 데이터로 훈련된 모델)은 양자화에 노출될 때 성능 저하에 특히 민감했다. 양자화는 훈련 후 정밀도를 감소시키는 프로세스이다. 이러한 민감성은 실제 세계 애플리케이션을 위한 모델을 설계할 때 필요한 중요한 균형을 강조했다.
새로운 스케일링 법칙 연구의 주요 기여 중 하나는 매개변수 수와 학습 데이터와 같은 기존 변수와 함께 정밀도를 통합하는 새로운 스케일링 법칙을 도입한 것이다. 이러한 법칙은 모델 학습 중에 계산 리소스를 할당하는 가장 효율적인 방법을 결정하기 위한 로드맵을 제공한다.
연구원들은 일반적으로 대규모 모델에 7~8비트의 정밀도 범위가 최적임을 확인했다. 이는 계산 효율성과 성능 간의 균형을 이루며, 종종 리소스를 낭비하는 16비트 정밀도로 기본 설정하는 일반적인 관행에 도전한다. 반대로 4비트 정밀도와 같이 너무 적은 비트를 사용하면 비슷한 성능을 유지하기 위해 모델 크기를 비례적으로 늘려야 한다.
연구는 또한 상황에 따라 달라지는 전략을 강조한다. 7~8비트는 크고 유연한 모델에 적합하지만 LLaMA 3.1과 같은 고정 크기 모델은 더 높은 정밀도 수준의 이점을 얻을 수 있으며, 특히 광범위한 데이터 세트를 수용하기 위해 용량을 늘릴 때 그렇다. 이러한 결과는 상당한 진전이며, 정밀도 스케일링과 관련된 상충 관계에 대한 보다 미묘한 이해를 제공한다.
도전과 실제적 의미 이 연구는 AI 확장에서 정밀도의 중요성에 대한 설득력 있는 증거를 제시하지만, 이를 적용하는 데는 실질적인 장애물이 있다. 중요한 한계 중 하나는 하드웨어 호환성이다. 저정밀도 학습으로 얻을 수 있는 잠재적인 절감 효과는 하드웨어가 이를 지원하는 능력만큼만 좋다. 최신 GPU와 TPU는 16비트 정밀도에 최적화되어 있으며, 컴퓨팅 효율성이 더 높은 7~8비트 범위에 대한 지원은 제한적이다. 하드웨어가 따라잡을 때까지 이러한 발견의 이점은 많은 개발자에게 도달할 수 없을 수 있다.
또 다른 과제는 과도한 학습 및 양자화와 관련된 위험에 있다. 이 연구에서 밝혀진 바와 같이, 과도하게 학습된 모델은 양자화될 때 성능 저하에 특히 취약하다. 이는 연구자들에게 딜레마를 안겨준다. 광범위한 학습 데이터는 일반적으로 큰 도움이 되지만, 저정밀도 모델에서 실수로 오류를 악화시킬 수 있다. 적절한 균형을 달성하려면 데이터 볼륨, 매개변수 크기 및 정밀도를 신중하게 보정해야 한다.
이러한 과제에도 불구하고, 이 발견은 AI 개발 관행을 개선할 수 있는 명확한 기회를 제공한다. 연구자들은 정밀도를 핵심 고려사항으로 통합함으로써 컴퓨팅 예산을 최적화하고 리소스의 낭비적인 과용을 피할 수 있으며, 보다 지속 가능하고 효율적인 AI 시스템을 위한 길을 열 수 있다.
AI 확장의 미래 연구 결과는 또한 AI 연구의 궤적에서 더 광범위한 변화를 알린다. 수년 동안 이 분야는 "더 큰 것이 더 좋다"는 사고방식에 의해 지배되어 왔으며, 점점 더 큰 모델과 데이터 세트에 집중했다. 그러나 8비트 학습과 같은 저정밀도 방법의 효율성이 한계에 다다르면서 이러한 무한한 확장의 시대는 끝나갈 수 있다.
카네기 멜론 대학교의 AI 연구자인 팀 데트머스는 이 연구를 전환점으로 본다. 그는 "결과는 우리가 양자화의 실질적인 한계에 도달했음을 분명히 보여준다."라고 설명한다. 데트머스는 범용 확장에서 특정 작업을 위해 설계된 특수 모델 및 무차별적인 계산 능력보다 사용성과 접근성을 우선시하는 인간 중심 애플리케이션과 같은 보다 타겟팅된 접근 방식으로의 전환을 예측한다.
이러한 전환은 윤리적 고려 사항과 리소스 제약이 개발 우선순위에 점점 더 영향을 미치는 AI의 광범위한 추세와 일치한다. 이 분야가 성숙해짐에 따라, 성능이 우수할 뿐만 아니라 인간의 워크플로에 원활하게 통합되고 실제 세계의 요구 사항을 효과적으로 해결하는 모델을 만드는 방향으로 초점이 옮겨갈 수 있다.
결론 스케일링 법칙에 정밀도를 통합하는 것은 AI 연구의 새로운 장을 연다. 이 연구는 수치적 정밀도의 역할에 주목함으로써 오랜 가정에 도전하고 보다 효율적이고 자원 의식적인 개발 관행으로의 문을 연다.
하드웨어 제한과 같은 실질적인 제약이 남아 있지만, 이 연구 결과는 모델 학습을 최적화하는 데 귀중한 통찰력을 제공한다. 저정밀 양자화의 한계가 명확해짐에 따라 이 분야는 규모에 대한 끊임없는 추구에서 전문적이고 인간 중심적인 애플리케이션을 강조하는 보다 균형 잡힌 접근 방식으로 패러다임이 전환될 준비가 되었다. 이 연구는 커뮤니티에 대한 가이드이자 과제 역할을 한다. 성능뿐만 아니라 효율성, 실용성 및 영향을 위해 혁신하라는 것이다.
<저작권자 ⓒ 사단법인 유엔미래포럼 무단전재 및 재배포 금지>
인공지능, AI 개발, 스켈링, 초점의 정밀도 관련기사목록
|
많이 본 기사
AI메타홈서비스 많이 본 기사
최신기사
|