오픈 소스 대규모 언어 모델이 점점 더 정교해짐에 따라 이에 대한 액세스를 민주화하는 데 점점 더 중점을 두고 있다. 특히 오픈 소스 모델은 이러한 민주화에서 중추적인 역할을 하며 연구원, 개발자 및 애호가 모두에게 복잡성을 깊이 탐구하고 특정 작업에 맞게 미세 조정하거나 기반을 구축할 수 있는 기회를 제공한다.
1. Llama 2
Meta의 Llama 2는 AI 모델 라인업에 획기적인 추가 기능이다. 이것은 단지 다른 모델이 아니다. 다양한 최신 응용 프로그램에 연료를 공급하도록 설계되었다. Llama 2의 훈련 데이터는 방대하고 다양하여 이전 모델에 비해 크게 발전했다. 이러한 교육의 다양성은 Llama 2가 단순한 점진적인 개선이 아니라 AI 기반 상호 작용의 미래를 향한 기념비적인 단계임을 보장한다.
Meta와 Microsoft 간의 협업은 Llama 2의 지평을 넓혔다. 오픈 소스 모델은 이제 Azure 및 Windows와 같은 플랫폼에서 지원되며, 개발자와 조직에 생성 AI 기반 경험을 생성할 수 있는 도구를 제공하는 것을 목표로 한다. 이 파트너십은 모두가 AI에 보다 쉽게 접근하고 개방할 수 있도록 하기 위한 두 회사의 헌신을 강조한다.
Llama 2는 원래 Llama 모델의 후속 제품이 아니다. 이는 챗봇 분야의 패러다임 전환을 나타낸다. 첫 번째 Llama 모델은 텍스트와 코드를 생성하는 데 있어 혁신적이었지만 오용을 방지하기 위해 가용성이 제한되었다. 반면에 Llama 2는 더 많은 청중에게 다가갈 예정이다. AWS, Azure, Hugging Face의 AI 모델 호스팅 플랫폼과 같은 플랫폼에 최적화되어 있다. 또한 Meta와 Microsoft의 협력을 통해 Llama 2는 Windows뿐만 아니라 Qualcomm의 Snapdragon 시스템 온 칩으로 구동되는 장치에서도 명성을 떨칠 준비가 되어 있다.
안전은 Llama 2 디자인의 핵심이다. 때때로 오해의 소지가 있거나 유해한 콘텐츠를 생성하는 GPT와 같은 초기 대규모 언어 모델이 직면한 문제를 인식하여 Meta는 Llama 2의 안정성을 보장하기 위해 광범위한 조치를 취했다. 이 모델은 '환각', 잘못된 정보 및 편견을 최소화하기 위해 엄격한 교육을 받았다.
LLaMa 2의 주요 기능:
°다양한 훈련 데이터: Llama 2의 훈련 데이터는 광범위하고 다양하여 포괄적인 이해와 성능을 보장한다.
°Microsoft와의 협업: Llama 2는 Azure 및 Windows와 같은 플랫폼에서 지원되어 애플리케이션 범위를 확장한다.
°공개 가용성: 이전 버전과 달리 Llama 2는 여러 플랫폼에서 미세 조정할 준비가 된 더 많은 청중이 사용할 수 있다.
°안전 중심 설계: Meta는 안전을 강조하여 Llama 2가 유해한 출력을 최소화하면서 정확하고 신뢰할 수 있는 결과를 생성하도록 한다.
°최적화된 버전: Llama 2는 Llama 2와 Llama 2-Chat의 두 가지 주요 버전으로 제공되며 후자는 양방향 대화를 위해 특별히 설계되었다. 이러한 버전의 복잡성은 70억에서 700억 매개변수에 이른다.
°향상된 훈련: Llama 2는 원래 Llama의 1조 4천억 개의 토큰에서 크게 증가한 2백만 개의 토큰으로 훈련되었다.
2. Claude 2
Anthropic의 최신 AI 모델인 Claude 2는 단순한 업그레이드가 아니라 AI 모델 기능의 상당한 발전을 나타낸다. 향상된 성능 메트릭을 통해 Claude 2는 사용자에게 확장되고 일관된 응답을 제공하도록 설계되었다. 이 모델의 접근성은 광범위하며 API와 전용 베타 웹사이트를 통해 사용할 수 있다. 사용자 피드백에 따르면 Claude와의 상호 작용은 직관적이며 모델이 자세한 설명을 제공하고 확장된 메모리 용량을 보여준다.
학업 및 추론 능력 측면에서 Claude 2는 놀라운 성과를 보였다. 이 모델은 변호사 시험의 객관식 섹션에서 76.5%의 점수를 달성하여 Claude 1.3이 달성한 73.0%보다 향상되었다. 대학원 프로그램을 준비하는 대학생에 대해 벤치마킹했을 때 Claude 2는 GRE 읽기 및 쓰기 시험에서 90번째 백분위수 이상을 수행하여 복잡한 콘텐츠를 이해하고 생성하는 능력을 나타낸다.
Claude 2의 다양성은 주목할만한 또 다른 기능이다. 이 모델은 최대 100,000개 토큰의 입력을 처리할 수 있으므로 기술 매뉴얼에서 종합 서적에 이르는 광범위한 문서를 검토할 수 있다. 또한 Claude 2는 공식 커뮤니케이션에서 자세한 내러티브에 이르기까지 확장된 문서를 원활하게 생성할 수 있다. 모델의 코딩 기능도 향상되어 Claude 2는 Python 코딩 평가인 Codex HumanEval에서 71.2%, 초등학교 수학 과제 모음인 GSM8k에서 88.0%를 달성했다.
안전은 Anthropic의 가장 중요한 관심사로 남아 있다. Claude 2가 잠재적으로 유해하거나 부적절한 콘텐츠를 생성하는 데 덜 취약하도록 노력했다. 세심한 내부 평가와 고급 안전 방법론의 적용을 통해 Claude 2는 이전 모델과 비교할 때 양성 반응을 생성하는 데 상당한 개선을 보여주었다.
Claude 2: 주요 기능
°성능 향상: Claude 2는 더 빠른 응답 시간을 제공하고 더 자세한 상호 작용을 제공한다.
°다중 액세스 포인트: 이 모델은 API 또는 전용 베타 웹사이트인 claude.ai를 통해 액세스할 수 있다.
°학업 우수성: Claude 2는 학업 평가, 특히 GRE 읽기 및 쓰기 부문에서 칭찬할 만한 결과를 보여주었다.
°확장된 입력/출력 기능: Claude 2는 최대 100K 토큰의 입력을 관리할 수 있으며 단일 세션에서 확장된 문서를 생성할 수 있다.
°고급 코딩 숙련도: 코딩 및 수학적 평가 점수에서 알 수 있듯이 모델의 코딩 기술이 개선되었다.
°안전 프로토콜: Claude 2가 양성 출력을 생성하도록 엄격한 평가 및 고급 안전 기술이 사용되었다.
°확장 계획: Claude 2는 현재 미국과 영국에서 액세스할 수 있지만 가까운 시일 내에 전 세계적으로 가용성을 확장할 계획이다.
3. MPT-7B
MosaicML Foundations는 최신 오픈 소스 LLM인 MPT-7B를 도입하여 이 공간에 크게 기여했다. MosaicML Pretrained Transformer의 약어인 MPT-7B는 GPT 스타일의 디코더 전용 변환기 모델이다. 이 모델은 성능 최적화된 레이어 구현 및 더 큰 교육 안정성을 보장하는 아키텍처 변경을 포함하여 몇 가지 향상된 기능을 자랑한다.
MPT-7B의 뛰어난 기능은 1조 개의 텍스트 및 코드 토큰으로 구성된 광범위한 데이터 세트에 대한 교육이다. 이 엄격한 교육은 9.5일 동안 MosaicML 플랫폼에서 실행되었다.
MPT-7B의 오픈 소스 특성은 상용 애플리케이션을 위한 귀중한 도구로 자리매김한다. 비즈니스 및 조직의 예측 분석 및 의사 결정 프로세스에 상당한 영향을 미칠 가능성이 있다.
기본 모델 외에도 MosaicML Foundations는 또한 짧은 형식의 지침을 따르는 MPT-7B-Instruct, 대화 생성을 위한 MPT-7B-Chat, 긴 형식의 스토리 생성을 위한 MPT-7B-StoryWriter-65k+와 같은 특정 작업에 맞춤화된 특수 모델을 출시하고 있다.
MPT-7B의 개발 여정은 MosaicML 팀이 데이터 준비에서 배포까지 모든 단계를 몇 주 내에 관리하는 포괄적인 과정이었다. 데이터는 다양한 리포지토리에서 제공되었으며 팀은 EleutherAI의 GPT-NeoX 및 20B 토크나이저와 같은 도구를 활용하여 다양하고 포괄적인 교육 믹스를 보장했다.
MPT-7B의 주요 기능 개요:
°상업용 라이선스: MPT-7B는 상업적 용도로 라이선스가 부여되어 비즈니스에 귀중한 자산이 된다.
°광범위한 교육 데이터: 이 모델은 1조 토큰의 방대한 데이터 세트에 대한 교육을 자랑한다.
°긴 입력 처리: MPT-7B는 성능 저하 없이 매우 긴 입력을 처리하도록 설계되었다.
°속도 및 효율성: 이 모델은 신속한 교육 및 추론에 최적화되어 시기 적절한 결과를 보장한다.
°오픈 소스 코드: MPT-7B는 효율적인 오픈 소스 교육 코드와 함께 제공되어 투명성과 사용 용이성을 촉진한다.
°비교 우수성: MPT-7B는 LLaMA-7B와 일치하는 품질로 7B-20B 범위의 다른 오픈 소스 모델보다 우수함을 입증했다.
4. Falcon
Falcon LLM은 LLM 계층 구조의 최상위로 빠르게 올라간 모델이다. Falcon LLM, 특히 Falcon-40B는 400억 개의 매개변수를 갖춘 기본 LLM이며 인상적인 1조 개의 토큰에 대해 교육을 받았다. 이는 자동 회귀 디코더 전용 모델로 작동한다. 즉, 본질적으로 이전 토큰을 기반으로 시퀀스에서 후속 토큰을 예측한다. 이 아키텍처는 GPT 모델을 연상시킨다. 특히, Falcon의 아키텍처는 GPT-3보다 우수한 성능을 보여주었고, 훈련 컴퓨팅 예산의 75%만으로 이 위업을 달성했으며 추론 중에 훨씬 적은 컴퓨팅이 필요하다.
기술혁신연구소(Technology Innovation Institute)의 팀은 Falcon을 개발하는 동안 데이터 품질에 중점을 두었다. 교육 데이터 품질에 대한 LLM의 민감도를 인식하여 수만 개의 CPU 코어로 확장되는 데이터 파이프라인을 구성했다. 이를 통해 광범위한 필터링 및 중복 제거 프로세스를 통해 웹에서 고품질 콘텐츠를 신속하게 처리하고 추출할 수 있었다.
TII는 Falcon-40B 외에도 70억 개의 매개변수를 보유하고 1조 5000억 개의 토큰에 대해 훈련된 Falcon-7B를 비롯한 다른 버전도 도입했다. 특정 작업에 맞게 조정된 Falcon-40B-Instruct 및 Falcon-7B-Instruct와 같은 특수 모델도 있다.
훈련 Falcon-40B는 광범위한 과정이었다. 이 모델은 TII가 구축한 대규모 영어 웹 데이터 세트인 RefinedWeb 데이터 세트에서 훈련되었다. 이 데이터 세트는 CommonCrawl 위에 구축되었으며 품질을 보장하기 위해 엄격한 필터링을 거쳤다. 모델이 준비되면 EAI Harness, HELM 및 BigBench를 포함한 여러 오픈 소스 벤치마크에 대해 검증되었다.
Falcon LLM의 주요 기능 개요:
°광범위한 매개변수: Falcon-40B에는 포괄적인 학습 및 성능을 보장하는 400억 개의 매개변수가 장착되어 있다.
°자동 회귀 디코더 전용 모델: 이 아키텍처를 통해 Falcon은 GPT 모델과 유사하게 이전 토큰을 기반으로 후속 토큰을 예측할 수 있다.
°우수한 성능: Falcon은 교육 컴퓨팅 예산의 75%만 활용하면서 GPT-3보다 성능이 뛰어나다.
°고품질 데이터 파이프라인: TII의 데이터 파이프라인은 웹에서 모델 교육에 중요한 고품질 콘텐츠 추출을 보장한다.
°다양한 모델: TII는 Falcon-40B 외에도 Falcon-7B 및 Falcon-40B-Instruct 및 Falcon-7B-Instruct와 같은 특수 모델을 제공한다.
°오픈 소스 가용성: Falcon LLM은 오픈 소스로 제공되어 AI 도메인에서 접근성과 포괄성을 촉진한다.
5. Vicuna-13B
LMSYS ORG는 Vicuna-13B를 도입하여 오픈 소스 LLM 영역에서 중요한 족적을 남겼다. 이 오픈 소스 챗봇은 ShareGPT에서 가져온 사용자 공유 대화에서 LLaMA를 미세 조정하여 세심하게 훈련되었다. GPT-4가 심사위원으로 참여한 예비 평가에서 Vicuna-13B는 OpenAI ChatGPT 및 Google Bard와 같은 유명한 모델의 90% 이상의 품질을 달성하는 것으로 나타났다.
인상적으로, Vicuna-13B는 사례의 90% 이상에서 LLaMA 및 Stanford Alpaca와 같은 다른 주목할만한 모델을 능가한다. Vicuna-13B에 대한 전체 교육 프로세스는 약 $300의 비용으로 실행되었다. 기능 탐색에 관심이 있는 사람들을 위해 코드, 가중치 및 온라인 데모가 비상업적 목적으로 공개되었다.
Vicuna-13B 모델은 70K 사용자 공유 ChatGPT 대화로 미세 조정되어 보다 상세하고 잘 구성된 응답을 생성할 수 있다. 이러한 응답의 품질은 ChatGPT와 비슷하다. 그러나 챗봇을 평가하는 것은 복잡한 작업이다. GPT-4가 발전함에 따라 벤치마크 생성 및 성능 평가를 위한 자동화된 평가 프레임워크 역할을 할 가능성에 대한 호기심이 커지고 있다. 초기 결과는 GPT-4가 챗봇 응답을 비교할 때 일관된 순위와 자세한 평가를 생성할 수 있음을 시사한다. GPT-4를 기반으로 한 예비 평가에서는 Vicuna가 Bard/ChatGPT와 같은 모델의 90% 기능을 달성하는 것으로 나타났다.
Vicuna-13B의 주요 특징 개요:
°오픈 소스 특성: Vicuna-13B는 공개 액세스가 가능하여 투명성과 커뮤니티 참여를 촉진한다.
°광범위한 훈련 데이터: 이 모델은 70,000개의 사용자 공유 대화에 대해 훈련되어 다양한 상호 작용에 대한 포괄적인 이해를 보장한다.
°경쟁력 있는 성능: Vicuna-13B의 성능은 ChatGPT 및 Google Bard와 같은 업계 리더와 동등하다.
°비용 효율적인 교육: Vicuna-13B에 대한 전체 교육 프로세스는 약 $300의 저렴한 비용으로 실행되었다.
°LLaMA에서 미세 조정: 모델이 LLaMA에서 미세 조정되어 향상된 성능과 응답 품질을 보장한다.
°온라인 데모 가용성: 사용자가 Vicuna-13B의 기능을 테스트하고 경험할 수 있는 대화형 온라인 데모가 제공된다.
대규모 언어 모델의 확장 영역
대규모 언어 모델의 영역은 방대하고 지속적으로 확장되며 새로운 모델이 나올 때마다 가능성의 한계를 뛰어넘는다. 이 블로그에서 논의된 LLM의 오픈 소스 특성은 AI 커뮤니티의 협력 정신을 보여줄 뿐만 아니라 미래 혁신을 위한 길을 열어준다.
Vicuna의 인상적인 챗봇 기능에서 Falcon의 우수한 성능 메트릭에 이르기까지 이러한 모델은 현재 LLM 기술의 정점을 나타낸다. 이 분야의 급속한 발전을 계속 목격하면서 오픈 소스 모델이 AI의 미래를 형성하는 데 중요한 역할을 할 것이 분명하다.
당신이 노련한 연구원이든, 신진 AI 애호가이든, 이러한 모델의 잠재력에 대해 궁금한 사람이든, 그들이 제공하는 방대한 가능성에 뛰어들어 탐구하기에 더 좋은 시간은 없다.