ChatGPT의 첫해를 되돌아보면 이 도구가 AI 현장을 크게 변화시켰다는 것이 분명하다. 2022년 말에 출시된 ChatGPT는 AI와의 상호 작용이 기계가 아닌 사람과의 채팅처럼 느껴지도록 하는 사용자 친화적인 대화 스타일로 인해 두각을 나타냈다. 이 새로운 접근 방식은 빠르게 대중의 시선을 사로잡았다. 출시 후 불과 5일 만에 ChatGPT는 이미 백만 명의 사용자를 유치했다. 2023년 초까지 이 숫자는 월간 사용자 수 약 1억 명으로 급증했으며, 10월까지 플랫폼은 전 세계적으로 약 17억 건의 방문을 기록했다. 이 숫자는 그 인기와 유용성에 대해 많은 것을 말해준다.
지난 한 해 동안 사용자는 이메일 작성, 이력서 업데이트와 같은 간단한 작업부터 성공적인 비즈니스 시작에 이르기까지 ChatGPT를 사용하는 모든 종류의 창의적인 방법을 찾았다. 그러나 사람들이 그것을 어떻게 사용하는지에 관한 것이 아니다. 기술 자체가 성장하고 향상되었다. 처음에 ChatGPT는 자세한 텍스트 응답을 제공하는 무료 서비스였다. 이제 ChatGPT-4가 포함된 ChatGPT Plus가 있다. 이 업데이트된 버전은 더 많은 데이터를 기반으로 훈련되어 잘못된 답변이 줄어들고 복잡한 지침을 더 잘 이해한다.
가장 큰 업데이트 중 하나는 ChatGPT가 이제 다양한 방식으로 상호 작용할 수 있다는 것이다. 즉, 듣고 말하고 이미지를 처리할 수도 있다. 즉, 모바일 앱을 통해 말을 걸고 사진을 보여주어 응답을 받을 수 있다. 이러한 변화는 AI에 대한 새로운 가능성을 열어줬고 우리 삶에서 AI의 역할에 대해 사람들이 보고 생각하는 방식을 변화시켰다.
기술 데모로 시작하여 기술 세계의 주요 플레이어로서의 현재 상태에 이르기까지 ChatGPT의 여정은 매우 인상적이다. 처음에는 대중의 피드백을 받아 기술을 테스트하고 개선하는 방법으로 여겨졌다. 그러나 이는 빠르게 AI 환경의 필수적인 부분이 되었다. 이러한 성공은 지도 학습과 인간의 피드백을 모두 사용하여 대규모 언어 모델(LLM)을 미세 조정하는 것이 얼마나 효과적인지 보여준다. 결과적으로 ChatGPT는 광범위한 질문과 작업을 처리할 수 있다.
가장 유능하고 다재 다능한 AI 시스템을 개발하기 위한 경쟁으로 인해 ChatGPT와 같은 오픈 소스 모델과 독점 모델이 모두 확산되었다. 일반적인 기능을 이해하려면 광범위한 작업에 대한 포괄적인 벤치마크가 필요하다. 이 섹션에서는 이러한 벤치마크를 살펴보고 ChatGPT를 포함한 다양한 모델이 서로 어떻게 비교되는지 조명한다.
LLM 평가: 벤치마크
1.MT-Bench: 이 벤치마크는 쓰기, 역할극, 정보 추출, 추론, 수학, 코딩, STEM 지식, 인문학/사회 과학 등 8개 영역에 걸쳐 다중 회전 대화 및 지시 따르기 능력을 테스트한다. GPT-4와 같은 더 강력한 LLM이 평가자로 사용된다.
2.AlpacaEval: AlpacaFarm 평가 세트를 기반으로 하는 이 LLM 기반 자동 평가기는 GPT-4 및 Claude와 같은 고급 LLM의 응답에 대해 모델을 벤치마킹하여 후보 모델의 승률을 계산한다.
3.개방형 LLM 리더보드: 언어 모델 평가 하네스를 활용하는 이 리더보드는 제로샷 및 소수 설정 모두에서 추론 과제 및 일반 지식 테스트를 포함한 7가지 주요 벤치마크에서 LLM을 평가한다.
4.BIG-bench: 이 협업 벤치마크는 다양한 주제와 언어를 포괄하는 200개 이상의 새로운 언어 작업을 다룬다. LLM을 조사하고 향후 역량을 예측하는 것을 목표로 한다.
5.ChatEval: 팀이 개방형 질문 및 기존 자연어 생성 작업에 대한 다양한 모델의 응답 품질을 자율적으로 논의하고 평가할 수 있는 다중 에이전트 토론 프레임워크이다.
비교 성능
일반적인 벤치마크 측면에서 오픈소스 LLM은 눈에 띄는 발전을 보여왔다. 예를 들어 Llama-2-70B는 특히 명령 데이터를 미세 조정한 후 인상적인 결과를 얻었다. 그 변형인 Llama-2-chat-70B는 AlpacaEval에서 92.66%의 승률로 GPT-3.5-turbo를 능가했다. 그러나 GPT-4는 95.28%의 승률로 여전히 선두 주자로 남아 있다.
더 작은 모델인 Zephyr-7B는 특히 AlpacaEval 및 MT-Bench에서 더 큰 70B LLM에 필적하는 기능을 시연했다. 한편, 다양한 명령어 데이터로 미세 조정된 WizardLM-70B는 MT-Bench에서 오픈 소스 LLM 중 가장 높은 점수를 받았다. 그러나 여전히 GPT-3.5-터보와 GPT-4에는 뒤처져 있다.
흥미로운 출품작인 GodziLLa2-70B는 Open LLM 리더보드에서 경쟁력 있는 점수를 획득하여 다양한 데이터세트를 결합한 실험 모델의 잠재력을 보여주었다. 마찬가지로, 처음부터 개발된 Yi-34B는 GPT-3.5 터보와 비슷한 점수로 눈에 띄었고 GPT-4보다 약간 뒤처졌다.
다양하고 고품질의 데이터를 미세 조정한 UltraLlama는 제안된 벤치마크에서 GPT-3.5-turbo를 능가했으며 세계 및 전문 지식 분야에서도 이를 능가했다.
확장: 거대한 LLM의 부상
2020년 이후 최고의 LLM 모델
LLM 개발의 주목할만한 추세는 모델 매개변수의 확장이다. Gopher, GLaM, LaMDA, MT-NLG 및 PaLM과 같은 모델은 한계를 뛰어넘어 최대 5,400억 개의 매개변수를 갖춘 모델로 완성되었다. 이러한 모델은 뛰어난 기능을 보여주었지만 비공개 소스 특성으로 인해 더 넓은 적용 범위가 제한되었다. 이러한 제한으로 인해 오픈 소스 LLM 개발에 대한 관심이 촉발되었으며, 이는 추진력을 얻고 있는 추세이다.
모델 크기를 확장하는 것과 병행하여 연구자들은 대체 전략을 모색했다. 단순히 모델을 더 크게 만드는 대신 더 작은 모델의 사전 학습을 개선하는 데 중점을 두었다. 예를 들어 Chinchilla와 UL2는 더 많다고 해서 항상 더 좋은 것은 아니라는 사실을 보여준다. 더 똑똑한 전략으로 효율적인 결과를 얻을 수도 있다. 또한 FLAN, T0 및 Flan-T5와 같은 프로젝트가 이 영역에 상당한 기여를 하면서 언어 모델의 명령 조정에 상당한 관심이 있었다.
ChatGPT 촉매
OpenAI의 ChatGPT 도입은 NLP 연구에 전환점이 되었다. OpenAI와 경쟁하기 위해 Google과 Anthropic과 같은 회사는 각각 Bard와 Claude라는 자체 모델을 출시했다. 이러한 모델은 많은 작업에서 ChatGPT와 비슷한 성능을 보여주지만 여전히 OpenAI의 최신 모델인 GPT-4에 비해 뒤떨어져 있다. 이러한 모델의 성공은 주로 추가 개선을 위해 연구 초점이 높아지고 있는 기술인 인간 피드백 강화 학습(RLHF)에 기인한다.
OpenAI의 Q*(Q-Star)에 대한 소문과 추측
최근 보고서에 따르면 OpenAI의 연구원들은 Q*(Q 스타로 발음)라는 새로운 모델의 개발을 통해 AI 분야에서 상당한 발전을 이루었을 수 있다고 한다. Q*는 초등학교 수준의 수학을 수행할 수 있는 능력을 갖고 있는 것으로 알려져 있으며, 이는 인공 일반 지능(AGI)을 향한 이정표로서의 잠재력에 대해 전문가들 사이에서 논의를 촉발시켰다. OpenAI는 이러한 보고서에 대해 언급하지 않았지만 Q*의 소문난 능력은 소셜 미디어와 AI 애호가들 사이에서 상당한 흥분과 추측을 불러일으켰다.
ChatGPT 및 GPT-4와 같은 기존 언어 모델은 일부 수학적 작업을 수행할 수 있지만 이를 안정적으로 처리하는 데 특별히 능숙하지 않기 때문에 Q*의 개발은 주목할 만하다. 문제는 AI 모델이 현재 딥 러닝과 변환기를 통해 패턴을 인식하는 것뿐만 아니라 추상적 개념을 추론하고 이해해야 한다는 것이다. 추론의 벤치마크인 수학에서는 AI가 여러 단계를 계획하고 실행하여 추상적 개념에 대한 깊은 이해를 보여주어야 한다. 이 능력은 AI 능력의 상당한 도약을 의미하며 잠재적으로 수학을 넘어 다른 복잡한 작업으로 확장될 것이다.
그러나 전문가들은 이러한 발전을 과대평가하지 말라고 경고한다. 수학 문제를 안정적으로 해결하는 AI 시스템은 인상적인 성과이겠지만, 이것이 반드시 초지능 AI나 AGI의 출현을 의미하는 것은 아니다. OpenAI의 노력을 포함한 현재 AI 연구는 보다 복잡한 작업에서 다양한 수준의 성공을 거두면서 기본적인 문제에 중점을 두었다.
Q*와 같은 잠재적인 응용 프로그램 발전은 맞춤형 개인 지도부터 과학 연구 및 엔지니어링 지원에 이르기까지 광범위하다. 그러나 기대치를 관리하고 이러한 발전과 관련된 한계와 안전 문제를 인식하는 것도 중요하다. OpenAI의 근본적인 우려인 AI가 실존적 위험을 초래한다는 우려는 여전히 유효하며, 특히 AI 시스템이 현실 세계와 더 많이 인터페이스하기 시작함에 따라 더욱 그렇다.
오픈 소스 LLM 운동
오픈 소스 LLM 연구를 활성화하기 위해 Meta는 Llama 시리즈 모델을 출시하여 Llama를 기반으로 한 새로운 개발의 물결을 촉발했다. 여기에는 Alpaca, Vicuna, Lima 및 WizardLM과 같은 지침 데이터로 미세 조정된 모델이 포함된다. 연구는 또한 Llama 기반 프레임워크 내에서 에이전트 기능, 논리적 추론 및 장기 컨텍스트 모델링을 향상시키는 방향으로 확장되고 있다.
또한 MPT, Falcon, XGen, Phi, Baichuan, Mistral, Grok 및 Yi와 같은 프로젝트를 통해 처음부터 강력한 LLM을 개발하는 추세가 증가하고 있다. 이러한 노력은 비공개 소스 LLM의 기능을 민주화하여 고급 AI 도구에 대한 접근성과 효율성을 높이려는 노력을 반영한다.
의료 분야에서 ChatGPT 및 오픈 소스 모델의 영향
우리는 LLM이 임상 메모 작성, 환급 양식 작성, 의사의 진단 및 치료 계획 지원을 지원하는 미래를 기대하고 있다. 이는 거대 기술 기업과 의료 기관 모두의 관심을 끌었다.
선도적인 전자 건강 기록 소프트웨어 제공업체인 Epic과 Microsoft가 논의한 것은 LLM을 의료 서비스에 통합하는 것을 의미한다. UC 샌디에고 헬스와 스탠포드 대학 메디컬 센터에서는 이미 이 계획을 시행하고 있다. 마찬가지로 Google과 Mayo Clinic의 파트너십 및 Amazon Web Services의 AI 임상 문서 서비스인 HealthScribe 출시는 이러한 방향에서 중요한 진전을 의미한다.
그러나 이러한 급속한 배치는 의료 통제권을 기업 이익에 양도하는 것에 대한 우려를 불러일으킨다. 이러한 LLM의 독점 특성으로 인해 평가가 어렵다. 수익성을 이유로 수정하거나 중단할 경우 환자 치료, 개인 정보 보호 및 안전이 손상될 수 있다.
의료 분야의 LLM 개발에 대한 개방적이고 포괄적인 접근 방식이 시급히 필요하다. 의료 기관, 연구원, 임상의 및 환자는 전 세계적으로 협력하여 의료용 오픈 소스 LLM을 구축해야 한다. 조 매개변수 컨소시엄(Trillion Parameter Consortium)과 유사한 이 접근 방식을 통해 계산, 재정 자원 및 전문 지식을 풀링할 수 있다.