[메타(Meta)의 코코넛(COCONUT): 언어 없이 생각하는 AI 방법] COCONUT은 AI 시스템이 추론할 수 있는 방식에 대한 근본적인 재고를 나타내며, 보다 자연스럽고 효율적이며 강력한 형태의 인공지능에 더 가까이 다가간다. 언어 기반 추론에서 지속적인 사고로의 여정은 보다 유능하고 효율적인 AI 시스템을 향한 한 걸음이다.https://www.unite.ai/metas-coconut-the-ai-method-that-thinks-without-language/
메타(Meta)의 코코넛(COCONUT)
연구자들이 처음으로 대규모 언어 모델(LLM)이 사고의 사슬을 통해 단계별로 "생각"할 수 있다는 것을 발견했을 때, 그것은 획기적인 순간이었다. 마침내 우리는 이 블랙박스의 추론 과정을 들여다볼 수 있었다. 하지만 AI 모델을 자연어로 생각하게 만드는 것이 AI를 방해할 수 있다고 말한다면 어떨까?
Meta와 UC 샌디에이고의 연구자들이 새로운 COCONUT(연속적 생각의 사슬 Chain of Continuous Thought) 방법을 통해 이를 밝혀냈다. 모든 단계를 큰 소리로 설명해야 하는 상황에서 복잡한 수학 문제를 풀려고 한다고 상상해보자. 짜증나는가? 이제 언어 모델이 직면한 핵심 과제를 이해하는 데 가까워지고 있다.
AI 모델이 자연어로 추론하게 만들 때: ●그들이 생성하는 대부분의 토큰은 단지 언어적 접착제일 뿐이다. "따라서", "다음", "결과적으로"와 같은 단어는 추론 가치를 전혀 추가하지 않는다. ●중요한 결정 지점은 특정 단어에 전념해야 하기 때문에 병목 현상이 발생한다. ●모델은 실제 문제 해결보다는 문법적 일관성을 유지하는 데 상당한 계산 노력을 기울인다.
연구자들은 신경 영상 연구에서 흥미로운 점을 발견했다. 인간이 복잡한 추론 과제를 처리할 때 우리 뇌의 언어 센터는 종종 놀라울 정도로 조용하다. 그러나 우리는 반대로 모든 추론 단계를 단어로 번역하도록 강요하는 AI 시스템을 구축해 왔다.
퍼즐을 푸는 방법을 생각해 보라. 여러분의 마음은 아마도 여러 가능성을 동시에 탐색하고, 모호한 가설을 유지하고, 해결책을 공유할 때만 생각을 언어로 결정화할 것이다. 하지만 기존의 사고의 사슬 방식은 AI 모델이 모든 중간 단계를 말로 표현하도록 강요하여 "언어적 병목 현상"을 만든다.
이러한 통찰력은 설득력 있는 질문으로 이어졌다. AI 모델이 모든 것을 토큰으로 번역하도록 강요하는 대신 숨겨진 상태의 연속적이고 고차원적인 공간인 모국어로 추론하도록 할 수 있다면 어떨까?
COCONUT의 혁신 이해하기 생각을 소리 내어 말하는 것과 뇌에서 실제로 일어나는 정신적 과정의 차이를 상상해 보자. 말로 표현된 생각과 신경 활동 사이의 그 격차는 바로 Meta의 연구자들이 COCONUT을 통해 찾아낸 것이다.
COCONUT의 진정한 돌파구는 AI 모델이 인간과 매우 비슷하게 두 가지 다른 방식으로 생각할 수 있게 하는 것이다. 복잡한 퍼즐을 풀 때를 생각해 보라. 머릿속에서 가능한 모든 움직임을 설명하지 않지 않은가? 대신 다음과 같이 한다: ●문제 흡수: 정보를 흡수한다(퍼즐 규칙을 읽는 것과 같음) ●조용히 생각하기: 뇌는 말로 표현하지 않고도 여러 가능성을 탐구한다. ●해결책 공유: 그런 다음에야 다른 사람에게 생각을 설명한다.
COCONUT은 AI 모델에 이와 동일한 자연스러운 유연성을 제공한다. 모든 생각을 소리 내어 "말하도록" 강요하는 대신(기존 방식처럼), 자연스러운 신경 공간에서 생각하게 한다. 연구자들은 이를 "잠재 공간"이라고 부른다.
이 모델은 두 가지 모드 사이를 원활하게 전환한다: ●질문을 이해하거나 답변을 제공해야 할 때는 일반 언어를 사용한다. ●하지만 실제 사고 과정은? 단어의 제약에서 자유로운 순수한 신경 패턴을 사용한다.
훈련 여정 COCONUT의 가장 매혹적인 측면 중 하나는 훈련 커리큘럼이다. 이 커리큘럼을 특별하게 만드는 것은 자연스러운 학습 진행을 반영하는 방식이다. 복잡한 기술을 가르치는 방식을 생각해 보자. 누군가를 즉시 깊은 곳으로 던지지 않는다. 점진적으로 구축하고 각 레벨을 마스터하면서 복잡성을 추가한다.
연구자들은 COCONUT에서 정확히 이 접근 방식을 취했다: 1단계: 기초 먼저, 모델은 다른 AI와 마찬가지로 전통적인 사고의 사슬 추론을 통해 학습한다. 이를 통해 견고한 기본 이해를 제공한다.
2단계: 전환 여기서 흥미로운 점이 생긴다. 점차적으로, 작성된 추론 단계가 지속적인 생각으로 대체된다. 천천히 훈련 바퀴를 제거하고 모델이 자체적인 내부 사고 패턴을 개발하도록 하는 것을 상상해 보자.
3단계: 균형 마지막으로, 모델은 잠재 공간에서 깊은 사고와 명확한 언어로 통찰력을 전달하는 것을 원활하게 전환하는 법을 배운다. 훈련하는 동안 모델은 여러 추론 경로를 동시에 고려하는 것과 같이 아무도 명시적으로 프로그래밍하지 않은 능력을 개발했다. 이러한 새로운 행동은 우리가 보다 자연스러운 형태의 AI 추론에 가까워지고 있음을 시사하기 때문에 특히 흥미롭다. 이러한 예상치 못한 발전이 종종 가장 큰 돌파구로 이어진다.
앞서 언급한 신경 영상 연구를 기억하는가? 그 연구는 인간의 뇌가 언어 센터를 크게 활용하지 않고도 복잡한 추론 작업을 처리하는 경우가 많다는 것을 보여주었다. COCONUT도 유사한 패턴을 개발하는 듯하다. 본래의 신경 공간에서 깊이 생각하고 의사 소통에 필요할 때만 언어로 전환한다.
숫자가 말해주는 이야기 연구에서 몇 가지 주요 결과가 더 두드러진다. ●수학 단어 문제(GSM8k): 이 경우 COCONUT은 34.1%의 정확도를 달성했다. 이는 기존의 생각의 사슬(Chain-of-Thought)(42.9%)보다 낮지만 기준 접근 방식보다 상당히 우수하다. ●논리적 추론(ProntoQA): COCONUT은 99.8%의 정확도를 달성하여 기존의 생각의 사슬(Chain-of-Thought)의 98.8%를 앞지른다. 하지만 중요한 점은 CoT의 92.5에 비해 9개의 토큰만 사용하여 이를 달성했다는 것이다. ●복합 계획(ProsQA): 가장 인상적인 결과는 이 고급 추론 테스트에서 나왔다. COCONUT은 97%의 정확도를 달성한 반면 기존 방법은 77.5%에 불과했다. 그리고 다시 말하지만, COCONUT은 놀라운 효율성으로 이를 달성했습니다. 14.2개의 토큰 대 49.4개의 토큰이다.
이러한 결과를 유망하게 만드는 것은 단순한 숫자가 아니라 다양한 유형의 사고에 대해 보여주는 것이다. COCONUT은 아직 수학적 추론에 기반을 두고 있지만 복잡한 논리적 계획과 추론이 필요한 작업에서는 뛰어나다.
<저작권자 ⓒ 사단법인 유엔미래포럼 무단전재 및 재배포 금지>
메타(Meta), 대규모 언어 모델(LLM), 코코넛(COCONUT) 관련기사목록
|
많이 본 기사
AI메타홈서비스 많이 본 기사
최신기사
|