광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
로고

[메타(Meta)의 코코넛(COCONUT): 언어 없이 생각하는 AI 방법] COCONUT은 AI 시스템이 추론할 수 있는 방식에 대한 근본적인 재고를 나타내며, 보다 자연스럽고 효율적이며 강력한 형태의 인공지능에 더 가까이 다가간다. 언어 기반 추론에서 지속적인 사고로의 여정은 보다 유능하고 효율적인 AI 시스템을 향한 한 걸음이다.

https://www.unite.ai/metas-coconut-the-ai-method-that-thinks-without-language/

운영자 | 기사입력 2024/12/18 [00:00]

[메타(Meta)의 코코넛(COCONUT): 언어 없이 생각하는 AI 방법] COCONUT은 AI 시스템이 추론할 수 있는 방식에 대한 근본적인 재고를 나타내며, 보다 자연스럽고 효율적이며 강력한 형태의 인공지능에 더 가까이 다가간다. 언어 기반 추론에서 지속적인 사고로의 여정은 보다 유능하고 효율적인 AI 시스템을 향한 한 걸음이다.

https://www.unite.ai/metas-coconut-the-ai-method-that-thinks-without-language/

운영자 | 입력 : 2024/12/18 [00:00]

 

메타(Meta)의 코코넛(COCONUT)

 

연구자들이 처음으로 대규모 언어 모델(LLM)이 사고의 사슬을 통해 단계별로 "생각"할 수 있다는 것을 발견했을 때그것은 획기적인 순간이었다마침내 우리는 이 블랙박스의 추론 과정을 들여다볼 수 있었다하지만 AI 모델을 자연어로 생각하게 만드는 것이 AI를 방해할 수 있다고 말한다면 어떨까?

 

Meta와 UC 샌디에이고의 연구자들이 새로운 COCONUT(연속적 생각의 사슬 Chain of Continuous Thought) 방법을 통해 이를 밝혀냈다.

모든 단계를 큰 소리로 설명해야 하는 상황에서 복잡한 수학 문제를 풀려고 한다고 상상해보자짜증나는가이제 언어 모델이 직면한 핵심 과제를 이해하는 데 가까워지고 있다.

 

AI 모델이 자연어로 추론하게 만들 때:

●그들이 생성하는 대부분의 토큰은 단지 언어적 접착제일 뿐이다. "따라서", "다음", "결과적으로"와 같은 단어는 추론 가치를 전혀 추가하지 않는다.

●중요한 결정 지점은 특정 단어에 전념해야 하기 때문에 병목 현상이 발생한다.

●모델은 실제 문제 해결보다는 문법적 일관성을 유지하는 데 상당한 계산 노력을 기울인다.

 

연구자들은 신경 영상 연구에서 흥미로운 점을 발견했다인간이 복잡한 추론 과제를 처리할 때 우리 뇌의 언어 센터는 종종 놀라울 정도로 조용하다그러나 우리는 반대로 모든 추론 단계를 단어로 번역하도록 강요하는 AI 시스템을 구축해 왔다.

 

퍼즐을 푸는 방법을 생각해 보라여러분의 마음은 아마도 여러 가능성을 동시에 탐색하고모호한 가설을 유지하고해결책을 공유할 때만 생각을 언어로 결정화할 것이다하지만 기존의 사고의 사슬 방식은 AI 모델이 모든 중간 단계를 말로 표현하도록 강요하여 "언어적 병목 현상"을 만든다.

 

이러한 통찰력은 설득력 있는 질문으로 이어졌다. AI 모델이 모든 것을 토큰으로 번역하도록 강요하는 대신 숨겨진 상태의 연속적이고 고차원적인 공간인 모국어로 추론하도록 할 수 있다면 어떨까?

 

COCONUT의 혁신 이해하기

생각을 소리 내어 말하는 것과 뇌에서 실제로 일어나는 정신적 과정의 차이를 상상해 보자말로 표현된 생각과 신경 활동 사이의 그 격차는 바로 Meta의 연구자들이 COCONUT을 통해 찾아낸 것이다.

 

COCONUT의 진정한 돌파구는 AI 모델이 인간과 매우 비슷하게 두 가지 다른 방식으로 생각할 수 있게 하는 것이다복잡한 퍼즐을 풀 때를 생각해 보라.

머릿속에서 가능한 모든 움직임을 설명하지 않지 않은가대신 다음과 같이 한다:

●문제 흡수정보를 흡수한다(퍼즐 규칙을 읽는 것과 같음)

조용히 생각하기뇌는 말로 표현하지 않고도 여러 가능성을 탐구한다.

해결책 공유그런 다음에야 다른 사람에게 생각을 설명한다.

 

COCONUT AI 모델에 이와 동일한 자연스러운 유연성을 제공한다모든 생각을 소리 내어 "말하도록강요하는 대신(기존 방식처럼), 자연스러운 신경 공간에서 생각하게 한다연구자들은 이를 "잠재 공간"이라고 부른다.

 

이 모델은 두 가지 모드 사이를 원활하게 전환한다:

질문을 이해하거나 답변을 제공해야 할 때는 일반 언어를 사용한다.

하지만 실제 사고 과정은단어의 제약에서 자유로운 순수한 신경 패턴을 사용한다.

 

훈련 여정

COCONUT의 가장 매혹적인 측면 중 하나는 훈련 커리큘럼이다이 커리큘럼을 특별하게 만드는 것은 자연스러운 학습 진행을 반영하는 방식이다복잡한 기술을 가르치는 방식을 생각해 보자누군가를 즉시 깊은 곳으로 던지지 않는다점진적으로 구축하고 각 레벨을 마스터하면서 복잡성을 추가한다.

 

연구자들은 COCONUT에서 정확히 이 접근 방식을 취했다:

1단계기초

먼저모델은 다른 AI와 마찬가지로 전통적인 사고의 사슬 추론을 통해 학습한다이를 통해 견고한 기본 이해를 제공한다.

 

2단계전환

여기서 흥미로운 점이 생긴다점차적으로작성된 추론 단계가 지속적인 생각으로 대체된다천천히 훈련 바퀴를 제거하고 모델이 자체적인 내부 사고 패턴을 개발하도록 하는 것을 상상해 보자.

 

3단계균형

마지막으로모델은 잠재 공간에서 깊은 사고와 명확한 언어로 통찰력을 전달하는 것을 원활하게 전환하는 법을 배운다.

훈련하는 동안 모델은 여러 추론 경로를 동시에 고려하는 것과 같이 아무도 명시적으로 프로그래밍하지 않은 능력을 개발했다이러한 새로운 행동은 우리가 보다 자연스러운 형태의 AI 추론에 가까워지고 있음을 시사하기 때문에 특히 흥미롭다이러한 예상치 못한 발전이 종종 가장 큰 돌파구로 이어진다.

 

앞서 언급한 신경 영상 연구를 기억하는가그 연구는 인간의 뇌가 언어 센터를 크게 활용하지 않고도 복잡한 추론 작업을 처리하는 경우가 많다는 것을 보여주었다. COCONUT도 유사한 패턴을 개발하는 듯하다본래의 신경 공간에서 깊이 생각하고 의사 소통에 필요할 때만 언어로 전환한다.

 

숫자가 말해주는 이야기

연구에서 몇 가지 주요 결과가 더 두드러진다.

●수학 단어 문제(GSM8k): 이 경우 COCONUT 34.1%의 정확도를 달성했다이는 기존의 생각의 사슬(Chain-of-Thought)(42.9%)보다 낮지만 기준 접근 방식보다 상당히 우수하다.

●논리적 추론(ProntoQA): COCONUT 99.8%의 정확도를 달성하여 기존의 생각의 사슬(Chain-of-Thought) 98.8%를 앞지른다하지만 중요한 점은 CoT 92.5에 비해 9개의 토큰만 사용하여 이를 달성했다는 것이다.

●복합 계획(ProsQA): 가장 인상적인 결과는 이 고급 추론 테스트에서 나왔다. COCONUT 97%의 정확도를 달성한 반면 기존 방법은 77.5%에 불과했다그리고 다시 말하지만, COCONUT은 놀라운 효율성으로 이를 달성했습니다. 14.2개의 토큰 대 49.4개의 토큰이다.

 

이러한 결과를 유망하게 만드는 것은 단순한 숫자가 아니라 다양한 유형의 사고에 대해 보여주는 것이다. COCONUT은 아직 수학적 추론에 기반을 두고 있지만 복잡한 논리적 계획과 추론이 필요한 작업에서는 뛰어나다.

 

 

 

 

 

 
메타(Meta), 대규모 언어 모델(LLM), 코코넛(COCONUT) 관련기사목록
광고
광고
광고
광고
광고
광고
광고
AI메타홈서비스 많이 본 기사
최신기사
광고
광고