광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
로고

[MindPlex-대규모 언어 모델이 미래 단어를 예측한다] 인간은 말할 때 미리 생각하고 다가오는 언어 입력을 놀랄 만큼 정확하게 예측하는 능력으로 유명하다. 대규모 언어 모델(LLM)도 인간과 유사한 예측을 보여준다.

https://magazine.mindplex.ai/how-large-language-models-anticipate-future-words/

운영자 | 기사입력 2024/07/17 [00:00]

[MindPlex-대규모 언어 모델이 미래 단어를 예측한다] 인간은 말할 때 미리 생각하고 다가오는 언어 입력을 놀랄 만큼 정확하게 예측하는 능력으로 유명하다. 대규모 언어 모델(LLM)도 인간과 유사한 예측을 보여준다.

https://magazine.mindplex.ai/how-large-language-models-anticipate-future-words/

운영자 | 입력 : 2024/07/17 [00:00]

 

대규모 언어 모델이 미래 단어를 예측한다.

 

최근 연구에서는 이 흥미로운 질문을 탐구하여 변환기 언어 모델이 사전에 정보를 준비하는 이유에 대한 두 가지 잠재적인 설명인 사전 캐싱과 이동 경로를 발견했다.

사전 캐싱에는 즉시 필요하지는 않지만 향후 단계에 유용할 것으로 입증되는 현재 시간 단계의 모델 컴퓨팅 기능이 포함된다반대로 이동 경로는 현재 시간 단계에서 가장 관련성이 높은 기능이 본질적으로 미래 추론에 도움이 된다는 것을 암시한다.

 

이러한 가설을 테스트하기 위해 연구자들은 언어 모델이 과거 시간 단계의 기울기를 고려하지 못하도록 제한하는 "근시안적 훈련"을 수행했다합성 데이터 설정에서 사전 캐싱에 대한 명확한 증거가 나타났다이는 성공적인 모델이 다음 단어에 대한 정보를 미리 준비한다는 것을 나타낸다그러나 자동회귀 언어 모델링 실험에서는 탐색경로 가설이 더 적용 가능한 것으로 나타났으며이는 모든 시간 단계의 관련 기능이 자연스럽게 향후 추론에 도움이 된다는 것을 시사한다.

사전 캐싱 및 이동 경로의 실제 사례

사전 캐싱(Pre-caching)

간단한 산술 문제의 데이터세트로 훈련된 언어 모델을 생각해 보자. "2 + 3 =" 입력이 주어지면 모델은 "5"가 되어야 하는 다음 토큰을 예측해야 한다이 경우 모델은 "=" 기호를 보기 전에도 "2 + 3" "5"가 된다는 정보를 미리 캐시한다여기서 모델은 중간 연산 결과를 미리 계산하고 저장하므로 전체 방정식이 제시되면 정답을 예측할 수 있다이러한 사전 캐싱 동작은 특정 향후 결과를 준비해야 하는 합성 데이터 설정에서 매우 중요하다.

 

활동 기록

이제 뉴스 기사와 같은 자연어 텍스트에 대해 훈련된 언어 모델을 고려해 보겠다모델이 “오늘 주식시장은 투자자들이 신경제정책에 대한 신뢰를 보임에 따라 큰 상승세를 보였다라는 문장을 처리할 때, “신경제를 읽은 후 다음 단어인 “정책을 예측해야 할 수도 있다여기서는 이동 경로 가설이 작용한다모델은 현재 단어와 이전 단어의 컨텍스트를 사용하여 정보에 입각한 예측을 내린다. '새롭다', '경제적'과 관련된 특징은 모두 같은 맥락에 관련되어 있기 때문에 의도적인 준비 없이 '정책'을 예측하는 데 당연히 유리하다.

 

산술 예제에서 모델은 현재 입력을 기반으로 특정 미래 결과를 준비해야 하기 때문에 사전 캐싱의 이점을 얻는다이와 대조적으로뉴스 기사 예는 현재 시간 단계의 관련 기능(: " "경제적")이 추가 사전 계산 없이 미래 예측(: "정책")에 본질적으로 도움이 되는 탐색경로 가설을 보여준다.

 

결론

경사하강법을 수행할 때 모델 매개변수에 대한 예상 손실 경사의 대각선 외 항은 한 위치의 가중치가 미래 위치의 예측에 어떻게 영향을 미치는지 보여준다이러한 통찰은 근시 모델이 미래 모델보다 즉각적인 예측을 우선시하는 근시 모델과 비근시 모델 간의 차이를 뒷받침한다.

 

이 연구는 변환기가 자연어 설정에서 합성 작업에서 사전 캐시 정보를 수행하는 동안 고의적인 준비 없이 현재 및 미래 토큰과 관련된 기능을 사용하여 이동 경로 가설에 따라 작동할 가능성이 높다는 증거를 제공한다이러한 이해는 언어 모델이 언어 입력을 처리하고 예측하는 방법에 대한 이해를 향상시켜 인간과 인공 인지 과정 사이의 놀라운 유사점을 이끌어낸다.

 

 

 

 
인공지능, AI, 대규모 언어모델, LLM, 단어 예측 관련기사목록
광고
광고
광고
광고
광고
광고
광고
AI메타홈서비스 많이 본 기사
최신기사
광고
광고