GPT-4와 같은 AI 시스템은 이제 인간의 언어를 배우고 사용할 수 있지만 천문학적인 양의 언어 입력을 통해 학습한다. 이는 어린이가 언어를 이해하고 말하는 방법을 배울 때 받는 것보다 훨씬 더 많은 양이다. 최고의 AI 시스템은 수조 단어 수의 텍스트를 훈련하는 반면 어린이는 연간 수백만 달러만 받는다.
이러한 엄청난 데이터 격차로 인해 연구자들은 최근 AI의 발전이 인간의 학습과 발달에 대해 많은 것을 말해 줄 수 있다는 것에 회의적이었다. 연결을 입증하기 위한 이상적인 테스트에는 웹의 대규모 데이터가 아닌 한 명의 어린이가 받는 입력만을 대상으로 AI 모델을 교육하는 것이 포함된다. 그러면 모델은 무엇을 학습할 수 있을까?
한 연구팀이 이 정확한 실험을 진행했다. 그들은 아이가 6개월부터 두 번째 생일까지 녹화한 헤드캠 비디오를 사용하여 한 아이의 눈과 귀를 통해 다중 모드 AI 시스템을 훈련했다. 그들은 AI 모델이 어린이의 일상 경험에 존재하는 단어와 개념을 학습할 수 있는지 조사했다.
사이언스(Science) 저널에 보고된 그들의 연구 결과는 모델, 즉 신경망이 실제로 어린이가 경험한 것의 제한된 부분을 사용하여 상당한 수의 단어와 개념을 학습할 수 있음을 보여주었다. 즉, 영상은 아이가 깨어 있는 시간의 1% 정도만을 포착했지만, 진정한 언어 학습에는 충분했다.
뉴욕대학교 데이터 과학 센터의 연구 과학자이고논문의 첫 번째 저자 와이 킨 봉(Wai Keen Vong)은 "우리는 한 어린이의 발달적으로 현실적인 입력을 통해 훈련된 신경망이 단어를 시각적 대응물과 연결하는 방법을 배울 수 있다는 것을 처음으로 보여주었다."라고 말했다. "우리의 결과는 한 어린이의 자연스러운 경험과 결합된 최근의 알고리즘 발전이 초기 언어 및 개념 습득에 대한 우리의 이해를 어떻게 바꿀 수 있는지를 보여준다."
“AI 모델을 사용하여 아이들이 직면한 실제 언어 학습 문제를 연구함으로써 아이들이 단어를 배우기 위해 어떤 요소가 필요한지, 즉 언어 관련 편견이 필요한지, 타고난 지식이 필요한지, 아니면 단순한 연관 학습이 필요한지에 대한 고전적인 논쟁을 해결할 수 있다."라고 데이터 과학 및 심리학 센터의 조교수이자 논문의 수석 저자인 브렌든 레이크(Brenden Lake)가 덧붙였다. “우리는 일반적으로 생각하는 것보다 학습만 하면 더 많은 것을 얻을 수 있는 것 같다.”
연구자들은 60시간 이상의 영상을 사용하여 6개월부터 25개월까지 매주 가벼운 머리 장착형 카메라를 통해 1인칭 비디오로 캡처된 어린이의 학습 과정을 분석했다. 영상에는 약 25만 개의 단어 인스턴스(즉, 전달된 단어의 수, 그 중 많은 단어가 반복적으로 반복됨)가 포함되어 있으며 해당 단어를 말할 때 어린이가 본 내용의 비디오 프레임과 연결되어 있으며 다양한 활동이 포함되어 있다. 식사 시간, 책 읽기, 아이 놀기 등 발달에 도움이 된다.
그런 다음 연구원들은 두 개의 별도 모듈을 사용하여 다중 모드 신경망을 훈련시켰다. 하나는 단일 비디오 프레임(비전 인코더)을 받아들이고 다른 하나는 전사된 어린이 대상 음성(언어 인코더)을 받아들이는 것이다. 이 두 인코더는 유용한 입력 기능과 교차 모달 연관성을 학습하는 것을 목표로 하는 대조 학습이라는 알고리즘을 사용하여 결합되고 훈련되었다. 예를 들어, 부모가 아이의 관점에서 무언가를 말할 때, 사용된 단어 중 일부는 아이가 볼 수 있는 것을 언급할 가능성이 높다. 즉, 시각적 신호와 언어적 단서를 연결하여 이해력이 주입된다는 의이다.
봉은 “이는 어떤 단어가 어떤 객체와 연관되어야 하는지에 대한 단서를 모델에 제공한다.”고 설명한다. "이러한 단서를 결합하면 대조 학습을 통해 어떤 단어가 어떤 시각적 요소에 속하는지 점차적으로 결정하고 어린이의 첫 단어 학습을 포착할 수 있다."
모델을 훈련한 후 연구자들은 유아의 단어 학습을 측정하는 데 사용되는 것과 동일한 종류의 평가를 사용하여 모델을 테스트했다. 모델에 대상 단어와 4가지 서로 다른 이미지 옵션 배열을 제시하고 대상 단어와 일치하는 이미지를 선택하도록 요청했다. 그 결과, 모델은 어린이의 일상 경험에 존재하는 상당수의 단어와 개념을 학습할 수 있는 것으로 나타났다. 또한 모델이 학습한 일부 단어의 경우 훈련에서 볼 수 있는 것과 매우 다른 시각적 인스턴스로 일반화할 수 있으며, 이는 실험실에서 테스트할 때 어린이에게서도 볼 수 있는 일반화 측면을 반영한다.
"이러한 발견은 단어 학습의 이러한 측면이 신경망에서 발견되는 것과 같은 상대적으로 일반적인 학습 메커니즘을 사용하면서 아이들이 받는 일종의 자연주의적 데이터로부터 실현 가능하다는 것을 시사한다."고 레이크는 말한다.
출처: 뉴욕대학교