개념 공간의 2차원 투영. 각 포인트는 어휘의 개념 토큰에 해당한다. 포인트는 개념 유형에 따라 색상이 지정되며 각 지역은 개념 공간의 여러 부분을 자세히 볼 수 있도록 제공한다(제공: Germans Savcisens et al., arXiv)
연구자들은 개인의 성격부터 사망률까지 국가 전체에 걸쳐 모든 것을 예측하기 위해 건강 이력, 교육, 직업, 소득과 같은 일련의 생활 사건을 사용하는 AI 모델을 만들었다.
ChatGPT와 같은 대규모 언어 모델(LLM)을 지원하는 변환기 모델을 사용하여 구축된 새로운 도구인 life2vec은 덴마크 전체 인구(600만 명)에서 가져온 데이터 세트에 대해 교육을 받았다. 데이터 세트는 덴마크 정부에 의해 연구원들에게 제공되었다.
이 도구는 최첨단 모델을 능가하는 정확도로 미래를 예측할 수 있으며, 컴퓨터 과학 교수인 티나 엘리아시-라드(Tina Eliassi-Rad)와 보스턴 노스이스턴 대학의 초대 회장 조셉 E. 아운(Joseph E. Aoun) 교수는 이렇게 말한다.
독특한 인간 중심 모델
최근 Nature Computational Science에 발표된 논문의 수석 저자인 첸루 두안(Chenru Duan)은 "우리는 이러한 모델이 얼마나 좋은지 평가하기 위해 예측을 사용하고 있지만 실제 사람에 대한 예측에 이 도구를 사용해서는 안 된다"고 말한다.
“특정 모집단의 특정 데이터 세트를 기반으로 한 예측 모델이다. 이러한 도구를 사용하면 정책, 규칙 및 규정과 같은 다른 방식으로 사회를 볼 수 있다. 현장에서 벌어지고 있는 일을 스캔한 것이라고 생각하시면 된다.”
이 도구를 구축하는 과정에 사회 과학자를 참여시킴으로써 팀은 AI 개발에 대한 인간 중심 접근 방식을 제공하기를 희망한다. 이는 도구가 훈련된 방대한 데이터 세트 속에서 인간을 놓치지 않는 접근 방식이다.
기밀 훈련 데이터
life2vec 모델을 훈련하기 위해 대규모 데이터 세트가 사용되었다. 이 데이터는 덴마크 통계의 중앙 기관인 덴마크 통계청에 의해 보관되며 모든 덴마크 시민의 상세한 등록이 포함되어 있기 때문에 엄격하게 통제된다. 연구원에 따르면 엄격하게 규제되지만 연구원을 포함한 일부 대중이 접근할 수 있다.
연구원들은 이 모델이 이러한 도구의 힘과 도구를 어떻게 사용해야 하는지(그리고 사용해서는 안 되는지)에 대한 공개 대화를 시작할 수 있기를 바라고 있다.