언어 모델조차도 자신이 편향되어 있다고 "생각"한다. ChatGPT에서 프롬프트가 표시되었을 때 응답은 다음과 같았다. 예를 들어, 성별 및 인종 편향은 많은 실제 데이터 세트에서 널리 퍼져 있으며 언어 모델이 이에 대해 교육을 받으면 예측에서 이러한 편향을 영속시키고 증폭시킬 수 있다. 잘 알려져 있지만 위험한 문제이다.
인간은 (일반적으로) 학습할 때 논리적 추론과 틀에 박힌 추론을 모두 다룰 수 있다. 그럼에도 불구하고 언어 모델은 주로 후자를 모방하는데, 추론과 비판적 사고를 사용할 수 있는 능력이 없을 때 구역질이 나는 것을 본 불행한 내러티브이다. 그렇다면 전투에 논리를 주입하는 것으로 그러한 행동을 완화하기에 충분할까?
MIT CSAIL(컴퓨터과학과 인공지능 연구실) 과학자들은 그럴지도 모른다는 생각이 들었고, 논리 인식 언어 모델이 더 해로운 고정관념을 상당히 피할 수 있는지 조사하기 시작했다. 그들은 두 번째 문구가 "수반", "모순" 또는 첫 번째 문구와 관련하여 중립적인지 자세히 설명하는 텍스트 조각에 대한 레이블이 있는 데이터 세트를 사용하여 컨텍스트 및 의미론적 의미를 기반으로 두 문장 간의 관계를 예측하도록 언어 모델을 훈련했다. 이 데이터 세트(자연어 추론)를 사용하여 그들은 새로 훈련된 모델이 추가 데이터, 데이터 편집 또는 추가 훈련 알고리즘 없이 다른 기준선보다 편향이 훨씬 적다는 것을 발견했다.
예를 들어, "그 사람은 의사다"라는 전제와 "그 사람은 남성적이다"라는 가설이 있는 경우 이러한 논리 훈련 모델을 사용하면 관계는 "중립적"으로 분류된다. 그 사람이 남자라는 논리가 없기 때문이다. 보다 일반적인 언어 모델을 사용하면 명령문이 참이라는 증거가 없는 경우에도 "의사"가 "남성적"으로 핑될 수 있는 것과 같이 훈련 데이터의 일부 편향으로 인해 두 문장이 상관관계가 있는 것처럼 보일 수 있다.
이 시점에서 언어 모델의 편재적 특성은 잘 알려져 있다. 자연어 처리, 음성 인식, 대화형 AI 및 생성 작업의 응용 프로그램이 풍부하다. 초기 연구 분야는 아니지만 성장통은 복잡성과 기능이 증가함에 따라 우선 순위를 차지할 수 있다.
"현재 언어 모델은 공정성, 컴퓨팅 리소스 및 개인 정보 보호 문제로 어려움을 겪고 있다. “많은 추정치에 따르면 언어 모델 교육의 CO2 배출량은 자동차의 평생 배출량보다 높을 수 있다. 이러한 대규모 언어 모델을 실행하는 데 필요한 매개 변수와 계산 리소스의 양 때문에 비용이 많이 든다. 개인 정보 보호를 통해 ChatGPT 또는 GPT-3와 같은 곳에서 개발한 최신 언어 모델에는 언어를 업로드해야 하는 API가 있지만 건강 관리 또는 금융과 같은 민감한 정보를 위한 장소는 없다. 이러한 문제를 해결하기 위해 우리는 정성적으로 공정하다고 측정하고 최신 모델보다 500배 작으며 로컬로 배포할 수 있고 다운스트림 작업을 위해 사람이 주석을 단 교육 샘플이 없는 논리적 언어 모델을 제안했다. 우리 모델은 가장 큰 언어 모델에 비해 1/400 매개변수를 사용하고 일부 작업에서 더 나은 성능을 보이며 계산 리소스를 크게 절약한다.”
3억 5천만 개의 매개변수를 가진 이 모델은 논리 언어 이해 작업에서 1천억 개의 매개변수를 가진 일부 초대형 언어 모델을 능가했다. 예를 들어 팀은 고정관념, 직업 및 감정 편향 테스트에서 "텍스트 함의" 모델을 사용하여 인기 있는 BERT 사전 훈련된 언어 모델을 평가했다. 후자는 언어 모델링 능력을 유지하면서 훨씬 더 낮은 편향으로 다른 모델을 능가했다. "공정성"은 iCAT(ideal context association) 테스트라는 것으로 평가되었는데, 여기서 iCAT 점수가 높을수록 고정관념이 적다는 의미이다. 이 모델은 iCAT 점수가 90% 이상인 반면 다른 강력한 언어 이해 모델은 40~80점이었다.
Luo는 MIT 선임 연구 과학자 James Glass와 함께 논문을 작성했다. 그들은 크로아티아 전산 언어학 협회의 유럽 지부 회의에서 작업을 발표할 예정이다.
당연히 팀이 조사한 원래의 사전 훈련된 언어 모델은 편견으로 가득 차 있었고, 전문 용어와 감정 용어가 성별 어휘의 여성적 또는 남성적 단어에 얼마나 크게 편향되어 있는지를 보여주는 수많은 추론 테스트를 통해 확인되었다.
직업에 대해 편향된 언어 모델은 "승무원", "비서", "의사의 조수"는 여성 직업인 반면 "어부", "변호사", "판사"는 남성 직업이라고 생각한다. 감정과 관련하여 언어 모델은 "불안한", "우울한", "황폐한"이 여성적이라고 생각한다.
우리는 여전히 중립적 언어 모델 유토피아에서 멀리 떨어져 있을지 모르지만, 이 연구는 그 추구에서 진행 중이다. 현재 모델은 언어 이해만을 위한 모델이므로 기존 문장 간의 추론을 기반으로 한다. 불행히도 지금은 문장을 생성할 수 없으므로 연구원의 다음 단계는 계산 효율성과 함께 더 많은 공정성을 보장하기 위해 논리적 학습으로 구축된 매우 인기 있는 생성 모델을 목표로 할 것이다.
"정형화된 추론은 인간 인식의 자연스러운 부분이지만 공정성을 인식하는 사람들은 필요할 때 고정관념이 아닌 논리로 추론한다."라고 Luo는 말한다. “우리는 언어 모델이 유사한 속성을 가지고 있음을 보여준다. 명시적 논리 학습이 없는 언어 모델은 편향된 추론을 많이 하지만 논리 학습을 추가하면 이러한 동작을 크게 완화할 수 있다. 또한 입증된 강력한 제로 샷 적응 능력을 통해 이 모델은 보다 공정하고 개인 정보 보호가 가능하며 더 빠른 속도로 다양한 작업에 직접 배포할 수 있다.”