GPT-4와 같은 현재의 대형 언어 모델은 행동과 그 맥락에 대한 텍스트 설명을 통해 현대 상식 도덕 표준에 따라 행동의 "선함"을 평가하는 데 탁월한 성능을 발휘한다. 그들은 또한 서로 다른 지향을 가진 사람들이 행동의 윤리적 질을 어떻게 다르게 평가할 수 있는지 상상하는 일을 훌륭하게 수행한다.
오늘날의 LLM은 AGI와는 거리가 멀기 때문에 이는 윤리적 추론이 AGI에서 가장 어려운 문제 중 하나가 아니라는 것을 의미한다. 이는 거대한 텍스트 코퍼스에 설명된 표준을 바탕으로 LLM을 추론하여 AGI 이전에 해결할 수 있다.
이것이 AGI 윤리 문제가 완전히 해결되었다는 의미는 아니다. 문제 중 하나는 현재 LLM이 복잡한 실제 상황에서 윤리적 행동을 결정하는 데 필요한 논리적 추론이 부족하다는 것이다. 윤리적 판단을 속이기 위해 고안된 적대적 공격에 얼마나 취약할 수 있는지는 확실하지 않다. 그러나 AGI 시스템을 인간의 가치에 맞추는 것은 일부 사람들이 생각하는 것만큼 멀거나 신비스럽지 않은 것 같다.
우리는 AGI가 인류가 특정 시점에 보유하고 있는 정확한 가치를 노예처럼 모방하기를 반드시 원하지는 않는다. 그러나 AGI가 인간의 가치가 무엇인지, 그리고 그것이 상황에 어떻게 적용되는지에 대한 적절한 지식을 갖는 것은 확실히 좋은 일이다. 오늘날의 LLM은 이미 여러 면에서 그렇게 하고 있기 때문에 실현 가능하다.
어떤 문제가 쉬운지 어려운지를 아는 것은 어려운 문제이다.
AI의 역사를 통틀어 어떤 문제가 해결하기 더 쉬울지, 어떤 문제가 더 어려울지는 불분명한 경우가 많았다. 전문가들은 이에 대해 종종 잘못된 추측을 했다. 그들은 왜 이런 오류를 범하는 걸까? 때때로 그들은 AI가 생각하는 인간과 얼마나 다른지 과소평가한다. 때때로 그들은 인간의 마음이 기능(예: 걷기)을 수행하는 데 가하는 복잡한 무의식적 작업의 양을 잘못 평가했다.
전형적인 예: 1950년대와 60년대의 많은 AI 연구자들은 AI가 대수학 문제를 해결하거나 체스를 두는 것이 아이처럼 상식적인 질문에 대답하게 하거나 로봇이 거리를 걸을 때 제어하도록 만드는 것보다 더 어려울 것이라고 생각했다. 이해할 수 있다. 체스와 대수학은 우리에게 길을 걸어가는 것보다 더 어려워 보인다. 정상적인 성인에게는 훨씬 더 의식적인 인지 노력이 필요하다. 그러나 연구자들은 도시 거리를 이동할 때 마음과 몸이 무의식적으로 발휘하는 광대한 지능을 간과했다. AI가 체스를 푸는 것의 어려움을 과대평가한 이유는 무엇일까? 왜냐하면 그들은 인간의 두뇌가 작동하는 방식(게임 트리 검색 경험적 방법과 같은)과 매우 다른 인지 알고리즘의 힘을 인식하지 못했기 때문이다.
보다 최근의 예: 연구원들은 기본적인 자율주행차가 작동하면 완전한 인간 수준의 자율주행이 가까워질 것이라고 생각했다. 사람의 경우 기본 운전이 숙달되면 더 높은 전문 지식을 향해 나아가는 것이 그리 어렵지 않으며, 습득해야 할 추가 기술은 간단하고 조금씩 자신의 레퍼토리에 추가될 수 있다. 현재 AI 시스템의 경우 기본 운전 행동은 달성하기가 그리 어렵지 않지만 기본에서 완전히 적절한 운전 행동으로 나아가는 것은 여러 가지 이상한 작은 문제를 해결하기 위한 오랜 노력이다. AI는 과적합으로 인해 어려움을 겪는다. 그들은 훈련에 엄격하게 집착하는 방식으로 기본 운전을 수행한다. 대조적으로, 인간은 새로운 상황에 새로운 종류의 사고를 가져온다. 그리고 기본 운전에서 고급 운전으로 이동할 때 인간은 운전하지 않는 상황에서 배운 일상적인 지식을 사용한다.
일상적인 인간 가치 판단의 복잡하고 매우 특별해 보이는 성격과 AI가 이해할 수 있는 방식으로 인간 가치 체계를 공식화하는 어려움에 대해 많은 땀을 흘렸다. 의무론적 논리(deontic logic)와 같은 연구 분야는 인간 윤리를 형식화하기 위한 올바른 논리 시스템을 찾는 데 전념하고 있지만, 이러한 분야에서는 거의 진전이 없었다.
'이해'는 미묘한 용어이며 인간의 가치 체계를 완전히 이해하는 것이 AGI-어려운 것이 아니라고 주장하고 싶지 않다. 그러나 현대 LLM의 출현 이후 분명해진 것은 매우 다양한 실제적인 일상적인 인간 상황에 대한 인간의 윤리적 판단을 모방하고 예측하는 것이 기본적으로 해결된 문제라는 것이다.
지난 몇 년간의 연구에 따르면 LLM은 다양한 시나리오에서 인간의 윤리적 판단을 모방하는 데 효과적이다. 내 동료 중 일부는 윤리적 진술의 유용한 소스에 특별한 방식으로 GPT-4를 적용하는 보다 체계적인 연구를 수행해 왔다. 우리는 출판을 위해 이 연구를 작성하는 것을 고려하고 있다. 하지만 지금은 좀 더 일화적인 방식으로 같은 요점을 탐구하고 싶다.
오늘날의 LLM은 어떤 면에서는 똑똑하고 다른 면에서는 멍청하다. 예를 들어 과학에서 필요한 순차적 논리적 추론에는 형편없다. 그러나 일상적인 상황에서 옳고 그름을 판단하는 데에는 이것이 필요하지 않은 것 같다(정부 정책 제안과 같은 복잡한 것의 윤리적 의미를 이해하는 것은 필요하다). 주어진 상황을 과거 상황의 대규모 데이터 세트와 비교하고 새로운 상황을 판단한다. 훈련 데이터에서 – 이것은 윤리적 판단을 위한 작업을 완료하는 것으로 보인다. 인간 윤리는 어떤 면에서는 깊지만 이를 수행하는 데 필요한 추론 나무의 깊이는 아니다.
이런 의미에서 윤리가 그토록 간단하다면 왜 때로는 우리에게 그렇게 어렵게 느껴질까?
그 중 일부는 문화와 성격 전반에 걸쳐 인간 가치의 상대성과 다양성이다. 그러나 나는 우리가 원할 때 OK를 분류하는 방법을 실제로 알고 있다고 주장한다. 대부분의 문화와 사람들에게 어떤 가치가 공통적으로 적용되는지(가족에 대한 사랑, 아기와 노인에 대한 민감성, 고통에 대한 연민, 신뢰 네트워크의 중요성 등)는 대부분의 사람들에게 매우 분명하다. LLM이 공식적인 신경망에서 다양한 상황과 관점을 평균화하는 것처럼 개인 경험 데이터 세트가 ChatGPT와 다른 방식으로 풍부하더라도 생물학적 신경망에서도 이를 수행할 수 있다.
나는 사람들이 일반적으로 "준보편적" 인간 가치와 그들의 문화 가치에 따라 주어진 상황에서 무엇이 옳고 그른지에 대한 직관적인 감각을 가지고 있다고 주장하고 싶다. 문제는 그들이 자신의 이익(또는 부족의 이익)을 위해 이러한 도덕적 직관을 무시하는 경우가 많다는 것이다. 윤리는 사람들에게 어려운 일이다. 주로 사람들이 갖고 있는 다른 동기와 충돌하기 때문이다. 실제로 인지적 측면에서 사람들(또는 현대 LLM)에게는 어렵지 않다.
AI가 기본적인 운전 이상의 일을 하게 하는 문제를 기억하시는가? 그들은 훈련 데이터에 과적합되어 새로운 상황을 처리할 수 없다. LLM은 인간처럼 인간의 윤리적 판단을 완전히 다른 시나리오로 추론할 수 없을 것이다. 그러나 매우 전례 없는 상황에 처했을 때 인간의 행동은 윤리적으로든 다른 방식으로든 변덕스럽고 예측하기 어렵다. 그리고 인간의 삶 중 극소수만이 갑자기 인류의 경험 기반에서 크게 벗어나는 시나리오로 구성된다. 현대의 경험은 석기시대나 중세시대의 경험과 크게 다르지만, 이는 점차적으로 발생하여 전년도의 경험에 기초한 판단이 일관되게 약간만 어긋나는 경향이 있었다.
전체적으로 초기 AI가 윤리적으로 행동하도록 하는 데 따른 주요 문제는 인간 행동을 둘러싼 문제와 동일한 문제일 수 있다. 오히려 초기 단계 AGI를 윤리적 가치의 영향력과 제작자의 자기 이익 또는 부족 이익 사이에서 균형을 유지하는 것이다. 그리고 AGI가 우리의 정확한 현재 상태(또는 그 일부)와 일치하기를 원하는 정도와 우리와 함께 새로운 것, 더 높은 것으로 함께 진화하기를 원하는 정도를 결정하는 매우 어려운 문제가 있다. 이것은 AI가 일상적인 인간의 가치판단과 기본적으로 일치하는 것이 아니라 다양한 인간 문화와 성격에 따라 달라지는 문제가 아니라 고려해야 할 문제이다. 일부 사람들이 예상했던 당혹스러운 차단제가 아니다.
인간의 윤리적 판단을 모방하는 것은 분명히 어려운 문제가 아니다.
LLM은 강력하고 흥미롭고 지저분하며 매우 제한적이다. LLM은 다음과 같은 특징을 가지고 있는 것으로 나타났다:
●일상의 윤리적 상황을 질적으로 탐구하고 이러한 상황에 대해 윤리적 판단을 내리는 데 있어서 본질적으로 인간과 유사한 수행
●서로 다른 가치 체계 편견과 성격 프로필을 가진 사람들이 어떻게 윤리적 판단을 내리는지 알아내는 데 있어 본질적으로 인간과 유사한 성능
●여러 사고 단계를 포함하는 논리적 추론을 수행하는 능력이 상당히 낮다.
●윤리와 논리 및 의사결정이 혼합된 복잡한 상황을 이해하는 데 있어 다소 인상적인 이해와 실망스럽고 기본적인 통찰력 부족을 불규칙하게 수행한다.
●적대적인 프롬프트/상황으로 LLM의 윤리 감각을 속일 수 있는 가능성에 대한 명확성이 부족하다(그리고 이러한 공격을 방어하기 위해 신경 기호 시스템과 같은 아키텍처 혁신이 필요할 수 있는지 여부).
결론: LLM은 기본적으로 일상적인 상황에 대한 일상적인 판단에서 인간의 성과를 모방하는 데 능숙하며... 이러한 판단을 특이점 이후 시나리오와 같은 새롭고 익숙하지 않은 영역으로 추정하는 데 능숙하다.
아직 해야 할 일이 많고 연구 측면에서 탐구할 수 있는 방법도 다양하지만 내가 보기에는 상황이 정말 희망적으로 보인다. 초기 단계 AGI는 현대 인류의 공통 가치(또는 이러한 공통 가치에 대한 특정 관점)에 맞춰 조정될 수 있다. 인간 가치 체계의 지저분하고 복잡한 성격은 결국 큰 장애물이 아닐 수도 있다.
적대적 윤리 공격에 대비하여 강화된 ChatGPT 유형 시스템은 이 AGI 시스템이 ChatGPT와 상당히 다른 방식으로 설계되었더라도 인간 세계에서 작동하는 AGI 시스템에 대한 일종의 '윤리 컨설턴트' 역할을 할 수 있을 것 같다.
군사, 간첩, 착취 광고 또는 적대적 금융 응용 프로그램과 같은 이기적인 부족주의 목적을 위해 초기 단계 AGI를 사용하는 것은 일반적인 인간 활동의 범위에 있다.
그러나 그것은 또한 사람들이 일반적으로 윤리적 행동이라고 생각하는 것에서 벗어난다. 이러한 매우 인간적인 상호 작용 방식은 AGI의 추가된 인지 능력으로 증폭될 때 많은 해를 끼칠 가능성이 있다. 그러나 그러한 피해가 발생한다면, 범인은 AI가 인간의 가치 체계를 이해하지 못하는 것도, AI가 이러한 인간의 가치를 근본적으로 반대하는 결정도 아닐 것이다. 그리고 자비로운 방법). 우리는 초인적인 AGI가 인간의 가치와 일치하지 않을 것이라는 점을 배제할 수 없다.
그러나 인간이 이기적인 이유로 고의로 윤리적 규범에서 벗어나고 초기 단계 AGI를 이러한 편차로 끌어들이는 훨씬 더 명확하고 현재의 위험(실제로는 거의 확실성)이 있다.
개인적으로 나는 특히 첨단 AGI 시스템이 2020년대 인류의 가치 체계를 영원히 모방하는 것을 원하지 않는다. 인간의 가치 체계는 그래야 하는 것처럼 끊임없이 진화하고 있다. AGI 가치 시스템도 개방적으로 진화해야 한다. 그러나 나는 AGI 시스템이 주어진 상황에 대해 현재의 가치 시스템이 무엇을 말하는지 아는 것이 중요하다고 생각한다. “일상적인 인간 윤리 근거 진실”의 원천이 존재한다고 해서 AGI 윤리의 모든 문제가 해결되는 것은 아니지만 강력하고 긍정적인 요소임은 분명하다.