1950년 영국의 컴퓨터 과학자 앨런 튜링(Alan Turing)은 '기계가 생각할 수 있는가?'라는 질문에 답하기 위한 실험적 방법을 제안했다. 그는 만약 인간이 5분 동안 질문을 한 후에도 자신이 인공 지능(AI) 기계와 대화하고 있는지 아니면 다른 인간과 대화하고 있는지 알 수 없다면 이는 AI가 인간과 같은 지능을 가지고 있음을 보여줄 것이라고 제안했다.
비록 AI 시스템이 튜링의 생애 동안 테스트를 통과하기에는 아직 멀었지만 그는 추측했다:
“약 50년 후에는 일반 심문관이 5분 동안 질문한 후 올바른 신원을 확인할 확률이 70% 이하가 될 정도로 모방 게임을 잘 수행하도록 컴퓨터를 프로그래밍하는 것이 가능해질 것이다”
튜링의 제안 이후 70년이 지난 오늘날, 그가 설명한 특정 조건을 충족하여 테스트를 성공적으로 통과한 AI는 없다. 그럼에도 불구하고 일부 헤드라인에서 알 수 있듯이 몇몇 시스템은 상당히 근접했다.
최근 한 실험에서는 GPT-4(ChatGPT의 AI 기술)를 포함한 세 가지 대규모 언어 모델을 테스트했다. 참가자들은 다른 사람이나 AI 시스템과 2분 동안 채팅을 했다. AI는 작은 철자 실수를 저지르고 테스터가 너무 공격적이 되면 종료하라는 메시지를 받았다.
이러한 메시지를 통해 AI는 테스터를 속이는 일을 훌륭하게 수행했다. AI 봇과 결합했을 때 테스터는 자신이 AI 시스템과 대화하고 있는지 여부를 60%만 정확하게 추측할 수 있었다.
자연어 처리 시스템 설계의 급속한 발전을 고려할 때 AI가 향후 몇 년 내에 튜링의 원래 테스트를 통과하는 것을 볼 수 있다.
하지만 인간을 모방하는 것이 실제로 지능에 대한 효과적인 테스트일까? 그렇지 않다면 AI의 능력을 측정하기 위해 사용할 수 있는 대체 벤치마크는 무엇일까?
튜링 테스트의 한계
튜링 테스트를 통과한 시스템은 그것이 지능적이라는 증거를 제공하지만, 이 테스트가 지능에 대한 결정적인 테스트는 아니다. 한 가지 문제는 "거짓 부정"을 생성할 수 있다는 것이다.
오늘날의 대규모 언어 모델은 자신이 인간이 아니라고 즉시 선언하도록 설계되는 경우가 많다. 예를 들어, ChatGPT에 질문을 하면 답변 앞에 "AI 언어 모델로서"라는 문구가 붙는 경우가 많다. AI 시스템이 튜링 테스트를 통과할 수 있는 기본 능력을 갖고 있다고 하더라도 이런 종류의 프로그래밍은 그 능력을 무시할 것이다.
또한 이 테스트는 특정 종류의 "오탐지" 위험이 있다. 철학자 네드 블록(Ned Block)이 1981년 기사에서 지적했듯이 시스템은 가능한 입력에 대해 인간과 유사한 응답으로 하드 코딩되기만 하면 튜링 테스트를 통과할 수 있다.
그 외에도 튜링 테스트는 특히 인간의 인지에 중점을 둔다. AI 인지가 인간 인지와 다르다면, 전문 질문자는 AI와 인간의 성능이 다른 어떤 작업을 찾을 수 있을 것이다.
이 문제에 관해 튜링은 다음과 같이 썼다:
이 반대는 매우 강력한 것이지만, 그럼에도 불구하고 모방 게임을 만족스럽게 플레이할 수 있는 기계를 만들 수 있다면 우리는 이 반대에 대해 걱정할 필요가 없다고 말할 수 있다.
즉, 튜링 테스트를 통과하는 것은 시스템이 지능적이라는 좋은 증거이지만, 튜링 테스트를 통과하지 못한다면 시스템이 지능적이지 않다는 좋은 증거는 아니다.
게다가 이 테스트는 AI가 의식이 있는지, 고통과 쾌락을 느낄 수 있는지, 도덕적 의미가 있는지를 가늠하는 좋은 척도가 아니다. 많은 인지 과학자들에 따르면, 의식에는 작업 기억, 고차원적 사고, 환경을 인지하고 신체가 주변에서 움직이는 방식을 모델링하는 능력 등 특정 정신 능력 클러스터가 포함된다.
튜링 테스트는 AI 시스템에 이러한 능력이 있는지 여부에 대한 질문에 답하지 않는다.
AI의 성장하는 능력
튜링 테스트는 특정 논리를 기반으로 한다. 즉, 인간은 지능적이므로 인간을 효과적으로 모방할 수 있는 모든 것은 지능적일 가능성이 높다.
하지만 이 아이디어는 지능의 본질에 대해 아무 것도 알려주지 않는다. AI의 지능을 측정하는 다른 방법은 지능이 무엇인지에 대해 보다 비판적으로 생각하는 것이다.
현재 인공지능이나 인간지능을 확실하게 측정할 수 있는 단일 테스트는 없다.
가장 넓은 수준에서 우리는 지능을 다양한 환경에서 다양한 목표를 달성할 수 있는 능력으로 생각할 수 있다. 보다 지능적인 시스템은 더 넓은 범위의 환경에서 더 넓은 범위의 목표를 달성할 수 있는 시스템이다.
따라서 범용 AI 시스템 설계의 발전을 추적하는 가장 좋은 방법은 다양한 작업 전반에 걸쳐 성능을 평가하는 것이다. 머신러닝 연구자들은 이를 수행하는 다양한 벤치마크를 개발했다.
예를 들어, GPT-4는 대규모 멀티태스킹 언어 이해에 관한 질문의 86%에 정확하게 답할 수 있었다. 이는 다양한 대학 수준의 학문 과목에 대한 객관식 시험의 성과를 측정하는 벤치마크이다.
또한 웹 검색, 온라인 제품 구매, 게임 경쟁 등을 통해 에이전트 역할을 하는 대규모 언어 모델의 능력을 측정할 수 있는 도구인 AgentBench에서도 좋은 점수를 받았다.
튜링 테스트는 여전히 유효할까?
튜링 테스트는 인간의 행동을 시뮬레이션하는 AI의 능력을 모방하는 척도이다. 대규모 언어 모델은 전문 모방자로서 현재 튜링 테스트를 통과할 수 있는 잠재력이 반영되고 있다. 그러나 지능은 모방과 동일하지 않다.
달성해야 할 목표만큼 많은 유형의 지능이 있다. AI의 지능을 이해하는 가장 좋은 방법은 다양한 중요한 기능을 개발하는 과정을 모니터링하는 것이다.
동시에 AI가 지능적인지 여부에 대한 질문에 관해서는 계속해서 "골대를 변경"하지 않는 것이 중요하다. AI의 능력이 빠르게 향상되고 있기 때문에 AI 지능에 대한 비판자들은 AI 시스템이 완료하기 어려울 수 있는 새로운 작업을 끊임없이 찾고 있지만, 결국에는 또 다른 장애물을 뛰어넘었다.
이 설정에서 관련 질문은 AI 시스템이 지능적인지 여부가 아니라 더 정확하게는 어떤 종류의 지능을 가질 수 있는지이다.