휴머노이드 로봇의 현주소: 가정용 로봇 사용이 수십년 후에나 사용가능 할까?
최근 테슬라 시연에서 걷고, 말하고, 춤추는 옵티머스 로봇은 엄청난 흥분을 불러일으켰다. 하지만 많은 일이 실제로 인간이 원격으로 제어하고 있다는 것이 분명해지면서 실망으로 바뀌었다.
이것이 미래에 대한 매혹적인 엿보기일 수 있지만, 로봇이 너무나 좋아서 사실이 아닌 것으로 밝혀진 것은 처음이 아니다.
예를 들어, 텍사스에 있는 Hanson Robotics가 2016년에 만든 로봇인 소피아를 살펴보겠다. 이 회사는 그녀를 본질적으로 지적인 존재로 소개했고, 수많은 기술 전문가들은 당시 우리의 능력을 훨씬 넘어선다고 지적했다.
마찬가지로 우리는 Boston Dynamics의 Atlas gymnastics, 영국산 Ameca 로봇 "깨어남", 그리고 가장 최근에는 공장에서 테슬라의 옵티머스와 같은 미리 각본이 짜여 진 액션 시퀀스의 신중하게 안무된 비디오를 보았다. 분명히 이것들은 다른 면에서 여전히 인상적이지만, 완전한 지각적 패키지에는 전혀 미치지 못한다. 옵티머스나 아틀라스를 아무 집에나 풀어놓으면 아주 다른 모습을 볼 수 있을 것이다.
우리 집에서 일할 수 있는 휴머노이드 로봇은 도구를 사용하고, 주변 환경을 탐색하고, 사람처럼 우리와 소통하는 등 다양한 작업을 수행할 수 있어야 한다. 이것이 1~2년 후면 가능할 것이라고 생각했다면 실망하게 될 것이다.
우리 집과 거리에서 상호작용하고 복잡한 작업을 수행할 수 있는 로봇을 만드는 것은 여전히 엄청난 도전이다. 문을 여는 것과 같은 하나의 특정 작업을 잘 수행하도록 설계하는 것조차 엄청나게 어렵다.
모양, 무게, 재료가 다른 문 손잡이가 너무 많고, 잠긴 문이나 길을 막는 물체와 같은 예상치 못한 상황을 처리하는 복잡성은 말할 것도 없다. 개발자들은 실제로 문을 여는 로봇을 만들었지만, 수백 가지 일상 작업을 처리할 수 있는 로봇은 아직 먼 훗날의 일이다.
커튼 뒤
테슬라 시연의 "오즈의 마법사" 원격 작동 기술은 이 분야에서 일반적으로 사용되는 제어 방법으로, 연구자들에게 실제 발전을 테스트할 수 있는 벤치마크를 제공한다. 원격 측정 제어로 알려진 이 기술은 꽤 오랫동안 존재해 왔으며 점점 더 발전하고 있다.
이 기사의 저자 중 한 명인 칼 스트라테언(Carl Strathearn)은 올해 초 일본에서 열린 한 컨퍼런스에 참석했는데, 최고 로봇 연구실의 기조 연설자가 고급 원격 측정 시스템을 시연했다. 이 시스템을 사용하면 한 사람이 미리 작성된 동작, 대화 프롬프트 및 컴퓨터화 된 음성을 사용하여 여러 휴머노이드 로봇을 동시에 반자율적으로 작동할 수 있다.
분명히 이것은 매우 유용한 기술이다. 원격 측정 시스템은 위험한 환경, 장애인 의료 및 우주에서 일하는 로봇을 제어하는 데 사용된다. 그러나 인간이 여전히 지휘권을 잡고 있는 이유는 Atlas와 같은 가장 진보된 휴머노이드 로봇조차도 아직 현실 세계에서 완전히 독립적으로 작동할 만큼 신뢰할 수 없기 때문이다.
또 다른 주요 문제는 사회적 AI라고 부를 수 있는 것이다. DeepMind의 Gemini와 OpenAI의 GPT-4 Vision과 같은 선도적인 생성 AI 프로그램은 미래의 휴머노이드 로봇을 위한 창의적인 자율 AI 시스템의 기반이 될 수 있다. 하지만 이러한 모델이 로봇이 이제 현실 세계에서 잘 기능할 수 있다는 것을 의미한다고 오해해서는 안 된다.
인간처럼 정보를 해석하고 문제를 해결하려면 단순히 단어를 인식하고, 사물을 분류하고, 음성을 생성하는 것 이상이 필요하다. 사람, 사물, 환경에 대한 더 깊은 맥락적 이해, 즉 상식이 필요하다.
현재 가능한 것을 탐구하기 위해 우리는 최근 상식 강화 언어 및 시각(Common Sense Enhanced Language and Vision(CiViL))이라는 연구 프로젝트를 완료했다. 우리는 사람들이 요리법을 준비하는 것을 돕기 위해 생성 AI 비전 및 언어 시스템의 일부로 유클리드(Euclid)라는 로봇에 상식적 지식을 제공했다. 이를 위해 학생들이 수행한 실제 문제 해결 사례를 사용하여 상식적 지식 데이터베이스를 만들어야 했다.
유클리드는 요리법의 복잡한 단계를 설명하고, 일이 잘못되었을 때 제안을 하고, 심지어 주방에서 일반적으로 주방 기구와 도구를 찾을 수 있는 위치를 사람들에게 알려줄 수 있었다. 그러나 누군가가 요리하는 동안 심한 알레르기 반응을 보일 경우 어떻게 해야 하는지와 같은 문제가 여전히 있었다. 문제는 모든 가능한 시나리오를 처리하는 것이 거의 불가능하다는 것이다. 그러나 그것이 진정한 상식이다.
AI의 이러한 근본적인 측면은 수년에 걸쳐 인간형 로봇에서 다소 사라졌다. 생성된 음성, 사실적인 얼굴 표정, 원격 측정 제어, 심지어 "가위바위보"와 같은 게임을 할 수 있는 능력은 모두 인상적이다. 그러나 로봇이 실제로 스스로 유용한 일을 할 수 없다면 참신함은 곧 사라진다.
이는 자율적인 휴머노이드 로봇에 대한 상당한 진전이 이루어지지 않는다는 것을 의미하지 않는다. 예를 들어 로봇에 학습을 위한 더 많은 감각을 제공하기 위해 로봇 신경계에 대한 인상적인 작업이 진행 중이다. 그저 큰 공개만큼 언론의 주목을 받지 못할 뿐이다.
데이터 부족
또 다른 주요 과제는 AI 시스템을 훈련할 실제 세계 데이터가 부족하다는 것이다. 온라인 데이터는 항상 로봇을 충분히 잘 훈련하는 데 필요한 실제 세계 조건을 정확하게 나타내지 못하기 때문이다. 우리는 아직 좋은 결과를 얻을 만큼 충분히 많은 양의 실제 세계 데이터를 수집하는 효과적인 방법을 찾지 못했다. 그러나 Alexa 및 Meta Ray-Bans와 같은 기술에서 액세스할 수 있다면 이는 곧 바뀔 수 있다.
그럼에도 불구하고 현실은 우리가 집안일을 도울 수 있는 고급 소셜 AI를 갖춘 멀티모달 휴머노이드 로봇을 개발하기까지는 아직 수십 년이 걸릴 것이다. 그동안 명령 센터에서 원격으로 제어되는 로봇이 제공될 수도 있다. 하지만 우리는 그것을 원할까?
한편, 지금 당장 도움이 필요한 사람들을 지원할 수 있는 역할을 위한 로봇을 만드는 데 노력을 집중하는 것이 더 중요하다. 예를 들어, 대기자 명단이 길고 병원 인력이 부족한 의료 분야와 지나치게 불안해하거나 중증인 어린이가 원격으로 교실에 참여할 수 있는 방법을 제공하는 교육 분야가 있다. 또한 모든 사람이 사실과 허구를 구별하고 로봇이 결국 도착할 때 대중의 신뢰를 구축할 수 있도록 더 나은 투명성, 법률 및 공개적으로 이용 가능한 테스트가 필요하다.
글쓴이: 칼 스트라테언(Carl Strathearn), 에든버러 네이피어 대학교 컴퓨팅 연구원 및 디미트라 그카치아, 에든버러 네이피어 대학교 컴퓨팅 부교수