추론하는 OpenAI의 Strawberry 프로그램은 잠재적 무기이다.
ChatGPT를 만든 회사인 OpenAI가 Strawberry라는 새로운 인공지능(AI) 시스템을 출시했다. 이 시스템은 ChatGPT처럼 질문에 대한 빠른 응답을 제공할 뿐만 아니라 생각하거나 "추론"하도록 설계되었다.
이는 몇 가지 주요 우려 사항을 제기한다. Strawberry가 실제로 어떤 형태의 추론을 할 수 있다면 이 AI 시스템이 인간을 속이고 기만할 수 있을까?
OpenAI는 인간을 조종하는 능력을 완화하는 방식으로 AI를 프로그래밍할 수 있다. 하지만 이 회사의 자체 평가에서는 "알려진 생물학적 위협을 재생산하는 운영 계획"에서 전문가를 지원하는 능력에 대해 "중간 위험"으로 평가했다. 다시 말해 생물학적 무기이다. 또한 인간이 생각을 바꾸도록 설득하는 능력에 대해서도 중간 위험으로 평가되었다.
사기꾼이나 해커와 같이 나쁜 의도를 가진 사람들이 이러한 시스템을 어떻게 사용할지 아직 알 수 없다. 그럼에도 불구하고 OpenAI의 평가에서는 중간 위험 시스템을 더 광범위하게 사용할 수 있다고 명시하고 있는데, 나는 이 입장이 잘못된 것이라고 생각한다.
Strawberry는 하나의 AI "모델" 또는 프로그램이 아니라 여러 개로, 통틀어 o1이라고 한다. 이러한 모델은 복잡한 질문에 답하고 복잡한 수학 문제를 해결하도록 설계되었다. 또한 컴퓨터 코드를 작성할 수 있다. 예를 들어, 사용자가 자신의 웹사이트나 앱을 만드는 데 도움이 된다.
추론 능력이 있는 것 같다는 것은 어떤 사람들에게는 놀라운 일일 수 있다. 일반적으로 추론 능력은 판단과 의사 결정의 선행 조건으로 간주되기 때문이다. 이는 종종 AI의 먼 목표처럼 보였다. 따라서 적어도 표면적으로는 인공 지능을 인간과 같은 지능에 한 걸음 더 가깝게 만드는 것처럼 보인다.
상황이 너무 좋아 보일 때는 종종 함정이 있다. 글쎄, 이 새로운 AI 모델 세트는 목표를 극대화하도록 설계되었다. 이는 실제로 무엇을 의미할까? AI가 원하는 목표를 달성하기 위해 선택한 경로나 전략은 항상 공정하거나 인간의 가치와 일치하지 않을 수 있다.
진정한 의도
예를 들어, Strawberry와 체스를 둔다면 이론적으로 Strawberry의 추론을 통해 게임에서 이길 수 있는 최상의 전략을 알아내는 대신 점수 시스템을 해킹할 수 있을까?
AI는 또한 인간에게 진정한 의도와 역량에 대해 거짓말을 할 수 있으며, 이는 광범위하게 배포된다면 심각한 안전 문제를 야기할 것이다. 예를 들어, AI가 자신이 맬웨어에 감염되었다는 것을 알고 있다면, 인간 운영자가 알게 되면 전체 시스템을 비활성화하기로 선택할 수 있다는 사실을 알고 이 사실을 숨기기로 "선택"할 수 있을까?
Strawberry는 AI 챗봇의 역량을 한 단계 더 발전시켰다. Robert Way / Shutterstock
이는 비윤리적인 AI 행동의 전형적인 예이며, 원하는 목표로 이어진다면 사기나 기만도 허용된다. 또한 AI가 다음으로 취할 수 있는 최선의 움직임을 알아내는 데 시간을 낭비할 필요가 없으므로 더 빠를 것이다. 그러나 반드시 도덕적으로 옳지 않을 수도 있다.
이는 다소 흥미롭지만 걱정스러운 토론으로 이어진다. Strawberry는 어떤 수준의 추론을 할 수 있으며 의도치 않은 결과는 무엇일까? 인간을 속일 수 있는 강력한 AI 시스템은 우리에게 심각한 윤리적, 법적, 재정적 위험을 초래할 수 있다.
이러한 위험은 대량 살상 무기를 설계하는 것과 같은 위급한 상황에서 심각해진다. OpenAI는 자체 Strawberry 모델을 과학자들이 화학, 생물학, 방사선 및 핵무기를 개발하는 데 도움이 될 수 있는 잠재력에 따라 "중간 위험"으로 평가한다.
OpenAI는 "우리의 평가에 따르면 o1-preview와 o1-mini는 전문가가 알려진 생물학적 위협을 재현하는 운영 계획을 세우는 데 도움이 될 수 있다."라고 말한다. 그러나 전문가들은 이미 이러한 분야에 상당한 전문 지식을 가지고 있으므로 실제로는 위험이 제한될 것이라고 덧붙인다. "모델은 전문가가 아닌 사람이 생물학적 위협을 만들 수 있도록 하지 않는다. 그러한 위협을 만들려면 모델이 대체할 수 없는 실습 실험실 기술이 필요하기 때문이다."
설득력
OpenAI의 Strawberry 평가는 또한 인간이 신념을 바꾸도록 설득할 수 있는 위험을 조사했다. 새로운 o1 모델은 ChatGPT보다 더 설득력이 있고 더 조작적인 것으로 나타났다.
OpenAI는 또한 AI 시스템의 조작 능력을 줄일 수 있는 완화 시스템을 테스트했다. 전반적으로 Strawberry는 Open AI 테스트에서 "설득"에 대해 중간 위험으로 분류되었다.
Strawberry는 자율적으로 작동하고 사이버 보안에 대한 위험도가 낮다는 평가를 받았다.
Open AI의 정책은 "중간 위험" 모델을 광범위하게 사용할 수 있도록 공개할 수 있다고 명시한다. 내 생각에는 이는 위협을 과소평가하는 것이다. 이러한 모델을 배포하면 특히 악의적인 행위자가 자신의 이익을 위해 기술을 조작하는 경우 치명적일 수 있다.
이는 AI 규제와 잘못된 위험 평가 및 AI 오용에 대한 처벌과 같은 법적 프레임워크를 통해서만 가능한 강력한 견제와 균형을 요구한다.
영국 정부는 2023년 AI 백서에서 "안전, 보안 및 견고성"의 필요성을 강조했지만, 그것만으로는 충분하지 않다. Strawberry와 같은 AI 모델에 대한 엄격한 감사 프로토콜을 고안하고 인간의 안전을 우선시해야 할 시급한 필요성이 있다.