우리가 세상을 경험하면서 우리의 감각(시각, 소리, 냄새)은 다양한 정보를 제공하고, 표정, 몸짓 등 다양한 의사소통 방식을 통해 자신을 표현한다. 이러한 감각과 의사소통 방법을 집합적으로 양상이라고 부르는데, 이는 우리가 인식하고 의사소통하는 다양한 방식을 나타낸다. 이러한 인간의 능력에서 영감을 얻어 텍스트, 이미지, 오디오와 같은 다양한 유형을 사용하여 콘텐츠를 이해하고 생성하기 위해 생성 AI와 멀티모달 AI의 조합인 LMM(대형 다중 모드 모델Large Multimodal Model)이 개발되고 있다.
LMM이 무엇인지, 어떻게 구성되는지, 기존 사례, 직면한 과제 및 잠재적 응용 프로그램을 탐색하면서 새로 떠오르는 분야를 탐구한다.
2024년 생성 AI의 진화: 대규모 언어 모델에서 대규모 다중 모드 모델로
McKinsey는 최신 보고서에서 2023년을 생성 AI의 획기적인 해로 지정하여 이 분야에서 많은 발전을 이루었다. 우리는 인간과 유사한 언어를 이해하고 생성하는 데 능숙한 LLM(대형 언어 모델)의 보급이 눈에 띄게 증가하는 것을 목격했다. 또한 이미지 생성 모델이 크게 발전하여 텍스트 프롬프트에서 시각적 개체를 생성하는 능력을 보여준다. 그러나 텍스트, 이미지, 오디오와 같은 개별 양식의 상당한 발전에도 불구하고 생성 AI는 생성 프로세스에서 이러한 양식을 원활하게 결합하는 데 어려움을 겪었다. 세상은 본질적으로 다중 모드이므로 AI가 다중 모드 정보를 처리하는 것이 중요하다. 이는 인간과의 의미 있는 참여와 실제 시나리오에서의 성공적인 운영에 필수적이다.
결과적으로, 많은 AI 연구자들은 2024년 AI 연구 개발의 차세대 개척지로 LMM이 부상할 것으로 예상하고 있다. 이 진화하는 개척지는 텍스트, 이미지, 오디오, 비디오 및 기타 형식에 걸쳐 다양한 출력을 처리하고 생성하기 위해 생성 AI의 용량을 향상시키는 데 중점을 둔다. 모든 다중 모드 시스템이 LMM의 자격을 갖춘 것은 아니라는 점을 강조하는 것이 중요하다. Midjourney 및 Stable Diffusion과 같은 모델은 다중 모드임에도 불구하고 주로 LMM의 기본 구성 요소인 LLM이 부족하기 때문에 LMM 범주에 적합하지 않다. 즉, LMM을 LLM의 확장으로 설명하여 다양한 양식을 능숙하게 처리할 수 있는 기능을 제공할 수 있다.
LMM은 어떻게 작동할까?
연구자들은 LMM 구성에 대한 다양한 접근 방식을 탐색했지만 일반적으로 세 가지 필수 구성 요소와 작업이 포함된다. 첫째, 각 데이터 양식에 대해 인코더를 사용하여 해당 양식에 특정한 데이터 표현(임베딩이라고 함)을 생성한다. 둘째, 다양한 양식의 임베딩을 통합된 다중 모드 임베딩 공간으로 정렬하기 위해 다양한 메커니즘이 사용된다. 셋째, 생성 모델의 경우 LLM을 사용하여 텍스트 응답을 생성한다. 입력은 텍스트, 이미지, 비디오 및 오디오로 구성될 수 있으므로 연구자들은 응답을 제공할 때 언어 모델이 다양한 양식을 고려하도록 하는 새로운 방법을 연구하고 있다.
2023년 LMM 개발
아래에서는 2023년에 개발된 주목할만한 LMM 중 일부를 간략하게 설명했다.
●LLaVA는 위스콘신 대학교 매디슨 캠퍼스, Microsoft Research, 컬럼비아 대학교가 공동으로 개발한 오픈 소스 LMM이다. 이 모델은 다중 모드 GPT4의 오픈 소스 버전을 제공하는 것을 목표로 한다. Meta의 Llama LLM을 활용하여 강력한 시각적 이해를 위해 CLIP 시각적 인코더를 통합한다. LLaVA-Med라고 하는 의료 중심의 LLaVa 변형은 생체 의학 이미지와 관련된 문의에 답변할 수 있다.
●ImageBind는 Meta에서 제작한 오픈 소스 모델로, 다중 모드 데이터를 연결하는 인간 인식 능력을 에뮬레이트한다. 이 모델은 텍스트, 이미지/비디오, 오디오, 3D 측정, 온도 데이터, 모션 데이터 등 6가지 양식을 통합하여 이러한 다양한 데이터 유형에 대한 통합 표현을 학습한다.
●ImageBind는 소리, 3D 모양, 온도 및 동작과 같은 속성을 사용하여 사진의 개체를 연결할 수 있다. 예를 들어, 모델을 사용하여 텍스트나 사운드에서 장면을 생성할 수 있다.
●SeamlessM4T는 다국어 커뮤니티 간의 의사소통을 촉진하기 위해 Meta가 설계한 다중 모드 모델이다. SeamlessM4T는 번역 및 전사 작업에 탁월하며 음성-음성, 음성-텍스트, 텍스트-음성 및 텍스트-텍스트 번역을 지원한다. 이 모델은 이러한 번역을 수행하기 위해 자동회귀가 아닌 텍스트-단위 디코더를 사용한다. 향상된 버전인 SeamlessM4T v2는 SeamlessExpressive 및 SeamlessStreaming과 같은 모델의 기반을 형성하여 언어 간 표현 보존을 강조하고 지연 시간을 최소화하면서 번역을 제공한다.
●OpenAI가 출시한 GPT4는 이전 버전인 GPT3.5의 발전된 버전이다. 자세한 아키텍처 세부 사항은 완전히 공개되지 않았지만 GPT4는 텍스트 전용, 비전 전용 및 오디오 전용 모델을 원활하게 통합하는 것으로 잘 알려져 있다. 모델은 서면 입력과 그래픽 입력 모두에서 텍스트를 생성할 수 있다. 이미지의 유머 설명, 스크린샷의 텍스트 요약, 다이어그램이 포함된 시험 문제에 대한 능숙한 응답 등 다양한 작업에 탁월하다. GPT4는 또한 광범위한 입력 데이터 형식을 효과적으로 처리하는 적응성으로도 인정받고 있다.
●Google DeepMind에서 만든 Gemini는 본질적으로 다중 모드라는 점에서 차별화되며 단일 모드 구성 요소를 서로 연결하지 않고도 다양한 작업에서 원활한 상호 작용을 허용한다. 이 모델은 텍스트와 다양한 시청각 입력을 모두 쉽게 관리하여 텍스트와 이미지 형식 모두로 출력을 생성하는 기능을 보여준다.
대규모 다중 모드 모델의 과제
●더 많은 데이터 형식 통합: 기존 LMM의 대부분은 텍스트와 이미지로 작동한다. 그러나 LMM은 텍스트와 이미지를 넘어 비디오, 음악, 3D와 같은 형식을 수용하도록 발전해야 한다.
●다양한 데이터 세트 가용성: 다중 모드 생성 AI 모델을 개발하고 교육하는 데 있어 주요 과제 중 하나는 여러 양식을 포함하는 크고 다양한 데이터 세트가 필요하다는 것이다. 예를 들어 텍스트와 이미지를 함께 생성하도록 모델을 교육하려면 데이터세트에 서로 관련된 텍스트와 이미지 입력이 모두 포함되어야 한다.
●다중 모드 출력 생성: LMM은 다중 모드 입력을 처리할 수 있지만 텍스트와 그래픽 또는 애니메이션을 결합하는 등 다양한 출력을 생성하는 것은 여전히 어려운 과제이다.
●지시 따르기: LMM은 단순한 완료를 넘어 대화와 지시에 따른 작업을 마스터해야 하는 과제에 직면한다.
●다중 모드 추론: 현재 LMM은 한 형식을 다른 형식으로 변환하는 데 탁월하지만 청각 지침을 기반으로 문어 문제 해결과 같은 복잡한 추론 작업을 위한 다중 모드 데이터의 원활한 통합은 여전히 어려운 작업으로 남아 있다.
●LMM 압축: LMM의 리소스 집약적 특성은 상당한 장애물을 야기하여 계산 리소스가 제한된 엣지 장치에서는 실용적이지 않다. LMM을 압축하여 효율성을 높이고 리소스가 제한된 장치에 배포하기에 적합하게 만드는 것은 지속적인 연구의 중요한 영역이다.
잠재적인 사용 사례
●교육: LMM은 텍스트, 이미지, 오디오를 결합한 다양하고 매력적인 학습 자료를 생성하여 교육을 변화시킬 수 있는 잠재력을 가지고 있다. LMM은 과제에 대한 포괄적인 피드백을 제공하고, 공동 학습 플랫폼을 촉진하며, 대화형 시뮬레이션과 실제 사례를 통해 기술 개발을 향상시킨다.
●의료: 단일 양식을 대상으로 하는 기존 AI 진단 시스템과 달리 LMM은 여러 양식을 통합하여 의료 진단을 개선한다. 또한 의료 서비스 제공자와 환자 간의 언어 장벽을 넘어 의사소통을 지원하며 병원 내 다양한 AI 애플리케이션을 위한 중앙 저장소 역할을 한다.
●예술 및 음악 세대: LMM은 독특하고 표현력이 풍부한 출력을 위해 다양한 양식을 결합하여 예술 및 음악 창작에 탁월할 수 있다. 예를 들어 예술 LMM은 시각적 요소와 청각적 요소를 혼합하여 몰입형 경험을 제공할 수 있다. 마찬가지로 음악 LMM은 악기와 보컬 요소를 통합하여 역동적이고 표현력이 풍부한 작곡을 만들 수 있다.
●맞춤형 추천: LMM은 다양한 양식에 걸쳐 사용자 선호도를 분석하여 영화, 음악, 기사, 제품 등 콘텐츠 소비에 대한 맞춤형 추천을 제공할 수 있다.
●날씨 예측 및 환경 모니터링: LMM은 위성 이미지, 대기 조건, 과거 패턴 등 다양한 양식의 데이터를 분석하여 날씨 예측 및 환경 모니터링의 정확성을 높일 수 있다.
결론
LMM(대형 다중 모드 모델)의 환경은 생성 AI의 획기적인 발전을 의미하며 다양한 분야의 발전을 약속한다. 이러한 모델은 텍스트, 이미지, 오디오와 같은 다양한 양식을 원활하게 통합하므로 이러한 모델의 개발은 의료, 교육, 예술 및 개인화된 권장 사항 분야에서 혁신적인 응용 프로그램을 제공할 수 있는 기회를 열어준다. 그러나 더 많은 데이터 양식을 수용하고 리소스 집약적인 모델을 압축하는 등의 과제는 LMM의 잠재력을 완전히 실현하는 데 필요한 지속적인 연구 노력을 강조한다.