유영재 연세대학교 인공지능대학원 교수
아침 출근길에서 5년 안에 이런 일상이 오겠구나 상상을 해보곤 한다. 자율주행 자동차에 올라타 운전 스트레스를 잊고 목적지로 향한다. 차 안에서 회의 자료를 검토하고, 뒷좌석에선 아이들이 메타버스 세상에서 양탄자를 타고 피라미드를 관람한다.
집안일 역시 점차 우리의 손을 떠나 휴머노이드 로봇의 몫이 되어간다. 마트에서 장을 보고 돌아와 식재료 정리를 맡기고, 매일 아침 들르는 카페에서는 키오스크 혹은 로봇이 나를 인식해 밝게 인사하고, 내가 입은 재킷과 핸드백 색감, 감정 등을 분석해 내 취향과 기분에 맞는 음료를 추천한다.
얼핏 막연해 보이는 이런 상상은 의외로 실현 가능성이 낮지 않다. 그리고 이 모든 것을 가능하게 하는 것이 바로 텍스트, 이미지, 음성 등 서로 다른 형태의 데이터를 통합해 처리하는 멀티모달 AI(Multimodal AI)다. 최근 전 세계 AI 업계가 주목하는 멀티모달 LLM(대규모 언어모델, Large Language Model) 군비 경쟁은 다양한 형태의 데이터를 하나의 맥락을 엮어, AI가 더욱 인간적으로 자연스럽게 상호작용하는 데 집중하고 있다.
멀티모달 기반 엔진 선보이는 빅테크 기업들
이전까지의 LLM은 주로 텍스트 기반으로 발전해 왔으며, 챗GPT로 대표되는 이러한 텍스트 기반 LLM은 이미 우리 생활 속 곳곳에 스며들었다. 그리고 이제는 시각, 청각, 위치, 촉각까지 아우르는 융합적 단계로 진입하고 있다. 다음은 다양한 감각을 체화하는 Embodied AI(물리적 실체를 갖고 현실 세상에서 상호작용하는 AI)로 가고 있다. 오픈AI, 마이크로소프트, 앤트로픽, 아마존, 구글, 메타, 마이크로소프트, xAI 등 글로벌 빅테크 기업들은 앞다투어 멀티모달 기반 엔진을 선보이고 있으며, 이미지 캡션 생성, 음성 인식, 행동 계획 등을 한꺼번에 처리하여 인간에 가까운 종합적 이해와 추론 능력에 도전한다.
예를 들어, 구글 딥마인드(DeepMind)의 Gemini 모델이나 오픈AI의 GPT-4는 단순한 텍스트 이해를 넘어, 이미지 분석 및 음성 처리 기능을 결합하며 멀티모달 시대를 주도하고 있다. 멀티모달을 앞세운 OpneiAI의 GPT4 Omni 모델과 Google IO 2024 Project Astra, Gemini의 데모는 하루 차이로 희비가 갈리고, 연말까지 매일 새로운 기술을 발표하겠다는 샘 올트먼의 예고는 연구자로서 간담이 서늘할 정도다.
멀티모달은 무엇을 할 수 있나
이 기술이 실현하는 미래상은 이미 우리 코앞에 다가와 있다. 멀티모달 AI는 도로 표지판의 텍스트 정보, 주변 차량이나 보행자의 움직임, 엔진 소리나 타이어 마찰음, 날씨 변화 등을 종합적으로 분석한다. 그 결과 차량은 더욱 안전하고 자연스러운 주행이 가능해진다. 이러한 기술은 단순히 주행 보조에 그치지 않고, 추후에는 운전자의 피로 상태나 감정까지 파악해 휴식 시점을 제안하거나, 목적지 인근의 추천 장소를 상황별로 안내할 수도 있다. 가정용 로봇 역시 마찬가지다. 주방 환경, 식재료 상태, 사용자의 표정과 음성 톤, 날씨까지 모두 파악한 뒤, 그날의 기분에 어울리는 음식을 준비하는 등 한층 개인화된 서비스를 제공한다.
우리가 자주 쓰는 검색 기술 역시 멀티모달로 빠르게 확장되고 있다. 사용자가 “이 느낌과 비슷한 사진이나 음악을 찾아줘”라고 말했을 때, 기존 검색 엔진은 이 요청을 텍스트로만 해석했지만 멀티모달 검색 엔진은 이미지를 시각적으로 비교하고, 음성 명령을 맥락적으로 이해하며, 위치나 시간 정보까지 고려해 추론할 수 있게 된다. 마치 사람에게 “이 분위기에 맞는 노래를 틀어줄래?”라고 말하면, 상대가 공간의 분위기, 과거 대화 내용, 개인적 취향을 종합해 추천하는 것처럼 AI 역시 작동하는 셈이다.
디지털을 벗어나 현실 세상으로
Embodied AI 분야에서도 센서, 카메라, 음성 입력, 환경 정보가 융합되면서, AI 에이전트가 다양한 기계 속에 들어가서 물리적 세계를 ‘이해’하고 ‘행동’하는 단계로 발전하고 있다. 예컨대, 로봇 청소기는 단순히 바닥을 훑고 다니는 수준을 넘어, 거실에 놓인 가구 배치를 인식하고, 소파 아래 굴러간 장난감을 찾아내거나, 거울에 반사된 빛을 분석하여 집 안의 청소 패턴을 최적화한다. 이처럼 멀티모달 AI는 실제 물리 세계에 대응하는 AI 에이전트를 탄생시키며, 앞으로 우리 일상의 모든 영역에서 혁신적인 변화를 예고한다.
그렇다면 우리는 편리한 미래를 발 뻗고 기다리면 되는 걸까? 이러한 기술 발전이 단순히 인간을 위한 편리함만을 남기는 것은 아니다. 데이터 제공자가 ‘인간’이고, 이를 분석하고 활용하는 쪽이 ‘AI’인 시대가 점차 현실화되며, 우리가 무심코 흘린 표정, 말투 하나하나가 정보로 수집 · 해석될 수 있다. 이 과정에서 의도치 않게 밝히고 싶지 않던 취향이나 습관이 드러나는 등 사생활의 경계선이 희미해질 가능성도 있다. 예를 들어, 스마트 스피커나 스마트폰이 무심코 흘린 대화를 감지해 특정 광고를 노출하는 사례나, 사용자 동선을 분석해 마케팅 전략을 세우는 기업들이 등장하며, 디지털 프라이버시 이슈는 새로운 차원으로 전개되고 있다.
인간과 가까워진 AI, 우리에게 펼쳐질 세상은?
인간은 복합적인 감각과 경험을 통해 세계를 이해한다. 그리고 이제 AI 역시 이러한 다차원적 접근을 통해 우리의 삶에 깊이 스며든다. 이는 향상된 사용자 경험을 선사하는 동시에, ‘나’라는 개념을 재해석하는 계기를 마련한다. 무심코 지나친 행동 하나가 데이터의 조각으로 취합되고, 그 조합이 때로는 나 자신보다 나를 더 잘 이해하는 ‘디지털 초상’을 만들어낼 수 있다는 점에서, 섬뜩한 긴장감이 감돈다.
극도로 발전한 생성형 AI를 활용한 사기, 딥페이크, 가짜 뉴스가 판치는 이 시대에 살아가면서, 개인 정보 보호와 데이터 윤리에 대한 사회적 논의가 그 어느 때보다 중요해진 시점이다. 인간 중심의 AI 개발, 투명한 알고리즘, 데이터 수집 과정에 대한 명확한 공지와 동의 절차 등은 필수적인 과제로 부상하고 있다. 이미 유럽연합의 GDPR이나 미국 캘리포니아 소비자 프라이버시법(CCPA) 등은 이러한 변화에 대응하기 위해 제도적 장치를 마련하고 있으며, 앞으로 더 많은 국가와 기업들이 이러한 흐름에 합류할 것이다.
이러한 변화는 앞으로 더욱 가속화될 전망이다. 멀티모달 AI는 헬스케어 분야에서 환자의 음성 변화나 얼굴 색조, 맥박 패턴을 종합적으로 분석해 조기 진단을 돕거나, 교육 분야에서 학생의 표정·음성 톤을 기반으로 학습 이해도를 파악해 맞춤형 교육을 제안하는 등, 산업 전반에 파급력 있는 혁신을 불러올 것이다. 예술 분야에서는 AI가 화가의 붓 터치, 작곡가의 사운드 샘플, 시인의 어조와 리듬감까지 흡수하여 새로운 창작물을 탄생시키는 시대가 도래할 것이다.
물론 이는 기술 낙관론과 비관론이 교차하는 지점이기도 하다. 멀티모달 AI는 한편으로는 더 나은 사용자 경험과 혁신적 편의를 제공하지만, 다른 한편으로는 정교하고 전방위적인 감시와 통제를 가능하게 한다. 이 모순 속에서 사회는 프라이버시, 투명성, 윤리성을 두고 치열한 논쟁을 벌일 것이며, AI와 인간의 관계는 이전과 다른 새로운 패러다임을 맞이하게 될 것이다.
내가 칼럼을 쓰고 있으니 아내가 이런 이야기를 했다. ‘오늘 저녁 먹는 중에 핫도그 이야기를 했더니 유튜브에서 핫도그 먹방이 나오더라. 스마트폰이나 AI 스피커가 우리 이야기를 들은 거 아니야?’ 아마 우연이겠지만, 혹시 모르는 일이다. 우린 이미 우리가 예측하지 못한 새로운 세상에 살고 있다. 마지막으로, 사실 이 칼럼은 여러분의 관심사와 최근 트렌드, 그리고 인터넷상의 다양한 레퍼런스를 종합해 멀티모달 AI가 작성한 것이다. 믿거나 말거나!
유영재 연세대학교 인공지능대학원 교수
연세대학교 인공지능 대학원에서, 컴퓨터 비전, 자연어 처리, 다중모달 학습을 연구하고 가르치고 있다. Allen Institute for AI(AI2)에서 연구원으로 활동했으며, 주요 연구 관심사는 대량의 웹 데이터 학습 및 멀티모달 언어 모델이다. 자연어처리 최고 학회인 NAACL 2022에서 최우수 논문상과 EMNLP 2023, ACL 2024에서 각각 두 번의 우수 논문상을 수상하였으며, 매년 10편 이상의 최고 수준 AI 학회에 논문을 발표하는 등 활발히 연구하고 있다.