인간처럼 이해하고, 인간처럼 행동하는 멀티모달 AI
CHEIL WORLDWIDE 기사입력 2025.01.02 09:22 조회 46
유영재 연세대학교 인공지능대학원 교수

아침 출근길에서 5년 안에 이런 일상이 오겠구나 상상을 해보곤 한다. 자율주행 자동차에 올라타 운전 스트레스를 잊고 목적지로 향한다. 차 안에서 회의 자료를 검토하고, 뒷좌석에선 아이들이 메타버스 세상에서 양탄자를 타고 피라미드를 관람한다.

집안일 역시 점차 우리의 손을 떠나 휴머노이드 로봇의 몫이 되어간다. 마트에서 장을 보고 돌아와 식재료 정리를 맡기고, 매일 아침 들르는 카페에서는 키오스크 혹은 로봇이 나를 인식해 밝게 인사하고, 내가 입은 재킷과 핸드백 색감, 감정 등을 분석해 내 취향과 기분에 맞는 음료를 추천한다.

얼핏 막연해 보이는 이런 상상은 의외로 실현 가능성이 낮지 않다. 그리고 이 모든 것을 가능하게 하는 것이 바로 텍스트, 이미지, 음성 등 서로 다른 형태의 데이터를 통합해 처리하는 멀티모달 AI(Multimodal AI)다. 최근 전 세계 AI 업계가 주목하는 멀티모달 LLM(대규모 언어모델, Large Language Model) 군비 경쟁은 다양한 형태의 데이터를 하나의 맥락을 엮어, AI가 더욱 인간적으로 자연스럽게 상호작용하는 데 집중하고 있다.

멀티모달 기반 엔진 선보이는 빅테크 기업들

이전까지의 LLM은 주로 텍스트 기반으로 발전해 왔으며, 챗GPT로 대표되는 이러한 텍스트 기반 LLM은 이미 우리 생활 속 곳곳에 스며들었다. 그리고 이제는 시각, 청각, 위치, 촉각까지 아우르는 융합적 단계로 진입하고 있다. 다음은 다양한 감각을 체화하는 Embodied AI(물리적 실체를 갖고 현실 세상에서 상호작용하는 AI)로 가고 있다. 오픈AI, 마이크로소프트, 앤트로픽, 아마존, 구글, 메타, 마이크로소프트, xAI 등 글로벌 빅테크 기업들은 앞다투어 멀티모달 기반 엔진을 선보이고 있으며, 이미지 캡션 생성, 음성 인식, 행동 계획 등을 한꺼번에 처리하여 인간에 가까운 종합적 이해와 추론 능력에 도전한다.





예를 들어, 구글 딥마인드(DeepMind)의 Gemini 모델이나 오픈AI의 GPT-4는 단순한 텍스트 이해를 넘어, 이미지 분석 및 음성 처리 기능을 결합하며 멀티모달 시대를 주도하고 있다. 멀티모달을 앞세운 OpneiAI의 GPT4 Omni 모델과 Google IO 2024 Project Astra, Gemini의 데모는 하루 차이로 희비가 갈리고, 연말까지 매일 새로운 기술을 발표하겠다는 샘 올트먼의 예고는 연구자로서 간담이 서늘할 정도다.

멀티모달은 무엇을 할 수 있나

이 기술이 실현하는 미래상은 이미 우리 코앞에 다가와 있다. 멀티모달 AI는 도로 표지판의 텍스트 정보, 주변 차량이나 보행자의 움직임, 엔진 소리나 타이어 마찰음, 날씨 변화 등을 종합적으로 분석한다. 그 결과 차량은 더욱 안전하고 자연스러운 주행이 가능해진다. 이러한 기술은 단순히 주행 보조에 그치지 않고, 추후에는 운전자의 피로 상태나 감정까지 파악해 휴식 시점을 제안하거나, 목적지 인근의 추천 장소를 상황별로 안내할 수도 있다. 가정용 로봇 역시 마찬가지다. 주방 환경, 식재료 상태, 사용자의 표정과 음성 톤, 날씨까지 모두 파악한 뒤, 그날의 기분에 어울리는 음식을 준비하는 등 한층 개인화된 서비스를 제공한다.

 






우리가 자주 쓰는 검색 기술 역시 멀티모달로 빠르게 확장되고 있다. 사용자가 “이 느낌과 비슷한 사진이나 음악을 찾아줘”라고 말했을 때, 기존 검색 엔진은 이 요청을 텍스트로만 해석했지만 멀티모달 검색 엔진은 이미지를 시각적으로 비교하고, 음성 명령을 맥락적으로 이해하며, 위치나 시간 정보까지 고려해 추론할 수 있게 된다. 마치 사람에게 “이 분위기에 맞는 노래를 틀어줄래?”라고 말하면, 상대가 공간의 분위기, 과거 대화 내용, 개인적 취향을 종합해 추천하는 것처럼 AI 역시 작동하는 셈이다.

디지털을 벗어나 현실 세상으로

Embodied AI 분야에서도 센서, 카메라, 음성 입력, 환경 정보가 융합되면서, AI 에이전트가 다양한 기계 속에 들어가서 물리적 세계를 ‘이해’하고 ‘행동’하는 단계로 발전하고 있다. 예컨대, 로봇 청소기는 단순히 바닥을 훑고 다니는 수준을 넘어, 거실에 놓인 가구 배치를 인식하고, 소파 아래 굴러간 장난감을 찾아내거나, 거울에 반사된 빛을 분석하여 집 안의 청소 패턴을 최적화한다. 이처럼 멀티모달 AI는 실제 물리 세계에 대응하는 AI 에이전트를 탄생시키며, 앞으로 우리 일상의 모든 영역에서 혁신적인 변화를 예고한다.






그렇다면 우리는 편리한 미래를 발 뻗고 기다리면 되는 걸까? 이러한 기술 발전이 단순히 인간을 위한 편리함만을 남기는 것은 아니다. 데이터 제공자가 ‘인간’이고, 이를 분석하고 활용하는 쪽이 ‘AI’인 시대가 점차 현실화되며, 우리가 무심코 흘린 표정, 말투 하나하나가 정보로 수집 · 해석될 수 있다. 이 과정에서 의도치 않게 밝히고 싶지 않던 취향이나 습관이 드러나는 등 사생활의 경계선이 희미해질 가능성도 있다. 예를 들어, 스마트 스피커나 스마트폰이 무심코 흘린 대화를 감지해 특정 광고를 노출하는 사례나, 사용자 동선을 분석해 마케팅 전략을 세우는 기업들이 등장하며, 디지털 프라이버시 이슈는 새로운 차원으로 전개되고 있다.

인간과 가까워진 AI, 우리에게 펼쳐질 세상은?

인간은 복합적인 감각과 경험을 통해 세계를 이해한다. 그리고 이제 AI 역시 이러한 다차원적 접근을 통해 우리의 삶에 깊이 스며든다. 이는 향상된 사용자 경험을 선사하는 동시에, ‘나’라는 개념을 재해석하는 계기를 마련한다. 무심코 지나친 행동 하나가 데이터의 조각으로 취합되고, 그 조합이 때로는 나 자신보다 나를 더 잘 이해하는 ‘디지털 초상’을 만들어낼 수 있다는 점에서, 섬뜩한 긴장감이 감돈다.





 
극도로 발전한 생성형 AI를 활용한 사기, 딥페이크, 가짜 뉴스가 판치는 이 시대에 살아가면서, 개인 정보 보호와 데이터 윤리에 대한 사회적 논의가 그 어느 때보다 중요해진 시점이다. 인간 중심의 AI 개발, 투명한 알고리즘, 데이터 수집 과정에 대한 명확한 공지와 동의 절차 등은 필수적인 과제로 부상하고 있다. 이미 유럽연합의 GDPR이나 미국 캘리포니아 소비자 프라이버시법(CCPA) 등은 이러한 변화에 대응하기 위해 제도적 장치를 마련하고 있으며, 앞으로 더 많은 국가와 기업들이 이러한 흐름에 합류할 것이다.





이러한 변화는 앞으로 더욱 가속화될 전망이다. 멀티모달 AI는 헬스케어 분야에서 환자의 음성 변화나 얼굴 색조, 맥박 패턴을 종합적으로 분석해 조기 진단을 돕거나, 교육 분야에서 학생의 표정·음성 톤을 기반으로 학습 이해도를 파악해 맞춤형 교육을 제안하는 등, 산업 전반에 파급력 있는 혁신을 불러올 것이다. 예술 분야에서는 AI가 화가의 붓 터치, 작곡가의 사운드 샘플, 시인의 어조와 리듬감까지 흡수하여 새로운 창작물을 탄생시키는 시대가 도래할 것이다.

물론 이는 기술 낙관론과 비관론이 교차하는 지점이기도 하다. 멀티모달 AI는 한편으로는 더 나은 사용자 경험과 혁신적 편의를 제공하지만, 다른 한편으로는 정교하고 전방위적인 감시와 통제를 가능하게 한다. 이 모순 속에서 사회는 프라이버시, 투명성, 윤리성을 두고 치열한 논쟁을 벌일 것이며, AI와 인간의 관계는 이전과 다른 새로운 패러다임을 맞이하게 될 것이다.

내가 칼럼을 쓰고 있으니 아내가 이런 이야기를 했다. ‘오늘 저녁 먹는 중에 핫도그 이야기를 했더니 유튜브에서 핫도그 먹방이 나오더라. 스마트폰이나 AI 스피커가 우리 이야기를 들은 거 아니야?’ 아마 우연이겠지만, 혹시 모르는 일이다. 우린 이미 우리가 예측하지 못한 새로운 세상에 살고 있다. 마지막으로, 사실 이 칼럼은 여러분의 관심사와 최근 트렌드, 그리고 인터넷상의 다양한 레퍼런스를 종합해 멀티모달 AI가 작성한 것이다. 믿거나 말거나!

유영재 연세대학교 인공지능대학원 교수

연세대학교 인공지능 대학원에서, 컴퓨터 비전, 자연어 처리, 다중모달 학습을 연구하고 가르치고 있다. Allen Institute for AI(AI2)에서 연구원으로 활동했으며, 주요 연구 관심사는 대량의 웹 데이터 학습 및 멀티모달 언어 모델이다. 자연어처리 최고 학회인 NAACL 2022에서 최우수 논문상과 EMNLP 2023, ACL 2024에서 각각 두 번의 우수 논문상을 수상하였으며, 매년 10편 이상의 최고 수준 AI 학회에 논문을 발표하는 등 활발히 연구하고 있다.
ai에이전트 ·  LLM ·  딥페이크 ·  멀티모달 ·  빅테크 ·  생성형AI ·  제미나이 ·  제일기획 · 
이 기사에 대한 의견 ( 총 0개 )
[캠페인 하이라이트] MCC 고베식당을 이야기하다
크리에이티브 컨설팅, 실행을 담보로 할 수 있을 것인가? ‘MCC 고베식당’ 프로젝트는 둘로 나뉘어진다. 바로 컨설팅과 실행이다. 그 둘이 함께 붙어 있기에 힘을 발휘한 프로젝트였고, 또한 둘로 나뉘어 있기에 어려운 프로젝트기도 했다. 2010년 4월 27일 매일유업에서 날아든 굵직한 숙제 하나. “우유하던 우리가 카레를 하려고 하는데, 어떻게 하면 잘 할지… 총체적으로 해봐!” 그렇게 시작된 숙제는 제일기획으로서는 새로운 ‘제품 컨설팅’ 의 영역이었다. 지금 이 시점, ‘ 크리에이티브 컨설팅’이라 명명된 우리만의 USP(Unique Selling Point)가 되어가고 있지만 초기만해도 가뜩이나 압도적 독점브랜드가 있는 시장 상황 속에 제품개발도 완결되지 않은, 유통도 가격도 결정되지 않은 실로 막막한 프로젝트였다.
[Special] 커뮤니케이터가 일하며 꼭 알아야 할 Bible Site
생각의 축을 쌓아 가속도를 붙여야 할 순간, 방전된 배터리처럼 아무 생각도 나지 않는 분, 마케팅 회사에 다닌다는 이유로 늘 트렌드에 앞서야 한다는 중압감을 갖고 계신 분, 쌓이는 일감 앞에 한 호흡 길게 쉬어가는 여유가 필요하신 분 우리가 ‘커뮤니케이터’라는 이름으로 살아가며 몰라서는 안 될 Bible Site를 각 영역별 전문가가 추천합니다.
[광고로 읽는 심리학] 광고음악이 소비자를 움직인다
때론 친근한 리듬으로 소비자의 귀를 중독시키고, 때론 진한 감성으로 소비자의 의심과 불안을 무장해제하는 광고음악. 사람의 심리를 자유자재로 변화시키는 데 탁월한 능력을 발휘하는 음악은 언제나 광고의 든든한 구원 투수다.
2023년 하반기 광고 시장 전망 (Feat. 상반기 리뷰)
우리에게 영영사전으로 유명한 영국의 출판사 콜린스는 22년을 마무리하며 올해의 단어로 ‘Permacrisis(영구적 위기)’를 선정했다. 팬데믹, 기후변화, 우크라이나 전쟁, 인플레이션, 경기 침체 등 대격변의 시대에 불안정과 불안이 지속되는 일상을 겪고 있는 시대상이 반영된 단어이다.
거대시장 시니어의 탄생
거대시장 시니어의 탄생
제일기획, ‘대한민국광고대상’서 대상 등 본상 15개 수상
  ‘2024 대한민국광고대상’에서 대상을 수상한 삼성전자 ‘고 울트라 챌린지’ 캠페인. 사진제공=제일기획 대상 3개·금상 6개 등 수상 제일기획은 한국광고총연합회가 주관하는 ‘2024 대한민국광고대상’에서 대상 3개, 금상 6개, 은상 3개, 동상 3개 등 총 15개의 본상을 수상했다고 2일 밝혔다. 우선 제일기획이 이끈 ‘마약검사
거대시장 시니어의 탄생
거대시장 시니어의 탄생
[어텐션, 크리에이터] AI 활용팁을 알려주는 AI 전문 크리에이터 4
제일기획 편집팀   업무에 AI를 활용하고는 싶은데 무엇부터 할지 막막할 때, 매일 반복되는 작업을 AI로 빠르게 처리할 순 없을지 궁금할 때. AI 활용법이 궁금한 이들을 위해 준비했다. 챗GPT부터 생성형 영상 소라까지. 다양한 AI 팁을 알려주는 크리에이터 채널 4.   #모션그래픽 #AI영상 #쉬운설명 구독자 3.21만명(*24년 12월 기준) ▶ 채널 바로가기 영화 맨인블랙부터
호빵의 따뜻함에 감각적 영상을 끼얹었더니, 삼립호빵 캠페인
 제일기획 김하나 프로 (비즈니스 16팀) 찬바람이 싸늘하게 불기 시작하면 자연스레 떠오르는 음식이 있다. 바로 한국인의 소울 간식 호빵이다. 편의점 빨간 찜기에서 모락모락 피어오르는 김, 갓 찐 호빵에서 유산지를 벗기는 재미, 뜨거운 호빵을 반으로 갈라 친구와 호호 불며 먹는 기억. 한국인에게 호빵은 단순한 간식을 넘어 겨울이란 계절에 녹아 든 행복의 상징이다. 삼립호빵 캠페인을 소개하기 앞서 토막상식을 전하면, &lsqu
Boys Be SLEEK 관성의 틀을 깨다, 도루코 SLEEK 캠페인
제일기획 송영상 프로 (비즈니스 7팀) 지난 수십 년간 면도기 시장은 단일 브랜드가 독보적인 점유율을 차지했기에, 많은 소비자에게 ‘면도기는 OOO’이라는 고정관념이 깊게 자리 잡혀 있었다. 소비자들은 면도기를 구매할 때 큰 고민 없이 익숙한 선택을 반복해 왔다. 이런 면도기 시장에 새로운 혁신을 가져올 브랜드가 새롭게 등장했으니, 바로 도루코의 프리미엄 면도기 브랜드 SLEEK이었다. 도루코는 자신들의 70여
제일기획, ‘대한민국광고대상’서 대상 등 본상 15개 수상
  ‘2024 대한민국광고대상’에서 대상을 수상한 삼성전자 ‘고 울트라 챌린지’ 캠페인. 사진제공=제일기획 대상 3개·금상 6개 등 수상 제일기획은 한국광고총연합회가 주관하는 ‘2024 대한민국광고대상’에서 대상 3개, 금상 6개, 은상 3개, 동상 3개 등 총 15개의 본상을 수상했다고 2일 밝혔다. 우선 제일기획이 이끈 ‘마약검사
거대시장 시니어의 탄생
거대시장 시니어의 탄생
[어텐션, 크리에이터] AI 활용팁을 알려주는 AI 전문 크리에이터 4
제일기획 편집팀   업무에 AI를 활용하고는 싶은데 무엇부터 할지 막막할 때, 매일 반복되는 작업을 AI로 빠르게 처리할 순 없을지 궁금할 때. AI 활용법이 궁금한 이들을 위해 준비했다. 챗GPT부터 생성형 영상 소라까지. 다양한 AI 팁을 알려주는 크리에이터 채널 4.   #모션그래픽 #AI영상 #쉬운설명 구독자 3.21만명(*24년 12월 기준) ▶ 채널 바로가기 영화 맨인블랙부터
호빵의 따뜻함에 감각적 영상을 끼얹었더니, 삼립호빵 캠페인
 제일기획 김하나 프로 (비즈니스 16팀) 찬바람이 싸늘하게 불기 시작하면 자연스레 떠오르는 음식이 있다. 바로 한국인의 소울 간식 호빵이다. 편의점 빨간 찜기에서 모락모락 피어오르는 김, 갓 찐 호빵에서 유산지를 벗기는 재미, 뜨거운 호빵을 반으로 갈라 친구와 호호 불며 먹는 기억. 한국인에게 호빵은 단순한 간식을 넘어 겨울이란 계절에 녹아 든 행복의 상징이다. 삼립호빵 캠페인을 소개하기 앞서 토막상식을 전하면, &lsqu
Boys Be SLEEK 관성의 틀을 깨다, 도루코 SLEEK 캠페인
제일기획 송영상 프로 (비즈니스 7팀) 지난 수십 년간 면도기 시장은 단일 브랜드가 독보적인 점유율을 차지했기에, 많은 소비자에게 ‘면도기는 OOO’이라는 고정관념이 깊게 자리 잡혀 있었다. 소비자들은 면도기를 구매할 때 큰 고민 없이 익숙한 선택을 반복해 왔다. 이런 면도기 시장에 새로운 혁신을 가져올 브랜드가 새롭게 등장했으니, 바로 도루코의 프리미엄 면도기 브랜드 SLEEK이었다. 도루코는 자신들의 70여
제일기획, ‘대한민국광고대상’서 대상 등 본상 15개 수상
  ‘2024 대한민국광고대상’에서 대상을 수상한 삼성전자 ‘고 울트라 챌린지’ 캠페인. 사진제공=제일기획 대상 3개·금상 6개 등 수상 제일기획은 한국광고총연합회가 주관하는 ‘2024 대한민국광고대상’에서 대상 3개, 금상 6개, 은상 3개, 동상 3개 등 총 15개의 본상을 수상했다고 2일 밝혔다. 우선 제일기획이 이끈 ‘마약검사
거대시장 시니어의 탄생
거대시장 시니어의 탄생
[어텐션, 크리에이터] AI 활용팁을 알려주는 AI 전문 크리에이터 4
제일기획 편집팀   업무에 AI를 활용하고는 싶은데 무엇부터 할지 막막할 때, 매일 반복되는 작업을 AI로 빠르게 처리할 순 없을지 궁금할 때. AI 활용법이 궁금한 이들을 위해 준비했다. 챗GPT부터 생성형 영상 소라까지. 다양한 AI 팁을 알려주는 크리에이터 채널 4.   #모션그래픽 #AI영상 #쉬운설명 구독자 3.21만명(*24년 12월 기준) ▶ 채널 바로가기 영화 맨인블랙부터
호빵의 따뜻함에 감각적 영상을 끼얹었더니, 삼립호빵 캠페인
 제일기획 김하나 프로 (비즈니스 16팀) 찬바람이 싸늘하게 불기 시작하면 자연스레 떠오르는 음식이 있다. 바로 한국인의 소울 간식 호빵이다. 편의점 빨간 찜기에서 모락모락 피어오르는 김, 갓 찐 호빵에서 유산지를 벗기는 재미, 뜨거운 호빵을 반으로 갈라 친구와 호호 불며 먹는 기억. 한국인에게 호빵은 단순한 간식을 넘어 겨울이란 계절에 녹아 든 행복의 상징이다. 삼립호빵 캠페인을 소개하기 앞서 토막상식을 전하면, &lsqu
Boys Be SLEEK 관성의 틀을 깨다, 도루코 SLEEK 캠페인
제일기획 송영상 프로 (비즈니스 7팀) 지난 수십 년간 면도기 시장은 단일 브랜드가 독보적인 점유율을 차지했기에, 많은 소비자에게 ‘면도기는 OOO’이라는 고정관념이 깊게 자리 잡혀 있었다. 소비자들은 면도기를 구매할 때 큰 고민 없이 익숙한 선택을 반복해 왔다. 이런 면도기 시장에 새로운 혁신을 가져올 브랜드가 새롭게 등장했으니, 바로 도루코의 프리미엄 면도기 브랜드 SLEEK이었다. 도루코는 자신들의 70여