AI와 모바일 디바이스의 만남으로 커다란 변화가 다가올 2024년. 과연 2024년엔 어떤 변화가 있을까? 결론부터 말하자면 2024년은 우리가 대형언어모델(LLM) 온디바이스 AI 스마트폰을 가질 수 있는 첫해가 될 것이다. 즉, 인공지능 스마트폰이 나와 대화를 한다는 뜻이다. 스마트폰은 이제 만지고 보는 기계가 아니라 말을 거는 기계가 될 것이다. 내년 모바일 디바이스가 어떻게 진화할지 궁금한 독자들을 위해 현재 진행 중인 주목할 만한 사례를 소개한다.
1년 전 챗GPT가 등장하고 모두 AI 발전에 놀라움을 감출 수 없었다. 기존에 AI 학습은 효율적인 딥 러닝 방식이 주류를 이루고 있었는데 발전된 오픈 AI는 반대로 학습 데이터를 가능한 한 더 크게 늘려 모든 언어에 원활하게 대답하도록 했다. 혹시 그 대답이 거짓이라도 말이다. GPT3, 챗 GPT의 첫 상용화 버전은 1,750억개의 매개변수를 사용한다.
내 폰 안에 AI 비서
AI, 특히 딥 러닝 분야에서 2등을 해본 적 없는 구글은 잠시 당황하다 챗GPT와 유사한 ‘바드(Bard)’를 내놓고 이를 검색 분야에 적용시켰다. 같은 시기 오픈 AI에 거대한 금액을 투자한 MS 역시 자사 검색엔진인 빙(Bing)에 GPT3.5를 탑재한 빙 챗을 선보였다. 인터넷 서비스 분야 최대 빅 테크 기업 간 AI 채팅 전쟁이 벌어지기 시작한 것이다. 당시 바드는 엉뚱한 대답을 하는 등 좋은 평가를 받지 못했고 빙 챗은 GPT3와 마찬가지로 호평을 받았다.
구글의 무기는 스마트폰이었다. 구글은 매년 출시하는 자사 플래그십 스마트폰 ‘픽셀 8’ 시리즈 발표에서 음성 비서인 ‘어시스턴트 위드 바드(Assistant with Bard)’를 탑재하겠다고 발표한 바 있다. 특히 AI 연산 성능을 최대로 높인 고급형 모델 ‘픽셀 8 프로’에서는 어시스턴트 위드 바드가 온디바이스, 즉 인터넷 연결 없이도 일부 구동 가능하다.
구글 스마트폰 속 AI 비서 ‘어시스턴트 위드 바드’ (출처 : 구글 공식 블로그)
어시스턴트 위드 바드(픽셀 스피치)의 기능은 음성 받아쓰기, AI 전화 자동 응대(콜 어시스트), 자연스러운 사이트 읽어주기(리드 얼라우드) 등이다. 이외에도 사진 촬영 및 편집, 비디오 촬영 등 다양한 부분에 생성 AI를 활용하고 있다.
구글은 이후 새로운 LLM ‘제미니(Gemini)’를 발표하며 제미니가 스마트폰에 탑재될 것임을 밝혔다. 제미니는 울트라, 프로, 나노 세 가지 버전으로 나뉘며, 수학, 물리학, 역사, 법률, 의학, 윤리 등 총 57개의 주제를 복합적으로 활용해 세계 지식과 문제 해결 능력을 평가하는 MMLU(massive multitask language understanding, 대규모 멀티태스크 언어 이해) 테스트에서 90.04%의 점수를 받은 바 있다. 이는 전문 인력보다 높은 점수다.
제미니의 가장 큰 특징은 멀티모달이라는 것이다. 글, 이미지, 오디오, 동영상, 코드 등 다양한 유형의 데이터를 한꺼번에 입력하고 출력할 수 있다. 기존에도 멀티모달 서비스는 존재했지만 제미니처럼 다양한 미디어를 한꺼번에 학습시킨 경우는 없었다. 스마트폰에 탑재될 제미니는 나노 버전으로 온디바이스에 최적화된 서비스다. 제미니 나노는 구글 어시스턴트 위드 바드에 탑재될 예정이다.
AI 스마트폰 춘추전국 시대, 모든 폰들은 AI로 향한다
그렇다면 구글 스마트폰 픽셀 8 프로를 쓰는 사용자만 대형언어모델 AI를 사용할 수 있을까? 대답은 “아니다”. 우선은 안드로이드용 스마트폰 칩셋 대부분을 제조 중인 퀄컴이 스냅드래곤 칩셋 자체에 매개변수 처리 기능을 넣었다. 안드로이드 스마트폰 대부분에 탑재될 스냅드래곤 8 3세대 제품은 100억개의 매개변수를 온디바이스로 처리할 수 있다.
1,750억개에 비하면 부족한 것 같지만 100억개를 ‘인터넷 연결 없이’ 실행할 수 있는 것이 특징이며, 각 스마트폰 제조사는 이 변수 수에 맞춰 각 스마트폰 브랜드에 맞는 서비스를 내놓을 예정이다. 이외에도 샤오미, 화웨이 등도 대형언어모델 온디바이스 구동을 가능케 하고 있다.
삼성전자 갤럭시 S23 (출처 : 삼성 홈페이지)
우리에게 가장 와닿을 소식은 갤럭시 S24의 LLM 탑재 소식이다. 삼성전자는 칩셋(엑시노스 2400)과 서비스 모두에서 대형언어모델 도입을 준비 중이다. 삼성이 선보인 대형언어모델 생성 AI ‘삼성 가우스’는 제미니와 마찬가지로 멀티모달을 전제로 개발한 모델이다. 삼성 가우스는 이메일 작성, 문서 요약 등을 쉽게 해 주는 언어 모델, 소프트웨어 개발을 도와주는 코드 모델, 이미지 제작을 위한 이미지 모델 세가지로 구성된다. 기기 제어와 문장 요약, 문법 교정 등 기능도 AI 기술로 제공하며 영어와 중국어·일본어 등 주요 언어를 실시간으로 통역해 주는 기능도 탑재됐다. 국산 기술인 만큼 한국어의 원활한 실시간 통역도 제공할 수 있을 것으로 예상된다.
외국인과의 통화가 실시간으로 통역된다고?
삼성전자는 공식적으로 갤럭시 S24에 가우스 모델을 도입할 것으로 발표했다. 현재 알려진 기능으로는 실시간 통역 기능이 온디바이스에서 구동된다고 한다. 코드와 이미지 모델 역시 갖고 있는 만큼 구글과 유사한 수준의 서비스를 선보일 수 있을 것으로 예상된다. 특히 어시스턴트 위드 바드는 갤럭시를 비롯한 다른 스마트폰에서도 앱 형태로 사용할 수 있어 갤럭시를 사용할 경우 빅스비 외에도 더 많은 선택권이 보장된다는 장점이 있다.
‘삼성 AI 포럼 2023’에서 삼성의 AI 가우스를 소개하는 삼성전자 김대현 부사장 (출처 : 삼성 뉴스룸)
화면은 필요 없어, 음성만으로 작동하는 AI 핀
스마트폰 외에도 생성형 AI를 도입한 새로운 폼 팩터 기기 역시 등장 중이다. 애플 핵심 멤버들이 창업한 휴메인(Humane)의 ‘AI 핀’은 생성형 AI를 도입한 웨어러블 기기다. 사용하기에 따라 스마트폰처럼 혹은 바디캠처럼 사용할 수 있다. 기기는 바디캠처럼 몸 어딘가에 끼워 사용하며, 사용자가 말을 걸면 챗GPT 엔진을 통해 대답해 주는 서비스다.
바디캠처럼 몸에 부착해 다양한 활동을 돕는 휴메인의 AI 핀 (출처 : 휴메인 홈페이지)
사람의 언어로 사진이나 동영상을 촬영할 수 있으며, 내부 스피커를 통해 통화나 음악 감상이 가능하다. 즉, 화면이 빠진 스마트폰에 가까운 셈인데 화면 역시 기기에 탑재된 레이저로 사용할 수 있다. 스크린 대신 레이저를 투사해 손목 등에 비춰 화면을 보는 형태로 음성 지시나 터치패드, 제스처 등으로 기기를 제어한다. 칩셋은 스냅드래곤 8 3세대를 사용하며, 엔진은 챗GPT를 사용하는 등 현재 사용 가능한 최신 사양들을 모두 갖춘 것이 특징이다. 마치 “LLM 시대의 폰에는 화면이 필요 없다”고 주장하는 듯한 기기다. 이뿐 아니라 오픈 AI 역시 자신들만의 휴대용 기기를 준비하고 있는 것으로 알려졌다.
2024년은 온디바이스 생성형 AI 탑재 기기가 등장한 첫해인 만큼 우리의 스마트폰 사용법은 크게 달라지지 않을 전망이다. 다만 앞으로는 점차 스마트폰을 덜 만지게 되고 기기가 음성에 반응하고 기기를 대신 조작해 줄 가능성은 점점 높아질 것이다. 어쩌면 우리가 준비할 것은 마이크가 좋은 블루투스 이어폰 하나 정도뿐일지도 모른다.
이종철
바이라인네트워크 기자. 전 월간 웹 편집장. 하드웨어, 플랫폼, 마케팅, UI · UX 관련 콘텐츠를 주로 작성하고 있으며, 앱 트렌드에 관심이 높다.