
9일 관련업계에 따르면 구글, 마이크로소프트(MS), 아마존, 엔비디아, 메타는 물론 네이버, SK텔레콤 등 국내 주요 테크 기업들도 멀티모달 AI 스타트업에 적극적으로 투자하며 영상·음성·텍스트 통합 AI 경쟁에 불을 지피고 있다.
메타는 AI 데이터 라벨링 및 학습 인프라 기업인 스케일AI에 최대 100억 달러(약 13조5000억 원) 규모의 전략적 투자를 검토 중인 것으로 알려졌다. 이는 메타 창사 이래 최대 규모의 외부 AI 투자가 될 가능성도 제기된다.
스케일AI는 자율주행, 국방, 초거대언어모델(LLM) 학습에 특화된 데이터 인프라 및 라벨링 전문 기업으로 자율주행, 컴퓨터 비전, 자연어처리, 멀티모달 AI 등 다양한 산업용 AI에 적용 가능한 고품질 데이터 솔루션을 제공하면서 시장 내 입지를 넓히고 있다.
네이버는 실리콘밸리에 설립 예정인 신규 투자법인 ‘네이버 벤처스’의 첫 투자처로 비디오 AI 스타트업 ‘트웰브랩스’를 낙점했다. 이는 네이버가 글로벌 AI 경쟁력 확보와 멀티모달 콘텐츠 기술 강화를 본격화한다는 신호탄으로 해석된다.
업계에서는 멀티모달 AI가 하나의 기술 트렌드를 넘어 향후 AI 패권 경쟁의 게임체인저로 자리잡을 것으로 보고 있다. 특히 자율주행차, 스마트폰, 증강현실(AR)과 가상현실(VR) 기기 등 입·출력 방식이 복합적인 디바이스가 확산하면서 멀티모달 기술의 필요성이 급증하고 있다.
생성형 AI 시대를 연 챗GPT가 AI 생태계의 판도를 뒤바꿨지만 AGI 실현까지는 여전히 많은 과제와 가능성이 공존하고 있다. 구글, 엔비디아, 메타 등 글로벌 빅테크는 물론, 네이버, 삼성전자 등 국내 주요 테크 기업들도 AGI로 가는 핵심 기술 확보에 사활을 거는 이유다.
글로벌 시장조사업체 모도인텔리전스는 AI 영상 분석 시장 규모가 2028년 753억5000만 달러(약 102조5209억 원)에 달할 것으로 내다봤다.
AI 기술은 △협소인공지능(ANI) △범용인공지능(AGI) △초인공지능(ASI) 등 3단계로 분류된다. 현재 가장 널리 쓰이는 챗GPT 등 생성형 AI 서비스도 특정 영역에서 뛰어난 성능을 보이지만 인간처럼 폭넓은 지식을 바탕으로 사고·추론하고 스스로 학습·판단하는 수준에는 이르지 못해 ANI 단계에 머물러 있다. AGI는 인간 수준의 지능과 적응력을 갖춘 인공지능으로 AI 업계의 목표로 여겨진다.
업계 관계자는 “텍스트 기반 AI의 한계를 극복하고 AGI로 가기 위해서는 결국 인간처럼 복합 정보를 인지하고 해석할 수 있는 멀티모달 능력이 필수”라며 “누가 더 빨리, 더 정교한 기술을 확보하냐가 향후 글로벌 AI 주도권을 좌우할 핵심 변수가 될 것”이라고 설명했다.



