영상 등장 객체 분석해 텍스트 생성
다음 행동과 행동 의도까지 분석 가능
원하는 장면 찾아내고 내레이션도
창작자 부담 덜고 영상 효과 높여
하이퍼클로바X 고도화해 소버린AI 확보

네이버가 영상을 이해하고 추론하는 초거대 인공지능(AI)을 개발해 하이퍼클로바X의 고도화에 나섰다. 텍스트를 넘어 이미지, 음성, 나아가 영상까지 이해하는 멀티모달 AI로 발전시키며 ‘소버린(주권) AI’ 전략에도 박차를 가할 방침이다.
10일 정보기술(IT) 업계에 따르면 네이버는 최근 이미지 처리에서 쌓아온 전문성과 데이터를 바탕으로 영상 내의 멀티모달 정보를 하나로 통합할 수 있는 능력을 적용한 ‘하이퍼클로바X 비디오’를 내부에 공개했다. 이 영상 이해 모델은 영상에 등장하는 사람, 물체, 장소 등을 인식해 분석한다.
객체를 분석한 후 영상 콘텐츠의 내용을 상세하게 설명하는 텍스트를 생성할 수 있다. 단순히 영상에 등장하는 객체를 나열하는 것을 넘어 시간에 따른 행동, 사건, 상호작용 및 맥락을 포함해 상세하게 설명한다.
네이버는 하이퍼클로바X 비디오가 추론 능력도 뛰어나다고 강조했다. 영상 속 객체의 행동을 분석하는 것을 넘어 다음 행동 예측도 가능하다. 가령 “(게임에서) 잘하려면 어떻게 해야 할까?”라는 질문을 던지면 AI가 게임에서 성공하기 위한 전략도 조언해 줄 수 있다. 나아가 영상 속에 등장하는 생물이나 인물의 행동을 관찰해 본질적인 의도와 목적을 추론할 수 있다.
콘텐츠 창작자들은 영상 제작에 하이퍼클로바X 비디오의 기술을 활용할 수 있다. 이 모델은 공간과 시간에 대한 이해도가 높아 영상 속에서 특정 장면이나 순간을 쉽게 찾는다. 가령 “우는 아기가 처음 등장하는 시간은 언제야?” 라고 물어보면 “4분 50초”라는 답변을 금세 얻을 수 있다.
네이버는 “긴 영상을 처음부터 끝까지 들여다볼 필요 없이, 원하는 장면이 어디 있는지 금방 찾아낼 수도 있다”면서 “마케팅 담당자들은 광고 속 브랜드 노출 시간을 정확히 파악해 광고 효과를 더 정확하게 분석할 수 있고, 행동 연구를 하는 연구자는 특정 행동이 발생하는 순간을 자동으로 기록해 분석의 정확도를 높일 수 있다”고 설명했다.
이 모델은 영상을 바탕으로 새로운 창작물도 만들 수 있다. 영상에 대한 내레이션 생성, 영상에 맞는 배경음악 추천, 영상에 맞는 홍보문구 제작 등이 가능하다.
네이버는 해당 기술력에 대한 자신감을 드러냈다. 오픈AI의 영상 이해 모델과 맞먹는다는 설명이다. 네이버에 따르면 비디오MME(VideoMME) 벤치마크에서 하이퍼클로바X 비디오는 61.4점을 기록해 오픈AI의 GPT-4V(59.9점)을 앞섰다. 다만 액티비티넷-QA 벤치마크(ActivityNet-QA)에서는 55.2점을 기록해 GPT-4V(57점)에 뒤처졌다.
네이버는 지속적인 하이퍼클로바X의 고도화를 통해 소버린 AI 전략에 집중한다는 방침이다. 네이버 관계자는 “네이버는 해당 나라의 데이터를 학습시켜서 그 나라의 모델을 만들겠다는 소버린 AI 전략을 갖고 있다”면서 “이미지, 영상 멀티 모달 기술 등을 확보해 해당 나라의 영상 데이터들을 학습할 수 있다면 꽤 경쟁력 있는 멀티모달로서 해외진출을 할 수 있을 것”이라고 말했다.



