텍스트 검색 만으로 원하는 장면 바로 찾아
반복 작업 자동화⋯방송·숏폼 제작 효율↑
중복 연산 제거ㆍ모델 경량화해 비용 절감도

MAIU는 영상 내 인물, 행동, 배경, 음성 등 다양한 정보를 AI가 자동으로 분석해 메타데이터를 생성하고 ‘와인잔 나오는 장면’ ‘남주인공 달리는 장면’ 등 텍스트 검색만으로 원하는 장면을 빠르게 찾을 수 있는 서비스다. 해당 서비스는 현재 국내 방송사 및 파트너사를 대상으로 클로즈드 베타 서비스(CBT) 중이며, 내달 정식 공개될 예정이다.
MAIU만의 가장 큰 차별점은 영상의 의미 단위인 구간(scene)을 중심으로 영상을 분석한다는 점이다. 프레임이나 샷 단위가 아닌 이야기의 흐름이나 구성상 자연스러운 구간 단위로 분석하기 때문에 실질적으로 콘텐츠를 편집하거나 재가공할 때 훨씬 직관적이고 현업에서 바로 활용 가능한 구조로 제공할 수 있는 것이다.
위 리더는 “구간 분할로 영상을 분석한다는 것은 영상을 의미있는 샷 단위로 나누는 과정이다. 즉 한 구간 안에서는 인물과 배경에 카메라 시점이 동일하게 유지된다는 뜻”이라며 “결과적으로는 동일한 내용을 추가적으로 분석할 필요가 없게 됐다. 자체 구축한 데이터셋을 통한 미디어 특화 구간 분할 모듈을 개발한 상태”라고 설명했다.
이를 통해 방송사나 영상 제작사 뿐 아니라 유튜브, 숏폼 콘텐츠 등 영상 제작자들이 반복적인 편집 시간을 줄이고 창의적인 작업에 집중할 수 있을 전망이다. 가령 MAIU를 활용하면 영상 제작에서 가장 많은 시간이 드는 메타데이터 추출 및 가편집 시간을 획기적으로 줄일 수 있다. 보통 예능 프로그램 1편 제작 시 3600분에 해당하는 영상을 촬영하게 되는데 기존에는 32시간에 걸려 분석 및 가편집을 마쳤다면 MAIU를 활용해 2시간 이내로 끝낼 수 있게 됐다. 15배 이상의 시간이 단축되는 셈이다.
사용 요금 또한 모델 경량화를 통해 경쟁력을 갖춰 글로벌 경쟁 제품 대비 최대 1/3 수준으로 정식 출시될 계획이다. 위 리더는 “많은 분들께서 비용 측면에서 솔루션 도입을 망설이시기 때문에 비용을 줄이면서 효율성을 높이는 걸 최우선 목표로 삼았다”며 “저희는 구간 분할을 하기 때문에 이를 통해 중복 연산을 제거하고 모델 경량화를 함으로써 비용 절감을 해결하고자 한다”고 설명했다.
그는 이어 “많은 분들께서 (영상 편집에 AI를 활용할 때) 페인 포인트로 종합적으로 검색했을 때 검색 품질이 낮다는 점을 말씀하시는데 MAIU는 멀티모달을 통한 통합 검색 솔루션으로 이를 해결했다”며 “MAIU에서는 네이버의 인물 인식, 비디오 분석 등 기능을 총망라해서 각 구간에 특화된 미디어 분석을 수행한다”고 말했다. 인물 인식 및 화자별 음성 인식을 통해 인물 중심의 검색이 가능한 검색 기능을 제공함으로써 인물 관련해 편집을 함에 있어서 효과적으로 작업을 진행할 수 있도록 돕는다는 설명이다.
네이버클라우드는 경쟁사 대비 인물 검색 등에서 탁월한 기능을 갖추고 있다고 강조했다. MAIU는 구간을 샷(shot)과 씬(scene)으로 구분하고, 얼굴 매칭을 기반으로 인물을 검색하며, 키워드 검색과 자연어 검색으로 함께 검색을 도운 덕분에 경쟁사 대비 강력한 성능을 보유했다는 분석이다.