인공지능 학습용 데이터로 심은 씨앗…꽃 피울까?

입력 2021-06-18 14:43

인공지능 생태계 조성을 위한 묘목을 과학기술정보통신부가 마련했다. 인공지능 산업이 뿌리부터 탄탄하게 성장하기 위해 도움이 될 건강한 학습용 데이터를 개방하겠다는 것. 다만 묘목이 건강히 성장하기 위한 활용 제고가 과제로 남았다.

과기정통부와 한국지능정보사회진흥원(NIA)은 인공지능(AI) 학습용 데이터 170종을 AI 허브에 개방한다고 18일 밝혔다. 4억8000만 건의 데이터를 이날부터 자유롭게 이용할 수 있다.

(사진제공=과학기술정보통신부)
(사진제공=과학기술정보통신부)

◇과기정통부, 개인정보ㆍ품질 이슈에 만전 기해

과기정통부는 2017년부터 AI 학습용 데이터를 구축ㆍ개방해왔다. 기업ㆍ연구자ㆍ개인이 데이터를 수집하고 학습용으로 보정하기 어려운 만큼, 정부가 팔을 걷어붙이고 나선 것이다. 2020년부터는 디지털 뉴딜 ‘데이터 댐’ 구축 프로젝트의 일환으로 구축 규모를 대폭 확대해 추진해왔다.

특히 이번 신규 데이터 개방에는 비정형 데이터가 다수 포함돼있다. 민간에서 수요가 많지만, 개인정보 등을 이유로 수집하기 어려운 데이터들이다. 과기정통부는 △음성ㆍ자연어(대화ㆍ명령어ㆍ방언 발화 음성, 한국어-외국어 말뭉치) 등 39종 △헬스케어(암ㆍ뇌질환ㆍ피부ㆍ치과 등) 32종 △자율주행(주행영상, 객체ㆍ장애물 이미지) 21종을 공개했다.

과기정통부는 개인정보 유출 문제에 대비하기 위해 시나리오 방식을 채택했다. 배우가 대본을 읽어 자연어 데이터를 만들거나, 관련 액션을 하는 방식으로 데이터를 구축한 것이다.

양기성 과기정통부 인공지능기반정책관 데이터진흥과장은 “개인의 얼굴이 도로 영상 등에서 노출되는 경우 전문기업을 통해 비식별화 조치를 취했다”라며 “민감정보는 한국인터넷진흥원(KISA)과 전문기업에 수차례 검증을 거쳤다”라고 설명했다.

향후 3개월간 본격 검증을 또한 거칠 예정이다. 이용자 대상으로 오류신고 창구를 운영하고, 수행기관의 데이터 유지보수 의무화 등 유지보수 체계를 마련한다는 구상이다.

그간 과기정통부는 AI 학습용 데이터의 품질 관리에 주력해왔다. 다양성ㆍ구문정확성ㆍ의미정확성ㆍ유효성 등을 기준을 세우고 정확도 90~99%의 품질을 유지해온 것. 170종의 데이터 중 구조정확도는 99% 이상이 정확도 99% 이상을, 의미정확성은 90~95점의 점수를 받았다고 자신감을 드러냈다.

송경희 과기정통부 인공지능기반정책관 또한 “106종 데이터에 대해 민간 기업들에 사전 리뷰를 거친 결과 대체로 우수하다는 평가를 받았다”라며 “국내 AI 기업들의 가장 큰 애로사항이 데이터 부족인 만큼 이 부분에 도움이 될 것”이라고 말했다.

더불어 △비전(방송ㆍ광고 영상 및 스포츠 동작 영상) 15종 △국토환경(토지ㆍ산림 위성 이미지, 수질오염 이미지) 12종 △농축수산(국내 주요 작물ㆍ가축ㆍ어류의 영상 및 질병 데이터) 14종 △안전(CCTV 영상ㆍ이상행동ㆍ교통흐름 및 재난상황) 19종 △기타(소상공인-고객 질의응답, 패션상품 및 착용영상) 18종도 개방한다.

▲임혜숙 과학기술정보통신부 장관(앞줄 오른쪽 다섯 번째)이 18일 오전 서울 강서구 LG 사이언스파크 ISC에서 열린'인공지능(AI) 데이터 활용협의회 출범식' 에 참석해 출범 선포를 마치고 기념촬영 하고 있다. (사진제공=과학기술정보통신부)
▲임혜숙 과학기술정보통신부 장관(앞줄 오른쪽 다섯 번째)이 18일 오전 서울 강서구 LG 사이언스파크 ISC에서 열린'인공지능(AI) 데이터 활용협의회 출범식' 에 참석해 출범 선포를 마치고 기념촬영 하고 있다. (사진제공=과학기술정보통신부)

◇이용자들의 충분한 ‘활용’ 위한 차기 과제는

공들여 구축한 데이터가 충분히 ‘활용’될지가 과제로 남았다. 데이터 플랫폼 생태계는 묘목을 심어 아름드리나무로 키워나가는 과정과 유사하다. 데이터 플랫폼이 묘목 심기 단계라면, 데이터 현행화나 UIㆍUX(사용자 인터페이스ㆍ경험) 개선은 성장을 지원하는 단계기 때문이다.

과기정통부 발표에 따르면 그간 AI 허브 이용자와 데이터 활용은 꾸준히 증가하는 추세다. 2019년 4439명이던 이용자도 2020년 1만3092명으로, 2019년 1만6177회던 활용 건수도 2020년 4만9085회로 늘었다.

다만 이용자당 평균 활용 건수는 4~5건으로 큰 개선이 없었다. 그간 AI 허브는 데이터 다운로드 중 끊기면 데이터를 다시 처음부터 받아야 하는 문제, UIㆍUX가 불편해 데이터 검색이 어려운 문제 등이 지적돼왔다. 데이터 플랫폼을 상시 이용하기보다 필요한 데이터 확보 또는 분석 과정에서 요구되는 경우에만 한시적으로 이용하는 경우가 많아서다.

양기성 과장은 “쉬운 데이터 다운로드를 위해 이어받기가 가능하도록 개선한 상태”라며 “현재 본인인증 한 번으로 데이터에 대한 접근 및 활용이 가능하도록 했다”고 답했다.

유통된 데이터의 통계ㆍ이력을 관리하는 것 또한 이용자 편의에 중요한 요소로 꼽힌다. 수만 개의 데이터셋이 AI 허브에 존재하는 만큼, 과거에 활용한 데이터를 찾아갈 이정표가 필수기 때문. 이에 AI 허브에서 보유하고 있는 데이터 객체식별자 도입 또한 추후 과제로 남았다. 객체식별자(Object IDentifier)는 데이터에 고유번호를 할당하는 방식이다.

고윤석 NIA 지능데이터본부 본부장은 “주행영상은 ‘자동차’ 등 객체 위주로 검색하는 경우가 많다”라며 “객체를 검색할 수 있는 서비스를 데모 버전으로 준비 중”이라고 설명했다.

정부는 향후 하반기에 관련 서비스를 제공할 예정이다.

임혜숙 과기정통부 장관은 “댐의 물이 대지 곳곳으로 스며들어 꽃을 피우듯이, 이번에 공개되는 데이터들이 산업 곳곳에서 널리 활용돼 혁신의 열매를 맺을 수 있기를 기대한다”라고 말했다.

  • 좋아요-
  • 화나요-
  • 추가취재 원해요-

주요 뉴스

  • 오늘의 상승종목

  • 07.30 장종료

실시간 암호화폐 시세

  • 종목
  • 현재가(원)
  • 변동률
    • 비트코인
    • 47,831,000
    • +0.06%
    • 이더리움
    • 2,976,000
    • +5.27%
    • 비트코인 캐시
    • 629,500
    • +0.64%
    • 리플
    • 872
    • +1.25%
    • 라이트코인
    • 167,900
    • +1.57%
    • 에이다
    • 1,561
    • +3.65%
    • 이오스
    • 4,714
    • -0.15%
    • 트론
    • 75.25
    • +1.83%
    • 스텔라루멘
    • 330
    • +3.35%
    • 비트코인에스브이
    • 168,100
    • +1.51%
    • 체인링크
    • 26,190
    • +5.14%
    • 샌드박스
    • 715.9
    • -3.19%
* 24시간 변동률 기준