네이버와 2023년 12월 업무협약 체결…‘하이클로바X’ 활용 한은용 LLM 개발 나서
‘경제지표 기반 예측’ 추론 등 다양한 테스크 평가 가능하도록 컨설팅 제시

21일 한은에 따르면 디지털혁신실은 최근 ‘한국은행 맞춤형 LLM 평가 벤치마크 체계 및 데이터셋 구축’에 대한 용역을 공고했다. AI 언어모델인 ‘BOK-LLM(가칭)’의 성능을 정량적으로 평가할 수 있는 체계를 마련하기 위해서다.
LLM의 벤치마크란 쉽게 말해 LLM이 얼마나 잘 작동하는지 측정할 수 있는 평가할 수 있는 시험지다. 데이터셋은 그 벤치마크를 평가할 때 사용하는 데이터 모음을 말한다.
한은은 2023년 12월 네이버와 업무협약을 통해 네이버의 초대규모 AI ‘하이퍼클로바X’를 활용한 LLM 구축에 나섰다. 당시 업무협약식에 이창용 한은 총재와 최수연 네이버 대표가 직접 참석해 눈길을 끌기도 했다.
이번 용역 제안요청서를 보면 한은은 평가지표 수립, 성능목표 설정, 평가지표 품질 점검 등 총 11가지를 컨설팅 요구사항으로 제시했다.
주요 내용을 살펴보면 국내외 주요 중앙은행·금융기관 대상으로 LLM 도입·활용 및 평가 사례에 대한 조사·분석을 요구사항으로 제시했다. 평가지표 수립을 통해서는 ‘편향성, 윤리성, 보안 및 기밀성 준수 등 한국은행 업무와 독립적이나 LLM이 필수적으로 갖춰야 할 능력에 대한 평가지표도 포함한다’고 요청했다. 중앙은행 업무 특성에 따른 평가지표별 우선순위 가중치 부여 방안 설계(성능목표 설정), 도출된 평가지표의 타당성, 신뢰성 검증 방법 제시(평가지표 품질 점검)도 요구사항에 반영했다.
데이터셋 구축과 관련해서는 데이터셋은 LLM이 수행할 수 있는 전반적인 능력을 모두 평가할 수 있도록 다양한 테스크(task) 유형을 포함해야 한다고 제시했다. 예시로 제시한 테스크 유형에는 △요약(보고서, 회의록, 논문, 뉴스기사 등) △생성(보고서 작성, 분석보고서, 정책제안 등) △추론(경제지표 기반 예측, 인과관계 분석, 판단 근거 제시 등) 을 담았다. 특해 해당 요구사항에는 “변별력 확보를 위하여 현재 수준의 LLM들이 풀지 못하는 문제들이 반드시 포함돼 있어야 한다”고 제시했다.
한은 관계자는 “현재 개발 중인 LLM이 신뢰성을 갖췄는지, 할루시네이션(허위 생성)은 없는지, 객관적인지 등을 평가할 수 있는 벤치마크를 구축하는 것”이라고 설명했다.