中 '큐웬 2.5'와 유사도 99% 넘어
네이버측 "외부 인코더 전략적 채택
파운데이션 모델은 자체 개발" 반박

국내 인공지능(AI) 산업을 대표하는 이른바 ‘국가대표 AI’ 모델들이 독자 기술 논란에 휩싸이며 시험대에 올랐다. 국대 AI 참여 기업들의 모델이 외부 소스를 그대로 가져다 썼다는 의혹이 제기되며 ‘AI 주권’을 강조한 정부와 업계의 신뢰도에 금이 간다는 지적이 나온다.
6일 AI 업계에 따르면 전날 개발자 플랫폼 깃허브(GitHub)를 중심으로 네이버클라우드의 최신 모델인 ‘하이퍼클로바X 시드(SEED) 32B 싱크(THINK)’가 중국 알리바바의 오픈소스 모델 ‘큐웬(Qwen) 2.5’를 사실상 복제했다는 분석이 제기됐다.
게시글에 따르면 두 모델 간의 비전 인코더(이미지를 인식하고 처리하는 모듈) 가중치를 분석한 결과 코사인 유사도는 99.51%, 피어슨 상관계수는 98.98%에 달했다. 데이터 분석 전문가들은 “유사도가 99%를 넘는다는 것은 단순한 참고를 넘어 해당 모델의 가중치를 그대로 가져와 이식한 수준으로 봐야 한다”고 입을 모은다.
이에 대해 네이버클라우드 측은 즉각 해명에 나섰다. 네이버클라우드 관계자는 “이번 모델에서는 글로벌 기술 생태계와 호환성 및 전체 시스템의 효율적 최적화를 고려해 검증된 외부 인코더를 전략적으로 채택했다”며 “기술적 자립도가 부족해서가 아니라 이미 표준화된 고성능 모듈을 활용해 전체 모델의 완성도와 안정성을 높이기 위한 고도의 엔지니어링 판단”이라고 말했다.
네이버클라우드는 파운데이션 모델만큼은 100% 자체 기술로 개발한 '프롬 스크래치(From Scratch)'라는 점을 강조했다. 이 관계자는 “파운데이션 모델은 입력된 정보를 해석하고 추론하며 결과를 만들어내는 핵심 영역으로 인간으로 치면 사고와 정체성을 담당하는 '두뇌’에 해당한다”면서 “네이버는 이 핵심 엔진을 프롬 스크래치 단계부터 100% 자체 기술로 개발해 왔다”고 힘주어 말했다.
그러나 시장의 반응은 싸늘하다. 네이버는 그동안 한국어 특화 성능과 독자 기술을 앞세운 ‘소버린 AI’를 브랜드 정체성으로 내세워는데 이를 바탕으로 정부의 대규모 지원 사업에 참여해온 상황에서 핵심 모듈을 중국산 오픈소스에 의존했다는 사실이 브랜드 가치에 치명적이라는 지적이다. 뿐만 아니라 오픈소스 기술을 참고해 독자 AI모델이 구축된다 하더라도 만약 오픈소스를 더 이상 활용하지 못할 경우 국방, 의료까지 이어지는 '국대 AI'의 의미 자체가 퇴색된다는 우려도 있다.
문제는 이러한 논란이 네이버에만 국한하지 않는다는 점이다. 앞서 업스테이지 역시 유사한 의혹을 받은 바 있다. 물론 업스테이지의는 공개 검증회를 통해 프롬 스크래치(From Scratch·자체 개발)를 입증하고, 의혹 제기 측의 사과를 받아냈다. 그러나 두 기업이 이러한 논란에 휘말린 데에는 본질적으로는 정부 프로젝트의 기준 자체가 모호한 데서 기인했다는 비판이 나온다. 한 업계 관계자는 “정부가 성과 위주의 ‘국산 모델’ 만들기에 급급하다 보니 오픈소스를 교묘하게 조합한 모델들을 걸러낼 정교한 검증 장치를 마련하지 못한 것”이라고 지적했다.
익명을 요구한 대학교 AI학부 교수는 “오픈소스 활용 자체는 가치 있는 엔지니어링이지만 이를 독자 기술로 홍보하며 국가대표 지위를 얻는 것은 별개의 문제”라며 “정부와 기업 모두 ‘K-AI’라는 수식어에 걸맞은 기술적 진실성을 확보해야 글로벌 경쟁력을 가질 수 있을 것”이라고 했다.



