국가대표 AI 첫 심판대…수능 수학점수 70점대로 쑥

입력 2026-01-12 05:00

  • 가장작게

  • 작게

  • 기본

  • 크게

  • 가장크게

김종락 교수팀 2차 검증 결과 발표
LG ‘K-엑사원’ 46점 오른 70점
업스테이지 ‘솔라’ 74점…14점 ↑
글로벌 모델과 10~20점차로 좁혀
연구팀 자체 문항서도 높은 점수

▲그래픽=손미경 기자 sssmk@
▲그래픽=손미경 기자 sssmk@

‘독자 인공지능(AI) 파운데이션 모델’ 프로젝트에 참여한 주관사의 AI 모델 성능이 정부의 대규모 투자 이후 개선된 것으로 나타났다. 수능 수학∙논술 문제를 풀렸을 때 70점대가 나오는 등 글로벌 프론티어 모델과의 성능 차이가 좁혀지고 있다는 평가가 나온다. 정부가 6월까지 글로벌 톱10 수준의 국가대표 AI를 내놓겠다는 포부를 밝힌 가운데 ‘AI 3강’ 도약이 가능할지 관심이 쏠린다.

12일 김종락 서강대 수학과 교수팀은 국가대표 AI 5개 모델 중 자체 평가에서 상위권을 차지한 2개 모델의 수리적 추론 능력 결과를 발표했다. 김 교수팀은 LG AI연구원의 'K-엑사원'과 업스테이지의 '솔라 오픈 100B'의 성능이 크게 향상됐다고 밝혔다.

김 교수팀이 지난해 12월 15일 수능 수학∙논술 50문제를 풀게 한 결과 엑사원 4.0.1은 24점이었지만 최근 공개된 K-엑사원은 70점을 기록했다. 업스테이지의 솔라 프로 2(31B)는 60점이었지만 솔라 오픈 100B는 74점으로 높은 성능을 보였다.

같은 문제로 글로벌 모델을 평가한 결과 구글의 ‘제미나이 3-프로-프리뷰’가 가장 높은 점수인 96점을 기록했다. 오픈 AI의 ‘GPT-5.2’는 86점, 중국 딥시크의 ‘딥시크-V.3.2’는 78점이었다. 김 교수팀은 “국가대표 AI 모델과 프론티어 모델과의 점수 차이가 10-20점밖에 나지 않는다”고 평가했다.

김 교수팀은 1차 평가 때와 같은 수능∙논술 문제로 국가대표 AI의 성능을 확인했다. 수능 문제로는 공통과목, 확률과 통계, 미적분, 기하에서 가장 어려운 문항 5개씩을 뽑아 20문제를 설정했다. 논술 문제는 국내 10개 대학 기출 문제와 인도 대학입시 10문제, 일본 도쿄대 공대 대학원 입시 수학 10문제 등 30문제를 제시했다.

▲배경훈 부총리 겸 과학기술정보통신부 장관이 지난해 12월 30일 오후 서울 강남구 코엑스에서 열린 독자 AI 파운데이션 모델 프로젝트 1차 발표회에 참석해 축사를 하고 있다. (사진=뉴시스)
▲배경훈 부총리 겸 과학기술정보통신부 장관이 지난해 12월 30일 오후 서울 강남구 코엑스에서 열린 독자 AI 파운데이션 모델 프로젝트 1차 발표회에 참석해 축사를 하고 있다. (사진=뉴시스)

또한 교수팀은 수학 올림피아드 수준 및 대학·대학원 수준의 고난도 문제로 구성된 자체 평가 문제 ‘엔트로피매스 시드 10 v1’를 풀게 한 결과 국가대표 AI 성능이 이전 모델에 비해 높아진 것을 확인할 수 있었다고 했다. 앞선 평가에서 엑사원 4.0.1은 46.7점을 기록했는데 이번 평가에서 K-엑사원은 76.7점으로 30점이 올랐다. 솔라 오픈 100B도 56.7점을 받아 53.3점이던 솔라 프로 2(31B)에 비해 소폭 향상됐다.

이번 평가 결과를 두고 김 교수팀은 “이전 모델보다 수리 추론 역량이 개선됐다는 것을 확인했다”며 “국가대표 AI 모델들의 수학적 추론 능력이 프론티어 모델을 바짝 추격하고 있다”고 말했다. 김 교수팀이 성능 평가에 활용한 문제와 관련 점수는 ‘엔트로피매스’ 리더보드에 전부 공개돼 있다.

한편, 15일 전후로 예정된 1차 평가 결과를 앞두고 독자 AI 파운데이션 모델 후보 5개가 글로벌 오픈소스 플랫폼 허깅페이스에 모두 공개됐다. 김 교수팀의 이번 평가는 민간에서 처음으로 진행된 국가대표 AI 성능 평가라는 점에서 의미를 가진다.

업계에선 해외처럼 AI 모델 검증이 자유로운 분위기가 형성돼야 한다는 지적이 나온다. 최병호 고려대 AI연구소 교수는 “업스테이지의 프롬 스크래치 논란은 한국의 AI 생태계에 굉장히 긍정적인 역할을 했다”며 “국가 단위의 AI 개발이 산업 혁신을 비롯해 민간 영역에 큰 영향을 미치는 만큼 민간 차원의 다양한 평가가 이뤄져야 한다”고 말했다.

  • 좋아요0
  • 화나요0
  • 슬퍼요0
  • 추가취재 원해요0

주요 뉴스

  • 단독 AI로 금융사고 선제 차단… 금감원, 감독 방식 재설계 [금융감독 상시체제]
  • 출근길 블랙아이스 비상…추돌사고·안전재난문자 잇따라
  • 오천피 기대 커져도 ‘저평가 기업’ 비중은 여전
  • 4인 가구 시대 저물고...경제 표준 된 ‘솔로 이코노미’[나혼산 1000만 시대]
  • 바이오 이어 의료AI도 옥석 가리기?…이제는 숫자가 말한다
  • 두 번의 한중 정상회담이 남긴 과제⋯"실질적 협력 강화해야" [리셋 차이나]
  • 개포우성4차 시공사 선정 다시 시동⋯롯데·포스코 2파전 속 삼성 변수
  • 국가대표 AI 첫 심판대…수능 수학점수 70점대로 쑥
  • 오늘의 상승종목

  • 01.09 장종료

실시간 암호화폐 시세

  • 종목
  • 현재가(원)
  • 변동률
    • 비트코인
    • 133,580,000
    • +0.13%
    • 이더리움
    • 4,583,000
    • +0.73%
    • 비트코인 캐시
    • 956,000
    • +0.74%
    • 리플
    • 3,039
    • -1.3%
    • 솔라나
    • 204,400
    • +2.05%
    • 에이다
    • 573
    • +0.17%
    • 트론
    • 441
    • -0.9%
    • 스텔라루멘
    • 330
    • -1.2%
    • 비트코인에스브이
    • 28,340
    • -0.56%
    • 체인링크
    • 19,340
    • -0.05%
    • 샌드박스
    • 172
    • -2.27%
* 24시간 변동률 기준