챗GPT는 ‘의대’ 가는데 국산 AI는 ‘재수’ 확정…기술 격차 심각

입력 2025-12-16 13:44

손현경 기자

기자 이름을 클릭하면
더 자세한 정보를
확인할 수 있어요!

북마크 되었습니다.
마이페이지에서 확인하세요.

가장작게
작게
기본
크게
가장크게

김종락 서강대 교수팀, 국대AI 5개팀·해외 AI 성능 비교

(로이터/연합뉴스)

‘AI 3강’을 목표로 내건 국내 소버린 인공지능(AI) 전략이 기초 학문 추론 능력이라는 관문조차 넘지 못하고 있다는 경고음이 나왔다. 해외 AI가 수능 수학과 고난도 논술 문제에서 이미 ‘의대 합격선’에 해당하는 성적을 받은 반면, 국내 AI는 다수 모델이 낙제점에 머물면서 “여전히 재수를 고민해야 할 수준”이라는 평가가 제기된다.

15일 김종락 서강대 수학과 교수 연구팀에 따르면, 국내 ‘국가대표 AI’ 도전 5개 팀의 주요 대형언어모델(LLM)과 오픈AI·구글·xAI·앤트로픽·딥시크 등 해외 AI 5개 모델을 대상으로 수능 수학 20문제와 논술 30문제를 풀게 한 결과, 해외 모델은 76~92점, 국내 모델은 최고 58점에 그쳤다.

연구팀은 수능 문제로 공통과목, 확률과 통계, 미적분, 기하 영역에서 가장 난도가 높은 문항 5개씩을 선별했다. 논술은 국내 주요 대학 기출 10문제와 인도 대학 입시 10문제, 일본 도쿄대 공대 대학원 입시 수학 10문제로 구성했다. 총 50개 문제를 10개 AI 모델에 풀게 한 것이다.

해외 모델 가운데서는 구글 ‘제미나이 3 프로 프리뷰’가 92점으로 가장 높은 점수를 기록했고, GPT-5.1, 클라우드 오푸스 4.5, 그록 4.1 패스트, 딥시크 V3.2 등도 모두 70~90점대 성적을 받았다. 반면 국내 모델은 업스테이지의 ‘솔라 프로-2’가 58점으로 가장 높았고, LG AI연구원의 ‘엑사원 4.0.1’, 네이버 ‘HCX-007’, SK텔레콤 ‘A.X 4.0’ 등은 대부분 20점대에 머물렀다. 엔씨소프트의 경량 모델 ‘라마 바르코 8B 인스트럭트’는 2점으로 최저점을 기록했다.

연구팀은 국내 모델들이 단순 추론만으로는 문제를 거의 풀지 못해 파이선 계산 툴 사용까지 허용했지만 성적 개선은 제한적이었다고 설명했다. 이는 계산 능력보다 문제 구조를 이해하고 논리를 전개하는 기초 수학 추론 역량 자체가 부족했음을 보여준 결과라는 분석이다.

격차는 연구팀이 자체 개발한 고난도 수학 문제 세트 ‘엔트로피매스(EntropyMath)’에서도 반복됐다. 대학생 수준부터 교수급 논문 연구 난이도로 구성된 문제 10개를 풀게 한 결과, 해외 모델은 82.8~90점을 기록한 반면 국내 모델은 7.1~53.3점에 그쳤다. 세 차례 도전 기회를 주는 방식에서도 해외 모델은 대부분 90점 이상을 기록했지만, 국내 모델은 20~70점 수준에 머물렀다.

이에 대해 LG AI연구원은 평가 방식에 문제를 제기했다. LG 측은 “엑사원 4.0.1은 추론 기능을 활성화하기 위한 특정 프롬프트가 필요한 모델”이라며 “모델 특성을 고려하지 않은 시험”이라고 반박했다. LG AI연구원이 자체 방식으로 동일 수능 문제를 시험한 결과 평균 88.75점이 나왔다는 주장도 내놨다.

▲수능 20문제+논술 30문제 풀이 결과 (김종락 교수팀)

정부와 업계는 이번 결과가 국내 AI 기술의 ‘한계’를 단정짓는 것은 아니라는 입장이다. 배경훈 부총리 겸 과학기술정보통신부 장관은 “국내 기업들은 그동안 산업·서비스 목적의 AI 개발에 집중해 왔고, 수학·과학 추론에 특화된 학습 데이터가 부족했던 것이 사실”이라며 “도메인별 특화 데이터와 학습 전략을 강화하면 글로벌 톱 수준 경쟁력도 가능하다”고 말했다.

김종락 교수는 “국내 모델은 기존 공개 버전을 기준으로 평가한 만큼, 각 팀의 국가대표 AI 버전이 공개되면 자체 개발 문제로 다시 성능을 검증할 계획”이라며 “엔트로피매스를 기반으로 한 수학 리더보드를 국제적 수준으로 키워 수학뿐 아니라 과학·제조·문화 영역까지 도메인 특화 AI 성능 개선에 기여하겠다”고 밝혔다.

AI 추천 뉴스

손현경 기자의 주요 뉴스

좋아요0
화나요0
슬퍼요0
추가취재 원해요0

주요 뉴스

쯔양·닥터프렌즈·닥터딩요와 함께하는 국내 최초 계란 축제 '에그테크코리아 2025' 개최

계란 산업 혁신과 미래 트렌드 한 눈에 12월 19~21일 3일간 양재 aT센터에서 국내 계란 식품·산업·웰니스를 아우르는 대형 계란 박람회 '에그테크코리아 2025'(EggTech Korea 2025)가 다음달 19일부터 21일까지 서울 양재 aT센터 제1전시장에서 개최된다. 이번 행사는 ‘계란·미래·K 푸드·웰니스’를 핵심 키워드로, 60개사 100부스가 참여하는 대
하다하다 야쿠자까지…보법 다른 일본 연프 '불량연애' [해시태그]

이것이 진정한 ‘매운맛’이었습니다. ‘연프(연애 프로그램)’ 홍수 속 선택받기 위한 저마다의 ‘도파민’을 내뿜는 중 착륙했죠. 넘치다 못해 흐르는 도파민을 자랑했는데요. 보법부터 다른 그들의 ‘연프’가 비판과 흥분 사이 논란의 한가운데 서 있죠. “연프 맞아?” 넷플릭스 일본 오리지널 연애 리얼리티 ‘불량연애(러브조토/라브죠토·ラヴ上等)’
"빨간 종이통장 기억하시나요?"…126년 세월 담은 '우리1899'

1990년대에 한일은행(현 우리은행)에서 근무했는데 제가 일할 때 보던 통장들이 여기 있네요. 우리은행의 은행사박물관 ‘우리1899’를 15일 찾은 김숙연(55) 씨는 빨간 ‘한일은행 자유저축예금’ 종이통장을 보며 30년 전 추억을 떠올렸다. 대한천일은행, 한일은행, 한국상업은행, 평화은행 등 이름은 다르지만 모두 126년을 이어온 우리은행의 전
제약사 간 지분 교환 확산…자사주 소각 의무화 ‘주주가치 제고’ 취지 무색

정부·여당이 자사주 소각 의무화를 핵심으로 하는 상법 개정을 추진하는 가운데, 일부 제약사들이 자사주를 서로 맞교환하는 방식으로 대응하고 있다. 이에 대해 자사주 소각을 통해 주주가치를 높이겠다는 제도 취지와 달리, 실질적인 주주환원 없이 자사주를 형태만 바꿔 보유하려는 것 아니냐는 지적도 나온다. 15일 제약업계에 따르면 환인
뉴욕증시, AI 경계론에 짓눌린 투심…나스닥 0.59%↓

뉴욕증시가 15일(현지시간) 하락했다. 이날 뉴욕증권거래소(NYSE)에서 다우지수는 전장보다 41.49포인트(0.09%) 내린 4만8416.56에 장을 마감했다. S&P500지수는 전장 대비 10.90포인트(0.16%) 밀린 6816.51에, 나스닥지수는 137.76포인트(0.59%) 떨어진 2만3057.41에 거래를 끝냈다. 미국 주식시장이 사상 최고치 부근에서 등락을 거듭하는 가
단독 사립대 ‘보이지 않는 구조조정’…20년간 47건 대학 통폐합

학령인구 감소라는 거대한 인구구조의 변화 속에 지난 20여 년간 전국 대학에서 총 47건의 통·폐합이 이뤄진 것으로 나타났다. 이 과정에서 부채·재산 정리, 법인 지위 조정, 교원 신분 보장, 학사관리 등 복잡한 쟁점이 반복적으로 드러났지만, 이를 체계적으로 조정할 제도적 장치는 충분하지 않다는 지적이 꾸준히 제기돼 왔다. 최근 대학가
넷플릭스 '흑백요리사2', 오늘(16일) 공개 시간은?

넷플릭스 요리 예능 ‘흑백요리사: 요리 계급 전쟁’ 시즌2가 오늘(16일) 전 세계에 동시 공개된다. 지난해 시즌1이 글로벌 흥행을 기록하며 미식 예능의 새 흐름을 만든 만큼 시즌2 공개를 앞두고 시청자들의 관심도 높아지고 있다. 넷플릭스에 따르면 ‘흑백요리사2’의 공식 공개 시간은 한국 시각 기준 오후 5시다. 넷플릭스는 오리지널 콘텐츠
2026 ‘숨 막히는 기술戰’⋯재계의 시선은 'AIㆍ수익성ㆍ로봇'

삼성, AI 주도권 되찾기로 실적 반등 관건 SK, HBM 독주로 지속 가능성 시험대 현대차, SDV·자율주행 중심 전환 가속 LG, AI 시대 LG만의 정체성 요구 올해 재계를 짓눌렀던 최대 리스크는 ‘관세와 통상’이었다. 급변하는 글로벌 무역 환경에 기업들은 공격 대신 방어적 기조를 유지할 수밖에 없었다. 그러나 내년에는 판이 바뀐다. 통상 변수의