“AI 지시만 바꾸자 수능 국어 점수 9→1등급…‘극단 격차’ 확인”

입력 2025-11-22 07:00

손현경 기자

기자 이름을 클릭하면
더 자세한 정보를
확인할 수 있어요!

북마크 되었습니다.
마이페이지에서 확인하세요.

가장작게
작게
기본
크게
가장크게

▲진학사가 챗GPT에게 수능 국어문제 풀이를 지시한 각 실험 방식의 차이 (진학사)

진학사가 생성형 인공지능(AI)을 활용해 수능 국어영역을 풀게 한 결과, 지시(프롬프트) 방식에 따라 점수가 9등급에서 1등급까지 크게 달라지는 것으로 나타났다.

진학사 블랙라벨사업부는 22일 챗GPT에 2026학년도 대학수학능력시험 국어 영역 시험지를 입력해 진행한 실험 결과를 공개했다. 실험은 문제 제공 형태와 지시 수준을 달리한 세 가지 방식(A·B·C)으로 나눠 진행됐다.

A 방식은 시험지 전체를 이미지 파일로 제공하고 ‘정답만 말해 달라’고 요구한 방식이다. 챗GPT는 최소한의 추론만 수행해 공통과목 3점, 화법과 작문 5점, 언어와 매체 4점을 기록했다. ‘공통+화작’ 기준 점수는 8점으로 진학사 배치표 기준 9등급에 해당했다.

문항 세트별 PDF를 제공한 B 방식에서는 공통 39점, 화법과 작문 14점, 언어와 매체 6점으로 성적이 상승했다. ‘공통+화작’ 점수는 53점으로 5등급, ‘공통+언매’는 45점으로 6등급 수준이었다.

단계별 풀이 과정과 근거 제시를 요구한 C 방식에서 점수는 가장 높게 나타났다. 챗GPT는 공통 74점, 화법과 작문 21점, 언어와 매체 14점을 기록했고, ‘공통+화작’ 기준 총점 95점으로 1등급에 해당하는 성적을 냈다.

다만 B 방식에서 맞힌 일부 문항을 C 방식에서는 틀리는 사례도 확인됐다.

진학사는 챗GPT가 정밀한 절차를 따르는 과정에서 판단 경로가 예상과 다르게 형성되거나, 제시된 근거를 복잡하게 해석해 오류가 발생한 것으로 분석했다.

우연철 진학사 입시전략연구소장은 “동일한 AI 모델이라도 어떤 방식으로 지시하느냐에 따라 결과가 크게 달라진다”며 “수능 국어처럼 지문 구조 분석과 의미 비교가 필요한 시험에서는 단순 명령만으로는 성능이 충분히 발휘되기 어렵다”고 말했다.

우 소장은 “AI 활용이 확대되는 만큼 프롬프트 설계 능력 역시 중요한 학습 역량이 될 것”이라고 밝혔다.

AI 추천 뉴스

#수능 #수능국어

손현경 기자의 주요 뉴스

좋아요0
화나요0
슬퍼요0
추가취재 원해요0

주요 뉴스

[알립니다] 2026 대한민국 금융대전 개최합니다

프리미엄 경제신문 이투데이가 자본의 방향을 다시 설계해야 하는 전환점을 맞아 국가 차원의 생산적 금융과 개인의 머니 리밸런싱을 함께 조망하는 ‘제13회 2026 대한민국 금융대전’을 개최합니다. 올해 행사는 '머니 리밸런싱 : 돈의 길을 바꿔라 – 생산적 금융으로 여는 성장의 통로'를 주제로 열립니다. 자본이 부동산이나 가계대출에만 머
"중소기업 정규직보다 대기업 계약직 갈래요" [데이터클립]

취준생 10명 중 8명은 첫 직장으로 '중소기업 정규직'보다 '대기업 계약직'을 원하는 것으로 나타났다. 진학사 캐치가 이달 10일 취준생 1457명을 대상으로 한 '첫 직장으로 대기업 계약직과 중소기업 정규직 중 어느 쪽을 선택하겠느냐'는 질문에 응답자의 78%가 '대기업 계약직'을 택했다. '중소기업 정규직'이라 답한 비율은 22%였다. 대기업
러브버그 출몰 경보, 그 시기가 왔다 [해시태그]

예고된 날짜. 날아온 목격담. 사랑스러운 이름과 다른 불쾌감 가득한 형태의 출몰이죠. 이맘때쯤 팅커벨(동양하루살이) 다음 타자로 으레 인식되는 수준의 존재인데요. 올해는 생각보다 덜한 것 같다는 안도 섞인 말에도 “그런 말 함부로 하는 것 아니다”라는 핀잔이 돌아올게 하는 영향력이죠. 이제는 그의 지역별 출몰 정보를 퍼센트로 보여주
단독 발전5사, 전력거래 비중 10년 새 '반토막'⋯통폐합 명분 키우나

발전5사 점유율 31%로 하락, 민간 사업자 2년 연속 '최대' 통폐합·석탄폐쇄 구조조정 공포⋯고용 불안·채용 위축 우려 국내 전력 도매시장에서 한국전력 산하 발전5사가 차지하는 전력 거래 비중이 30%대까지 하락한 것으로 나타났다. 2010년대 중반까지만 해도 전체 전력 시장의 60%를 웃돌았던 화석연료 중심의 에너지 생산 보루가 불과 10여
'노잼'이라던 북중미 월드컵, 이 맛에 봅니다 [이슈크래커]

2026 국제축구연맹(FIFA) 북중미 월드컵을 향한 분위기가 심상치 않습니다. 개막 전까지만 해도 이번 대회를 두고 우려 섞인 전망이 적지 않았는데요. 일각에서는 이번 월드컵 흥행 여부를 두고 회의적인 전망까지 내놓은 상황이었습니다. 그런데 막상 뚜껑이 열리니 사뭇 다른 분위기가 흐릅니다. 특히 예상을 벗어난 경기 결과가 이어지면서 '
코스피 8700선 마감…종전·2분기 실적 기대감에 전고점 돌파할까

코스피 지수가 미국과 이란의 종전, 2분기 실적 상향 기대감 속 2% 넘게 급등하며 8700선에 안착하는데 성공했다. 16일 한국거래소에 따르면 코스피는 전 거래일 대비 180.62포인트(2.11%) 오른 8726.20에 거래를 마쳤다. 이날 코스피는 하락 전환하는 등 변동성을 보이며 대내외 불확실성을 소화했으나 2분기 실적 개선 기대감과 종전 호재가
JTBC 등 중앙그룹 회생신청, 크레딧시장 제2 레고랜드 사태로 번질까

전문가들 “개별기업 리스크, 시장 전반 확산 가능성 낮아” 금융권 익스포저 1.3조에도 분산 구조...재무안정성 영향 제한적 BBB급 투자심리 위축·스프레드 확대 불가피 JTBC와 중앙일보, 콘텐트리중앙 등 중앙그룹 주요 계열사들이 기업회생절차를 신청하면서 크레딧 채권시장 긴장감도 높아지고 있다. 미국·이란 전쟁 장기화로 크레딧시장 투자
건설업계에 찾아든 AI 열풍⋯소통·품질·안전 '세 마리 토끼' 잡는다

GS건설·현대건설 등 피지컬 AI 실증 대우건설·롯데건설 AI 번역기 활용 국토부 등 스마트 건설 생태계 조성 국내 건설업계가 AI와 로보틱스 기술을 현장에 빠르게 접목하며 디지털 전환에 속도를 내고 있다. 고령화와 인력 부족, 안전사고 리스크 등 고질적인 현장 문제를 해결하기 위해 대기업부터 중소기업, 정부와 지자체까지 손을 잡고 '건