“AI 지시만 바꾸자 수능 국어 점수 9→1등급…‘극단 격차’ 확인”

입력 2025-11-22 07:00

  • 가장작게

  • 작게

  • 기본

  • 크게

  • 가장크게

▲진학사가 챗GPT에게 수능 국어문제 풀이를 지시한 각 실험 방식의 차이 (진학사)
▲진학사가 챗GPT에게 수능 국어문제 풀이를 지시한 각 실험 방식의 차이 (진학사)

진학사가 생성형 인공지능(AI)을 활용해 수능 국어영역을 풀게 한 결과, 지시(프롬프트) 방식에 따라 점수가 9등급에서 1등급까지 크게 달라지는 것으로 나타났다.

진학사 블랙라벨사업부는 22일 챗GPT에 2026학년도 대학수학능력시험 국어 영역 시험지를 입력해 진행한 실험 결과를 공개했다. 실험은 문제 제공 형태와 지시 수준을 달리한 세 가지 방식(A·B·C)으로 나눠 진행됐다.

A 방식은 시험지 전체를 이미지 파일로 제공하고 ‘정답만 말해 달라’고 요구한 방식이다. 챗GPT는 최소한의 추론만 수행해 공통과목 3점, 화법과 작문 5점, 언어와 매체 4점을 기록했다. ‘공통+화작’ 기준 점수는 8점으로 진학사 배치표 기준 9등급에 해당했다.

문항 세트별 PDF를 제공한 B 방식에서는 공통 39점, 화법과 작문 14점, 언어와 매체 6점으로 성적이 상승했다. ‘공통+화작’ 점수는 53점으로 5등급, ‘공통+언매’는 45점으로 6등급 수준이었다.

단계별 풀이 과정과 근거 제시를 요구한 C 방식에서 점수는 가장 높게 나타났다. 챗GPT는 공통 74점, 화법과 작문 21점, 언어와 매체 14점을 기록했고, ‘공통+화작’ 기준 총점 95점으로 1등급에 해당하는 성적을 냈다.

다만 B 방식에서 맞힌 일부 문항을 C 방식에서는 틀리는 사례도 확인됐다.

진학사는 챗GPT가 정밀한 절차를 따르는 과정에서 판단 경로가 예상과 다르게 형성되거나, 제시된 근거를 복잡하게 해석해 오류가 발생한 것으로 분석했다.

우연철 진학사 입시전략연구소장은 “동일한 AI 모델이라도 어떤 방식으로 지시하느냐에 따라 결과가 크게 달라진다”며 “수능 국어처럼 지문 구조 분석과 의미 비교가 필요한 시험에서는 단순 명령만으로는 성능이 충분히 발휘되기 어렵다”고 말했다.

우 소장은 “AI 활용이 확대되는 만큼 프롬프트 설계 능력 역시 중요한 학습 역량이 될 것”이라고 밝혔다.

  • 좋아요0
  • 화나요0
  • 슬퍼요0
  • 추가취재 원해요0

주요 뉴스

  • 쯔양·닥터프렌즈·닥터딩요와 함께하는 국내 최초 계란 축제 '에그테크코리아 2025' 개최
  • 달러가 움직이면 닭이 화내는 이유?…계란값이 알려준 진실 [에그리씽]
  • 정국ㆍ윈터, 열애설 정황 급속 확산 중⋯소속사는 '침묵'
  • ‘위례선 트램’ 개통 예정에 분양 시장 ‘들썩’...신규 철도 수혜지 어디?
  • 이재명 대통령 직무 긍정평가 62%…취임 6개월 차 역대 세 번째[한국갤럽]
  • 환율 급등에 증권사 외환거래 실적 ‘와르르’
  • 조세호·박나래·조진웅, 하룻밤 새 터진 의혹들
  • ‘불수능’서 만점 받은 왕정건 군 “요령 없이 매일 공부했어요”

실시간 암호화폐 시세

  • 종목
  • 현재가(원)
  • 변동률
    • 비트코인
    • 136,980,000
    • -1%
    • 이더리움
    • 4,710,000
    • -0.51%
    • 비트코인 캐시
    • 854,000
    • -3.23%
    • 리플
    • 3,108
    • -3.99%
    • 솔라나
    • 206,100
    • -3.42%
    • 에이다
    • 654
    • -1.95%
    • 트론
    • 426
    • +2.16%
    • 스텔라루멘
    • 375
    • -1.57%
    • 비트코인에스브이
    • 30,850
    • -1.66%
    • 체인링크
    • 21,130
    • -1.22%
    • 샌드박스
    • 222
    • -2.2%
* 24시간 변동률 기준