2026 수능 문제지를 생성형 AI에게 풀게 한다면?
순천향대학교 컴퓨터소프트웨어공학과 소속 구유겸 학생이 2026학년도 대학수학능력시험 주요 과목 문제 풀이 결과를 깃허브에 공개하며 주요 글로벌 인공지능(AI) 모델들의 학업 성취도에 대한 관심이 집중되고 있습니다.
이번 실험은 GPT-5.1, 구글 제미나이 2.5 플래시 등 최신 대형 언어 모델(LLM) 및 소형·구형 모델 15종을 대상으로 진행됐습니다.
오픈AI, 구글, 앤트로픽, xAI, 딥시크의 모델들이 활용되었으며 특히 오픈AI는 6종, 구글은 제미나이 2.5 프로·플래시·플래시 라이트 3종이 투입됐습니다. 평가 체계는 실제 수능과 동일하게 국어·수학·영어·한국사·탐구(물리 I·화학 I) 포함 총 450점 만점 기준으로 설계됐습니다.
채점 방식은 모델이 제시한 답안을 한국교육과정평가원 공식 정답과 대조하는 방식으로 실제 수험 환경을 구현했습니다. 단, 딥시크 모델은 이미지 인식을 지원하지 않아 모든 문항이 텍스트 기반으로 풀이됐습니다.
국어 영역에서는 GPT-5.1이 평균 98점, 제미나이 2.5 프로가 99점, GPT-5.1 코덱스 97점가 뒤를 이으며 최상위 성적을 기록했습니다. 제미나이 2.5 플래시(96점)와 클로드 소넷 4.5(97.5점)도 상위권 그룹에 포함되었습니다. 반면 GPT-5 나노는 45점으로 최하위권을 기록해 대형 모델과 소형 모델의 격차가 크게 나타났습니다.
수학 영역에서는 GPT-5.1과 클로드 소넷 4.5가 모두 100점을 받으며 공동 1위를 차지했습니다. GPT-5.1 코덱스(96점), GPT-5 미니(94.7점), GPT-5 나노(94.7점), 제미나이 2.5 프로(94.7점) 등도 상위권 점수대에 있었습니다. 또한 xAI 그록 4·그록 4 패스트가 모두 96점을 기록하며 높은 성능을 보였습니다. 반면 GPT-4o는 56.3점으로 주요 모델 중 가장 낮은 점수를 기록했습니다.
영어 영역에서는 대부분의 모델이 90점대를 기록, 특히 GPT-5.1과 GPT-5 미니가 100점으로 최고 성적을 냈습니다. GPT-5.1 코덱스(97점), GPT-5.1 인스턴트(97점), 제미나이 2.5 프로(97점), 클로드 소넷 4.5(97점) 등도 모두 상위권 성적을 나타냈습니다. 영어에서는 GPT 시리즈의 우위가 가장 두드러지게 나타났습니다.
한국사 영역에서는 다수 모델이 만점(50점)을 기록하며 LLM의 지식 기반 암기 영역 강점이 확인되었습니다.
반면 물리 I에서는 최고 득점이 GPT-5.1의 38점으로, 추론·문제 해결 능력에서 한계가 드러났습니다.
화학 I에서는 GPT-5.1, 제미나이 2.5 프로·플래시, 그록 4가 47점으로 최고 점수를 기록해 복잡한 개념 이해 능력에서 강한 성능을 보였습니다. 이와 달리 GPT-4o는 화학 I에서 11점으로 최하위를 기록했습니다.
종합 성적(450점 만점) 분석 결과, 최신 대형 모델과 소형·구형 모델 간 성능 격차는 매우 컸습니다.
GPT-5.1은 총 433점으로 전체 1위, GPT-5.1 코덱스(421점), 제미나이 2.5 프로(417.7점) 등 최신 대형 모델은 모두 410점 이상을 기록하며 사실상 인간 최상위권에 준하는 성능을 보였습니다.
반면 GPT-5 나노(310.7점), GPT-4o(291.8점) 등 소형·구형 모델은 최신 대형 모델 대비 현저히 낮은 점수로, 복잡한 추론을 요구하는 문제에서 뚜렷한 한계를 보였습니다.