|
20일 니혼게이자이(닛케이)신문에 따르면 오픈AI의 최신 모델 ‘GPT-5.2 씽킹’(이하 챗GPT), 구글의 ‘제미나이 3.0 프로’(제미나이), 앤스로픽의 ‘클로드 4.5 오푸스’(클로드)를 이용해 지난 17~18일 실시된 일본 대입 공통시험을 치르도록 한 결과, 챗GPT가 평균 정답률 96.9%로 가장 높은 점수를 기록했다. 이는 2024년 66%, 2025년 91%에서 크게 개선된 수치로, 도쿄대 의대 합격이 가능한 수준이다.
구글 제미나이와 앤스로픽 클로드는 각각 평균 정답률 91.4%, 90.9%를 기록했다. 수험생 예상 점수(평균 60%)와 비교하면 월등히 높은 수치다. 두 모델은 2년 전까지만 해도 정답률이 43%, 51%에 불과했다.
닛케이는 “데이터 학습량 증가와 함께 대입 수준에서도 정확도가 눈에 띄게 향상됐다”며 “AI가 이미 어려운 대학도 합격할 수준의 학습능력을 갖췄을 뿐더러, 다양한 사무·지적 작업을 수행할 수 있음을 다시 한 번 보여준 셈”이라고 평가했다.
챗GPT는 주요 15과목 중 수학, 화학, 물리, 지학, 생물, 공공·정치경제 등 9과목에서 만점을 기록했다. 영어 읽기(97%)과 일본사(97%), 세계사(97%)도 만점에 가까웠다. 반면 지리(91%)와 국어(90%)는 다소 낮은 점수를 기록했다. 제미나이는 2과목, 클로드는 3과목에서 만점을 받았다.
클로드는 국에에서 챗GPT와 같은 90%를 기록하며 제미나이(85.5%)보다 나은 성과를 나타냈으나, 지리는 72%로 부진했다. 이·공계 과목에선 대부분이 제미나이가 클로드를 앞서며 안정적인 성적을 유지했다.
닛케이는 “세 모델 모두 이공계 과목에 강했으나, 국어·지리 등 언어와 시각적 이해력이 필요한 문제에서 취약했다”며 “지리는 일본 지도, 그래프 등이 포함된 문제에서, 물리는 도표가 포함된 문제에서 점수가 깎였다”고 짚었다.
아울러 세 모델 모두 제한시간 내 모든 과목 해답을 제출했다. 제미나이와 클로드는 최단 4분, 최장 20분 안에 모든 답안을 완성했다. 챗GPT는 이들보다 2~3배 긴 시간을 들였지만 정답률은 가장 높았다.
이번 실험을 공동 진행한 라이프프롬프트의 엔도 사토시 최고경영자(CEO)는 “정확성이 중요한 재무·법무 등에는 오픈AI, 속도를 중시하는 문서 요약 등에는 구글이나 앤스로픽 챗봇이 적합하다”며 “용도와 비용에 따라 AI를 구분 활용하면 각 모델이 가진 장점을 극대화할 수 있다”고 말했다.
Copyright ⓒ 이데일리 무단 전재 및 재배포 금지
본 콘텐츠는 뉴스픽 파트너스에서 공유된 콘텐츠입니다.
