국내 AI, 수능 수학·논술 테스트 대부분 ‘낙제’…해외 모델 절반 수준

【투데이신문 성기노 기자】국내에서 개발 중인 국가대표급 인공지능(LMM) 모델들이 수능 논술과 고난도 수학 문제 풀이에서 GPT·제미니·딥시크 등 해외 프런티어 모델에 비해 크게 뒤처진다는 평가 결과가 나왔다. 서강대 김종락 교수 연구팀은 국내 ‘국대 AI’ 도전 5개 팀의 주요 LLM과 해외 5개 모델을 대상으로 수능·논술·자체 고난도 수학 문제를 풀게 한 뒤 성능을 비교했다.

연구팀은 업스테이지 ‘솔라 프로-2’, LG AI연구원 ‘엑사원 4.0.1’, 네이버 ‘HCX-007’, SK텔레콤 ‘A.X 4.0(72B)’, 엔씨소프트 ‘라마 바르코 8B 인스트럭트’ 등 국내 5개 모델과 GPT-5.1, 제미니 3 프로 프리뷰, 클로드 오푸스 4.5, 그록 4.1 패스트, 딥시크 V3.2 등 해외 5개 모델을 비교 대상으로 삼았다.

수능 영역에서는 공통과목, 확률과 통계, 미적분, 기하에서 가장 난도가 높은 문항 5개씩을 골라 20문제를 구성했고 논술은 국내 10개 대학 기출 10문항, 인도 대학입시 10문항, 일본 도쿄대 공대 대학원 입시 수학 10문항 등 총 30문항을 선정해 모두 50개 문항을 풀게 했다.

수능·논술 50문제 채점 결과 해외 모델 점수는 대체로 76~92점 사이에 형성된 반면 국내 모델 중 솔라 프로-2만 50점대 후반(약 58점)을 기록했고 나머지는 20점대 수준에 그친 것으로 나타났다.

특히 경량 모델인 라마 바르코 8B 인스트럭트는 2점이라는 최저 점수를 받으면서 복잡한 수학·논술 추론에서 현격한 성능 열세가 확인됐다는 설명이다. 연구팀은 국내 모델에 대해서는 파이썬 계산 툴을 연동해 수치 계산을 보조하게 했음에도 순수 추론 역량 한계로 정답률 개선 폭이 제한적이었다고 덧붙였다.

연구팀은 대학교 기본 수준부터 교수급 논문 연구 수준까지 난이도를 세분화한 자체 수학 문제 세트 ‘엔트로피매스’(EntropyMath) 100문제 가운데 10문제를 선별해 동일 모델 10개에 추가로 풀이를 시켰다. 이 평가에서 해외 모델은 82.8~90점 범위를 기록한 반면 국내 모델은 최저 7.1점에서 최고 53.3점 수준에 머물렀다.

같은 문제를 최대 세 번까지 다시 풀 수 있게 한 반복 시도 조건을 주었을 때 그록은 만점을 기록했고 나머지 해외 모델들도 모두 90점대를 받았다. 국내 모델 가운데서는 솔라 프로-2가 70점, 엑사원이 60점, HCX-007 40점, A.X 4.0 30점, 라마 바르코 8B 인스트럭트 20점으로 반복 시도에도 격차가 상당 부분 유지된 것으로 집계됐다.

김종락 교수는 이번 실험이 “국내 소버린 AI 5개 모델의 수능 수학·고난도 수학 문제 풀이 능력을 해외 프런티어 모델과 정면 비교한 첫 사례”라며 “현재로선 국내 모델 수학적 추론 수준이 해외 선두권 모델보다 상당히 뒤처져 있음을 확인했다”고 밝혔다.

다만 이번에 사용한 국내 모델들은 국가대표 AI로 내세울 최신 버전이 아니라 공개된 기존 버전들이어서 각 팀이 새 ‘국대 AI’ 버전을 공개하면 동일한 프레임으로 재평가를 진행하겠다고 설명했다.

연구팀은 이번 평가에 사용한 엔트로피매스 데이터세트를 기반으로 수학 리더보드를 개설해 국제적 수준의 벤치마크로 키우고 자체 문제 생성 알고리즘과 파이프라인을 고도화해 수학뿐 아니라 과학·제조·문화 등 다양한 도메인의 데이터세트를 만들어 국내외 도메인 특화 AI 모델 성능 개선에 활용하겠다는 계획이다.

실시간 키워드

2022.08.01 00:00 기준

실시간 키워드