韓 AI, 수능 수학에서 낙제점···해외 모델과 격차 ‘뚜렷’

투데이코리아=김지훈 기자 | 내년 1월 정부의 ‘독자 인공지능(AI) 파운데이션 모델’ 선발이 마무리되는 가운데 국내 팀들의 기존 대형언어모델(LLM) 모델들이 해외 모델에 비해 아쉬운 성능을 보여주고 있는 것으로 조사됐다.

15일 김종락 서강대 수학과 교수 연구팀은 국내 국가대표 AI 도전 5개 팀의 주요 LLM과 함께 챗GPT 등 해외 5개 모델에게 수능 수학 20문제와 논술 30문제를 풀게 한 결과를 발표했다.

연구팀은 수능 문제로 공통과목, 확률과 통계, 미적분, 기하에서 가장 어려운 문항 5개씩을 뽑아 20문제를 선정했다.

또한 논술 문제의 경우는 국내 10개 대학의 기출 문제를 비롯해 인도 대학입시 10문제, 일본 도쿄대 공대 대학원 입시 수학 10문제 등 30문제를 설정해 총 50개 문제를 선정하여 10개 모델에 풀게 했다.

한국 모델로는 업스테이지의 ‘솔라 프로-2’를 비롯해 LG AI연구원의 ‘엑사원 4.0.1’, 네이버의 ‘HCX-007’, SK텔레콤의 ‘A.X 4.0(72B)’, 엔씨소프트 경량모델 ‘라마 바르코 8B 인스트럭트’가 활용됐다. 이들은 모두 정부에서 진행중인 독자 AI 파운데이션 모델 개발 사업에 참여한 5개 컨소시엄의 모델이다.

해외 모델로는 오픈AI의 GPT-5.1, 구글의 제미니 3 프로 프리뷰, 앤트로픽의 클라우드 오푸스 4.5, xAI의 그록 4.1 패스트, 딥시크 V3.2 등이 선발됐다.

테스트 결과 해외 모델은 76~92점을 받으며 높은 수준의 성적을 기록했다. 다만 한국 모델의 경우 솔라 프로-2가 58점으로 가장 높은 점수를 기록했으며, 나머지 모델은 20점대의 비교적 낮은 점수를 보였다.

특히 라마 바르코 8B 인스트럭트는 2점으로 가장 낮은 것으로 조사됐다.

연구팀은 국내 5개 모델의 경우 단순 추론으로는 문제를 대부분 풀지 못해 파이선을 툴로 사용하도록 설계해 문제 적중률을 높였지만 이러한 결과가 나왔다고 설명했다.

이어 연구팀은 대학교 수준부터 교수급 논문 연구 수준까지 난이도를 세분화한 자체 문제 세트 ‘엔트로피매스'(EntropyMath)’ 100문제 중 10문제를 구성해 10개 모델에 문제를 풀게 했다.

여기서도 해외 모델은 82.8~90점을 기록했지만, 국내 모델은 7.1~53.3점으로 낮았다.

문제 풀이를 3번 시도해 정답을 맞히면 통과하는 방식을 활용했을 때, 나머지 해외 모델은 대부분 90점을 이상을 기록했으며 그록은 만점을 받았다.

한국 모델은 솔라 프로-2가 70점으로 가장 높은 점수를 기록했으며 엑사원(60점), HCX-007(40점), A.X 4.0(30점), 라마 바르코 8B 인스트럭트(20점)이 뒤를 이었다.

김 교수는 “주위에서 왜 수능 문제에 대한 국내 5개 소버린 AI 모델 평가가 없는지 문의가 많아 팀원들과 테스트를 진행했다”며 “국내 모델 수준이 해외 프런티어 모델보다 많이 뒤처짐을 알 수 있었다”고 설명했다.

연구팀은 이번에 쓰인 국내 5개 모델은 기존 공개 버전인 만큼 각 팀의 국가대표 AI 버전이 새로 공개되면 자체 개발 문제로 다시 성능을 테스트하겠다고 밝혔다.

한편, 정부는 독자 AI 파운데이션 모델 선발을 마무리하고 대중에 공개할 계획이다.

배경훈 부총리 겸 과학기술정보통신부 장관은 지난 12일 정부세종컨벤션센터에서 2026년 업무계획을 발표하며 “2026년에는 국민이 체감할 수 있는 실질적 변화와 결과물을 도출하는 것으로 목표로 하고 있다”고 강조했다.

이를 위해 과기정통부는 현재 추진 중인 독자 AI 파운데이션 모델 프로젝트 1차 개발을 내년 1월 중 완료하고, 상반기 내 오픈 소스로 제공한다.

배 장관은 “선발된 모델이 2026년 중 세계 10위권 내에 진입할 수 있도록 모든 자원과 역량을 지중할 것”이라며 “독자 AI 모델을 기반으로 국방·제조·문화 등 다양한 특화 서비스를 개발해 나갈 것”이라고 전했다.

앞서 과기정통부는 당초 12월에 1차 평가를 실시해 지원 대상을 5곳에서 4곳으로 줄일 계획이었으나 일부 컨소시엄에 제공 중인 GPU(그래픽처리장치)의 최적화 문제로 일정이 미룬 바 있다.

실시간 키워드

2022.08.01 00:00 기준

실시간 키워드