김종락 서강대 수학과 교수 연구팀은 국내 국가대표 AI 도전 5개 팀의 주요 LLM과 챗GPT 등 해외 5개 모델에게 수능 수학 20문제, 논술 30문제를 풀게 한 결과, 이같이 나타났다고 15일 밝혔다.
한국 모델로는 업스테이지의 '솔라 프로-2', LG AI연구원의 '엑사원 4.0.1', 네이버의 'HCX-007' SK텔레콤의 'A.X 4.0(72B)' 엔씨소프트 경량모델 '라마 바르코 8B 인스트럭트'를 활용했다.
이어 연구팀은 대학교 수준부터 교수급 논문 연구 수준까지 난이도를 세분화한 자체 문제 세트 '엔트로피매스'(EntropyMath) 100문제 중 10문제를 구성해 10개 모델에 문제를 풀게 했는데, 여기서도 해외 모델은 82.8~90점을 기록했지만, 국내 모델은 7.1~53.3점에 그쳤다.
뉴스픽의 주요 문장 추출 기술을 사용하여 “위키트리” 기사 내용을 3줄로 요약한 결과입니다. 일부 누락된 내용이 있어 전반적인 이해를 위해서는 본문 전체 읽기를 권장합니다.