국가대표 인공지능(AI)에 도전하는 국내 기존 대형언어 모델(LLM) 들이 수학 수능 및 논술 문제 풀이에서 해외 모델에 한참 못 미치는 성능을 내는 것으로 분석됐다.
여기서도 해외 모델은 82.8~90점을 기록했지만, 국내 모델은 7.1~53.3점으로 낮았다.
한국 모델은 솔라 프로-2가 70점, 엑사원이 60점을 기록했으며 나머지 국내 모델인 HCX-007은 40점, A.X 4.0은 30점, 라마 바르코 8B 인스트럭트는 20점을 기록했다.
뉴스픽의 주요 문장 추출 기술을 사용하여 “이데일리” 기사 내용을 3줄로 요약한 결과입니다. 일부 누락된 내용이 있어 전반적인 이해를 위해서는 본문 전체 읽기를 권장합니다.