一项调查显示,目前韩国在人工智能(AI)大型语言模型(LLM)领域的发展水平仍明显落后于海外先进模型。在针对韩国高考数学试题及国际论述型数学题的解答能力评估中,韩国模型的平均得分显著低于海外模型。
西江大学数学研究团队于15日公布一项对比研究成果。该研究选取国内与海外各五个具有代表性的大型语言模型,分别解答今年韩国高考数学试题20道以及来自多个国家的论述型数学试题30道,结果显示双方表现存在明显差距。
在韩国高考数学试题部分,研究团队从概率与统计、微积分、几何四大领域中分别选取难度最高的五道题目,共计二十题;论述型试题则包括韩国十所大学的历年真题十道、印度大学入学考试数学题十道,以及日本东京大学工学院研究生入学考试数学题十道,总计三十题。全部五十道题目由十个模型分别进行作答。
参与评测的韩国模型包括Upstage的“Solar Pro-2”、LG AI研究院的“EXAONE 4.0.1”、NAVER的“HCX-007”、SK电信的“A.X 4.0(72B)”,以及NCsoft的轻量化模型“Llama Barco 8B Instruct”。海外模型则涵盖GPT-5.1、Gemini 3 Pro Preview、Claude Opus 4.5、Grok 4.1 Fast以及DeepSeek V3.2。
测评结果显示,海外模型的得分区间为76至92分,而韩国模型中除Solar Pro-2获得58分外,其余模型得分均集中在20分左右的较低水平。其中Llama Barco 8B Instruct仅得2分,为所有模型中最低。研究团队指出,在单纯依赖推理的条件下,韩国五个模型难以完成大部分题目的解答。
此外,研究团队进一步从按大学水平至教授级研究难度细分的题库“EntropyMath(熵数学)”中选取十道题目,交由上述十个模型进行作答。在此项测试中,海外模型得分介于82.8至90分之间,韩国模型则仅为7.1至53.3分。若采用“最多尝试三次、答对即为通过”的规则进行评估,Grok获得满分,其余海外模型也均达到90分;相比之下,韩国模型中Solar Pro-2为70分,EXAONE为60分,HCX-007为40分,A.X 4.0为30分,Llama Barco 8B Instruct仅为20分。
金钟洛教授表示,此次测试结果显示出韩国本土模型与海外先进模型之间仍存在显著差距。未来,研究团队将持续完善自主开发的问题生成算法与处理流程,不仅在数学领域,还将致力于在科学、制造、文化等多个领域构建高质量数据集,以推动领域专用模型整体性能的提升。
Copyright ⓒ 아주일보 무단 전재 및 재배포 금지
본 콘텐츠는 뉴스픽 파트너스에서 공유된 콘텐츠입니다.