서강대 김종락 교수 연구팀은 국내 ‘국대 AI’ 도전 5개 팀의 주요 LLM과 해외 5개 모델을 대상으로 수능·논술·자체 고난도 수학 문제를 풀게 한 뒤 성능을 비교했다..
수능·논술 50문제 채점 결과 해외 모델 점수는 대체로 76~92점 사이에 형성된 반면 국내 모델 중 솔라 프로-2만 50점대 후반(약 58점)을 기록했고 나머지는 20점대 수준에 그친 것으로 나타났다.
김종락 교수는 이번 실험이 “국내 소버린 AI 5개 모델의 수능 수학·고난도 수학 문제 풀이 능력을 해외 프런티어 모델과 정면 비교한 첫 사례”라며 “현재로선 국내 모델 수학적 추론 수준이 해외 선두권 모델보다 상당히 뒤처져 있음을 확인했다”고 밝혔다.
뉴스픽의 주요 문장 추출 기술을 사용하여 “투데이신문” 기사 내용을 3줄로 요약한 결과입니다. 일부 누락된 내용이 있어 전반적인 이해를 위해서는 본문 전체 읽기를 권장합니다.