미디어그룹사람과숲과 마커AI 컨소시엄이 한국어 최상위 수준의 LLM인 ‘국밥(Gukbap)’ 모델을 허깅페이스에 공개했다. 이번에 발표된 모델은 Gukbap-Mistral-7B, Gukbap-Qwen2.5-7B, Gukbap-Gemma2-9B 등 세 가지 버전으로, 그 중 Gukbap-Gemma2-9B 모델이 가장 우수한 성능을 보여주었다.
이 모델은 여러 한국어 AI 성능 평가에서 경쟁 모델들을 초과하는 뛰어난 결과를 기록하며 큰 주목을 받았다. Gukbap-Gemma2-9B 모델은 한국어 사고력 평가(Logickor)에서 8.77점을 기록하며 하이퍼클로바X HCX-003 (7.76점)과 LG엑사원-3.0-7.8B (8.64점)를 능가했다. 한국어 문화 지식 평가(K2-Eval)에서도 4.5점을 얻으며, 하이퍼클로바X(4.38점)과 LG엑사원(4.43점)을 넘는 성과를 달성했다.
또 전문분야별 한국어 능력 평가(KMMLU)에서 46.5점을 기록하며 하이퍼클로바X(54.3점)과 LG엑사원(35.2점) 사이에서 우수한 성능을 보였다. 국밥 모델의 성과는 언어 모델의 한국어 최적화 연구의 성취로 볼 수 있다. 이 모델들은 Mistral 7B (프랑스), Gemma-2 9B (미국), Qwen-2.5 7B (중국) 등 글로벌 오픈소스 모델들을 기반으로 한국어에 특화된 풀 파인튜닝 과정을 거쳤다.
연구팀을 이끈 정철현 박사는 “국밥 모델은 각 글로벌 파운데이션 모델의 한국어 튜닝 버전들 중 모두 최고 점수를 기록했다”며 “중요한 점은 이 때 사용된 데이터셋이다. 한국어 LLM들 다수가 GPT-4와 같은 최고 수준 모델이 생성해 준 데이터셋으로 훈련되고 있지만 이는 라이선스 규정 위반이라 언제든 소송전에 휘말릴 위험이 있다. 그래서 우리는 라이선스 제한이 없는 오픈소스 티쳐 모델들만을 활용해 씨앗 데이터를 진화시키는 방법을 개발했고 그럼에도 최고 수준에 도달 가능함을 증명했다”고 강조했다.
또한 국밥 모델은 한국의 LLM 연구자들에게 남다른 의미가 있다. 미디어그룹사람과숲의 한윤기 대표는 “국밥 모델이 보여준 성과는 오픈소스 LLM만으로도 대기업의 LLM을 능가하는 성능을 낼 수 있음을 입증한 사례”라며 “이는 적은 GPU 자원과 어려운 환경 속에서 연구하는 한국 개발자들에게 위로가 될 것”이라고 평가했다.
이어 그는 “해외나 대기업 LLM에 대한 보안과 의존성을 걱정하던 한국 정부와 기업들에게는 국밥 모델이 좋은 대안이 될 것으로 예상한다”고 덧붙였다.
Copyright ⓒ AI포스트 무단 전재 및 재배포 금지