원라인에이아이, Test Time Scaling 기법 적용한 14B 모델로 GPT4o 성능 이겨

실시간 키워드

2022.08.01 00:00 기준

원라인에이아이, Test Time Scaling 기법 적용한 14B 모델로 GPT4o 성능 이겨

스타트업엔 2025-01-21 09:04:58 신고

3줄요약
원라인에이아이, Test Time Scaling 기법 적용한 14B 모델로 GPT4o 성능 이겨
원라인에이아이, Test Time Scaling 기법 적용한 14B 모델로 GPT4o 성능 이겨

원라인에이아이가 한국 최초로 추론 특화 한국어 AI 모델 'OLAF v2'를 공개했다. 이 모델은 OpenAI o1의 핵심 기술인 생각 프로세스(thought process)와 테스트 시간 스케일링(test-time scaling)을 기반으로 개발됐다.

기존 AI 모델들이 단순히 답변만 생성하는 것과 달리, 이 방법을 적용하면 다양한 접근 방식과 사고 과정을 통해 더 정확한 답을 찾아내는 것으로 알려져 있다. 이미 Alibaba의 QwQ와 DeepSeek의 r1이 이 방식으로 뛰어난 성능을 입증한 바 있다. 한국에서는 원라인에이아이가 최초로 해당 방법론을 활용하여 학습된 추론 특화 언어 모델 OLAF v2를 공개하였다.

생각 프로세스는 AI 언어모델의 새로운 추론 방식이다. 이는 기존의 생각의 사슬(Chain-of-Thought)과 유사한 방식으로 작동한다. 모델이 주어진 문제를 스스로 이해하고 해결 방안을 제시하는 사고 과정을 생성한다. 이를 통해 복잡한 추론이 필요한 문제도 체계적으로 해결할 수 있게 됐다. 이 과정에서 오답을 발견하여 스스로 고치는 등 자신의 실수를 스스로 극복하기도 하면서 보다 신뢰도 높은 답변을 내놓게 된다. 

테스트 시간 스케일링은 모델이 더 많은 계산 자원을 사용하여 복잡한 문제에 대해 스스로 생각하며 더 깊이 있는 추론을 수행하도록 하는 방법이다. 이는 모델이 다양한 전략과 시나리오를 시뮬레이션하여 최적의 솔루션에 도달하도록 도우며, 대표적으로 몬테카를로 트리 탐색 (Monte Carlo Tree Search, MCTS) 등의 방법이 활용된다.

OLAF v2는 14B와 1.5B 두 가지 버전으로 출시됐다. 두 버전 모두 정교한 STEM(Science, Technology, Engineering, Mathematics) 문제를 해결하기 위한 추론 특화 모드를 갖추고 있다. 32K의 context length를 지원하여 RAG (Retrieval-Augmented Generation) 및 도구 기반 애플리케이션에 적합하도록 제작되었다. 모델 학습 과정에서는 반복적인 데이터 생성과 부적절한 질문에 대한 거부 메커니즘에 중점을 두어 환각을 줄이고 신뢰도를 높였다. 

OLAF v2의 추론 능력을 평가하기 위해, 최근 원라인에이아이에서 공개한 한국 최초 수학 추론 벤치마크인 HRM8K의 서브셋인 GSM8K와 Omni-MATH 벤치마크에서 평가하였다. 초중등 수학 문제 모음인 GSM8K에서 91.96점, 올림피아드급 문제 모음인 Omni-MATH에서 36.20점을 기록했다. 이는 GPT-4o(GSM8K 91.21점, Omni-MATH 30.75점)보다 높은 점수다. 14B 모델 사이즈를 고려하였을 때 괄목할 만한 성과이다. 

정한얼 원라인에이아이 대표는 "OLAF v2가 보여준 뛰어난 추론 능력은 복잡한 금융 데이터 분석과 리스크 평가에 특히 강점을 보일 것"이라며 "현재 국내 주요 금융사들과 진행 중인 프로젝트를 통해 금융권 특화 서비스로 발전시켜 나갈 계획"이라고 밝혔다.

Copyright ⓒ 스타트업엔 무단 전재 및 재배포 금지

본 콘텐츠는 뉴스픽 파트너스에서 공유된 콘텐츠입니다.

다음 내용이 궁금하다면?
광고 보고 계속 읽기
원치 않을 경우 뒤로가기를 눌러주세요

실시간 키워드

  1. -
  2. -
  3. -
  4. -
  5. -
  6. -
  7. -
  8. -
  9. -
  10. -

0000.00.00 00:00 기준

이 시각 주요뉴스

알림 문구가 한줄로 들어가는 영역입니다

신고하기

작성 아이디가 들어갑니다

내용 내용이 최대 두 줄로 노출됩니다

신고 사유를 선택하세요

이 이야기를
공유하세요

이 콘텐츠를 공유하세요.

콘텐츠 공유하고 수익 받는 방법이 궁금하다면👋>
주소가 복사되었습니다.
유튜브로 이동하여 공유해 주세요.
유튜브 활용 방법 알아보기