독자 AI가 뭐길래…업스테이지가 내놓은 ‘프롬 스크래치’ 설명 3가지

실시간 키워드

2022.08.01 00:00 기준

독자 AI가 뭐길래…업스테이지가 내놓은 ‘프롬 스크래치’ 설명 3가지

이데일리 2026-01-04 08:38:10 신고

3줄요약
[이데일리 김현아 기자] 정부가 2000억원을 지원하는 ‘독자 AI 파운데이션 모델’ 과제를 둘러싸고 베끼기 공방이 불거지면서, 독자 AI 모델인지 여부를 가르는 ‘프롬 스크래치(From Scratch)’ 기준에 관심이 쏠리고 있다.

새해 벽두부터 ‘독자 AI 파운데이션 모델’ 후보로 거론되는 업스테이지의 ‘솔라 오픈 100B’를 두고 “중국 모델을 베낀 것 아니냐”는 논란이 제기되자, 프롬 스크래치의 의미와 판단 기준이 더 주목받는 분위기다.

프롬 스크래치는 AI 모델의 가중치(웨이트)를 ‘빈 상태’에서 랜덤으로 초기화한 뒤, 그 상태에서 처음부터 끝까지 새로 학습해 만든 모델을 뜻한다. 반대로 누군가가 이미 학습해 둔 가중치를 일부라도 가져와 이어서 학습했거나, 실행(추론) 단계에서 다른 모델 가중치를 불러와 섞어 쓰는 경우는 프롬 스크래치로 보기 어렵다.

김성훈 업스테이지 대표가 2일 강남오피스에서 업계 및 정부 관계자 70여 명 대상으로 현장 설명을 하고 있다(사진=윤정훈 기자)


업스테이지 김성훈 대표는 지난 2일 공개 검증회를 열고 “독자 파운데이션 모델 논쟁의 핵심은 구조가 아니라 가중치”라며, 체크포인트와 학습 로그 등 학습 과정을 근거로 “솔라 오픈 100B는 파생이 아니라 프롬 스크래치로 만든 모델”이라고 설명했다. 논란 과정에서 불거진 추론(인퍼런스) 코드 라이선스 표기 문제에 대해서는 “실수였다”고 인정하며, 수정 배경과 향후 일정도 함께 공개했다.

김 대표가 이날 강조한 설명은 크게 세 갈래다.

① 프롬 스크래치 판정 기준은 ‘가중치의 랜덤 초기화’ 여부

김 대표는 프롬 스크래치를 가르는 결정적 기준으로 ‘가중치(웨이트)’를 꼽았다. 가중치를 랜덤하게 초기화한 뒤 처음부터 새로 학습했는지, 아니면 아주 일부라도 다른 사람이 학습한 가중치를 가져와 이어서 학습했는지가 핵심이라는 설명이다.

그는 트랜스포머와 MoE(혼합전문가) 계열 구조가 사실상 표준화돼 있어, 모델 구조가 비슷하거나 오픈소스 라이브러리를 썼다는 이유만으로 독자성을 부정하기는 어렵다고 말했다. 허깅페이스 등 오픈소스 생태계를 활용하는 것은 자연스러운 일이며, 기여(컨트리뷰션)를 통해 생태계를 확장하는 선순환이 더 중요하다는 취지다.

그렇다면 프롬 스크래치를 어떻게 입증할 수 있을까. 김 대표는 체크포인트와 학습 로그를 근거로 제시했다. 학습 과정에서 일정 스텝마다 저장된 체크포인트와 W&B(Weights & Biases) 같은 학습 추적 로그를 ‘육아일기’에 비유하며 “처음부터 학습했다는 흔적은 남아 있고 보여줄 수 있다”고 했다. 실제로 업스테이지는 로스(loss) 변화와 MMLU 등 성능 지표가 학습 기간(9월 초~11월 말) 동안 어떻게 변했는지 확인할 수 있는 추적 데이터도 공개했다.

② 과거 모델(솔라 프로2)과 성격 다르다…“3개월간 GPU 500대 지원받아 처음부터 만들었다”

김 대표는 “솔라 오픈 100B를 예전 모델인 ‘솔라 프로2’와 같은 기준으로 비교하는 건 오해”라고 말했다. 업스테이지는 과거 모델들에 대해 “처음부터 새로 학습했다(프롬 스크래치)”고 주장한 적이 없다는 점도 분명히 했다.

그에 따르면 솔라 프로2는 미스트랄 같은 기존 모델을 바탕으로, 비용과 시간을 줄이기 위한 방식(뎁스 업스케일링 등)으로 만든 모델이다. 스타트업 입장에선 처음부터 완전히 새로 학습할 만큼 자원과 여력이 부족했던 시기라는 설명이다.

반면 솔라 오픈 100B는 출발부터 다르다. 국가 프로젝트로 ‘독자 파운데이션 모델’을 만들자는 목표 아래 추진됐고, 9월부터 11월까지 3개월 동안 GPU 약 500대를 지원받아 학습을 진행했다고 밝혔다. 김 대표는 “이번 과제는 ‘처음부터 만들었는지’가 핵심인 만큼, 검증 기준도 더 엄격할 수밖에 없다”고 했다.

또 그는 “상업적으로는 기존 모델을 가져와 추가 학습하거나(컨티뉴드 프리트레이닝), 목적에 맞게 다듬는 방식(파인튜닝)도 충분히 좋은 방법”이라면서도, 이번 과제는 애초 목표가 ‘독자 모델’이어서 접근이 다르다고 구분했다.

김성훈 업스테이지 대표가 2일 강남오피스에서 업계 및 정부 관계자 70여 명 대상으로 현장 설명을 하고 있다(사진=윤정훈 기자)


③ 극히 일부 지표만 보고 ‘베끼기’로 단정하는 해석은 경계해야

김 대표는 논란의 출발점이 된 레이어 정규화(LayerNorm) 유사성 지표와 관련해 “코사인 유사도는 숫자의 ‘방향’만 보고 ‘크기’는 무시한다”고 설명했다. LayerNorm 파라미터는 특성상 값이 비슷해 보일 수 있어, 특정 지표만으로 “가중치를 공유했다”는 결론을 내리기 어렵다는 취지다.

그는 문제로 지목된 값이 모델 전체 파라미터 중 극히 일부에 불과하고, 비교 방식 자체에도 오류가 있었다고 반박했다. 내부 레이어끼리 비교해도 유사도가 높게 나오는 사례를 들어 “그 수치 하나만으로 베끼기를 단정하기는 무리”라고 말했다.

또 다른 쟁점이 된 추론(인퍼런스) 코드 논란에 대해서는 실수를 인정했다.

김 대표는 “추론 코드는 모델 가중치(웨이트) 자체가 아니라 사용자가 편하게 돌려볼 수 있도록 함께 제공한 코드”라며, 허깅페이스 라이브러리 일부를 가져와 자사 모델 구조에 맞게 상당 부분 고쳐 썼다고 밝혔다.

다만 아파치 라이선스를 적용하는 과정에서 원저작자 표기(중국 GLM 표기 등)를 초기에 꼼꼼히 챙기지 못했고, 이후 이를 바로잡는 과정이 ‘업데이트’처럼 보였다는 점은 인정했다. 그는 “국가 과제 요구조건상 12월 31일까지 가중치를 제출해야 했기 때문에 마지막까지 학습에 집중했고, 그 과정에서 리드미·벤치마크·부속 파일 정리는 일정상 뒤로 밀렸다”고 덧붙였다.

“1년 안에 프론티어급 모델 추격” 자신

향후 일정도 제시했다. 김 대표는 1월 4일 테크니컬 리포트와 평가 지표가 추가 공개될 예정이며, 이후에도 관련 자료와 파일이 계속 업데이트될 수 있다고 밝혔다.

응용프로그램인터페이스(API) 공개도 일정에 따라 순차적으로 진행된다고 했다. 그는 “3개월 동안 GPU 약 500대를 투입한 경험”을 언급하며 “시간과 GPU가 더 주어진다면 1년 안에 프론티어급 모델을 따라갈 수 있다”는 자신감도 내비쳤다. 독자AI 모델의 활용 수준에 대해서는 “올림피아드에 나가기는 어려워도 일상 생활의 검색, 요약, 이메일 작성 등은 충분히 가능한 수준”이라고 말했다.

김 대표는 끝으로 “확인되지 않은 내용을 ‘빼박 증거’처럼 확정적으로 말하는 방식은 모두에게 상처를 남긴다”며, 문제 제기는 가능하지만 검증 과정과 표현의 책임이 함께 따라야 한다는 점을 강조했다.

이번 논쟁이 ‘누가 이겼나’의 문제가 아니라, 독자 파운데이션 모델의 기준과 검증 문화가 무엇이어야 하는지 되묻는 계기가 됐다는 평가다.

Copyright ⓒ 이데일리 무단 전재 및 재배포 금지

본 콘텐츠는 뉴스픽 파트너스에서 공유된 콘텐츠입니다.

다음 내용이 궁금하다면?
광고 보고 계속 읽기
원치 않을 경우 뒤로가기를 눌러주세요

실시간 키워드

  1. -
  2. -
  3. -
  4. -
  5. -
  6. -
  7. -
  8. -
  9. -
  10. -

0000.00.00 00:00 기준

이 시각 주요뉴스

알림 문구가 한줄로 들어가는 영역입니다

신고하기

작성 아이디가 들어갑니다

내용 내용이 최대 두 줄로 노출됩니다

신고 사유를 선택하세요

이 이야기를
공유하세요

이 콘텐츠를 공유하세요.

콘텐츠 공유하고 수익 받는 방법이 궁금하다면👋>
주소가 복사되었습니다.
유튜브로 이동하여 공유해 주세요.
유튜브 활용 방법 알아보기