| 한스경제=박정현 기자 | 정부의 ‘독자 인공지능(AI) 파운데이션 모델 프로젝트’ 참여 기업을 둘러싸고 카피캣 논란이 제기되자 참여사들이 자체 개발한 AI 모델의 기술보고서를 공개하며 신뢰 회복에 나서고 있다.
이 프로젝트는 외산 AI 의존도를 낮추고 한국의 디지털 주권을 위해 정부가 국가대표 AI 모델을 육성한다는 취지지만 업스테이지, 네이버클라우드, SKT가 중국 AI 모델의 핵심 코드를 가져다 썼다는 의혹이 일면서 AI 모델의 '독자성'에 대한 의구심이 불거진다.
12일 업계에 따르면 과학기술정보통신부가 1차 평가를 진행하는 15일을 3일 앞두고 '프롬 스크래치(From Scratch)' 논란이 계속되자 3일 네이버클라우드, 6일 업스테이지, 7일 SKT, 9일 NC AI, 11일 LG AI 연구원 등이 잇따라 기술 보고서를 공개했다.
업스테이지와 SKT는 각각 중국 지푸AI와 딥시크에서 아키텍처를 네이버클라우드는 중국 큐웬의 인코더와 가중치를 사용해 논란이 되는 상황이다.
'프롬 스크래치'는 기초 단계부터 완성까지 자체 기술로 제작한다는 뜻으로 해석되는 영어 관용구임을 감안했을 때 외국 AI 모델의 설계도(아키텍처)나 가중치 차용이 국가대표 AI 본질을 벗어난다는 지적은 필연적으로 보인다.
최병호 고려대 AI연구소 교수는 “정부가 제시한 ‘프롬 스크래치’ 조건이 강제적 기준이라기보다 가이드라인에 머물러 있어 논란이 발생한 측면이 있다”며 “국가를 대표하는 AI는 국방을 비롯한 공공 전반에 활용되는 만큼 2차 평가에서는 보다 명확한 기준이 필요해 보인다”고 말했다.
◆ 업스테이지·SKT는 '아키텍처'…네이버는 '인코더' 차용 논란
업스테이지의 경우 아키텍처 측면에서 중국 지푸AI의 GLM-4.5-에어를 참고했다는 의혹으로 논란이 됐다. 지난 2일 김성훈 업스테이지 대표는 직접 나서 전면 공개 검증회를 열고 의혹 제기 측이 문제삼은 유사 구간은 모델 전체 데이터의 약 0.0004%에 불과한 극미한 영역이라며 통계적 착시라고 일축했다.
업스테이지 관계자는 “지푸AI를 참고했다는 의혹은 모델 학습 과정과는 무관하다”며 “프롬 스크래치 기준은 물론 라이선스 문제에도 해당하지 않는다”고 밝혔다.
SKT는 딥시크의 V3와 구조적으로 유사하다는 지적을 받는다. SKT는 논란이 된 유사성에 대해 인퍼런스 코드를 프롬 스크래치 독자성을 이야기하는 학습 코드를 혼동한 데서 온 오해라며 업계에서는 프롬 스크래치 훼손 요소로 보지 않는다고 반박했다.
이에 대해서는 아키텍처 활용이 일반적이며 프롬 스크래치와 무관하다는 진단도 있다. 최 교수는 "인퍼런스 코드를 차용했다는 건 옆 가게가 로봇으로 서빙하는 걸 따라한 것 같은 방법에 관한 문제며 프롬 스크래치와 크게 관련이 없다"고 전했다.
네이버클라우드의 경우 중국 알리바바 큐웬의 인코더를 활용했다고 인정했다. 최근 공개된 기술 보고서와 깃허브 분석에 따르면 네이버 모델의 비전 인코더는 알리바바의 큐웬(Qwen) 2.5 ViT와 가중치(지능)가 99% 이상 일치하는 것으로 나타났다. 인코더는 글자, 이미지 같은 데이터를 컴퓨터가 이해할 수 있는 숫자벡터로 변환하는 역할을 한다. 눈과 귀를 빌려왔는데 이를 완전한 독자 모델로 볼 수 있냐는 비판이 크다.
또 가중치와 인코더는 모델 성능과 직결되는 핵심 자산이라 오픈소스 제공 주체가 라이센스를 변경하거나 사용조건을 강화하면 해당 모델을 그대로 사용하기도 어렵다.
이에 대해 네이버클라우드 관계자는 "오픈소스 라이선스는 한번 배포되면 쭉 처음 배포된 라이선스로 적용되는것이고 소급이 안되기 때문에 규정이 바뀌어도 영향이 없다"며 "조건이 변경된다 해도 자체 내부 기술로 대체할 수 있다"고 설명했다.
◆ 과기정통부, 1차 평가 앞두고 '진땀'
과학기술정보통신부의 1차 평가를 사흘 앞둔 가운데 중국 AI 모델을 베낀 것 아니냐는 논란이 좀처럼 잦아들지 않고 있다. 과기정통부는 논란과 별개로 오는 15일 예정대로 1차 평가를 진행한다는 방침이다.
업계 안팎에서는 과기정통부의 ‘프롬 스크래치’의 기준을 명확하지 않게 해 논란을 키웠다고 지적한다. 완전한 백지 상태에서 국내 기술만으로 개발해야 프롬 스크래치에 해당하는지 아니면 상대적으로 중요도가 낮은 영역에서는 외국 모델이나 아키텍처 활용이 허용되는지에 대한 구체적인 지시가 없었다는 것이다.
과기정통부는 논란에 고심하면서도 업계 전반에서 윤리와 개발 방식에 대한 공개적인 논의가 확산되는 현상을 일종의 성장통으로 보고 있다.
앞서 업스테이지가 공개 설명회를 연 데 대해 배경훈 과기정통부 장관은 페이스북을 통해 “특정 모델 개발 방식에 대해 데이터 기반 분석과 공개 검증으로 답하는 기업들의 모습은 우리 AI 생태계가 이미 글로벌 수준의 자정 작용과 기술적 투명성을 갖췄음을 보여준다”고 평가했다.
일각에서는 프로젝트 착수 4개월 만에 국내 AI 모델들이 오픈소스 플랫폼 허깅페이스에 공개돼 글로벌 주목을 받고 있다는 점도 함께 조명할 필요가 있다는 의견이 나온다. 이번 논란이 산업 전반의 기술 경쟁력과 기준을 정교화하는 계기가 돼야지 소모적인 공방으로 흐르는 것은 경계해야 한다는 지적이다.
최 교수는 “AI 개발에는 표준화된 방법이 존재해 데이터와 결과가 유사하게 수렴하는 경향이 있다는 점도 함께 인식할 필요가 있다”며 “이번 업스테이지의 공개 검증회 등을 계기로 AI 생태계가 한 단계 발전하는 방향으로 나아갈 것”이라고 말했다.
Copyright ⓒ 한스경제 무단 전재 및 재배포 금지
본 콘텐츠는 뉴스픽 파트너스에서 공유된 콘텐츠입니다.