네이버클라우드가 일부 멀티모달 구성 요소에 외부 오픈소스 모델을 활용한 사실이 알려지면서 '프롬 스크래치' 기준이 쟁점으로 떠올랐다. 프롬 스크래치는 기존 모델이나 데이터를 활용하지 않고 독자적으로 AI 모델을 개발하는 방식을 말한다.
5일 정보통신기술(ICT) 업계에 따르면 네이버클라우드의 하이퍼클로바X 시드 32B 싱크 모델이 중국 알리바바의 큐웬 2.5 언어모델과 비전 인코더 웨이트(가중치) 코사인 유사도와 피어슨 상관계수가 높다는 주장이 나왔다.
코사인 유사도와 피어슨 상관계수는 모두 데이터 값 분포의 유사도를 측정하는 방법이다. 코사인 유사도는 방향의 유사성을 판단하고, 피어슨 상관계수는 데이터의 분포가 얼마나 유사한지 나타낸다.
하이퍼클로바X와 큐웬 2.4 언어모델의 코사인 유사도와 피어슨 상관계수가 높다는 것은 비전 인코더와 웨이트를 일부 사용한 것으로 볼 수 있다.
네이버클라우드는 중국 오픈소스(큐웬 2.5 모델)를 가져다 쓴 점에 대해서는 인정한다고 밝혔다.
네이버클라우드 측은 "파운데이션 모델은 모델의 사고와 정체성을 담당하는 핵심 '두뇌'이므로, 네이버는 이를 100% 자체 기술로 개발하여 독자적인 경쟁력을 확보했다"며 "다만 이번 모델에서는 글로벌 최신 트렌드와의 호환성, 그리고 전체 시스템의 최적화를 위해 해당 인코더를 전략적으로 채택했다"고 전했다.
다만 네이버클라우드는 파운데이션 모델이 프롬 스크래치가 아니라는 주장에 대해서는 반박했다.
네이버클라우드는 AI 모델 구축 과정에서 다른 모듈을 활용하는 건 일반적인 방식이라고 부연했다.
네이버클라우드는 기술 선택 사항과 라이선스 정보를 허깅페이스와 테크리포트로 공개해왔고, 향후 기술 개발 과정에서 투명성을 유지하겠다고 전했다.
Copyright ⓒ 뉴스웨이 무단 전재 및 재배포 금지