[엠투데이 이세민 기자] 중국의 인공지능(AI) 기업 ‘딥시크’가 전 세계를 충격에 빠뜨린 가운데, 또 다른 신제품을 발표하며 주목받고 있다.
이번에는 오픈AI의 이미지 생성 소프트웨어 달리3(DALL-E 3)를 능가하는 성능을 가진 멀티모달 대규모 모델 야누스-프로(Janus-Pro)를 선보였다.
딥시크의 엔지니어들은 세계 최대의 AI 커뮤니티 '허깅페이스(Hugging Face)'플랫폼에 야누스 프로 7B와 1.5B 모델을 업로드했다. 이는 작년 10월 발표된 야누스 모델의 업그레이드 버전이다.
야누스 프로는 각각 15억(1.5B)과 70억(7B)개의 파라미터로 구성되어 있으며, 이는 소비자용 컴퓨터에서도 로컬 실행이 가능할 수 있음을 의미한다. 또한 MIT 라이선스를 채택해 상업적 사용에도 제약이 없다.
딥시크에 따르면, 야누스-프로는 자가회귀 프레임워크를 활용해 멀티모달 이해와 생성을 통합했다.
특히, 시각적 인코딩을 ‘이해’와 ‘생성’이라는 두 경로로 분리하면서도, 여전히 단일 트랜스포머 아키텍처로 이를 처리한다.
이러한 방식은 기존 방법론의 한계를 극복하며, 모델의 유연성을 크게 향상시켰으며, 시각적 인코더가 이해와 생성 과정에서 발생하는 역할 충돌 문제를 해결하며, 더 높은 효율성과 성능을 제공한다.
기술 보고서에 따르면, 야누스-프로 7B 모델은 일부 텍스트-이미지 생성 벤치마크에서 오픈 AI의 달리 3 및 스태빌리티 AI(Stability AI)의 스테이블 디퓨전 3 미디엄(Stable Diffusion 3 medium)보다 우수한 성능을 보였다.
물론, 달리 3는 2023년에 출시된 구형 모델이며, 현재 야누스-프로는 최대 384x384 픽셀 크기의 비교적 작은 이미지 생성만 가능하다는 제약이 있지만, 이러한 제한된 모델 크기에서도 야누스-프로는 인상적인 성능을 제공했다.
야누스-프로는 7,200만 장의 고품질 합성 이미지를 추가해, 실제 데이터와 합성 데이터의 비율을 1:1로 조정하며 통합된 사전 학습 단계를 거쳤다. 이를 통해 더욱 시각적으로 매력적이고 안정적인 이미지 출력이 가능해졌다.
멀티모달 이해 훈련 데이터에서도 딥시크 VL2의 데이터를 참고해 약 9,000만 개의 샘플을 추가함으로써 이해 능력을 더욱 강화했다.
이번 야누스-프로의 발표는 딥시크가 AI 기술에서의 영향력을 더욱 강화하며, 오픈AI 등 글로벌 경쟁사와 본격적인 경쟁을 예고하고 있음을 보여준다.
Copyright ⓒ M투데이 무단 전재 및 재배포 금지
본 콘텐츠는 뉴스픽 파트너스에서 공유된 콘텐츠입니다.