네이버클라우드가 텍스트와 이미지, 음성을 처음부터 한꺼번에 학습하고 생성해 내는 차세대 AI ‘옴니모달’(omni-modal) 모델 2종을 공개했다.
네이버클라우드는 자사의 기존 AI 플랫폼 ‘하이퍼클로바X’ 기능을 더욱 확장한 ‘네이티브 옴니 모델’(옴니 모델)과 ‘고성능 추론 모델’(추론 모델)의 오픈소스를 공개했다고 29일 밝혔다.
옴니 모델이 기존 ‘멀티모달’(multi-modal)보다 확장된 개념의 옴니모달 구조를 국내 처음 적용한 모델이라면, 추론 모델은 기존 추론형 AI에 시각과 음성, 도구 활용 역량을 더한 것이다.
옴니 모델은 먼저 텍스트와 이미지, 오디오 등 서로 다른 형태의 데이터를 단일 모델에서 처음부터 함께 학습하는 네이티브 옴니모달 구조를 전면 적용했다.
정보 형태가 달라지더라도 하나의 의미 공간에서 맥락을 통합적으로 이해할 수 있는 기능을 갖췄다는 의미다.
이로 인해 말과 글, 시각·음성 정보가 복합적으로 오가는 현실 환경에서 활용도가 높은 차세대 AI 기술로 관심받고 있다.
네이버클라우드는 옴니모달 AI 잠재력을 극대화하는 차원에서 기존 인터넷 문서나 이미지 중심 학습을 넘어 현실 세계의 다양한 맥락을 담은 데이터 확보에 집중한다는 전략이다.
네이버클라우드는 고성능 추론 모델도 동시에 공개했다.
해당 모델은 자체 추론형 AI에 시각 이해와 음성 대화, 도구 활용 능력까지 결합했다.
이를 통해 복합적인 입력과 요청을 이해하고 문제를 해결하는 옴니모달 에이전트 경험을 구현했다는 것이다.
특히 회사 측은 이 모델에 대해 글로벌 주요 AI 모델들과 유사한 성능 범위에 있으며 실사용과 밀접한 항목에서 경쟁력을 보였다고 설명했다.
네이버클라우드 관계자는 “실제 해당 모델로 올해 대학수학능력시험 문제를 풀이한 결과 국어·수학·영어·한국사 등 주요 과목에서 모두 1등급을 받았으며, 영어와 한국사는 만점을 거뒀다”고 전했다.
한편 네이버 클라우드는 이번 옴니모달 하이퍼클로바X를 기반으로 검색·커머스·콘텐츠·공공·산업 현장 등 다양한 영역에서 활용 가능한 AI 에이전트를 단계적으로 확장할 예정이다.
Copyright ⓒ 경기일보 무단 전재 및 재배포 금지
본 콘텐츠는 뉴스픽 파트너스에서 공유된 콘텐츠입니다.