네이버가 텍스트·이미지·음성을 동시에 이해하는 옴니모달 인공지능(AI) 파운데이션 모델을 공개했다.
뉴시스 보도에 따르면, 네이버클라우드는 국내 최초 네이티브 옴니모달 구조를 적용한 파운데이션 모델 '하이퍼클로바 X 시드 8B 옴니'를 오픈소스로 공개했다고 29일 밝혔다.
◆독자 AI 프로젝트 첫 성과물…"글로벌 프런티어 AI 견줄 수준"
옴니모달 AI는 하나의 모델이 텍스트·이미지·오디오와 같은 다양한 모달리티를 동시에 이해하고 생성할 수 있는 형태를 말한다.
멀티모달은 텍스트 등 단일 모달리티 중심으로 학습한 후 이미지, 음성 등 다른 모달리티 처리 기술을 추가로 결합해 배우는 방식이다. 옴니모달은 초기 단계부터 모든 데이터를 학습하는 만큼 멀티모달보다 한층 진화한 개념이다. 말과 글, 시각·음성 정보가 복합적으로 오가는 현실 환경에서 활용도가 높은 차세대 AI 기술로 주목받고 있다.
성낙호 네이버클라우드 하이퍼스케일 AI 기술 총괄은 "모델을 대규모로 키워도 데이터 다양성이 한정돼 있다면 AI의 문제 해결 능력도 특정 영역 또는 특정 과목에만 집중돼 나타날 수밖에 없다"며 "이에 디지털화되지 않은 생활 맥락 데이터나 지역의 지리적 특성이 반영된 공간 데이터 등 차별화된 현실 세계 데이터를 확보하고 정제하는 과정이 선행돼야 한다"고 설명했다.
단일 모델 구조의 옴니모달 AI는 규모 확장이 상대적으로 쉽다. 회사 측은 이를 기반으로 산업과 일상 밀착 서비스에 필요한 다양한 크기의 특화 옴니모달 모델을 효율적으로 확장할 계획이다.
또 이 모델은 텍스트 지시를 기반으로 이미지를 생성·편집하는 옴니모달 생성 기능도 갖췄다. 회사 측은 글로벌 프런티어 AI 모델들이 제공해온 기능이라며 단일 모델에서 텍스트 이해와 이미지 생성·편집을 자연스럽게 수행한다고 강조했다.
이번 발표는 과학기술정보통신부 '독자 AI 파운데이션 모델' 프로젝트의 주관 사업자로서 추진 중인 '옴니 파운데이션 모델' 개발 과제의 첫 번째 성과다.
네이버클라우드는 옴니모달 하이퍼클로바X를 기반으로 검색·커머스·콘텐츠·공공·산업 현장 등 다양한 영역에서 활용 가능한 AI 에이전트를 단계적으로 확장하며 '모두의 AI' 실현을 위한 기술 생태계 구축에 속도를 낼 것이라고 밝혔다.
◆"네이버 차세대 추론 모델, 수능 올 1등급에 한국사, 영어 만점"
네이버클라우드는 기존 추론형 AI에 시각·음성·도구 활용 역량을 더한 고성능 추론모델 '하이퍼클로바 X 시드 32B 씽크'도 오픈소스로 공개했다고 밝혔다.
글로벌 AI 평가 기관인 '아티피셜 애널리시스'가 종합 지식·고난도 추론·코딩·에이전트형 과제 등 10개 주요 벤치마크를 종합해 산출한 지수 기준에서 글로벌 주요 AI 모델들과 유사한 성능 범위에 위치한 것으로 나타났다.
한국어 기반 종합 지식, 시각 이해, 실제로 도구를 활용해 문제를 해결하는 에이전트 수행 능력 등 주요 능력 항목에서 복합적인 문제 해결 역량을 입증했다.
올해 대학수학능력시험(수능) 문제를 풀이한 결과 국어·수학·영어·한국사 등 주요 과목에서 모두 1등급에 해당하는 성과를 거뒀다. 영어와 한국사에서는 만점을 기록했다.
회사 측은 다수의 AI 모델이 문제를 텍스트로 변환해 입력해야 하는 방식과 달리 해당 모델은 이미지 입력을 직접 이해해 문제를 해결했다는 점에서 차별화된다고 덧붙였다.
성 총괄은 "텍스트·시각·음성 등 AI의 감각을 수평적으로 확장하는 동시에 사고와 추론 능력을 함께 강화했을 때 현실 문제 해결력이 크게 높아진다는 점을 확인했다"며 "이러한 기본기를 갖춘 구조 위에서 점진적으로 규모를 확장해야 단순히 크기만 큰 모델이 아닌, 실제로 쓰임새 있는 AI로 발전할 수 있다고 보고 이를 토대로 스케일업을 이어갈 계획"이라고 말했다.
Copyright ⓒ 모두서치 무단 전재 및 재배포 금지
본 콘텐츠는 뉴스픽 파트너스에서 공유된 콘텐츠입니다.