| 서울=한스경제 고예인 기자 | LG AI연구원이 텍스트와 이미지를 동시에 이해하고 추론하는 멀티모달 인공지능 모델 ‘엑사원 4.5’를 공개하며 AI 경쟁력 강화에 나섰다. 단순 언어 모델을 넘어 산업 현장에서 활용 가능한 ‘이해형 AI’로 진화했다는 점이 핵심이다.
LG AI연구원은 9일 자체 개발한 비전 인코더와 거대언어모델을 하나의 구조로 통합한 비전언어모델 VLM 기반 ‘엑사원 4.5’를 발표했다. 이는 기존 ‘엑사원’ 시리즈의 모달리티 확장을 본격화한 모델로 향후 음성 영상 물리 환경까지 확장되는 피지컬 인텔리전스의 출발점으로 평가된다.
▲ “문서 읽고 판단까지”…산업형 AI로 진화
엑사원 4.5의 가장 큰 특징은 단순 인식을 넘어 ‘이해와 추론’ 능력을 확보했다는 점이다. 계약서 기술 도면 재무제표 등 복합 문서를 분석하고 맥락 기반 판단까지 수행할 수 있다.
LG AI연구원은 이번 모델이 산업 현장에서 실제 활용 가능한 수준의 문서 이해 능력을 갖췄다고 강조했다. 비정형 데이터까지 처리 가능한 점에서 기존 텍스트 중심 AI와 차별화된다는 설명이다.
성능 지표에서도 글로벌 경쟁력을 입증했다. 시각 이해와 추론 능력을 평가하는 13개 지표 평균에서 주요 글로벌 모델을 상회했으며 STEM 분야 성능에서도 경쟁 모델 대비 높은 점수를 기록했다.
특히 코딩 성능 평가인 라이브코드벤치에서는 구글 최신 모델을 넘어서는 결과를 보이며 기술 범용성까지 확보했다.
▲ “작지만 강하다”…효율성까지 잡은 구조
엑사원 4.5는 330억 개 파라미터 규모로 기존 모델 대비 대폭 경량화됐다. 그럼에도 텍스트 이해와 추론 성능은 동등 수준을 유지했다.
이는 LG AI연구원이 자체 개발한 하이브리드 어텐션 구조와 멀티 토큰 예측 기반 고속 추론 기술이 적용된 결과다. 성능과 효율을 동시에 확보하며 실제 서비스 적용 가능성을 높였다는 평가다.
지원 언어도 한국어 영어를 넘어 일본어 베트남어 독일어 스페인어까지 확대하며 글로벌 활용도를 끌어올렸다.
▲ 오픈웨이트 공개…AI 생태계 확장 가속
LG AI연구원은 이번 모델을 글로벌 오픈소스 플랫폼 Hugging Face에 공개하며 생태계 확장에도 나섰다. 연구 학술 교육 목적으로 활용할 수 있도록 개방해 개발자와 연구자 참여를 유도한다는 전략이다.
앞서 ‘엑사원 3.0’에 이어 연속적인 오픈웨이트 정책을 유지하며 국내 AI 생태계 확대에 기여하고 있다는 평가다.
또 청년 AI 인재 육성 프로그램인 ‘LG 에이머스’ 해커톤에도 활용되며 교육 자원으로서 역할도 강화하고 있다.
▲ “K-AI 정체성 강화”…문화 이해까지 확장
LG AI연구원은 엑사원을 한국어뿐 아니라 역사 문화 사회적 맥락까지 이해하는 AI로 발전시키겠다는 목표도 제시했다.
이를 위해 동북아역사재단 등과 협력해 고품질 데이터를 학습에 반영하고 있으며 자체 위험 관리 체계 기반으로 신뢰성과 표현력을 동시에 확보한다는 계획이다.
이진식 엑사원랩장은 “텍스트 중심 AI를 넘어 시각 정보를 이해하는 멀티모달 시대로 진입했다”며 “향후 음성 영상 물리 환경까지 확장해 산업 현장에서 판단하고 행동하는 AI로 발전시킬 것”이라고 밝혔다.
업계에서는 이번 모델을 두고 국내 AI가 ‘언어 모델 중심 경쟁’에서 벗어나 ‘멀티모달·산업형 AI’로 진입하는 전환점으로 보고 있다.
Copyright ⓒ 한스경제 무단 전재 및 재배포 금지
본 콘텐츠는 뉴스픽 파트너스에서 공유된 콘텐츠입니다.