[이뉴스투데이 김경현 기자] LG AI연구원이 텍스트와 이미지를 동시에 이해하고 추론하는 차세대 멀티모달(Multimodal) AI 모델 ‘엑사원(EXAONE) 4.5’를 공개했다고 9일 밝혔다. 특히 오픈AI, 구글 등 글로벌 빅테크의 최신 AI 모델을 상회하는 성능 지표를 입증하며 토종 AI의 강력한 경쟁력을 과시했다는 평가가 나온다.
이날 공개된 엑사원 4.5는 LG AI연구원이 자체 개발한 비전 인코더(Vision Encoder)와 거대언어모델(LLM)을 하나의 구조로 통합한 ‘비전-언어 모델(VLM)’이다. 단순히 글자를 읽는 것을 넘어 계약서, 기술 도면, 재무제표 등 복잡한 산업 현장의 문서와 이미지를 정확하게 파악하고 맥락을 추론할 수 있는 것이 특징이다.
가장 눈에 띄는 것은 글로벌 최고 수준의 벤치마크(성능 평가) 점수다. 엑사원 4.5는 AI의 시각 능력을 평가하는 13개 지표 평균 점수에서 미국 오픈AI의 ‘GPT-5 미니(mini)', 앤트로픽의 '클로드 소넷(Claude Sonnet) 4.5’, 중국 알리바바의 ‘큐웬(Qwen)3-VL’ 등 글로벌 최신 모델들을 모두 상회했다.
세부적으로는 과학·기술·공학·수학(STEM) 성능을 측정하는 5개 지표에서 평균 77.3점을 기록, GPT-5 미니(73.5점)와 클로드 소넷 4.5(74.6점)를 크게 앞질렀다. 또한 코딩 성능 대표 지표인 ‘라이브코드벤치(LiveCodeBench) v6’에서는 81.4점을 획득해 구글의 최신 모델 ‘젬마(Gemma) 4’(80.0점)를 넘어섰으며, 복잡한 차트를 분석하는 ‘ChartQA Pro’에서도 62.2점이라는 동급 최고 수준의 결과를 냈다.
효율성 측면에서도 괄목할 만한 진전을 이뤘다. 엑사원 4.5의 파라미터(매개변수) 규모는 330억 개(33B)로, 지난해 말 공개한 독자 모델 'K-엑사원'의 7분의 1 수준으로 가벼워졌다. 하지만 자체 개발한 하이브리드 어텐션 구조와 다중 토큰 예측 기술을 적용해 텍스트 이해 및 추론 영역에서는 기존 대형 모델과 동등한 성능을 낸다. 지원 언어 역시 한국어와 영어를 비롯해 스페인어, 독일어, 일본어, 베트남어까지 총 6개 국어로 확장했다.
LG AI연구원은 AI 연구 생태계 확장을 위해 지난 8월 엑사원 3.0에 이어 이번 엑사원 4.5 역시 글로벌 오픈소스 플랫폼 ‘허깅페이스(Hugging Face)’에 연구·학술용으로 무료 공개(오픈 웨이트)했다.
LG AI연구원은 엑사원을 가상 환경을 넘어 물리적 세계까지 이해하는 '피지컬 인텔리전스(Physical Intelligence)'로 발전시키겠다는 구상이다.
이진식 LG AI연구원 엑사원랩장은 “이번 모델을 시작으로 음성과 영상, 물리 환경까지 AI의 이해 범위를 확장해, 산업 현장에서 실질적으로 판단하고 행동하는 AI를 만들어가겠다”고 포부를 밝혔다.
Copyright ⓒ 이뉴스투데이 무단 전재 및 재배포 금지
본 콘텐츠는 뉴스픽 파트너스에서 공유된 콘텐츠입니다.