일론 머스크가 설립한 스타트업 'xAI'가 최초의 멀티모달 모델을 출시했다. 'GPT-4V', '클로드3 오퍼스' 등 경쟁 모델들보다 일부 기능이 더욱 뛰어나다고 xAI는 강조했다.
xAI는 12일(현지시간) 공식 블로그를 통해 멀티모달 모델 '그록 1.5V'를 소개했다. 텍스트를 이해할 수 있을 뿐만 아니라 문서, 다이어그램, 차트, 스크린샷, 사진 등 다양한 시각자료를 처리할 수 있다는 것이 특징이다. 이달 중 그록 사용자와 초기 테스터들에게 제공된다.
xAI는 출시 소식을 전하며 그록-1.5V의 성능을 가늠해볼 수 있는 활용 사례도 공개했다. 한 제품에 적힌 영양성분표를 보고 조각당 칼로리 정보를 파악하고, 한 장의 그림을 보고 흥미로운 이야기를 창작해낸다. 데크에 나사가 돌출돼 있는 사진을 줬더니 '썩은 나무'가 있다고 판단한다.
사진을 보고 이미지를 인식해 스스로 판단해 결론을 만들어 내는 챗봇인 셈이다. 이러한 기술력을 입증할 벤치마크 결과도 공개했다. 그래프 등을 보고 수학적 추론 능력을 보는 매스 비스타(MathVista)와 '텍스트 시각화 질의응답'(TextVQA), '리얼월드QA(RealWorldQA)' 등 벤치마크에서 'GPT-4V'와 '클로드 오퍼스' 보다 더 나은 성능을 보였다.
xAI는 블로그를 통해 "그록-1.5V'는 문서, 과학 도표, 차트, 캡처 이미지, 사진 이해 등 다양한 영역을 다룰 수 있다"며 "기존 멀티모달 모델과 경쟁할 수 있다"라고 밝혔다. 한편 올여름 출시될 '그록-2.0' 모델의 경우 '그록-1.5V' 보다 더욱 강력한 멀티모달 기능이 탑재될 것으로 예상된다.
Copyright ⓒ AI포스트 무단 전재 및 재배포 금지