"사진만 보고 이야기 창작"…일론 머스크 설립 'xAI', 멀티모달 모델 '그록-1.5V' 출시

"사진만 보고 이야기 창작"…일론 머스크 설립 'xAI', 멀티모달 모델 '그록-1.5V' 출시

AI포스트 2024-04-15 00:01:10 신고

3줄요약
(사진=xAI)
(사진=xAI)

일론 머스크가 설립한 스타트업 'xAI'가 최초의 멀티모달 모델을 출시했다. 'GPT-4V', '클로드3 오퍼스' 등 경쟁 모델들보다 일부 기능이 더욱 뛰어나다고 xAI는 강조했다. 

xAI는 12일(현지시간) 공식 블로그를 통해 멀티모달 모델 '그록 1.5V'를 소개했다. 텍스트를 이해할 수 있을 뿐만 아니라 문서, 다이어그램, 차트, 스크린샷, 사진 등 다양한 시각자료를 처리할 수 있다는 것이 특징이다. 이달 중 그록 사용자와 초기 테스터들에게 제공된다. 

xAI는 출시 소식을 전하며 그록-1.5V의 성능을 가늠해볼 수 있는 활용 사례도 공개했다. 한 제품에 적힌 영양성분표를 보고 조각당 칼로리 정보를 파악하고, 한 장의 그림을 보고 흥미로운 이야기를 창작해낸다. 데크에 나사가 돌출돼 있는 사진을 줬더니 '썩은 나무'가 있다고 판단한다. 

그록-1.5V의 성능을 확인해볼 수 있는 예시. (사진=xAI)
그록-1.5V의 성능을 확인해볼 수 있는 예시. (사진=xAI)
그록-1.5V의 성능을 확인해볼 수 있는 예시. (사진=xAI)
그록-1.5V의 성능을 확인해볼 수 있는 예시. (사진=xAI)
벤치마크 결과. (사진=xAI)
벤치마크 결과. (사진=xAI)

사진을 보고 이미지를 인식해 스스로 판단해 결론을 만들어 내는 챗봇인 셈이다. 이러한 기술력을 입증할 벤치마크 결과도 공개했다. 그래프 등을 보고 수학적 추론 능력을 보는 매스 비스타(MathVista)와 '텍스트 시각화 질의응답'(TextVQA), '리얼월드QA(RealWorldQA)' 등 벤치마크에서 'GPT-4V'와 '클로드 오퍼스' 보다 더 나은 성능을 보였다. 

xAI는 블로그를 통해 "그록-1.5V'는 문서, 과학 도표, 차트, 캡처 이미지, 사진 이해 등 다양한 영역을 다룰 수 있다"며 "기존 멀티모달 모델과 경쟁할 수 있다"라고 밝혔다. 한편 올여름 출시될 '그록-2.0' 모델의 경우 '그록-1.5V' 보다 더욱 강력한 멀티모달 기능이 탑재될 것으로 예상된다. 

Copyright ⓒ AI포스트 무단 전재 및 재배포 금지

이 시각 주요뉴스

당신을 위한 추천 콘텐츠

실시간 키워드

  1. -
  2. -
  3. -
  4. -
  5. -
  6. -
  7. -
  8. -
  9. -
  10. -

0000.00.00 00:00 기준

알림 문구가 한줄로 들어가는 영역입니다

신고하기

작성 아이디가 들어갑니다

내용 내용이 최대 두 줄로 노출됩니다

신고 사유를 선택하세요

이 이야기를
공유하세요

이 콘텐츠를 공유하세요.

콘텐츠 공유하고 수익 받는 방법이 궁금하다면👋>
주소가 복사되었습니다.
유튜브로 이동하여 공유해 주세요.
유튜브 활용 방법 알아보기