언어만으론 부족하다…구글·애플·딥마인드 출신 AI 전문가들이 만드는 '시각추론 AI'는?

실시간 키워드

2022.08.01 00:00 기준

언어만으론 부족하다…구글·애플·딥마인드 출신 AI 전문가들이 만드는 '시각추론 AI'는?

AI포스트 2026-04-10 18:23:53 신고

3줄요약
(사진=엘로리안)
(사진=엘로리안)

“아기가 세상을 배우듯 시각으로 추론합니다.” 제미나이와 애플 인텔리전스를 만든 천재들이 텍스트 중심 AI의 한계를 깨고, 물리적 세계를 직접 이해하는 ‘시각적 AGI’ 구축을 위해 스타트업 ‘엘로리안’을 설립했습니다.

AI포스트 핵심 요약

  • [AI 드림팀의 대이동] 구글 제미나이 데이터 총괄 앤드류 다이, 애플 인텔리전스 파운데이션 모델 담당 포레스트 황 등 시각 지능 분야 최정상급 인재들이 합류. 화려한 설립자 명단만으로 업계의 이목을 집중시키며 810억 원의 투자 유치 성공.
  • [시각 우선주의 아키텍처] 이미지를 텍스트로 치환해 해석하는 기존 방식 탈피. 인간의 진화적 특성처럼 언어보다 앞선 ‘시각적·공간적 추론’을 모델에 내재화하여 물리적 제약과 공간 관계를 스스로 해석하도록 훈련.
  • [실물 경제로 뻗어가는 AI 지능] 단순 이미지 생성을 넘어 공학 설계, 로봇 공학, 의학 진단 등 정밀 산업 분야 혁신 목표. 설계 도면을 직접 보고 성능 개선을 제안하거나 MRI 데이터를 정밀 분석하는 등 진정한 범용 인공지능(AGI)으로의 진화 시도.

구글 제미나이, 애플 인텔리전스, 딥마인드 등 현대 AI의 기틀을 닦은 핵심 주역들이 모여 시각적 추론 전문 AI 스타트업 '엘로리안(Elorian)'을 설립했다. 이들은 텍스트 중심의 기존 AI 한계를 넘어, 인간처럼 보고 느끼며 물리적 세상을 이해하는 '시각적 AGI' 구축을 목표로 내걸었다.

"이름만 들어도 압도적"…구글·애플 핵심 인력 '대이동'

AI 기업 엘로리안의 설립자 면면은 화려함을 넘어 압도적이다. 공동 창립자이자 CEO인 앤드류 다이(Andrew Dai)는 구글 브레인과 딥마인드 출신으로, 제미나이(Gemini) 프로젝트의 데이터 영역을 총괄하고 PaLM 2 사전 학습을 이끌었던 인물이다.

여기에 애플 인텔리전스의 파운데이션 모델을 담당했던 포레스트 황, 애플 최초의 멀티모달 모델 'MM1'을 주도한 양인페이, 세일즈포스 멀티모달 기술 리더 르쉐, 그리고 하버드대 교수 출신이자 에너지 스타트업 CTO인 세스닐 등 시각 지능과 데이터 인프라 분야의 최정상급 인재들이 합류했다.

"언어는 시각의 보조수단일 뿐"…AI의 근본적 아키텍처 재정의

엘로리안이 기존 AI 모델과 차별화되는 지점은 '시각 우선주의'다. 현재의 멀티모달 모델은 이미지를 텍스트로 설명한 뒤 추론하는 '취약한 구조'를 가지고 있다. 반면 엘로리안은 아기가 말을 배우기 전 시각과 촉각으로 세상을 이해하듯, 모델이 시각적 표현과 직접 상호작용하며 물리적 제약과 공간 관계를 스스로 해석하도록 훈련한다.

(사진=엘로리안)
(사진=엘로리안)

엘로리안 관계자는 부엌의 위치를 텍스트로 길게 설명하는 것보다 한 장의 스케치를 보는 것이 훨씬 직관적이라고 강조했다. 인간의 시각적·공간적 추론 능력은 진화론적으로 언어보다 훨씬 깊은 곳에 자리 잡고 있으며, 이를 모델에 내재화하는 것이 진정한 지능으로 가는 '열쇠'라는 분석이다.

로봇 공학의 '성배', 물리적 세계 모델링 경쟁 가속화

이러한 엘로리안의 도전은 현재 로봇 산업의 화두인 '피지컬 AI(Physical AI)' 열풍과도 궤를 같이한다. 최근 테슬라(Tesla)의 옵티머스나 피규어 AI(Figure AI) 등 주요 로봇 기업들은 로봇이 단순히 명령을 수행하는 것을 넘어, 주변 환경의 물리적 특성을 실시간으로 이해하는 '세계 모델(World Models)' 구축에 사활을 걸고 있다.

특히 엔비디아(NVIDIA)의 코스모스(Cosmos)와 같은 플랫폼은 가상 시뮬레이션에서 물리 법칙을 학습시킨 뒤 이를 실물 로봇에 이식하는 '심투리얼(Sim-to-Real)' 기술을 고도화하고 있다. 엘로리안은 이러한 흐름 속에서 정교한 시각적 추론 아키텍처를 통해 로봇이 처음 마주하는 복잡한 환경에서도 별도의 재학습 없이 능숙하게 대처할 수 있는 '두뇌'를 제공하겠다는 포석이다.

5,500만 달러 실탄 확보…"코딩 에이전트 넘어 실물 경제 혁신"

엘로리안은 스트라이커 벤처스 등으로부터 5,500만 달러(약 810억 원)의 투자를 유치하며 본격적인 연구에 착수했다. 이들의 기술은 단순한 이미지 생성을 넘어 공학 설계, 로봇 공학, 의학 진단, 정밀 농업 등 광범위한 산업에 적용될 전망이다.

예를 들어, 모델이 설계 도면을 직접 보고 더 가벼운 엔진이나 조용한 날개를 제안하거나, 의사가 MRI 스캔 데이터를 더 정확히 분석하도록 돕는 식이다. 앤드류 다이 CEO는 "인공지능이 진정으로 범용적이 되려면 우리가 살고 있는 물리적 세계의 구조까지 이해해야 한다"며, 시각적 추론이 미래 AI의 가장 중요한 과제임을 분명히 했다.

Copyright ⓒ AI포스트 무단 전재 및 재배포 금지

본 콘텐츠는 뉴스픽 파트너스에서 공유된 콘텐츠입니다.

다음 내용이 궁금하다면?
광고 보고 계속 읽기
원치 않을 경우 뒤로가기를 눌러주세요

실시간 키워드

  1. -
  2. -
  3. -
  4. -
  5. -
  6. -
  7. -
  8. -
  9. -
  10. -

0000.00.00 00:00 기준

이 시각 주요뉴스

알림 문구가 한줄로 들어가는 영역입니다

신고하기

작성 아이디가 들어갑니다

내용 내용이 최대 두 줄로 노출됩니다

신고 사유를 선택하세요

이 이야기를
공유하세요

이 콘텐츠를 공유하세요.

콘텐츠 공유하고 수익 받는 방법이 궁금하다면👋>
주소가 복사되었습니다.
유튜브로 이동하여 공유해 주세요.
유튜브 활용 방법 알아보기