얀 르쿤 왈 "저커버그 인공지능 연구
성공한다 해도 5년내 구식이 될 것"
딥러닝의 선구자이자 시각적 데이터 분석 콘볼루션 신경망(CNN)의 창시자로 튜링상(컴퓨터 분야 최고상)을 수상한 메타 수석 인공지능(AI) 과학자 얀 르쿤이 최근 몇 년간 AI 업계를 강타한 거대한 흐름, 즉 대규모 언어 모델(LLM)에 정면으로 맞섰다.
그의 비판은 그가 몸담은 메타의 전략과도 정면으로 충돌했다.
마크 저커버그 메타 CEO는 '초지능'을 추구하며 라마(Llama·대규모 언어모델) 같은 LLM 개발에 수십억 달러를 쏟아부었지만 , 얀 르쿤은 이러한 주력 모델들이 5년 내 구식이 될 것이라고 비아냥 댔다.
결국 이러한 기술적, 철학적 견해 차이는 얀 르쿤의 메타 이탈로 이어졌다. 그는 메타내 관리직에서 물러나 장기 연구자로 일하다가,최근 회사를 떠나 '월드 모델(World Model·이미지,소리,영상 등 학습)' 기술을 중심으로 하는 스타트업 설립을 준비했다. 그의 스타트업은 현재 LLM보다 AI를 발전시킬 가능성이 더 높다고 여겨지는 '어드밴스드 머신 인텔리전스(AMI)'를 목표로 하고 있다. 마크 저커버그가 괘심할만도 한 그의 새 벤처기업에 파트너로 참여하는 사실은 , LLM 중심 전략의 잠재적 위험에 대비하고 차세대 아키텍처에서 우위를 잃지 않으려는 전략적 헤지로 해석될 수 있다.
LLM은 왜 고양이보다 못하다는 걸까?
얀 르쿤의 LLM 인공지능 개발에 대한 비판을 상징하는 것은 바로 고양이 비유다. 그는 LLM이 실세계 이해, 즉 물리적 접지(Grounding)가 부족해 한계에 부딪힌다고 지적하며, 차라리 고양이가 LLM보다 더 똑똑하다고 주장했다. 르쿤은 이 주장의 근거로 '모라벡의 역설(Moravec's Paradox)'을 제시했다. 로봇 공학자 한스 모라벡이 제시한 개념으로 인간에게는 걷기 등은 쉽지만 컴퓨터나 로봇은 어렵고, 수학 등 인간에게는 어렵지만 컴퓨터나 로봇은 쉽다는 말이다. 이 역설은 AI가 복잡한 계산은 잘하지만, 세상을 인식하고 물체를 조작하는 기본적인 감각운동 지능에는 서툰 현상을 말한다.
LLM은 공개 인터넷에서 수집된 약 10조 토큰(텍스트 처리 때 사용하는 최소 단위)에 달하는 방대한 텍스트 데이터 를 학습해 언어적 유창성을 극대화했다. 그러나 얀 르쿤의 관점에서 LLM은 물리적 세계에 대한 내적 모델(World Model) 구축이 부족해 단순한 통계적 패턴 매칭에만 의존했다. 신경과학적 규모를 비교해보면, 집고양이 뇌는 약 8억 개의 뉴런, 즉 약 1.6조 개의 시냅스를 가지는데, 이는 GPT-4(각 2,200억 개의 매개변수를 가진 8개 모델로 구성됨) 같은 가장 큰 LLM의 매개변수 수와 비슷하거나 더 많은 수준이다. 규모가 비슷하거나 더 큰 LLM이 고양이와 같은 실세계 상식, 복잡한 행동 계획, 또는 추론 능력을 보여주지 못하는 것은 현재의 LLM 학습 패러다임이 인간 지능을 가진 AGI에 도달하기 위한 비효율적인 경로임을 시사한다는 얘기다. 고양이는 제한된 경험을 통해 빠르고 견고하게 학습하는 능력을 갖추었기 때문이다.
얀 르쿤은 LLM에 네 가지 핵심 요소가 결여되어 있다고 강조했다. 바로 상식적 물리, 영구적·지속적 메모리, 진정한 추론 능력, 그리고 행동 계획 및 목표 추구 능력이다. LLM이 인간이나 동물이 쉽게 수행하는 물리적 세계의 항해 및 상호작용 능력을 갖추지 못하는 이유도 여기에 있었다.
LLM이 넘어설 수 없는 이론적 장벽
얀 르쿤은 텍스트에만 의존하는 인공지능 개발 시스템은 "결코 인간의 이해에 근접할 수 없을 것"이라고 단언했다. 인간의 상식은 우리가 의식적으로 표현하지 않는, 경험을 통해 내재화된 암묵적 지식이며 , 텍스트 데이터는 물리적 세계의 복잡성을 완벽하게 담아내지 못하는 정보적 병목 현상을 유발했다.
LLM의 가장 큰 문제점인 환각(Hallucination·사실 아닌 것을 그럴듯하게 말하는 현상) 역시 단순한 학습 오류가 아닌, 이론적 한계에서 비롯된다는 주장이 제기됐다. f 인공지능의 환각은 '정보의 부족'이 아니라 '세상에 대한 구조적 모델의 부재'에서 오는 통계적 패턴의 조합의 결과였다.
또한 LLM 개발의 주요 전략인 스케일링 법칙(Scaling Laws·데이터 양이 많아지면 성능도 좋아진다는 것)에 대해서도 얀 르쿤과 비판론자들은 근본적인 한계를 지적했다. 현재의 LLM은 훈련 데이터 분포 내에서 패턴을 찾는 내삽(Interpolation)에는 뛰어나지만, 분포 밖의 새로운 상황을 추론하는 외삽(Extrapolation)에는 취약했다. 얀 르쿤은 아무리 데이터 규모를 늘려도, 진정한 이해력이나 추론 능력이 생겨날 수 없다고 주장했다. 이는 마치 아무리 많은 데이터를 넣어도 스프레드시트(엑셀 같은 컴퓨터 프로그램)가 그 숫자의 의미를 이해할 수 없는 것과 같은 이치였다 .
이러한 한계를 명확히 보여주는 비유는 '운전 학습'이다. 10대 운전자가 20시간 정도의 실습만으로 운전을 배우는 것은 이미 세상이 어떻게 작동하는지에 대한 강력한 월드 모델을 갖추고 있기 때문이다. 반면 수백만 시간의 주행 데이터로 훈련된 최첨단 자율주행 시스템조차 여전히 예측 불가능한 돌발 상황에 어려움을 겪었다.
고양이의 지능과 얀 르쿤의 대안: 월드 모델
고양이가 LLM보다 똑똑하다는 얀 르쿤의 비유는 인지 과학적 의미를 뜻한다. 고양이의 지능은 장 피아제의 감각운동 지능 틀 안에서 연구되어 왔는데 , 즉 고양이는 물체 영속성 테스트를 통과하는 등 실세계의 물리적 실체에 대한 내적 모델을 갖추고 있다는 실험적 증거를 알아냈다. 이들은 사라진 물체의 위치를 추론하고 복잡한 행동을 계획할 수 있었다.
얀 르쿤이 제시하는 LLM의 대안은 바로 이 실세계의 이해를 목표로 하는 월드 모델(World Model)이었다. 월드 모델은 인간이나 동물처럼 다양한 감각을 통해 현실 세상을 경험하고, 이 경험을 바탕으로 다음 상태를 예측하고 시뮬레이션할 수 있는 AI 시스템을 의미한다. 이러한 시스템은 휴머노이드 로봇과 같은 '피지컬 AI'를 구현하고 AI 에이전트가 스스로 행동을 계획하도록 제어하는 데 핵심적인 기술이다.
이 월드 모델 비전을 구현하는 핵심 기술이 바로 얀 르쿤이 직접 제안한 JEPA(Joint-Embedding Predictive Architecture)다. JEPA는 관찰을 통해 지식을 습득한다는 아이디어에 기반한 자기 지도 학습(SSL) 방식을 사용했다. JEPA의 핵심은 '비생성형 예측'이다. 기존 생성형 모델이 누락된 부분을 픽셀이나 토큰 레벨에서 채우려 하는 것과 달리, JEPA는 누락되거나 미래의 입력에 대한 '추상적인 표현'을 예측하는 데 집중했다. 이를 통해 모델은 불필요한 세부 정보보다는 장면의 의미론적 특징과 구조를 이해하는 데 집중했다. 이는 인간의 눈이 중요한 정보에 집중하고 불필요한 디테일을 무시하는 '선택적 주의'와 유사한 작동 원리를 따랐다.
메타 AI는 이 비전이 적용된 최초의 모델인 I-JEPA(Image Joint-Embedding Predictive Architecture)를 공개했다. I-JEPA는 특히 계산 효율성 측면에서 두드러졌는데, 다른 비전 모델보다 훈련 시간이 2배에서 10배까지 적게 소요되면서도 우수한 성능을 달성했다. 이는 월드 모델 패러다임이 LLM의 막대한 컴퓨팅 자원 소모 문제에 대한 직접적인 해결책을 제시할 수 있음을 시사했다. 메타는 또한 이미지와 비디오를 통해 학습하는 V-JEPA 2(Video-JEPA 2)를 공개하며 월드 모델 연구를 지속했다.
한마디로 LLM은 통계적 지능의 정점이지만, 물리적 세계를 이해하고 그 안에서 목표를 계획하며 추론할 수 있는 '고양이 수준의 지능'에는 아직 도달하지 못했다는 얘기다. 얀 르쿤의 '고양이 지능' 비유는 현재의 AI 시스템이 진정한 지능으로 나아가기 위해 반드시 해결해야 할 근본적인 미해결 과제를 명확히 보여주는 셈이었다. 미래 AI 개발의 핵심은 LLM의 언어적 능력과 월드 모델의 실세계 이해를 통합하는 방향으로 나아갈 가능성이 높다는 게 전문가들의 예측이다.
Copyright ⓒ 저스트 이코노믹스 무단 전재 및 재배포 금지
본 콘텐츠는 뉴스픽 파트너스에서 공유된 콘텐츠입니다.