[엠투데이 이정근기자] 피지컬 AI 기업 리얼월드(RLWRLD)가 독자 로보틱스 파운데이션 모델 ‘RLDX-1’을 공개하며 로봇 손 조작 기술 고도화에 나섰다.
RLDX-1은 고자유도 5지 로봇 손에 정교한 조작 능력을 부여하기 위해 설계된 모델이다. 시각과 언어를 중심으로 작동하는 기존 범용 VLA 모델과 달리, 손에 가해지는 힘인 토크와 촉각, 작업 기억까지 하나의 모델 안에서 함께 처리하도록 설계된 것이 특징이다.
리얼월드는 RLDX-1의 핵심 방향을 ‘Dexterity-First’로 제시했다. 이는 손재주를 지능 이후에 따라오는 부가 기능이 아니라, 로봇이 실제 물리 세계에서 행동하기 위해 반드시 갖춰야 할 핵심 능력으로 보는 접근이다.
회사는 산업 현장에서 반복적으로 발생하는 손 조작 과제를 자체 벤치마크 ‘DexBench’로 정의했다. DexBench는 파지 다양성, 공간 정밀도, 시간 정밀도, 접촉 정밀도, 맥락 인지 등 5개 영역으로 구성됐다.
RLDX-1은 글로벌 공개 벤치마크 8종에서 엔비디아의 그루트(GR00T), 피지컬 인텔리전스의 파이제로(π0) 등 기존 최고 성능 모델을 앞섰다. 장기·접촉 중심 과제인 ‘RoboCasa Kitchen’에서는 70.6점을 기록했고, 휴머노이드 전용 평가인 ‘GR-1 Tabletop’에서는 58.7점을 기록했다.
강건성 평가인 ‘LIBERO-Plus’에서는 86.7%를 기록했다. 실제 로봇 환경에서도 위로보틱스의 휴머노이드 ALLEX 기반 ‘커피 따르기’ 과제에서 70.8%의 성공률을 보였다.
RLDX-1의 핵심 아키텍처는 멀티-스트림 액션 트랜스포머(MSAT)다. MSAT는 시각, 언어, 행동, 촉각, 메모리 등 서로 다른 신호를 각각 독립된 스트림에서 처리한 뒤 모달리티 간 조인트 어텐션으로 통합한다.
토크와 촉각처럼 카메라만으로 파악하기 어려운 물리 신호는 별도 모듈에서 처리된다. 장기 기억 역시 별도 메모리 모듈을 통해 다뤄지며, 이를 통해 모델이 보고, 느끼고, 기억하고, 적응할 수 있도록 설계됐다.
배재경 리얼월드 CTO는 “각 모달리티가 자기 자리에서 충분히 표현될 수 있도록 구조를 분리한 것이 RLDX-1의 핵심”이라며 “토크 신호로 접촉 순간을 정확히 포착하고 시간 축의 동적 변화를 추론하는 능력은 기존 VLA가 구조적으로 다루기 어려웠던 영역”이라고 설명했다.
리얼월드는 RLDX-1을 실제 산업 현장 적용을 염두에 두고 개발했다. 제조와 물류 현장의 작업을 직접 관찰·분석해 DexBench를 구축했으며, 이를 손 조작 분야의 산업 표준으로 발전시킨다는 방침이다.
회사는 SK텔레콤, LG전자, CJ대한통운, 롯데, KDDI, ANA 홀딩스, 미쓰이 케미컬스, 시마즈 등 한국과 일본 주요 기업으로부터 투자를 유치했다. 현재 10여 개 한·일 대기업과 벤치마크 공동 개발, PoC, RX 프로젝트를 진행하고 있다.
RLDX-1은 사전학습 체크포인트와 플랫폼별 미드 트레이닝 체크포인트 등 총 3종으로 구성된다. 모델 가중치와 학습 코드, 기술 문서는 깃허브와 허깅페이스를 통해 외부 연구자에게 공개됐다.
리얼월드는 이번 모델을 시작으로 차세대 ‘4D+ 월드 모델’ 개발로 기술 방향을 확장한다. 4D+ 월드 모델은 시각, 언어, 행동뿐 아니라 접촉, 토크, 로봇 상태를 시간 축에서 통합적으로 예측·생성하는 구조다.
류중희 리얼월드 대표는 “픽셀에 담기지 않은 정보는 영상을 아무리 수집해도 나타나지 않는다”며 “RLDX-1은 우리가 향하는 방향의 첫 번째 마일스톤일 뿐”이라고 밝혔다.
Copyright ⓒ M투데이 무단 전재 및 재배포 금지
본 콘텐츠는 뉴스픽 파트너스에서 공유된 콘텐츠입니다.