"자율주행, 자율로봇에도 당연히 필요해" 엔비디아, 물리 AI 개발 위한대규모 오픈 데이터 세트 공개

실시간 키워드

2022.08.01 00:00 기준

"자율주행, 자율로봇에도 당연히 필요해" 엔비디아, 물리 AI 개발 위한대규모 오픈 데이터 세트 공개

M투데이 2025-03-20 15:25:15 신고

3줄요약
엔비디아, 개방형 물리 AI 데이터세트 공개…로보틱스·자율주행 개발 가속화
엔비디아, 개방형 물리 AI 데이터세트 공개…로보틱스·자율주행 개발 가속화

[엠투데이 이정근기자]   엔비디아(NVIDIA)가 차세대 물리 AI 개발을 위한 대규모 오픈 소스 데이터세트를 공개했다.

3월 17일(현지시간) 미국 새너제이에서 열린 글로벌 AI 콘퍼런스 GTC 2025에서 엔비디아는 자율 로봇과 자율주행차량(AV) 등 물리적 환경과 상호작용하는 AI 시스템을 학습시키기 위한 방대한 데이터를 제공한다고 발표했다.

이번에 공개된 데이터세트는 연구자와 개발자가 AI 모델을 보다 정교하게 훈련할 수 있도록 지원하며, 특히 AI 모델의 사전 훈련, 테스트, 검증 과정에서 활용될 수 있다. 또한, 월드 파운데이션 모델(WFM)의 미세 조정을 가속화할 수 있도록 설계됐다.

현재 초기 데이터세트는 허깅페이스(Hugging Face)에서 제공되며, 로보틱스 교육을 위한 15TB 규모의 데이터와 32만 개 이상의 경로 정보, 최대 1,000개의 오픈USD(OpenUSD) 기반 시뮬레이션 에셋, 미국과 유럽 전역에서 수집된 자율주행 교통 데이터 등이 포함되어 있다.

엔비디아 물리 AI 데이터세트는 풍부한 시나리오 구축을 위한 수백 개의 심레디 에셋을 포함하고 있다.
엔비디아 물리 AI 데이터세트는 풍부한 시나리오 구축을 위한 수백 개의 심레디 에셋을 포함하고 있다.

이 데이터세트는 로봇 및 자율주행 AI 모델 개발을 위한 가장 포괄적인 데이터 리소스 중 하나로 평가된다. 이를 활용하면 창고 및 물류 환경에서 자율 이동이 가능한 로봇을 개발하거나, 수술실에서 외과의를 보조하는 휴머노이드 로봇을 훈련할 수 있으며, 복잡한 도심과 건설 구역에서도 안전하게 주행할 수 있는 AV 시스템을 구축하는 것이 가능해진다.

캘리포니아대학교 버클리(UC Berkeley)의 버클리 딥드라이브 센터(Berkeley DeepDrive Center), 카네기멜론대학교(CMU)의 세이프 AI 연구소(Safe AI Lab), UC 샌디에이고(UCSD)의 컨텍스츄얼 로보틱스 연구소(Contextual Robotics Institute) 등이 이 데이터세트를 조기에 채택하며 연구를 진행 중이다.

UCSD 로봇 연구소의 헨릭 크리스튼슨 교수는 "이 데이터세트는 자율주행차량이 보행자와 같은 도로 위 취약 사용자의 움직임을 더 정밀하게 예측할 수 있도록 돕는다"며, "기존 오픈 소스 데이터보다 다양한 환경과 긴 영상 클립을 포함하고 있어 연구 발전에 큰 기여를 할 것"이라고 설명했다.

기존 AI 개발 과정에서 데이터 수집과 주석 처리는 가장 큰 병목 요소였다. 연구기관과 기업들은 AV AI 훈련을 위해 수개월 동안 데이터를 수집해야 했고, 수집된 영상 중 10%만이 실제로 유의미하게 활용될 정도로 비효율적이었다.

그러나 엔비디아의 물리 AI 데이터세트를 활용하면, 사전 훈련된 대규모 데이터를 통해 더욱 강력한 AI 모델을 구축할 수 있으며, 특정 사용 사례별 AI 성능을 개선하는 사후 훈련도 가능하다. 또한, 합성 데이터를 활용하여 엣지 케이스 및 희귀한 상황까지 학습할 수 있어 보다 안정적인 모델 개발이 가능하다.

엔비디아는 이러한 대규모 데이터를 처리하기 위해 네모 큐레이터(NeMo Curator) 툴을 제공하며, 이를 활용하면 CPU 환경에서 3.4년이 걸리던 2,000만 시간 분량의 영상 데이터 처리 작업을 엔비디아 블랙웰(Blackwell) GPU에서는 단 2주 만에 수행할 수 있다.

엔비디아, 개방형 물리 AI 데이터세트 공개…로보틱스·자율주행 개발 가속화
엔비디아, 개방형 물리 AI 데이터세트 공개…로보틱스·자율주행 개발 가속화

엔비디아는 이번 데이터세트가 AI 연구의 표준을 정립하고, 물리 AI 기반 혁신을 가속화하는 중요한 자원이 될 것으로 기대하고 있다. 또한, 이 데이터세트는 엔비디아 코스모스(Cosmos) 월드 모델 플랫폼, 엔비디아 드라이브 AV(DRIVE AV) 소프트웨어 스택, 엔비디아 아이작(Isaac) 로봇 개발 플랫폼, 스마트 도시용 엔비디아 메트로폴리스(Metropolis) 애플리케이션 프레임워크 등 다양한 엔비디아 AI 플랫폼과 연동된다.

카네기멜론대학교(CMU)의 딩 자오 교수는 "이 데이터세트는 다양한 도로 환경, 기후 조건, 인프라 변수를 포함하고 있어 엣지 케이스와 롱테일 문제 해결에 필수적인 학습 도구"라며, "자율주행차량 및 로봇 AI 모델의 안전성을 평가하는 데 중요한 역할을 할 것"이라고 말했다.

현재 이 데이터세트는 허깅페이스(Hugging Face)에서 접근할 수 있으며, 엔비디아는 "오픈USD 배우기(Learn OpenUSD)" 및 "로보틱스 기초(Robotics Fundamentals)" 과정을 통해 연구자와 개발자를 위한 교육 프로그램도 제공할 예정이다.

Copyright ⓒ M투데이 무단 전재 및 재배포 금지

실시간 키워드

  1. -
  2. -
  3. -
  4. -
  5. -
  6. -
  7. -
  8. -
  9. -
  10. -

0000.00.00 00:00 기준

이 시각 주요뉴스

알림 문구가 한줄로 들어가는 영역입니다

신고하기

작성 아이디가 들어갑니다

내용 내용이 최대 두 줄로 노출됩니다

신고 사유를 선택하세요

이 이야기를
공유하세요

이 콘텐츠를 공유하세요.

콘텐츠 공유하고 수익 받는 방법이 궁금하다면👋>
주소가 복사되었습니다.
유튜브로 이동하여 공유해 주세요.
유튜브 활용 방법 알아보기