자율주행 기술의 패러다임이 바뀌고 있다. 단순히 정해진 규칙에 따라 차선을 맞추고 장애물을 피하는 ‘룰 베이스(Rule-based)’의 시대가 가고, 인공지능(AI)이 스스로 상황을 판단하고 언어로 소통하는 ‘엔드투엔드(End-to-End)’ 시대가 도래했다.
문제는 데이터다. 과거에 막대한 예산을 들여 구축한 데이터들이 최신 멀티모달(Multimodal) AI 모델에 적용하기엔 ‘철 지난 자료’가 되어버렸기 때문이다. 지난 12월 18일 서울 코엑스에서 열린 ‘2025년 AI 학습용 데이터 구축 및 고도화 성과보고회’에서 나라지식정보가 발표한 ‘데이터 업사이클링’ 사례가 업계의 비상한 관심을 끈 이유도 여기에 있다.
과학기술정보통신부 주최, 한국지능정보사회진흥원(NIA) 주관으로 열린 이번 행사에서 나라지식정보(대표 손영호)는 기존 자율주행 원천 데이터를 재가공해 고품질의 멀티모달 데이터셋으로 탈바꿈시킨 성과를 공개했다.
나라지식정보 컨소시엄이 추진한 이번 사업의 핵심은 ‘고도화’다. 단순히 영상 데이터를 모으는 수준을 넘어, 수집된 대규모 주행 영상에 텍스트와 이미지 간의 관계를 설정하고 질의응답(QA) 데이터를 결합했다. 특히 데이터 용량을 최적화하는 ‘다운사이징’ 과정을 거쳐 실제 AI 모델이 학습하기 가장 효율적인 상태로 변모시켰다.
그동안 자율주행 업계에서는 방대한 데이터 양에 비해 정작 고도화된 판단 논리를 학습시킬 ‘지식형 데이터’가 부족하다는 갈증이 있었다. 나라지식정보는 교통 법규와 복잡한 도로 상황에 대한 Q&A를 데이터셋에 녹여내며 이른바 ‘모빌리티 특화 지식’을 구축하는 데 성공했다.
업계 전문가들은 업사이클링된 데이터의 활용 가치에 주목하고 있다. 이번 데이터셋은 시각 정보에 판단 논리가 결합된 형태다. 거대언어모델(LLM) 기반의 차세대 자율주행 시스템 개발에 즉각 투입할 수 있다는 뜻이다.
특히 눈길을끄는 대목은 가상 환경에서의 검증 효율성이다. 시나리오별 질의응답 데이터와 경량화된 영상 데이터는 실제 도로에서 테스트하기 위험한 돌발 상황을 가상 세계에서 집중적으로 학습시킨다. 이는 자율주행차의 안전성을 비약적으로 높여 상용화 시기를 앞당기는 기폭제가 될 것으로 보인다.
다만, 이러한 성과가 공공 데이터를 넘어 민간 영역의 다양한 엣지 케이스(Edge Case)까지 얼마나 빠르게 확산될 수 있을지는 향후 과제로 남는다. 데이터의 양적 팽창보다 질적 고도화가 중요한 시점에서 나라지식정보의 시도는 고무적이지만, 실제 자율주행 제조사들의 복잡한 알고리즘에 얼마나 유연하게 녹아들 수 있을지가 관건이다.
2008년 설립된 나라지식정보는 사실 국내 데이터 업계의 ‘숨은 강자’다. 지난 17년간 국립국어원, 국가기록원 등 180여 개 기관과 함께 약 600건의 사업을 수행했다. 한국의 역사와 문화 등 비정형 데이터를 정교하게 디지털화해온 기술력이 이번 모빌리티 데이터 고도화 사업에서도 빛을 발했다는 평가다.
나라지식정보는 자체 개발한 AI OCR 엔진과 설명 가능한 AI(XAI) 기술인 RAG 기반 ‘NA-LLM’, AI 에이전트 기술 등을 보유하고 있다. 아날로그 기록물을 디지털 지식 콘텐츠로 전환하던 저력이 이제는 자율주행이라는 첨단 산업 분야로 확장되고 있는 셈이다.
손영호 나라지식정보 대표는 성과보고회 현장에서 “업사이클링 사업은 AI 기술 혁신을 통해 산업 전반의 효율을 높이는 핵심 동력”이라며 “앞으로 데이터 전처리 솔루션 개발을 가속화해 디지털 지식정보화 사업 영역을 지속적으로 넓혀나가겠다”고 포부를 전했다.
이번에 완성된 모빌리티 데이터셋은 AI 허브(AI Hub)를 통해 전면 공개된다. 자본과 데이터 확보에 어려움을 겪는 국내 스타트업과 연구진들에게 단비가 될 수 있을지 업계의 시선이 쏠리고 있다.
Copyright ⓒ 스타트업엔 무단 전재 및 재배포 금지
본 콘텐츠는 뉴스픽 파트너스에서 공유된 콘텐츠입니다.