영상만 보고도 물체가 얼마나 무겁고 빠르게 움직이는지 스스로 알아내는 인공지능 기술이 국내 연구진 손에서 탄생했다.
26일 연합뉴스에 따르면 한국과학기술원(KAIST) 전산학부 오태현 교수팀이 포스텍, 소니 AI와 손잡고 '파바스'(PAVAS)라는 이름의 차세대 음향 생성 시스템을 선보였다. 이 기술의 핵심은 화면에 숫자로 표시되지 않는 물리 정보를 맥락 분석만으로 추론해낸다는 점이다.
기존 시스템들은 '화면에 무엇이 등장하는가'를 인식하는 데 그쳤다. 반면 파바스는 한 단계 더 나아가 '이 장면에서 왜 특정 소리가 나야 하는가'라는 물리적 인과관계까지 파악한다. 주변 환경과 동작의 흐름을 종합 분석한 뒤, 도출된 질량·속도 정보가 소리 합성 단계에 곧바로 적용되는 구조다.
연구진이 수행한 검증 실험에서 눈에 띄는 성과가 확인됐다. 물체끼리 부딪히거나 타격이 가해지는 장면마다 실제 현장음에 근접한 효과음이 생성된 것이다. 무게가 무거워지면 둔탁하게, 속력이 빨라지면 날카롭게 음색과 크기가 자연스럽게 달라졌다. 객체 움직임과 충돌 양상을 정밀 분석해 장면 타이밍에 딱 맞아떨어지는 소리를 구현했다고 연구팀 측은 전했다.
활용 가능성도 폭넓다. 영화·드라마 등 콘텐츠 제작 현장에서 음향 작업을 자동화하는 것은 물론, 증강현실(AR)·가상현실(VR) 콘텐츠와 메타버스 플랫폼, 로봇 시뮬레이션 분야까지 몰입도 높은 사용자 경험 제공에 기여할 전망이다.
오태현 교수는 "텍스트와 영상, 음성 등 복수의 정보를 동시에 처리하는 차세대 AI 핵심 기반 기술로 발전시켜 나갈 계획"이라고 포부를 밝혔다.
Copyright ⓒ 나남뉴스 무단 전재 및 재배포 금지