게임 그래픽과 캐릭터 모션 기술은 최근 괄목할 만한 상향 평준화를 이뤄냈다. 하지만 캐릭터가 대사를 말할 때 입술이 멈춰 있거나 어색하게 웅얼거리는 연출은 여전히 이른바 ‘불쾌한 골짜기’를 유발하는 요인으로 지적된다.
NC AI 장한용 실장은 지난 17일 ‘넥슨 개발자 콘퍼런스 2026’(NDC 26)에서 ‘음성에서 표정으로 - 생성 AI를 이용한 얼굴 애니메이션 제작 효율화’를 주제로 강연을 진행했다. 현재 기 한계를 지적하고 이를 어떻게 극복했는지 그리고 실제 MMORPG 개발에 즉각 도입할 수 있는 수준으로 완성한 NC AI의 노하우를 공유했다.
과거에는 얼굴에 모션 캡처 장비를 장착하고 연기하더라도 기술적 한계로 인한 품질 문제 때문에 후처리 작업이 필수적이었다. 이 과정에서 개발자들이 직접 수작업으로 애니메이션을 보정해야 했기에 추가적인 비용과 시간 소모가 불가피했다.
하지만 비약적인 기술 발전으로 글로벌 시장에는 이미 엔비디아의 ‘오디오투페이스’, 에픽게임즈의 ‘메타휴먼 애니메이터’ 등 음성 데이터를 기반으로 립싱크를 자동 생성하는 AI 기술이 상용화됐다. 학계 역시 디퓨전과 트랜스포머 모델을 주축으로 관련 기술이 이미 완성 단계에 접어들었다는 평가를 내놓고 있다.
그럼에도 실제 상용화 단계에서 기존 기술이 가진 한계는 명확했다. ‘오디오투페이스’는 게임 콘텐츠 특유의 강한 연기 톤이나 울림 효과가 적용된 음성을 입력할 경우, 애니메이션 퀄리티가 급격히 떨어졌다. ‘메타휴먼 애니메이터’ 역시 단순 입술 변위 중심의 데이터만 적용하다 보니 기쁨이나 웃음 같은 감정을 표현할 때 입 움직임이 어색해져 시각적 연출이 뭉개지는 현상이 발생했다.
기술 발전에도 불구하고 얼굴 애니메이션 제작 공정은 여전히 개발자의 후처리 작업이 반드시 필요했다. 실제로 실무자들이 원하는 기술 역시 품질 자체보다 번거로운 보정 과정이 필요 없는 높은 안정성과 자동화된 제작 구조였다.
이에 NC AI는 복잡한 수동 작업을 최소화하고 안정적인 출력을 지원하는 뉴럴넷 구조 기반의 ‘바르코 싱크페이스’ 워크플로를 구축해 해결책을 제시했다.
해당 솔루션은 음성 정보나 텍스트 음성 변환(TTS) 데이터를 입력하면 별도 변환 공정 없이 언리얼 엔진에서 즉각 활용할 수 있는 시퀀스 에셋으로 자동 생성되는 구조를 갖췄다. 시스템 고도화 과정에서 마주한 기술적 난제는 단순한 우회 대신 양질의 데이터 확보와 인공지능(AI) 고도화를 통해 정면 돌파했다.
첫 번째 과제는 한국어 발화에서 높은 비중을 차지하는 양순음(ㅁ,ㅂ,ㅍ) 표현이었다. SMPL 등 기존 학계 데이터 입술을 완전히 닫았다 여는 묘사가 부실해 애니메이션 출력물이 늘 어색하게 웅얼거리는 한계를 안고 있었다. 이에 NC AI는 자체 개발한 고품질 얼굴 모션 캡처 장비와 정밀 후처리 기술을 활용해 한국어 환경에 최적화된 솔루션을 완성했다.
두 번째는 음성 정보가 다를 때 컴퓨터가 이를 평균값으로 수렴시켜 애니메이션을 뭉개버리는 매핑 문제였다. 이는 디퓨전 트랜스포머 기술로 원본 시퀀스를 최대한 복원하는 방식으로 해결했다.
세 번째는 수백 명의 캐릭터 음성이 섞일 때 발생하는 떨림 현상과 리깅 값 오염이었다. 이는 단순 데이터 확장에 의존하는 대신 다양한 화자의 음성을 AI가 기존에 학습한 음성 영역으로 치환하는 형태로 해결했다. 또한 화자 식별 기술을 더해 캐릭터 표정 데이터가 섞여 입술이 튀는 현상을 방지했다.
이 밖에도 실제 모션을 그대로 투사할 경우 도리어 표현이 어색해지는 서브컬처 캐릭터 특성을 고려해 ‘포즈 기반 리니어 블렌딩’ 로직을 추가하며 자연스러움을 더했다. 아울러 AI 모델이 장시간 학습하기 어려운 감정 연기 데이터는 감정이 격해지는 핵심 피크 순간만을 선별해 레이블링 하는 방식으로 데이터 효율성과 품질 안정성을 동시에 확보했다.
현재 ‘바르코 싱크페이스’는 개발자가 시나리오 텍스트를 입력하는 것만으로 완벽한 음성과 페이셜 애니메이션을 자동 생성해 인게임 컷신에 즉각 반영하는 고도화 단계에 진입했다. 이는 향후 글로벌 진출을 위한 현지화 작업 시에도 추가적인 비용을 줄일 수 있는 기반이 될 전망이다.
장 실장은 “향후 고품질 애니메이션 학습 환경에서는 실제 모션을 캡처하는 것보다 영상 생성 AI를 통해 데이터를 확보하는 것이 선별 및 관리 측면에서 훨씬 유리할 것이다”라며 “궁극적으로는 전신 모션을 파트별로 나눠 관리하는 수준을 넘어서 거대한 흐름 안에 유기적이고 조화롭게 생성되는 통합 기술 개발로 나아가야 한다”라고 말했다.
송진원 기자 jin1@tleaves.co.kr
Copyright ⓒ 더리브스 무단 전재 및 재배포 금지
본 콘텐츠는 뉴스픽 파트너스에서 공유된 콘텐츠입니다.