목소리 속 미세한 감정까지 읽어내는 AI, 영상 인물 표정 실시간 변환 성공

말투에 숨겨진 비꼼이나 공감 같은 복잡한 감정을 포착해 영상 속 인물의 표정을 자동으로 변환하는 기술이 국내 연구진에 의해 세상에 나왔다.

울산과학기술원(UNIST) 인공지능대학원 김태환 교수 연구팀이 개발한 'C-MET'(Cross-Modal Emotion Transfer) 모듈이 그 주인공이다. 연합뉴스에 따르면 이 기술은 18일 공식 발표됐으며, 고품질 정면 사진 등 별도 참조 이미지 없이도 음성 신호만으로 화자의 얼굴 표정을 원하는 감정으로 전환할 수 있다.

핵심 원리는 감정 변화량의 수치화에 있다. 평범한 톤의 음성과 감정이 담긴 음성 사이의 차이가 벡터로 계산되고, 이 수치 정보가 얼굴에서 어떤 표정 움직임으로 구현되는지를 시스템이 스스로 터득한다. 덕분에 동일한 문장이라도 말하는 방식에 따라 눈썹 움직임, 입꼬리 각도, 눈가 주름 등이 다르게 표현된다.

기존 방식들은 '기쁨', '슬픔' 등 명확한 라벨을 붙여 학습시켰으나, C-MET은 두 감정 간 변화 정도를 분석하는 접근법을 채택했다. 이로써 훈련 데이터에 포함되지 않았던 비꼬는 뉘앙스나 카리스마 같은 섬세한 감정까지 표정으로 구현하는 것이 가능해졌다.

성능 검증 결과도 주목할 만하다. 기존 대표 기술인 이디톡(EDTalk)과 비교했을 때 감정 표현 정확도가 약 14%포인트 앞섰다. 이디톡 모델의 표정 인코더를 C-MET로 교체하자 정확도가 41.99%에서 55.91%로 뛰어올랐고, 'PD-FGC' 모델에 적용했을 때도 33.36%에서 36.82%로 개선됐다. 특정 시스템에 종속되지 않고 다양한 얼굴 생성 모델과 호환된다는 점이 입증된 셈이다.

김태환 교수는 참조 이미지 의존이라는 기존 기술의 근본적 제약을 음성 기반 접근으로 돌파했다고 설명했다. 가상 인간 콘텐츠 제작, 영화 후반 작업, 감정 인식 시스템 등 활용 범위가 넓을 것으로 기대된다.

한편 이번 연구는 인공지능 및 컴퓨터 비전 분야 권위 있는 국제학회 'CVPR 2026'에 정식 채택되며 학술적 가치를 인정받았다.

실시간 키워드

2022.08.01 00:00 기준

실시간 키워드