엔비디아가 텍스트만으로 오디오 출력을 제어할 수 있는 생성형 AI 모델 ‘푸가토’를 개발했다.
‘푸가토’는 텍스트와 오디오 파일의 조합을 사용해 프롬프트에 설명된 음악, 음성, 사운드의 모든 조합을 생성하거나 변형할 수 있다. 텍스트 프롬프트에 따라 기존 노래에서 악기를 제거하거나 추가하고, 목소리의 억양이나 감정을 바꾸기도 한다. 이전에 들어본 적 없는 소리를 만들어낼 수도 있다.
정식 버전은 25억 개의 파라미터를 사용하며, 32개의 엔비디아 H100 텐서 코어 GPU가 탑재된 엔비디아 DGX 시스템을 통해 훈련됐다.
AI 제작에는 인도, 브라질, 중국, 요르단, 한국 등 전 세계의 사람들이 참여했다. 이들의 협업으로 푸가토의 다중 억양과 다국어 기능이 강화됐다.
푸가토를 개발한 12명 이상의 개발자 중 한 명인 라파엘 발레는 “우리는 사람처럼 소리를 이해하고 생성하는 모델을 만들고 싶었다”고 말했다.
Copyright ⓒ 경향게임스 무단 전재 및 재배포 금지