엔비디아, 텍스트로 오디오 생성하는 AI ‘푸가토’ 공개

엔비디아가 텍스트만으로 오디오 출력을 제어할 수 있는 생성형 AI 모델 ‘푸가토’를 개발했다.

(제공=엔비디아)

‘푸가토’는 텍스트와 오디오 파일의 조합을 사용해 프롬프트에 설명된 음악, 음성, 사운드의 모든 조합을 생성하거나 변형할 수 있다. 텍스트 프롬프트에 따라 기존 노래에서 악기를 제거하거나 추가하고, 목소리의 억양이나 감정을 바꾸기도 한다. 이전에 들어본 적 없는 소리를 만들어낼 수도 있다.

정식 버전은 25억 개의 파라미터를 사용하며, 32개의 엔비디아 H100 텐서 코어 GPU가 탑재된 엔비디아 DGX 시스템을 통해 훈련됐다.

AI 제작에는 인도, 브라질, 중국, 요르단, 한국 등 전 세계의 사람들이 참여했다. 이들의 협업으로 푸가토의 다중 억양과 다국어 기능이 강화됐다.

푸가토를 개발한 12명 이상의 개발자 중 한 명인 라파엘 발레는 “우리는 사람처럼 소리를 이해하고 생성하는 모델을 만들고 싶었다”고 말했다.

실시간 키워드

2022.08.01 00:00 기준

실시간 키워드

엔비디아, 텍스트로 오디오 생성하는 AI ‘푸가토’ 공개

댓글 0

댓글 0

실시간 키워드

이 시각 주요뉴스

당신을 위한 추천 콘텐츠

신고하기

신고 사유를 선택하세요

이 이야기를
공유하세요

실시간 키워드 2022.08.01 00:00 기준

실시간 키워드

엔비디아, 텍스트로 오디오 생성하는 AI ‘푸가토’ 공개

댓글 0

댓글 0

실시간 키워드

이 시각 주요뉴스

당신을 위한 추천 콘텐츠

신고하기

신고 사유를 선택하세요

이 이야기를 공유하세요

이 콘텐츠를 공유하세요.

실시간 키워드

2022.08.01 00:00 기준

이 이야기를
공유하세요