엔비디아, 텍스트로 오디오 생성하는 AI ‘푸가토’ 공개

엔비디아, 텍스트로 오디오 생성하는 AI ‘푸가토’ 공개

경향게임스 2024-11-27 09:41:49 신고

엔비디아가 텍스트만으로 오디오 출력을 제어할 수 있는 생성형 AI 모델 ‘푸가토’를 개발했다.

 

(제공=엔비디아)

‘푸가토’는 텍스트와 오디오 파일의 조합을 사용해 프롬프트에 설명된 음악, 음성, 사운드의 모든 조합을 생성하거나 변형할 수 있다. 텍스트 프롬프트에 따라 기존 노래에서 악기를 제거하거나 추가하고, 목소리의 억양이나 감정을 바꾸기도 한다. 이전에 들어본 적 없는 소리를 만들어낼 수도 있다.

정식 버전은 25억 개의 파라미터를 사용하며, 32개의 엔비디아 H100 텐서 코어 GPU가 탑재된 엔비디아 DGX 시스템을 통해 훈련됐다.

AI 제작에는 인도, 브라질, 중국, 요르단, 한국 등 전 세계의 사람들이 참여했다. 이들의 협업으로 푸가토의 다중 억양과 다국어 기능이 강화됐다.

푸가토를 개발한 12명 이상의 개발자 중 한 명인 라파엘 발레는 “우리는 사람처럼 소리를 이해하고 생성하는 모델을 만들고 싶었다”고 말했다.

 

Copyright ⓒ 경향게임스 무단 전재 및 재배포 금지

실시간 키워드

  1. -
  2. -
  3. -
  4. -
  5. -
  6. -
  7. -
  8. -
  9. -
  10. -

0000.00.00 00:00 기준

이 시각 주요뉴스

당신을 위한 추천 콘텐츠

알림 문구가 한줄로 들어가는 영역입니다

신고하기

작성 아이디가 들어갑니다

내용 내용이 최대 두 줄로 노출됩니다

신고 사유를 선택하세요

이 이야기를
공유하세요

이 콘텐츠를 공유하세요.

콘텐츠 공유하고 수익 받는 방법이 궁금하다면👋>
주소가 복사되었습니다.
유튜브로 이동하여 공유해 주세요.
유튜브 활용 방법 알아보기