질문 : 음성 출력을 2배속으로 할 수 있나요?
사람들은 GPT-4o를 오해하고 있는 것 같아.
이건 텍스트 모델에 음성이나 이미지 부착이 있는 게 아니야.
원래부터 다중 모달 입력, 다중 모달 출력 모델이야.
빠르게 말하게 하고 싶어? 그냥 명령하면 돼.
고래 소리로 번역해야 해? 몇 가지 예시만 주면 돼
그러니까 GPT-4o는
LLM 모델(텍스트 → 텍스트) + TTS 모델(텍스트 → 음성) 조합이 아니라
본질적으로 하나의 모델이고 기존과는 달리 텍스트로 표현하기 어려운 어떤 소리든 만들어 낼 수 있다는 뜻 ㄷㄷㄷ
또한 소리를 들을때도 STT 모델(음성 → 텍스트)로 LLM 모델에 텍스트로 변환된 정보를 입력해주는게 아니기 때문에, 텍스트로 표현되지 못하는 온갖 소리도 인식할 수 있다는 의미 ㄷㄷㄷ
게다가 이미지를 인식할때도 비전 모델(이미지 → 텍스트)로 LLM 모델에 텍스트로 변환된 정보를 입력해주는게 아니기 때문에, 텍스트로 표현할때 무시되는 온갖 사소한 디테일도 인식할 수 있다는 의미 ㄷㄷㄷ
특이점이 온다 갤러리
Copyright ⓒ 시보드 무단 전재 및 재배포 금지
본 콘텐츠는 뉴스픽 파트너스에서 공유된 콘텐츠입니다.
다음 내용이 궁금하다면?
광고 보고 계속 읽기
원치 않을 경우 뒤로가기를 눌러주세요