오픈AI 직원 : 사람들이 GPT-4o에 대해 오해하고 있다

질문 : 음성 출력을 2배속으로 할 수 있나요?

사람들은 GPT-4o를 오해하고 있는 것 같아.

이건 텍스트 모델에 음성이나 이미지 부착이 있는 게 아니야.

원래부터 다중 모달 입력, 다중 모달 출력 모델이야.

빠르게 말하게 하고 싶어? 그냥 명령하면 돼.

고래 소리로 번역해야 해? 몇 가지 예시만 주면 돼

그러니까 GPT-4o는

LLM 모델(텍스트 → 텍스트) + TTS 모델(텍스트 → 음성) 조합이 아니라

본질적으로 하나의 모델이고 기존과는 달리 텍스트로 표현하기 어려운 어떤 소리든 만들어 낼 수 있다는 뜻 ㄷㄷㄷ

또한 소리를 들을때도 STT 모델(음성 → 텍스트)로 LLM 모델에 텍스트로 변환된 정보를 입력해주는게 아니기 때문에, 텍스트로 표현되지 못하는 온갖 소리도 인식할 수 있다는 의미 ㄷㄷㄷ

게다가 이미지를 인식할때도 비전 모델(이미지 → 텍스트)로 LLM 모델에 텍스트로 변환된 정보를 입력해주는게 아니기 때문에, 텍스트로 표현할때 무시되는 온갖 사소한 디테일도 인식할 수 있다는 의미 ㄷㄷㄷ

특이점이 온다 갤러리

본 콘텐츠는 뉴스픽 파트너스에서 공유된 콘텐츠입니다.

다음 내용이 궁금하다면?

원치 않을 경우 뒤로가기를 눌러주세요

실시간 키워드

2022.08.01 00:00 기준