오픈AI 직원 : 사람들이 GPT-4o에 대해 오해하고 있다

실시간 키워드

2022.08.01 00:00 기준

오픈AI 직원 : 사람들이 GPT-4o에 대해 오해하고 있다

시보드 2024-05-15 01:34:01 신고

 

17157043845518

질문 : 음성 출력을 2배속으로 할 수 있나요?

사람들은 GPT-4o를 오해하고 있는 것 같아. 
이건 텍스트 모델에 음성이나 이미지 부착이 있는 게 아니야. 
원래부터 다중 모달 입력, 다중 모달 출력 모델이야. 
빠르게 말하게 하고 싶어? 그냥 명령하면 돼. 
고래 소리로 번역해야 해? 몇 가지 예시만 주면 돼




그러니까 GPT-4o는 
LLM 모델(텍스트 → 텍스트) +   TTS 모델(텍스트 → 음성)  조합이 아니라
본질적으로 하나의 모델이고 기존과는 달리 텍스트로 표현하기 어려운 어떤 소리든 만들어 낼 수 있다는 뜻 ㄷㄷㄷ



또한 소리를 들을때도 STT 모델(음성 → 텍스트)로 LLM 모델에 텍스트로 변환된 정보를 입력해주는게 아니기 때문에, 텍스트로 표현되지 못하는 온갖 소리도 인식할 수 있다는 의미 ㄷㄷㄷ



게다가 이미지를 인식할때도 비전 모델(이미지 → 텍스트)로 LLM 모델에 텍스트로 변환된 정보를 입력해주는게 아니기 때문에, 텍스트로 표현할때 무시되는 온갖 사소한 디테일도 인식할 수 있다는 의미 ㄷㄷㄷ


특이점이 온다 갤러리

Copyright ⓒ 시보드 무단 전재 및 재배포 금지

본 콘텐츠는 뉴스픽 파트너스에서 공유된 콘텐츠입니다.

다음 내용이 궁금하다면?
광고 보고 계속 읽기
원치 않을 경우 뒤로가기를 눌러주세요

실시간 키워드

  1. -
  2. -
  3. -
  4. -
  5. -
  6. -
  7. -
  8. -
  9. -
  10. -

0000.00.00 00:00 기준

이 시각 주요뉴스

알림 문구가 한줄로 들어가는 영역입니다

신고하기

작성 아이디가 들어갑니다

내용 내용이 최대 두 줄로 노출됩니다

신고 사유를 선택하세요

이 이야기를
공유하세요

이 콘텐츠를 공유하세요.

콘텐츠 공유하고 수익 받는 방법이 궁금하다면👋>
주소가 복사되었습니다.
유튜브로 이동하여 공유해 주세요.
유튜브 활용 방법 알아보기