오픈AI가 사람처럼 끊김 없이 대화할 수 있는 차세대 음성 인공지능(AI) 모델을 공개했다. 단순 문답형 AI를 넘어 실시간 추론·번역·받아쓰기·작업 수행까지 가능한 음성 인터페이스로 진화시키겠다는 전략이다.
챗GPT 개발사 오픈AI는 7일(현지시간) GPT-5급 추론 능력을 탑재한 실시간 음성 모델 ‘GPT-리얼타임-2’를 공개했다. 이와 함께 실시간 번역 모델인 ‘GPT-리얼타임-트랜슬레이트’와 실시간 음성 받아쓰기 모델 ‘GPT-리얼타임-위스퍼’도 선보였다.
이번 모델의 핵심은 실제 사람 간 대화처럼 자연스러운 상호작용이다. 기존 음성 AI는 사용자가 AI의 답변이 끝날 때까지 기다려야 했지만, GPT-리얼타임-2는 사용자가 말을 끊거나 중간에 내용을 수정해도 즉각 반응한다. 대화 흐름과 문맥을 실시간으로 파악해 자연스럽게 이어가는 방식이다.
오픈AI는 “실시간 오디오를 단순 질의응답 수준에서 벗어나 실제로 작업을 수행하는 음성 인터페이스로 발전시키고 있다”며 “대화 중에도 듣고, 추론하고, 번역하고, 받아적고, 필요한 조치를 수행할 수 있다”고 설명했다.
새 모델은 단순 대화 기능을 넘어 음성 기반 AI 에이전트 구현에 초점이 맞춰졌다. 개발자는 빠른 응답이 필요한 업무와 보다 신중한 판단이 필요한 업무에 따라 추론 수준을 ‘최소·낮음·중간·높음·매우 높음’ 등으로 조정할 수 있다. 또 AI가 “일정을 확인해보겠다”거나 “잠시만 기다려주세요”라고 말하며 여러 작업을 병렬 수행하는 기능도 지원한다.
실시간 번역 기능도 강화됐다. GPT-리얼타임-트랜슬레이트는 70개 이상의 입력 언어를 13개 출력 언어로 실시간 번역할 수 있으며, 화자의 말 속도와 억양에 맞춰 자연스럽게 번역 음성을 제공한다.
기업들의 도입 사례도 공개됐다. 미국 부동산 플랫폼 질로우는 고객이 음성으로 “혼잡한 도로를 피해 구매 가능한 지역의 집을 찾아달라”고 요청하면 매물을 검색하고 방문 일정까지 잡아주는 음성 비서를 개발 중이다.
독일 통신사 도이체텔레콤은 고객이 원하는 언어로 상담받을 수 있는 실시간 음성 번역 고객 지원 서비스를 테스트하고 있다. 여행 플랫폼 프라이스라인 역시 음성 기반 여행 AI 상담원 개발에 나섰다.
업계에서는 오픈AI의 음성 기술 강화가 자체 AI 하드웨어 전략과도 맞물려 있다는 분석이 나온다. 오픈AI는 지난해 애플 전 수석 디자이너 조니 아이브의 스타트업 ‘io’를 65억달러에 인수한 이후 음성 중심 AI 기기를 준비 중이다. 현재 시장에서는 스마트 안경, 옷에 부착하는 핀 형태 기기, 스마트 스피커 등이 후보군으로 거론되고 있다.
다만 실시간 음성 AI의 확산에 따른 악용 우려도 제기된다. 오픈AI는 스팸, 사기, 기타 악성 콘텐츠 등에 활용되는 것을 막기 위해 유해 콘텐츠 감지 시 대화를 중단하는 안전장치를 적용했다고 밝혔다.
Copyright ⓒ 데일리임팩트 무단 전재 및 재배포 금지
본 콘텐츠는 뉴스픽 파트너스에서 공유된 콘텐츠입니다.