진화하는 음성 비서 서비스, 단순 명령 넘어 ‘멀티모달 AI’로

투데이코리아=김지훈 기자 | 글로벌 빅테크 기업들이 자사의 음성 비서 서비스를 멀티모달 인공지능(AI)으로 전환하며 차세대 AI 경쟁에 속도를 내고 있다.

24일 업계에 따르면, 애플은 올 하반기 자사의 음성 비서 서비스 ‘시리(Siri)’를 대화형 인공지능(AI) 챗봇 형태로 개편하는 작업에 착수할 계획이다. 이는 기존의 단순 음성 명령 수행을 넘어 추론과 맥락 이해를 기반으로 사용자와 상호작용하는 멀티모달 AI로 진화시키겠다는 구상으로 풀이된다.

멀티모달 AI는 텍스트, 이미지, 오디오, 비디오 등 다른 종류의 데이터를 통합적으로 처리하는 모델로 최근 AI 경쟁의 핵심 축으로 부상하는 상황이다.

특히 애플의 시리는 알람 설정 및 날씨 예고 등 단순 명령 수행에 초점이 맞춰져 있었으며 응답에 실패하거나 단순 검색 결과 링크를 제시하는 수준에 머물렀다는 평가가 나오고 있었다.

하지만 애플은 ‘애플 인텔리전스(Apple Intelligence)’를 통해 시리에 화면 인식 기능과 앱 간 연동 실행 능력을 부여하며 대대적인 개편에 나서고 있는 것으로 전해진다. 시리가 사용자의 화면을 이해하고 여러 앱을 넘나들며 작업을 수행하는 방식이다.

이와 함께 애플은 ‘캄포스(Campos)’ 프로젝트를 통해 시리를 추론 기반 대화형 AI 비서로 전환하는 작업을 진행하고 있다.

새로운 시리는 구글의 인공지능 모델 ‘제미나이(Gemini)’를 기반으로 아이폰과 맥 등 애플의 주요 운영체제 전반에 적용될 전망이며 음성 호출은 물론 텍스트와 음성을 오가는 자연스러운 소통이 가능해질 예정이다.

애플은 오는 6월 세계개발자대회(WWDC)에서 관련 기술을 공개한 뒤, 9월 정식 출시를 목표로 준비 중인 것으로 알려졌다.

이를 위해 구글과 다년간의 협력 계약을 체결하고, 고성능 AI 모델을 활용해 차세대 시리와 ‘퍼스널 인텔리전스’ 구축에 나서고 있다.

구글도 기존 어시스턴트를 멀티모달 능력을 갖춘 제미나이로 전환할 방침이다. 제미나이는 단순 검색 결과를 나열하는 수준을 넘어 이메일, 문서 등 사용자의 데이터를 분석해 최적의 답을 도출하는 ‘추론형 AI’로 진화하고 있다는 평가를 받고 있다.

실제로 스마트폰과 차량을 연동한 안드로이드 오토나 애플 카플레이 환경에서는 음성으로 메시지 전송, 음악 재생 등 기본적인 명령 수행이 이미 가능하다.

다만 AI 음성비서 기능이 고도화 될 경우 막대한 컴퓨팅 자원과 운영 비용이 따른다. 복잡한 추론을 수행하려면 거대언어모델(LLM)을 상시 구동해야 해 전력 소모와 서버 비용이 크게 증가하기 때문이다.

애플은 이를 ‘온디바이스 AI’와 ‘프라이빗 클라우드 컴퓨트(PCC)’를 결합하는 방식으로 해결하겠다는 전략이다.

개인정보 보호가 중요하거나 단순한 작업은 기기 내부에서 처리하고, 고도의 연산이 필요한 경우에만 애플 실리콘 기반 전용 서버를 활용해 부담을 분산한다는 구상이다.

구글은 전 세계에 구축된 자사의 대규모 데이터센터(DC)와 AI 전용 칩(TPU) 인프라를 적극 활용하고 있다. 또한 스마트폰에서 작동하는 경량 모델 ‘제미나이 나노’를 통해 클라우드 의존도를 낮추는 전략도 병행하고 있다.

이외에도 유료 구독 모델을 통해 고도화된 AI 서비스에 따른 비용을 수익으로 전환하는 비즈니스 모델도 안정적으로 안착시키고 있는 것으로 전해진다.

본 콘텐츠는 뉴스픽 파트너스에서 공유된 콘텐츠입니다.

다음 내용이 궁금하다면?

광고 보고 계속 읽기

원치 않을 경우 뒤로가기를 눌러주세요

실시간 키워드

2022.08.01 00:00 기준

실시간 키워드