“말투·억양까지 알아듣는다”···카카오, 사람처럼 소통하는 AI로 승부수

[이뉴스투데이 김진영 기자] 카카오는 공식 테크블로그를 통해 통합 멀티모달 언어모델 ‘카나나-o(Kanana-o)’와 오디오 언어모델 ‘카나나-a(Kanana-a)’의 성능과 개발 후기를 공개했다고 1일 밝혔다.

‘Kanana-o’는 텍스트·음성·이미지 등 다양한 입력을 동시에 이해하고, 응답할 수 있는 국내 최초의 통합형 멀티모달 모델이다.

이미지 처리 특화 모델 ‘카나나-v(Kanana-v)’와 오디오 모델 ‘Kanana-a’를 병합한 뒤, 세 가지 데이터를 동시에 학습하는 방식으로 개발됐다.

이 과정을 통해 기존 텍스트 중심 인공지능(AI)에서 벗어나 시각·청각·언어 정보를 통합적으로 처리하는 구조로 진화했다.

특히 음성 감정 인식 기술을 적용해 억양·말투·목소리 떨림 등 비언어적 신호를 해석하고, 상황에 맞는 자연스러운 음성 응답을 생성하는 것이 특징이다.

카카오는 한국어의 특수한 억양과 방언까지 반영한 음성 데이터를 학습시켰고, 자체 음성 토크나이저 개발도 병행하고 있다.

‘Kanana-o’는 한국어와 영어 벤치마크에서 글로벌 주요 모델과 유사한 성능을 기록했다. 특히 감정 인식과 이미지·음성 질의응답 분야에서 경쟁력을 보였다. 스트리밍 방식 음성 합성 기술을 통해 실시간 응답도 가능하다.

향후 카카오는 다중 대화 처리, 양방향 통신 대응, 응답 안전성 강화 등을 통해 사용자의 대화 경험을 고도화할 계획이다.

김병학 카카오 카나나 성과리더는 “카나나는 복합 정보를 통합 처리하고, 사람처럼 보고 듣고 말하는 AI로 진화 중”이라며 “기술 경쟁력 강화를 넘어 국내 AI 생태계에도 기여하겠다”고 말했다.

한편, 카카오는 ‘Kanana’ 시리즈의 성능과 개발기를 꾸준히 공개해 왔다. 지난 2월에는 소형 모델 ‘Kanana Nano 2.1B’를 오픈소스로 배포했다.

본 콘텐츠는 뉴스픽 파트너스에서 공유된 콘텐츠입니다.

다음 내용이 궁금하다면?

원치 않을 경우 뒤로가기를 눌러주세요

실시간 키워드

2022.08.01 00:00 기준