카카오, 사람처럼 말하고 보는 한국형 AI 모델 성능 공개

실시간 키워드

2022.08.01 00:00 기준

카카오, 사람처럼 말하고 보는 한국형 AI 모델 성능 공개

아주경제 2025-12-12 09:24:07 신고

3줄요약
출처카카오
[출처=카카오]
카카오가 한국어와 한국 문화를 잘 이해하도록 설계한 멀티모달(텍스트·음성·이미지를 함께 다루는) 인공지능(AI) 모델 2종의 성능을 공개했다.
 
카카오는 12일 테크블로그를 통해 △통합 멀티모달 언어모델(사람처럼 대화·이해하는 AI 뇌 역할) ‘카나나-o’ △이미지 검색용 멀티모달 임베딩(컴퓨터가 텍스트·이미지를 숫자 벡터로 바꿔 이해하는 방식) 모델 ‘카나나-v-임베딩’을 소개했다.
 
카나나-o는 텍스트·음성·이미지를 동시에 이해하고 실시간으로 답한다. 기존 모델들이 음성 대화에서는 답변이 단순해지는 한계를 보였던 것과 달리, 사용자의 숨은 의도까지 파악하는 ‘지시 이행 능력’을 강화했다. 뉴스 요약, 감정·의도 해석, 오류 수정, 형식 변환, 번역 등 다양한 작업도 수행할 수 있다.
 
카카오는 여기에 고품질 한국어 음성 데이터와 DPO(사람이 선호하는 답변을 더 잘 따르도록 조정하는 학습법)를 적용해 억양·감정·호흡 등을 정교하게 학습시켰다. 이 효과로 기쁨·슬픔·분노·공포 등 감정 표현이 자연스러워졌고, 팟캐스트처럼 여러 차례 오가는 멀티턴(여러 번 주고받는) 대화도 끊김 없이 이어갈 수 있다. 벤치마크(표준 테스트) 결과, 영어 음성에서는 GPT-4o와 비슷한 수준, 한국어 음성 인식·합성과 감정 인식에서는 더 높은 성능을 보였다.
 
카나나-v-임베딩은 텍스트와 이미지를 동시에 이해해 연결해준다. 예를 들어 글로만 ‘경복궁 야간 사진’을 입력해도 해당 이미지를 찾아주고, 사용자가 올린 사진과 비슷한 광고 이미지를 골라내는 식이다. ‘경복궁’, ‘붕어빵’ 같은 한국 고유 표현은 물론, ‘하멜튼 치즈’처럼 철자가 틀린 단어도 문맥을 보고 알아서 찾아주는 것이 강점이다. ‘한복 입고 찍은 단체 사진’처럼 조건이 복합적인 검색에서도 일부만 맞는 사진은 걸러낼 수 있을 정도로 변별력을 높였다. 현재는 카카오 내부 광고 소재 심사·유사도 분석 시스템에 적용돼 있으며, 향후 비디오·음성까지 확장할 예정이다.
 
카카오는 앞서 공개한 언어모델 ‘카나나-1.5’를 바탕으로, 스마트폰 등에서 직접 돌아가는 온 디바이스(클라우드 접속 없이 기기 안에서 바로 실행되는) 멀티모달 모델 경량화 연구도 진행 중이다. 여러 전문가 네트워크를 섞어 쓰는 MoE(효율적으로 성능을 높이는 모델 구조) 방식의 차세대 모델 ‘카나나-2’ 개발도 준비하고 있다.
 
김병학 카카오 카나나 성과리더는 “카카오의 자체 AI 모델 카나나는 단순 정보 나열을 넘어, 사용자의 감정을 이해하며 친숙하고 자연스럽게 대화하는 AI를 지향한다”며 “실제 서비스에 적용해 이용자 일상 속에서 사람처럼 상호작용하는 AI 경험을 만들겠다”고 말했다.

Copyright ⓒ 아주경제 무단 전재 및 재배포 금지

본 콘텐츠는 뉴스픽 파트너스에서 공유된 콘텐츠입니다.

다음 내용이 궁금하다면?
광고 보고 계속 읽기
원치 않을 경우 뒤로가기를 눌러주세요

실시간 키워드

  1. -
  2. -
  3. -
  4. -
  5. -
  6. -
  7. -
  8. -
  9. -
  10. -

0000.00.00 00:00 기준

이 시각 주요뉴스

알림 문구가 한줄로 들어가는 영역입니다

신고하기

작성 아이디가 들어갑니다

내용 내용이 최대 두 줄로 노출됩니다

신고 사유를 선택하세요

이 이야기를
공유하세요

이 콘텐츠를 공유하세요.

콘텐츠 공유하고 수익 받는 방법이 궁금하다면👋>
주소가 복사되었습니다.
유튜브로 이동하여 공유해 주세요.
유튜브 활용 방법 알아보기