카카오가 공식 테크블로그를 통해 통합 멀티모달 언어모델 ‘Kanana-o’와 오디오 언어모델 ‘Kanana-a’의 성능과 개발 후기를 공개했다.
통합 멀티모달 언어모델인 ‘Kanana-o’는 국내 최초로 텍스트와 음성, 이미지까지 다양한 형태의 정보를 동시에 이해하고 처리할 수 있는 모델이다.
카카오는 ‘모델 병합(Model Merging)’ 기술을 기반으로 이미지 처리에 특화된 모델 ‘Kanana-v’와 오디오 이해 및 생성에 특화된‘Kanana-a’ 모델을 통합, 단기간 내 효율적으로 ‘Kanana-o’를 개발했다.
뉴스픽의 주요 문장 추출 기술을 사용하여 “포인트경제” 기사 내용을 3줄로 요약한 결과입니다. 일부 누락된 내용이 있어 전반적인 이해를 위해서는 본문 전체 읽기를 권장합니다.