한국과학기술원(KAIST)은 전기·전자공학부 노용만 교수 연구팀의 박세진 박사과정생이 장시간 음성 생성이 가능한 음성언어모델(SLM·Spoken Language Model) '스피치SSM'을 개발했다고 3일 밝혔다.
텍스트 기반 언어 모델의 한계를 넘어서는 차세대 기술로 주목받고 있지만, 장시간 일관된 음성을 생성하기 어려워 팟캐스트, 오디오북, 음성비서 등에는 적용하기 어려웠다.
연구팀은 16분 길이의 음성언어모델을 평가할 수 있는 자체 평가툴도 개발했다.
뉴스픽의 주요 문장 추출 기술을 사용하여 “연합뉴스” 기사 내용을 3줄로 요약한 결과입니다. 일부 누락된 내용이 있어 전반적인 이해를 위해서는 본문 전체 읽기를 권장합니다.