| 서울=한스경제 김종효 기자 | 트웰브랩스는 영상 추론 AI 모델 페가수스 1.5를 공개했다고 21일 밝혔다. 이번 모델은 영상 내 맥락을 파악해 구조화된 데이터를 자동으로 생성한다.
페가수스 1.5의 핵심은 시간 기반 메타데이터 추출 기능이다. 이 기능은 사용자가 정한 기준에 따라 영상을 구간별로 분할하고 각 구간의 시작과 끝, 내용을 데이터로 추출한다.
기존 영상 편집과 아카이빙은 사람이 직접 영상을 확인하며 구간을 나눴다. 페가수스 1.5는 자연어 명령만으로 이 과정을 자동화한다. 예를 들어 "뉴스 앵커가 바뀔 때마다 구간을 나눠줘"와 같은 요청이 가능하다.
엔터테인먼트 분야에서는 인물 이미지를 입력하면 두 사람이 함께 등장하는 구간만 추출할 수 있다. 미디어와 뉴스 환경에서는 "날씨 코너만 분리해줘" 같은 명령으로 챕터를 자동 생성한다. 스포츠에서는 경기 영상을 플레이 단위로 분할하고 득점 장면이나 특정 선수의 활약을 자동으로 추출한다.
페가수스 1.5는 시각, 청각, 맥락 신호를 통합 분석한다. 화면 전환, 오디오 변화, 주제 전환 등 다양한 신호를 감지해 구간 경계를 찾아낸다. 멀티모달 쿼리 기능도 강화됐다. 이미지만 입력해도 영상 속 대상을 찾을 수 있다.
최대 2시간 분량의 영상도 한 번의 API 호출로 처리한다. 대규모 영상 자산을 가진 기업의 운영 효율을 높일 수 있다. 구간 분할 정확도는 기존 모델 대비 높고 시간 경계 오차는 350밀리초 이내다. 원본 영상 파일만으로 결과를 도출해 전처리 과정이 필요 없다.
페가수스 1.5는 네 가지 신호를 통합 분석한다. 컷 편집, 카메라 앵글, 조명 변화 등 저수준 시각 신호, 대화 주제나 등장인물 전환 등 고수준 맥락 신호, 발화자 교체와 배경음악 변화 등 오디오 신호, 그리고 이 세 가지 신호가 결합된 복합 신호다. 이 방식은 기존 텍스트 전사 중심 모델의 한계를 극복했다.
트웰브랩스는 영상 검색과 임베딩, 추론에 특화된 AI 모델을 개발한다. 다양한 산업에서 활용되고 있으며 미국과 한국에 오피스를 두고 있다.
Copyright ⓒ 한스경제 무단 전재 및 재배포 금지
본 콘텐츠는 뉴스픽 파트너스에서 공유된 콘텐츠입니다.