텍스트·이미지·오디오 자유롭게 변환, 파나소닉, 차세대 AI ‘OmniFlow’ 공개

실시간 키워드

2022.08.01 00:00 기준

텍스트·이미지·오디오 자유롭게 변환, 파나소닉, 차세대 AI ‘OmniFlow’ 공개

M투데이 2025-06-05 08:28:45 신고

3줄요약

[엠투데이 임헌섭기자]  파나소닉홀딩스(Panasonic Holdings Co., Ltd.)와 파나소닉 R&D 아메리카(Panasonic R&D Company of America, PRDCA)가 미국 UCLA(캘리포니아대학교 로스앤젤레스 캠퍼스)와 공동으로 차세대 멀티모달 생성형 인공지능(AI) 기술 ‘옴니플로우(OmniFlow)’를 개발했다고 4일 밝혔다.

OmniFlow는 텍스트, 이미지, 오디오 등 서로 다른 데이터 형식을 자유롭게 상호 변환(Any-to-Any)할 수 있는 고정밀 멀티모달 생성 AI로, 기존 대비 최대 1/60 수준의 학습 데이터만으로도 우수한 성능을 구현할 수 있는 것이 특징이다.

기존의 멀티모달 생성 AI는 다양한 조합의 데이터 쌍(text ↔ image, image ↔ audio 등)을 모두 갖춘 학습 데이터를 필요로 해, 처리 가능한 모달 수가 증가할수록 학습 비용도 기하급수적으로 증가하는 한계가 있었다.

OmniFlow는 이러한 구조적 비효율을 극복하기 위해, 각 데이터 형식에 특화된 생성 AI(text→image, text→audio 등)를 유연하게 결합해 최소한의 데이터로도 복잡한 데이터 관계를 학습할 수 있도록 설계되었다.

기술적 핵심은 ‘플로우 매칭(Flow Matching)’ 기반의 프레임워크를 발전시킨 점이다. OmniFlow는 기존의 평균화 방식이 아닌, 세 가지 모달리티의 특성을 연결·통합 처리함으로써 보다 정밀하고 표현력 높은 결과를 생성할 수 있다.

실제 OmniFlow의 학습 과정에서는 사전 학습된 텍스트-이미지 및 텍스트-오디오 모델을 결합해 재학습함으로써, 복잡한 데이터 쌍이 부족한 환경에서도 효율적인 성능 확보가 가능하다.

평가 실험 결과, OmniFlow는 기존 Any-to-Any 범용 AI는 물론, 개별 작업 특화 모델보다도 더 높은 성능을 기록했다. 이미지 생성 품질 지표(Gen) 및 오디오 품질 지표(FAD, CLAP) 모두에서 우수한 수치를 기록했으며, 전체 학습 데이터량은 기존 대비 크게 줄었다는 점도 주목받았다.

이번 기술은 CVPR 2025(컴퓨터 비전 및 패턴 인식 분야 세계 최고 권위의 학회)에 채택되어, 오는 6월 11일부터 15일까지 미국 내슈빌에서 열리는 본 학회에서 공식 발표될 예정이다.

파나소닉 측은 “OmniFlow는 데이터 형식에 특화된 AI의 장점을 결합함으로써, 고정밀 Any-to-Any 모델을 소량의 데이터로 구현할 수 있는 혁신적인 솔루션”이라며 “향후에는 공장, 주거공간 등 다양한 산업 및 생활 분야에서 멀티모달 AI의 활용 범위를 획기적으로 넓힐 수 있을 것”이라고 밝혔다.

Copyright ⓒ M투데이 무단 전재 및 재배포 금지

본 콘텐츠는 뉴스픽 파트너스에서 공유된 콘텐츠입니다.

다음 내용이 궁금하다면?
광고 보고 계속 읽기
원치 않을 경우 뒤로가기를 눌러주세요

실시간 키워드

  1. -
  2. -
  3. -
  4. -
  5. -
  6. -
  7. -
  8. -
  9. -
  10. -

0000.00.00 00:00 기준

이 시각 주요뉴스

알림 문구가 한줄로 들어가는 영역입니다

신고하기

작성 아이디가 들어갑니다

내용 내용이 최대 두 줄로 노출됩니다

신고 사유를 선택하세요

이 이야기를
공유하세요

이 콘텐츠를 공유하세요.

콘텐츠 공유하고 수익 받는 방법이 궁금하다면👋>
주소가 복사되었습니다.
유튜브로 이동하여 공유해 주세요.
유튜브 활용 방법 알아보기