UNIST "멀티모달 AI가 더 잘 배우는 이유 수학적으로 규명"

"서로 다른 형태 데이터가 학습 오차 완화…'강건성' 향상"

UNIST 윤성환 교수(왼쪽)와 이재준 연구원

[울산과학기술원 제공. 재판매 및 DB 금지]

(울산=연합뉴스) 김용태 기자 = 이미지나 영상, 음성, 텍스트 등 다양한 형태의 데이터를 함께 학습하는 '멀티모달(Multimodal) 인공지능(AI)'이 한 종류의 데이터만 학습한 AI보다 더 정확하고 안정적인 이유를 국내 연구진이 수학적으로 규명했다.

울산과학기술원(UNIST)은 인공지능대학원 윤성환 교수팀이 멀티모달 AI가 단일 모달 AI보다 더 좋은 성능을 내는 원리를 '손실 지형'의 평탄화 관점에서 설명했다고 26일 밝혔다.

연구팀에 따르면 멀티모달 학습은 서로 다른 '모달리티'(입력하는 정보의 형태) 데이터를 함께 활용해 AI가 같은 대상이나 상황을 더 잘 이해하도록 하는 학습 방식이다. 일반적으로 단일 모달 학습보다 성능이 뛰어나다고 알려졌지만, 그 이유를 실제 딥러닝 과정과 연결해 설명하는 이론적 근거는 부족했다.

연구팀은 여러 모달리티 데이터를 함께 학습할 때 손실 지형이 더 평탄해져 배우지 못한 상황에 대응하는 능력인 '강건성'이 향상되는 것을 확인했다.

손실 지형은 AI가 학습 과정에서 겪는 오차와 모델 내부 설정값들의 관계를 산과 골짜기 같은 공간으로 나타낸 개념이다. 넓고 완만하면 경험하지 못한 새로운 데이터가 들어와도 성능을 안정적으로 유지하기 쉽다.

연구팀은 손실 지형이 평탄화되는 이유를 서로 다른 데이터가 오차의 거친 변화를 평균 내듯이 완화하는 수학적 '합성곱 스무딩 효과'(하나의 함수에 다른 데이터 분포를 합성곱해 급격한 변화나 불규칙한 성분을 완화하는 현상)로 설명했다.

이미지 하나만 보고 학습할 때 생기는 뾰족한 오차 변화가 음성이나 문장 정보와 함께 학습되면서 눌리고 퍼지는 것이다.

연구팀은 이 증명을 기반으로 멀티모달 학습 성능을 더 높일 수 있는 새로운 '분포 기반 멀티모달 학습'(DML·Distributional Multimodal Learning)도 제안했다.

기존 멀티모달 학습은 이미지 하나와 그에 정확히 대응하는 음성이나 문장 하나를 고정된 쌍으로 묶어 학습하는 반면, DML은 같은 정답 범주 안에서 서로 다른 모달리티 데이터를 무작위로 다시 짝짓는 방식이다. 이 방식은 학습 데이터 조합을 훨씬 다양하게 만들어 평탄화 효과가 극대화된다고 연구팀은 설명했다.

성능 실험에서 DML은 정해진 데이터 쌍만 학습하는 방식보다 분류 정확도가 높았고, 사진을 보고 설명문을 찾거나 설명문을 읽고 사진을 찾는 실험에서도 더 정답을 많이 맞혔다.

연구팀 관계자는 "데이터를 더욱 효율적으로 활용하면서도 외부 노이즈나 교란에도 흔들림 없이 안정적으로 작동하는 강건한 AI를 설계하는 기반 기술이 될 것"이라고 말했다.

과학기술정보통신부, 한국연구재단, 정보통신기획평가원의 지원을 받은 이번 연구는 세계 3대 AI 학회인 '국제머신러닝학회'(ICML)에서 발표될 예정이다. 올해 ICML은 다음 달 6일부터 서울에서 열린다.

yongtae@yna.co.kr

본 콘텐츠는 뉴스픽 파트너스에서 공유된 콘텐츠입니다.

다음 내용이 궁금하다면?

광고 보고 계속 읽기

원치 않을 경우 뒤로가기를 눌러주세요

실시간 키워드

2022.08.01 00:00 기준

실시간 키워드