ㅣ데일리포스트=김정은 기자ㅣ중국 우한 대학 연구팀이 녹음한 음성을 풍경 이미지로 변환하는 데 성공했다고 발표했다. 이번 실험에는 특별히 설계된 인공지능(AI)이 사용됐다.
연구 결과는 '컴퓨터, 환경, 도시 시스템(Computers, Environment and Urban Systems)'에 게재됐다.
연구팀은 북미, 아시아, 유럽의 도시에서 촬영된 유튜브 동영상과 음성을 이용해 10초의 오디오 샘플과 정지화면을 쌍으로 만들어 데이터를 구축했다. 그리고 이 자료를 바탕으로 음성에서 고해상도 이미지를 생성할 수 있는 AI 모델을 설계했다.
연구팀은 훈련된 AI에 총 100종의 음성을 들려주고 이미지를 생성하도록 했다. 이후 AI가 생성한 이미지와 실제 풍경 이미지를 비교해 사람과 컴퓨터가 그 정확도를 평가했다. 컴퓨터 평가에서는 두 이미지의 건물·하늘·식물의 상대적인 비율을 주로 비교했다.
평가 결과, 생성된 이미지와 실제 이미지 사이에는 하늘과 식물 비율에 강한 연관성을 보였고, 건물 비율은 약간 연관성이 낮은 것으로 나타났다. 또, 사람 참가자는 오디오 샘플에 해당하는 생성된 이미지를 선택하는 데 평균 80%의 정확도를 보였다.
연구팀은 "소리를 듣고 풍경을 상상하는 능력은 인간 특유의 능력이며 환경과의 깊은 감각적인 연결을 반영하고 있다. 대규모 언어 모델(LLM)로 지원된 고도의 AI 기술을 통해 기계가 인간과 가까운 감각을 얻을 수 있는 잠재력이 있음을 시사한다"고 설명했다.
컴퓨터 분석에서는 생성 이미지는 하늘, 식물, 건물의 비율의 근사치 반영 외에도 건축 양식 및 물체 간의 거리를 비슷하게 재현하는 경우가 많았다. 또 음향 녹음이 이루어진 날씨와 야간 여부 등 조명 조건도 정확하게 반영하는 것으로 나타났다. 조명 조건은 교통 소음이나 야행성 곤충의 울음소리 등 특정 음성으로 판단하고 있을 가능성이 있다.
연구팀은 "이번 연구는 AI가 사람의 주관적 체험을 이해할 가능성을 의미한다. 사람이 눈을 감고 주위의 소리에 귀를 기울이면 멀리서 들리는 차 소리는 도시 풍경이 되고, 나뭇잎이 부드럽게 스치는 소리는 고요한 숲으로 안내한다. 이러한 감각을 AI에 공유한다면 쾌적하고 아름다운 공간을 만드는 도시 설계에 AI를 효과적으로 활용할 수 있다"고 말했다.
Copyright ⓒ 데일리 포스트 무단 전재 및 재배포 금지
본 콘텐츠는 뉴스픽 파트너스에서 공유된 콘텐츠입니다.