[뉴스락] KT가 고려대와 공동으로 한국 문화·사회적 맥락을 반영한 멀티모달 AI 안전성 벤치마크 'KSAFE-MM'을 개발해 공개했다.
멀티모달 대형언어모델(MLLM)은 텍스트·이미지·음성 등 다양한 데이터를 통합 처리하는 AI 모델이다. 기존 AI 안전성 평가는 영어권 중심의 글로벌 리스크에 치우쳐 있어 한국어·한국 문화 맥락을 반영한 평가 기준이 부재하다는 지적이 꾸준히 제기돼 왔다.
'KSAFE-MM'은 글로벌 공통 리스크를 한국 문화 맥락으로 변환한 'KSAFE-MM-G'와 전세 사기, 독도 분쟁 등 한국 사회 고유 이슈를 반영한 'KSAFE-MM-C' 두 축으로 구성됐다.
총 1만 4,135개의 평가 샘플을 갖춰 국내 최대 규모 한국어 멀티모달 안전성 평가 데이터셋으로 자리매김했으며, Gemma, HyperCLOVA X 등 12개 글로벌 MLLM을 검증하는 데 활용됐다.
기존 벤치마크는 수동 검수 방식에 의존해 비용 부담이 크고 확장성이 낮다는 한계가 있었다.
'KSAFE-MM'은 ▲현지 커뮤니티 기반 민감 주제 수집 ▲템플릿 기반 쿼리 생성 ▲합성 이미지 생성 ▲탈옥 쿼리(Jailbreak Query) 생성까지 전 과정을 아우르는 4단계 자동화 파이프라인을 구현했다.
특정 문화권 전문가 없이도 현지 특성을 반영한 안전성 벤치마크를 신속하게 구축할 수 있는 구조다.
연구진은 동일한 파이프라인을 일본어에 적용한 파일럿 실험 'JSAFE-MM-C'를 통해 다른 문화권에도 즉시 적용 가능함을 실증했다. 연구 결과 및 벤치마크는 아카이브(arXiv)와 허깅페이스(Hugging Face)에 공개돼 누구나 활용할 수 있다.
KT는 Responsible AI(RAI) 전담 조직을 중심으로 안전 리스크 분류 체계 설계, 평가 지표 및 로직 구현 등 연구 전반을 이끌었다.
앞서 다국어 텍스트 벤치마크 'XL-SafetyBench'를 공개한 데 이어 이번 'KSAFE-MM'까지 연이어 선보이며 한국형 AI 안전성 평가 분야에서 행보를 이어가고 있다.
박재형 KT AX미래기술원 Frontier AI Lab장은 "KSAFE-MM이 학계와 산업계에서 한국어·한국 문화 맥락의 AI 안전성을 검증하는 공통 기준으로 자리잡길 기대한다"고 말했다.
Copyright ⓒ 뉴스락 무단 전재 및 재배포 금지
본 콘텐츠는 뉴스픽 파트너스에서 공유된 콘텐츠입니다.