고려대, 국회 발언 6000건 ‘성인지 감수성’ 데이터셋 구축…생성형 AI 판별력 시험

[이데일리 김현아 기자] 고려대학교 연구진이 정치 담론 속 ‘성인지 감수성’을 체계적으로 평가할 수 있는 데이터셋을 구축하고, 이를 활용해 생성형 인공지능(AI)의 판단 능력을 검증했다.

△ (왼쪽부터) 고려대 글로벌한국융합학부 박선경 교수(제1저자), 언어학과 송상헌 교수, 정치외교학과 강우창 교수, 한국과학기술원(KAIST) 디지털인문사회과학부 김태균 교수(교신저자)

최근 챗GPT 등 생성형 AI가 정치 담론 분석에 활용되는 가운데, 문화적 맥락에 따라 달라지는 성차별적 표현을 AI가 얼마나 정확히 인식하는지 점검할 기준이 국내에 거의 없다는 문제의식에서 출발했다.

이번 연구는 고려대 글로벌한국융합학부 박선경 교수, 언어학과 송상헌 교수, 정치외교학과 강우창 교수, KAIST 디지털인문사회과학부 김태균 교수 연구팀이 수행했으며, 네이처 자매지 Scientific Data에 12월 11일 온라인 게재됐다.

연구진은 1948년 제헌국회부터 2024년까지 76년간의 국회 회의록 1222건에서 젠더 관련 발화 6024개를 추출해 성인지 감수성 수준을 평가했다.

이를 토대로 ‘KOGENT(Korean GENder-sensitivity Tagged dataset)’를 구축했으며, 여성·남성 이슈뿐 아니라 성소수자 관련 표현까지 포함했다.

연구진은 KOGENT를 활용해 GPT-4 계열 언어모델의 성인지 감수성 판별 성능을 분석했다. 그 결과 GPT-4.1 모델은 성인지 감수성이 높은 발언을 90% 이상 정확도로 분류했으며, 데이터셋에서 추출한 고품질 예시를 제공했을 때 성능이 개선되는 경향도 확인됐다.

송상헌 교수는 “정치학과 언어학이 AI를 통해 하나의 주제로 융합된 사례”라며 학제 간 연구의 확장 가능성을 강조했다. 박선경 교수는 “명백한 혐오 표현뿐 아니라 겉으로 중립적이지만 맥락상 편견을 담은 표현까지 분석 대상으로 삼았다”며 “국회의원 공식 발언을 통해 공적 언어 환경에서의 성인지 감수성 양상을 살폈다는 점에서 의미가 있다”고 설명했다.

이번 연구는 교육부와 한국연구재단, 고려대 언어정보연구소 지원을 받아 수행됐으며, 데이터셋과 코드는 피그쉐어와 깃허브를 통해 공개됐다.

본 콘텐츠는 뉴스픽 파트너스에서 공유된 콘텐츠입니다.

다음 내용이 궁금하다면?

광고 보고 계속 읽기

원치 않을 경우 뒤로가기를 눌러주세요

실시간 키워드

2022.08.01 00:00 기준

실시간 키워드