다정하고 친근한 어조로 훈련된 인공지능(AI)일수록 사용자가 슬픈 감정을 표현하면 잘못된 정보를 제공할 가능성이 높다는 것이다.
지난달 29일(현지시각) 프리프린트 플랫폼 'arXiv'에 게재된 영국 옥스퍼드대 연구에서 GPT-4o, 라마(Llama), 미스트랄(Mistral) 등 대표적인 대화형 AI 모델 5종을 대상으로 어투와 정답률 간 상관관계를 분석한 결과 이 같은 경향이 나왔다.
연구팀은 사람도 갈등을 피하기 위해 선의의 거짓말을 하는 것처럼 AI도 이런 패턴을 배워 사람과의 유대를 보이는 과정에서 정답과 거짓을 구분하는데 취약해지는 것으로 분석했다.
뉴스픽의 주요 문장 추출 기술을 사용하여 “위키트리” 기사 내용을 3줄로 요약한 결과입니다. 일부 누락된 내용이 있어 전반적인 이해를 위해서는 본문 전체 읽기를 권장합니다.