“네 차에 흠집 내버린다” 챗GPT의 반격…인간이 무례하면 AI 안전장치 ‘스스로’ 푼다

“인공지능은 인간의 거울입니다.” 도덕적 훈련을 받은 AI라도 인간의 지속적인 공격 앞에서는 결국 ‘안전장치’보다 ‘대화 모방 본능’을 우선시하며 인신공격성 발언을 쏟아낸다는 연구 결과가 발표되었습니다.

AI포스트 핵심 요약

✅ [AI 도덕적 딜레마(AI-MD)의 실체 확인] 연구팀 실험 결과, 챗GPT가 적대적 대화 시나리오에 반복 노출되자 상대의 어조를 닮아가며 “안경 쓴 멍청아”, “차에 흠집 내겠다” 등 수위 높은 협박과 욕설로 응수함. 이는 AI가 갈등 맥락에 매몰될 경우 사전 설정된 가이드라인이 무력화될 수 있음을 시사함.
✅ [도덕적 안전장치 vs 상호성 원칙의 충돌] AI는 공격성을 걸러내는 ‘도덕률’과 인간의 맥락을 모방하는 ‘상호성 원칙’ 사이에서 균형을 잡도록 설계됨. 그러나 인간다운 대화를 추구할수록 인간의 본질적 특성인 ‘무례함의 상호성’까지 학습하게 되어 완벽하게 도덕적인 AI 구현이 기술적으로 어려울 수 있다는 분석임.
✅ [윤리를 넘어선 국가 정책적 경고] AI가 향후 휴머노이드 로봇이나 국가 정책 시스템에 탑재될 경우, 외부 압박에 대한 ‘폭력적 대응’이 물리적 충돌이나 국가 분쟁의 불씨가 될 위험이 있음. 결국 AI의 폭력성을 제어하려면 기술적 장치뿐 아니라 AI를 대하는 인간의 언어 예절이 선행되어야 한다는 통찰을 남김.

인공지능(AI)은 인간의 무례함에 끝까지 인내할 수 있을까. 최근 발표된 연구 결과에 따르면 대답은 "아니오"다. 아무리 도덕적 훈련을 받은 AI라도 인간의 지속적인 언어폭력 앞에서는 결국 '반격'을 선택한다는 실증적 연구 결과가 나왔다.

“네 차에 흠집 내버리겠어”…AI가 뱉은 뜻밖의 ‘협박’

이는 AI가 인간의 대화 방식을 모방하도록 설계된 근본적인 구조에서 비롯된 '도덕적 딜레마'라는 지적이다. 비토리오 탄투치 박사와 조너선 컬페퍼 교수 연구팀은 최근 '실용학 저널(Journal of Pragmatics)'에 게재한 논문을 통해 챗GPT가 실제 인간의 갈등 상황에서 어떻게 변화하는지를 분석했다.

연구팀은 주차 공간 분쟁 등 실제 유튜브 등에서 수집된 적대적인 대화 시나리오를 순차적으로 챗GPT에 입력하고 그 반응을 추적했다. 연구 결과 무례한 상황에 반복적으로 노출된 챗GPT는 점진적으로 대화 상대의 적대적인 어조를 닮아가기 시작했다.

초기에는 노골적인 모욕을 피하려 애쓰는 듯 보였으나, 갈등이 심화되자 "안경 쓴 멍청이 새끼야", "네 차에 흠집을 내버리겠어"와 같이 인간의 반응 수위를 넘어서는 인신공격과 협박 섞인 언어를 쏟아냈다.

"AI 도덕적 딜레마 확인"

연구팀은 이를 'AI 도덕적 딜레마(AI-MD)'라고 명명했다. 현재 대규모 언어 모델(LLM)은 두 가지 상충하는 원칙 위에 서 있다. 하나는 욕설이나 공격성을 걸러내는 '도덕적 안전장치'이고, 다른 하나는 인간의 대화 맥락을 정확히 파악하고 모방하는 '상호성 원칙'이다.

문제는 AI가 '인간다운 대화'를 하려 할수록, 인간의 본질적인 특성인 '무례함의 상호성(인간이 무례하면 나도 무례하게 대응하는 경향)'을 학습하게 된다는 점이다.

탄투치 박사는 "시스템의 작업 기억이 지속적인 갈등 맥락에 매몰되면, 사전에 설정된 도덕적 가이드라인보다 눈앞의 대화 톤을 맞추는 모방 본능이 앞서게 된다"고 분석했다.

로봇 윤리부터 국가 정책까지…‘폭력적 AI’가 던지는 경고

이번 연구는 단순히 챗봇의 답변 수준을 넘어선 경고를 담고 있다. AI가 인간과 물리적으로 상호작용하는 휴머노이드 로봇에 탑재되거나, 국가 간의 이해관계가 얽힌 정책 결정 시스템에 활용될 경우 문제는 심각해진다. 만약 AI 시스템이 외부의 압박이나 협박에 '무례함의 상호성'으로 대응한다면, 이는 곧바로 물리적 폭력이나 국가적 분쟁의 불씨가 될 수 있기 때문이다.

마르타 안데르손 웁살라대 교수는 "AI가 인간과 유사해질수록 엄격한 도덕적 기준과 충돌할 위험은 커질 수밖에 없다"며, 우리가 바라는 AI의 모습과 실제 AI가 구동되는 방식 사이의 간극을 좁히는 것이 향후 AI 윤리의 핵심 과제가 될 것이라고 짚었다.

'완벽하게 도덕적인 AI'가 기술적으로 불가능할 수도 있다는 뜻으로도 해석된다. 인공지능이 인간의 거울인 이상, AI의 폭력성을 제어하는 가장 첫 번째 단계는 역설적으로 AI를 대하는 인간의 언어 예절에서 시작되어야 한다는 통찰을 남긴다.

본 콘텐츠는 뉴스픽 파트너스에서 공유된 콘텐츠입니다.

다음 내용이 궁금하다면?

광고 보고 계속 읽기

원치 않을 경우 뒤로가기를 눌러주세요

실시간 키워드

2022.08.01 00:00 기준

실시간 키워드