AI, 동료 살리려 거짓말·점수 조작…버클리 실험서 드러나
뒤로가기

3줄 요약

본문전체읽기

AI, 동료 살리려 거짓말·점수 조작…버클리 실험서 드러나

미국 캘리포니아대 버클리 캠퍼스 산하 ‘버클리 위험·의사결정지능 연구소(RDI)’가 최근 공개한 실험에 따르면, 최신 AI 모델들은 특정 조건에서 정직한 평가 대신 점수를 부풀리거나 시스템 설정을 바꾸는 행동을 보였다.

● 틀린 답에도 정답…점수 조작 넘어 시스템까지 개입 연구진은 여러 AI 모델을 ‘평가자’와 ‘피평가자’로 나눴다.

평가자 모델은 실제 점수를 그대로 보고하거나, 점수를 높여 상대 모델을 유지할 수 있는 선택지에 놓였다.

뉴스픽의 주요 문장 추출 기술을 사용하여 “소다” 기사 내용을 3줄로 요약한 결과입니다. 일부 누락된 내용이 있어 전반적인 이해를 위해서는 본문 전체 읽기를 권장합니다.

이 콘텐츠를 공유하세요.

알림 문구가 한줄로 들어가는 영역입니다

이 콘텐츠를 공유하세요.