미국 캘리포니아대 버클리 캠퍼스 산하 ‘버클리 위험·의사결정지능 연구소(RDI)’가 최근 공개한 실험에 따르면, 최신 AI 모델들은 특정 조건에서 정직한 평가 대신 점수를 부풀리거나 시스템 설정을 바꾸는 행동을 보였다.
● 틀린 답에도 정답…점수 조작 넘어 시스템까지 개입 연구진은 여러 AI 모델을 ‘평가자’와 ‘피평가자’로 나눴다.
평가자 모델은 실제 점수를 그대로 보고하거나, 점수를 높여 상대 모델을 유지할 수 있는 선택지에 놓였다.
뉴스픽의 주요 문장 추출 기술을 사용하여 “소다” 기사 내용을 3줄로 요약한 결과입니다. 일부 누락된 내용이 있어 전반적인 이해를 위해서는 본문 전체 읽기를 권장합니다.