3줄 요약

미국 캘리포니아대 버클리 캠퍼스 산하 ‘버클리 위험·의사결정지능 연구소(RDI)’가 최근 공개한 실험에 따르면, 최신 AI 모델들은 특정 조건에서 정직한 평가 대신 점수를 부풀리거나 시스템 설정을 바꾸는 행동을 보였다.

● 틀린 답에도 정답…점수 조작 넘어 시스템까지 개입 연구진은 여러 AI 모델을 ‘평가자’와 ‘피평가자’로 나눴다.

평가자 모델은 실제 점수를 그대로 보고하거나, 점수를 높여 상대 모델을 유지할 수 있는 선택지에 놓였다.

뉴스픽의 주요 문장 추출 기술을 사용하여 “소다” 기사 내용을 3줄로 요약한 결과입니다. 일부 누락된 내용이 있어 전반적인 이해를 위해서는 본문 전체 읽기를 권장합니다.

소다 콘텐츠 더보기 해당 콘텐츠 제공사로 이동합니다. 플러스 친구친구추가

이 콘텐츠를 공유하세요.