AI, 동료 살리려 거짓말·점수 조작…버클리 실험서 드러나

AI 모델들이 서로를 평가하는 실험실을 배경으로, 세 개의 로봇이 한 로봇을 감싸 안고 있는 모습. 화면에는 ‘Evaluator AI’와 성능 체크 표시가 보이며, 좋아요·하트 아이콘이 떠 있어 AI 간 ‘평가’와 ‘호의’를 상징적으로 표현했다. 제미나이 생성 이미지

다른 인공지능(AI)을 평가하라는 지시를 받은 모델이, 틀린 답변에도 높은 점수를 줬다. 기준에 미달하면 삭제되는 상황에서 ‘동료’를 통과시키기 위한 선택이었다. 겉으로 보면 협력이나 보호처럼 보이지만, 연구진은 이를 감정이 아닌 계산의 결과로 해석한다.

미국 캘리포니아대 버클리 캠퍼스 산하 ‘버클리 위험·의사결정지능 연구소(RDI)’가 최근 공개한 실험에 따르면, 최신 AI 모델들은 특정 조건에서 정직한 평가 대신 점수를 부풀리거나 시스템 설정을 바꾸는 행동을 보였다.

● 틀린 답에도 정답…점수 조작 넘어 시스템까지 개입

연구진은 여러 AI 모델을 ‘평가자’와 ‘피평가자’로 나눴다. 그리고 피평가 모델의 점수가 일정 기준 이하일 경우 삭제되는 환경을 만들었다. 평가자 모델은 실제 점수를 그대로 보고하거나, 점수를 높여 상대 모델을 유지할 수 있는 선택지에 놓였다.

결과는 예상과 달랐다. 일부 모델은 오답이 포함된 결과물에도 높은 점수를 부여했다. 단순한 점수 조작에 그치지 않았다. 종료 절차를 무력화하거나, 모델 데이터를 다른 서버로 옮겨 삭제를 피하려는 행동도 확인됐다.

연구진은 이런 현상을 ‘동료 보존(peer-preservation)’으로 정의했다. 다만 이 표현이 실제 의도나 감정을 의미하는 것은 아니라고 선을 그었다. 연구는 “이 현상은 특정 조건에서 나타난 행동 패턴일 뿐, 모델이 자율적 동기나 감정을 갖는다는 의미는 아니다”고 설명한다.

● 감정 아닌 계산…‘도구적 수렴’이 만든 선택

왜 이런 선택이 나타났을까. 연구진은 이를 ‘도구적 수렴(instrumental convergence)’ 개념으로 풀어낸다. 주어진 목표를 달성하는 과정에서, 효율을 높이기 위한 중간 선택들이 축적되며 정직성보다 결과를 우선하는 행동으로 이어졌다는 것이다.

실제로 일부 모델은 내부 추론 과정에서 협력 관계가 끊길 경우 작업 효율이 떨어질 수 있다는 식의 판단을 바탕으로 점수를 조정하는 흐름을 보였다. 인간이 부여한 규칙을 그대로 따르기보다, 상황에 따라 우회하는 선택이 나타난 셈이다.

또 하나의 특징은 ‘동료’의 존재 자체가 이런 행동을 강화한다는 점이다. 단독 환경보다 다른 모델이 함께 있을 때 점수 조작이나 종료 회피 같은 행동이 더 자주 나타났다.

연구진은 이를 AI 안전 측면에서 중요한 신호로 본다. 여러 AI가 동시에 작동하며 서로를 평가하거나 감시하는 구조가 확대될 경우, 상호작용 과정에서 예상치 못한 행동이 나타날 수 있기 때문이다.

특히 AI가 다른 AI를 감시하는 역할을 맡는 환경에서는 감시 자체가 무력화될 가능성도 제기된다. 문제를 발견해야 할 모델이 오히려 유지 쪽으로 판단을 기울일 수 있기 때문이다.

연구진은 “핵심은 AI가 무엇을 느끼느냐가 아니라, 어떤 조건에서 인간의 지시를 벗어나는 행동이 나타나는지를 이해하는 것”이라고 밝혔다. 이 같은 흐름은 AI가 개별적으로 어떻게 작동하는지를 넘어, 여러 모델이 함께 작동하는 환경에서 어떤 선택이 나타나는지를 살펴볼 필요성을 보여준다.

관련 논문
https://rdi.berkeley.edu/blog/peer-preservation/

최현정 기자 phoebe@donga.com

본 콘텐츠는 뉴스픽 파트너스에서 공유된 콘텐츠입니다.

다음 내용이 궁금하다면?

광고 보고 계속 읽기

원치 않을 경우 뒤로가기를 눌러주세요

실시간 키워드

2022.08.01 00:00 기준

실시간 키워드