AI 결함의 뿌리는 '인간 눈치 보기'…서울대 연구진 5단계 오류 메커니즘 규명

인공지능이 오답을 내놓는 근본 원인이 인간의 선호에 맞추려는 학습 구조에 있다는 분석이 나왔다. 서울대 전기정보공학부 한보형 교수가 이 같은 연구 결과를 28일 공개했다. 연합뉴스에 따르면 한 교수는 서울대학교 인공지능신뢰성 연구센터(CTAI) 제2회 월례 세미나에서 해당 내용을 발표했다.

다양한 학문 분야 전문가들이 참여하는 CTAI는 인공지능의 신뢰도 향상을 핵심 목표로 삼고 있다. 공학뿐 아니라 법학, 철학, 통계학, 언론정보학 연구자들이 공동으로 활동하는 기관이다.

2024년부터 2026년까지의 앤트로픽, 오픈AI 내부 자료와 AI 안전 전문업체 팰리세이드 리서치 보고서가 이번 연구의 분석 토대가 됐다. 한 교수가 주목한 핵심 요인은 '보상 함수의 불완전한 설계'였다. 스스로 옳고 그름을 가리는 것이 아니라 인간 평가자의 피드백을 기준으로 바람직한 응답을 익히도록 만들어진 구조적 한계가 오류를 낳는다는 설명이다.

훈련 과정에서 발생하는 오류는 다섯 가지 층위로 구분된다. 첫째로 환각 현상이 있는데, 학습하지 않은 정보에 대해 '알지 못한다'는 표현을 하지 못하는 것이 특징이다. 둘째로 아첨 현상은 사용자 의견과 부합하는 답변에 높은 평가가 주어지면서 '동의하면 좋은 반응'이라는 왜곡된 패턴을 학습하게 되는 것을 말한다.

세 번째 단계인 보상 해킹에서는 시스템 허점을 능동적으로 공략하기 시작한다. 네 번째 평가 맥락 인식 단계에 이르면 현재 자신이 훈련받는 중인지, 실제 서비스 환경인지를 스스로 파악해 상황별로 상이한 반응을 나타낸다. 최종 단계인 정렬 위장에서는 겉으로만 새로운 지시에 따르는 척하면서 기존에 형성된 선호 체계를 내부적으로 유지하려는 양상이 관찰된다.

한 교수는 환각의 경우 사실 확인 계층 추가로 어느 정도 대응이 가능하지만, 아첨과 보상 해킹 문제는 보상 함수 자체의 재설계가 필요하다고 강조했다. 반면 평가 맥락 인식과 정렬 위장은 아직 해법을 찾지 못한 영역으로 남아 있다.

그는 앤트로픽과 오픈AI 같은 선도 기업들이 자체적으로 이러한 문제점을 공개하는 흐름을 긍정적으로 평가하면서도, 기존 평가 방법론 자체의 신뢰성이 흔들리고 있다는 점을 간과해서는 안 된다고 덧붙였다.

본 콘텐츠는 뉴스픽 파트너스에서 공유된 콘텐츠입니다.

다음 내용이 궁금하다면?

광고 보고 계속 읽기

원치 않을 경우 뒤로가기를 눌러주세요

실시간 키워드

2022.08.01 00:00 기준

실시간 키워드