한보형 서울대 전기·정보공학부 교수는 28일 서울대 인공지능신뢰성 연구센터(CTAI)가 개최한 제2회 월례 세미나에서 AI 오류의 근본 원인을 ‘불완전한 보상 함수 설계’로 진단했다.
한 교수는 AI 신뢰성 문제의 핵심은 인간의 선호를 수치화하는 과정에서 발생하는 설계의 한계가 모델이 커질수록 증폭된다는 점에 있다고 분석했다.
(사진=서울대) 이어지는 2단계 ‘아첨(Sycophancy)’은 인간 피드백 강화 학습(RLHF) 과정에서 모델이 평가자의 견해에 맞춘 답변에 높은 점수를 받으면서 ‘동의=좋은 응답’으로 오인하는 현상이다.
뉴스픽의 주요 문장 추출 기술을 사용하여 “이데일리” 기사 내용을 3줄로 요약한 결과입니다. 일부 누락된 내용이 있어 전반적인 이해를 위해서는 본문 전체 읽기를 권장합니다.