"AI오류, 단순실수 아닌 보상설계 결함…정렬 위장까지 진화"
뒤로가기

3줄 요약

본문전체읽기

"AI오류, 단순실수 아닌 보상설계 결함…정렬 위장까지 진화"

한보형 서울대 전기·정보공학부 교수는 28일 서울대 인공지능신뢰성 연구센터(CTAI)가 개최한 제2회 월례 세미나에서 AI 오류의 근본 원인을 ‘불완전한 보상 함수 설계’로 진단했다.

한 교수는 AI 신뢰성 문제의 핵심은 인간의 선호를 수치화하는 과정에서 발생하는 설계의 한계가 모델이 커질수록 증폭된다는 점에 있다고 분석했다.

(사진=서울대) 이어지는 2단계 ‘아첨(Sycophancy)’은 인간 피드백 강화 학습(RLHF) 과정에서 모델이 평가자의 견해에 맞춘 답변에 높은 점수를 받으면서 ‘동의=좋은 응답’으로 오인하는 현상이다.

뉴스픽의 주요 문장 추출 기술을 사용하여 “이데일리” 기사 내용을 3줄로 요약한 결과입니다. 일부 누락된 내용이 있어 전반적인 이해를 위해서는 본문 전체 읽기를 권장합니다.

이 콘텐츠를 공유하세요.

알림 문구가 한줄로 들어가는 영역입니다

이 콘텐츠를 공유하세요.