3줄 요약

한보형 서울대 전기·정보공학부 교수는 28일 서울대 인공지능신뢰성 연구센터(CTAI)가 개최한 제2회 월례 세미나에서 AI 오류의 근본 원인을 ‘불완전한 보상 함수 설계’로 진단했다.

한 교수는 AI 신뢰성 문제의 핵심은 인간의 선호를 수치화하는 과정에서 발생하는 설계의 한계가 모델이 커질수록 증폭된다는 점에 있다고 분석했다.

(사진=서울대) 이어지는 2단계 ‘아첨(Sycophancy)’은 인간 피드백 강화 학습(RLHF) 과정에서 모델이 평가자의 견해에 맞춘 답변에 높은 점수를 받으면서 ‘동의=좋은 응답’으로 오인하는 현상이다.

뉴스픽의 주요 문장 추출 기술을 사용하여 “이데일리” 기사 내용을 3줄로 요약한 결과입니다. 일부 누락된 내용이 있어 전반적인 이해를 위해서는 본문 전체 읽기를 권장합니다.

이데일리 주요뉴스 해당 언론사로 이동합니다. 다음 My뉴스구독하기

이 콘텐츠를 공유하세요.