서울공대 이정우 교수팀, LLM 정합성 높이는 AI 학습 기술로 ICML 2025 ‘스포트라이트’ 선정
뒤로가기

3줄 요약

본문전체읽기

서울공대 이정우 교수팀, LLM 정합성 높이는 AI 학습 기술로 ICML 2025 ‘스포트라이트’ 선정

서울대학교 공과대학(이하 서울공대)은 전기정보공학부 이정우 교수 연구팀이 챗지피티(ChatGPT)와 같은 거대언어모델에 적용 가능한 강화학습 신기술을 개발했다고 밝혔다.

이에 이정우 교수 연구팀은 AI 모델이 답변을 생성할 때 정합성 수준과 무관하게 단순히 선호도만을 반영하는 기존 RLHF와 달리, 충분히 신뢰할 수 있을 만큼 잘 훈련된 AI 모델이 생성한 결과에만 선호도를 반영하는 새로운 강화학습 기술인 ‘정책 레이블 기반 선호 학습(Policy-labeled Preference Learning, PPL)’을 제안했다.

논문의 제1저자인 서울대 전기정보공학부 조태현 연구원은 “이번에 선보인 기술이 앞으로 AI 정합성관련 국내 기술력을 세계적 수준으로 끌어올리는 데 큰 역할을 할 뿐 아니라 앞으로 거대언어모델의 실용성과 안전성도 높일 수 있으리라 기대한다”며 “앞으로 강화학습의 자연어처리 연구에 집중할 계획”이라고 밝혔다.

뉴스픽의 주요 문장 추출 기술을 사용하여 “AI포스트” 기사 내용을 3줄로 요약한 결과입니다. 일부 누락된 내용이 있어 전반적인 이해를 위해서는 본문 전체 읽기를 권장합니다.

이 콘텐츠를 공유하세요.

알림 문구가 한줄로 들어가는 영역입니다

이 콘텐츠를 공유하세요.