o 시리즈를 통해 강화학습 '훈련'에 더 많은 시간을 투자할 수록 성능이 개선됨을 발견
(테스트 타임 계산과는 별개로)
GPT-4o 까지 거의 모든 컴퓨팅은 사전학습에 사용
o1에서 사용된 사전학습:강화학습 컴퓨팅 비율 대략적인 그림
o3 그림
미래 버전들의 그림 -> 앞으로 RL 컴퓨팅을 점점 더 확장할 것임을 시사
나중에는 결국 이렇게 될 것이며, 이를 목표로 하고 있다
<2019년 얀 르쿤의 강연 슬라이드>
얀 르쿤은 자기 지도 학습을 케이크, 지도 학습을 아이싱, 그리고 강화학습을 체리에 비유하며 RL의 정보량이 상대적으로 적다고 말했습니다...
"우리는 이 밈을 완전히 뒤집고 싶습니다...
거대한 강화 학습 체리로 사전 학습 케이크를 뭉개버리고 싶습니다."
Copyright ⓒ 시보드 무단 전재 및 재배포 금지
본 콘텐츠는 뉴스픽 파트너스에서 공유된 콘텐츠입니다.







