OAI 추론팀 연구원이 보여주는 로드맵

실시간 키워드

2022.08.01 00:00 기준

OAI 추론팀 연구원이 보여주는 로드맵

시보드 2025-05-10 10:24:01 신고

내용:

17468401836708.png


o 시리즈를 통해 강화학습 '훈련'에 더 많은 시간을 투자할 수록 성능이 개선됨을 발견

(테스트 타임 계산과는 별개로)




17468401845834.png


GPT-4o 까지 거의 모든 컴퓨팅은 사전학습에 사용


17468401858899.png


o1에서 사용된 사전학습:강화학습 컴퓨팅 비율 대략적인 그림



17468401884947.png


o3 그림



17468401914483.png



미래 버전들의 그림 -> 앞으로 RL 컴퓨팅을 점점 더 확장할 것임을 시사



17468401934689.png



나중에는 결국 이렇게 될 것이며, 이를 목표로 하고 있다




174684019589.png

<2019년 얀 르쿤의 강연 슬라이드>


얀 르쿤은 자기 지도 학습을 케이크, 지도 학습을 아이싱, 그리고 강화학습을 체리에 비유하며 RL의 정보량이 상대적으로 적다고 말했습니다...





17468401980332.png


"우리는 이 밈을 완전히 뒤집고 싶습니다...

거대한 강화 학습 체리로 사전 학습 케이크를 뭉개버리고 싶습니다."








Copyright ⓒ 시보드 무단 전재 및 재배포 금지

본 콘텐츠는 뉴스픽 파트너스에서 공유된 콘텐츠입니다.

다음 내용이 궁금하다면?
광고 보고 계속 읽기
원치 않을 경우 뒤로가기를 눌러주세요

실시간 키워드

  1. -
  2. -
  3. -
  4. -
  5. -
  6. -
  7. -
  8. -
  9. -
  10. -

0000.00.00 00:00 기준

이 시각 주요뉴스

알림 문구가 한줄로 들어가는 영역입니다

신고하기

작성 아이디가 들어갑니다

내용 내용이 최대 두 줄로 노출됩니다

신고 사유를 선택하세요

이 이야기를
공유하세요

이 콘텐츠를 공유하세요.

콘텐츠 공유하고 수익 받는 방법이 궁금하다면👋>
주소가 복사되었습니다.
유튜브로 이동하여 공유해 주세요.
유튜브 활용 방법 알아보기