gpt-4.5 종합적 요약

실시간 키워드

2022.08.01 00:00 기준

gpt-4.5 종합적 요약

시보드 2025-02-28 20:18:01 신고

17407413643282.jpg

17407413666338.jpg


grok3한테 GPQA, AIME 벤치 10~30% 격차정도로 따임. (심지어 AIME 벤치는 grok3 mini한테 밀리는 모습)



1740741368791.jpg


에이전트 코딩 벤치도 sonnet 3.7한테 따이고, 몇달전에 출시된 sonnet 3.6이라고 놀림받는 sonnet 3.5(new) 랑 비비는 모습



17407413710597.jpg

17407413733847.jpg


arc-agi 벤치 또한 sonnet 3.7과 점수는 거의 동일한데 비해 cost per task(가격 대비) 측면에서 압도적으로 뒤떨어짐


17407413756059.jpg


가격은.....10~30배 이상 상승




억까없이 담백하게 팩트만 말하자면


1. 기존의 모델 크기(파라미터 수, 층 쌓기)와 컴퓨팅 파워만을 늘리는 스케일 법칙은 더 이상 유효하지 않을 가능성이 굉장히 높다.

2. openai는 더 이상 " 베이스모델 " 에서의 성능 이점을 잡고 있다고 보기 힘들다.


물론 여기서 말하는 베이스모델은 test time compute 추론모델을 제외한 것이며, 추론모델은 아직까지 지표상으로는 o3가 가장 높지만, 이 또한 deepseek r2, grok3 big brain, gemini 2 pro thinking 등 타사 기업의 모델에 추월당할 가능성이 굉장히 높다고 생각한다.

openai는 더욱 분발해야 함.








17407413781905.png


17407413805454.png


17407413837267.png


17407413867424.jpg


17407413887299.jpg




17407413907409.png





17407413932565.png





특이점이 온다 갤러리

Copyright ⓒ 시보드 무단 전재 및 재배포 금지

본 콘텐츠는 뉴스픽 파트너스에서 공유된 콘텐츠입니다.

다음 내용이 궁금하다면?
광고 보고 계속 읽기
원치 않을 경우 뒤로가기를 눌러주세요

실시간 키워드

  1. -
  2. -
  3. -
  4. -
  5. -
  6. -
  7. -
  8. -
  9. -
  10. -

0000.00.00 00:00 기준

이 시각 주요뉴스

알림 문구가 한줄로 들어가는 영역입니다

신고하기

작성 아이디가 들어갑니다

내용 내용이 최대 두 줄로 노출됩니다

신고 사유를 선택하세요

이 이야기를
공유하세요

이 콘텐츠를 공유하세요.

콘텐츠 공유하고 수익 받는 방법이 궁금하다면👋>
주소가 복사되었습니다.
유튜브로 이동하여 공유해 주세요.
유튜브 활용 방법 알아보기