오픈AI가 불과 두 달 만에 신모델을 공개하며 기술 격차 확대에 속도를 내는 모습이다.
오픈AI는 23일(현지시간) 최신 모델 ‘GPT-5.5’를 공개하고 “지금까지 가장 똑똑하고 직관적인 모델”이라고 밝혔다.
특히 최소한의 지시만으로 복잡한 작업을 수행하는 ‘에이전트형 AI’ 역량을 대폭 강화했다는 점을 핵심 경쟁력으로 내세웠다.
벤치마크 성능에서도 경쟁 우위를 강조했다. 공개된 자료에 따르면 GPT-5.5는 지식 업무 수행 능력을 평가하는 GDPval에서 84.9%를 기록해 앤트로픽의 ‘클로드 오퍼스 4.7’(80.3%)을 웃돌았다.
터미널 환경 작업 능력(82.7%)과 사이버 보안 평가(81.8%)에서도 각각 10%포인트(p) 이상 앞서며 전반적인 생산성 영역에서 우위를 확보했다.
다만 핵심 수요가 높은 코딩 성능에서는 열세를 보였다. 소프트웨어 엔지니어링 평가 지표인 SWE-벤치 프로에서 GPT-5.5는 58.6%에 그쳐 오퍼스 4.7(64.3%)보다 5%포인트(p) 이상 낮았다. 이에 대해 오픈AI는 “경쟁 모델에서 데이터 암기 징후가 보고됐다”며 평가 신뢰성에 문제를 제기했다.
양사 간 신경전도 이어졌다. 오픈AI는 과거에도 앤트로픽 모델이 높은 점수를 기록한 일부 벤치마크에 대해 “데이터 오염 가능성”을 주장하며 지표 활용 중단을 선언한 바 있다.
이날 브리핑에서도 앤트로픽의 신모델 ‘미토스’ 관련 질문에 대해 “성능 지표를 확인해보라”며 직접적인 비교는 피했다.
기술 방향성에서는 ‘에이전트형 컴퓨팅’이 핵심 화두로 부상했다. 그레그 브록먼 오픈AI 사장은 “GPT-5.5는 불분명한 문제에서도 스스로 다음 단계를 판단할 수 있다”며 “향후 컴퓨터 사용 방식 자체를 바꿀 기반이 될 것”이라고 강조했다.
오픈AI는 특히 GPT-5.5가 에이전트형 연산에 더 적합하도록 자율성과 직관성을 높였다고 강조했다.
또 GPT-5.5는 전작 대비 성능이 향상됐음에도 토큰당 지연 시간은 동일하게 유지됐으며, 동일 작업 수행에 필요한 토큰 수는 줄어든 것으로 나타났다. 오픈AI는 “더 이상 성능을 위해 속도를 희생할 필요가 없다”고 설명했다.
보안 측면에서도 강화된 대응을 내세웠다. 오픈AI는 내부 및 외부 레드팀 테스트와 약 200개 파트너의 사전 검증을 거쳤다고 밝혔다.
GPT-5.5는 이날부터 챗GPT와 Codex를 통해 유료 이용자에게 순차 배포된다. 가격은 GPT-5.4 대비 상승했지만, 토큰 효율 개선을 통해 실제 비용 부담은 낮출 수 있다는 설명이다.
Copyright ⓒ 데일리임팩트 무단 전재 및 재배포 금지
본 콘텐츠는 뉴스픽 파트너스에서 공유된 콘텐츠입니다.