구글이 인공지능(AI) 칩 경쟁에서 ‘추론(inference)’ 영역을 정조준하며 판을 키우고 있다. 단순한 학습 성능을 넘어 실제 서비스 단계에서의 응답 속도와 효율성을 좌우하는 칩 설계로 무게 중심을 이동시키는 모습이다.
구글은 22일(현지시간) 라스베가스에서 ‘구글 클라우드 넥스트 2026’ 행사를 열고, 8세대 텐서처리장치(TPU)를 공개했다.
새롭게 선보인 TPU는 학습용 ‘TPU 8t’와 추론용 ‘TPU 8i’로 나뉘며, 각각 역할에 맞게 이원화된 구조를 채택했다. 8세대 칩은 지난해 11월 발표된 7세대 아이언우드 TPU보다 2.8배 높은 성능을 동일한 가격에 제공하며, 추론 프로세서의 가격 대비 효율도 80% 향상됐다.
이번 전략 변화의 핵심은 폭증하는 추론 수요다. 기업들이 소프트웨어 작성, 의사결정 자동화 등을 수행하는 AI 에이전트를 본격 도입하면서, 단순 질의응답을 넘어선 복합 연산이 급증하고 있다.
구글 클라우드의 토마스 쿠리안 최고경영자(CEO)는 “추론 기능이 없다면 학습 비용을 감당할 수 없다”며 “추론 시장은 학습 시장과 맞먹거나 더 커질 것”이라고 강조했다.
실제 AI 에이전트는 하나의 요청에서 챗봇 대비 최대 50배 많은 연산을 유발한다. 이에 따라 응답 지연을 최소화하고 메모리 병목을 해소하는 것이 핵심 경쟁력으로 떠올랐다.
구글은 이미 10년 이상 자체 칩 설계를 이어오며 수직 통합 전략을 구축해 왔다. TPU는 처음에는 데이터센터 클라우드서버에 사용됐지만, 인공지능이 더욱 널리 보급됨에 따라 구글의 생성형 AI 모델인 제미나이, 나노바나나 등을 학습시키고 실행하는 데 사용돼왔다.
이번 8세대 TPU 역시 브로드컴과의 협력을 통해 완성됐으며, 클라우드 서비스와 생성형 AI 모델 전반에 적용될 예정이다.
이번 구글의 개발로 AI 칩 시장 선두주자인 엔비디아와의 경쟁이 더욱 심화될 전망이다. 실제로 구글은 앤트로픽, 메타 등과 대규모 TPU 공급 계약을 체결하며 외부 생태계 확장에 속도를 내고 있다.
이와 함께 구글은 ‘제미나이 엔터프라이즈 에이전트 플랫폼’을 공개했다. 이는 기존 AI 개발 플랫폼인 Vertex AI의 진화된 형태로 기업이 AI 에이전트를 구축, 확장, 관리 및 최적화할 수 있는 포괄적인 플랫폼이다.
플랫폼에서는 200개 이상의 세계 최고 수준 모델에 대한 접근성을 제공한다. ‘제미나이 3.1 프로’와 ‘나노바나나2’를 포함해 앤트로픽의 ‘클로드 4.7’ 같은 타사 모델도 지원하므로 고객은 작업에 가장 적합한 모델을 자유롭게 선택할 수 있다.
Copyright ⓒ 데일리임팩트 무단 전재 및 재배포 금지
본 콘텐츠는 뉴스픽 파트너스에서 공유된 콘텐츠입니다.