구글, 8세대 TPU 8t·8i 전격 공개…"인프라 주도권 굳힌다"

구글이 22일 공개한 8세대 TPU '8t'·'8i'. (사진=구글 클라우드)

[이데일리 한광범 기자] 구글이 성능과 에너지 효율을 극대화한 8세대 맞춤형 인공지능(AI) 가속기(TPU) 라인업인 ‘TPU 8t·8i’를 공개했다.

순다르 피차이 구글 최고경영자(CEO)는 22일(현지시간) 미국 라스베이거스에서 개막한 구글 클라우드의 연례 기술 콘퍼런스인 ‘넥스트 2026’에서 “에이전틱 AI는 추론, 계획, 실행의 연속적인 루프 속에서 작동하며, 이는 기존과 전혀 다른 차원의 인프라 요구사항을 발생시킨다”며 “8세대 TPU는 최첨단 모델 학습부터 수백만 개의 에이전트 동시 구동까지 모든 단계를 지원하는 수직 최적화된 시스템”이라고 강조했다.

◇‘TPU 8t’ 학습의 한계 돌파…100만 칩 연결해 프런티어 모델 개발 가속

이번 발표의 핵심은 학습(Training)과 추론(Inference)이라는 AI의 두 핵심 공정에 각각 특화된 전용 칩 아키텍처를 선보였다는 점이다. 먼저 학습 전용 가속기인 ‘TPU 8t’는 거대 언어모델(LLM) 개발 주기를 수개월에서 수주 단위로 단축하도록 설계된 ‘괴물 칩’이다.

TPU 8t는 단일 슈퍼포드에서 9600개의 칩을 연결해 초당 100경 번 연산이 가능한 121 엑사플롭스(ExaFlops)의 성능과 2페타바이트(PB)의 방대한 공유 메모리를 제공한다. 특히 구글의 인프라 관리 플랫폼인 ‘패스웨이(Pathways)’를 활용하면 단일 클러스터 내에서 100만 개 이상의 TPU 칩을 하나처럼 연결할 수 있다. 여기에 칩과 스토리지 사이의 병목 현상을 해결하는 ‘TPU디렉트’ 기술을 더해, 거대 모델 학습 시 데이터를 불러오는 속도를 이전보다 10배나 끌어올렸다.

◇‘버고 네트워크’와 ‘매니지드 러스트’…거대 인프라 잇는 동맥과 정맥

구글은 수십만 개의 칩을 하나로 묶기 위한 차세대 네트워크와 스토리지 혁신안도 함께 내놨다. 핵심은 ‘버고 네트워크(Virgo Network)’다. 이는 13만 4000개 이상의 TPU를 초저지연으로 연결하는 대규모 데이터센터 패브릭으로, 전 세계에 분산된 인프라를 하나의 거대한 슈퍼컴퓨터처럼 작동하게 만든다.

데이터 공급을 담당하는 스토리지 부문에서는 초당 10TB(테라바이트)의 압도적인 대역폭을 제공하는 ‘매니지드 러스트(Managed Lustre)’를 선보였다. 이는 기존 대비 10배 이상 향상된 속도로, 대규모 학습 데이터가 연산 칩으로 이동할 때 발생하는 병목 현상을 완전히 제거해 AI 모델이 쉬지 않고 학습에 전념할 수 있는 환경을 조성한다.

◇‘TPU 8i’ 추론의 혁신…‘메모리 벽’ 허물고 운영 비용 80% 절감

실제 AI 에이전트가 사용자의 비서가 되어 업무를 처리하는 ‘추론’ 영역은 ‘TPU 8i’가 담당한다. 구글은 에이전틱 AI가 복잡한 업무를 수행할 때 발생하는 응답 지연(렉) 문제를 해결하기 위해 네 가지 핵심 기술 혁신을 집약했다.

가장 대표적인 것이 ‘온칩 SRAM’의 3배 확대다. 프로세서의 머리는 좋은데 메모리에서 데이터를 꺼내오는 속도가 느려 발생하는 ‘메모리 벽’ 현상을 극복하기 위해, 칩 내부에 직접 탑재되는 고속 메모리를 384MB로 키워 연산 데이터를 즉각 처리하게 했다.

또한 칩 간 대화를 5배 빠르게 만드는 ‘집합 가속 엔진(CAE)’과 데이터 전송 경로를 최적화한 새로운 네트워크 방식인 ‘보드플라이(Boardfly)’ 위상을 도입해 통신 거리를 56% 단축했다. 이러한 노력의 결과로 TPU 8i는 이전 세대(Ironwood) 대비 달러당 성능을 80% 향상시켰다. 기업들은 같은 비용으로 두 배에 가까운 사용자를 지원할 수 있게 된 셈이다.

◇하드웨어 넘어선 통합 엔진…‘커스터머 제로’로 증명된 실무 생산성

구글은 자사 기술을 내부 공정에 가장 먼저 적용하는 ‘커스터머 제로(Customer Zero)’ 전략을 통해 하드웨어의 실효성을 직접 입증했다. 피차이 CEO는 구글 내부에서 이미 이 인프라를 활용해 신규 코드의 75%를 AI로 생성하고 있다고 밝혔다. 또한 보안 운영 센터(SOC) 에이전트는 이 칩을 기반으로 위협 대응 시간을 90% 이상 단축하는 데 성공했다.

아민 바닷 구글 클라우드 부사장은 “에이전트 인프라는 단순한 칩 하나가 아니라 네트워크, 스토리지, 소프트웨어가 결합된 통합 엔진”이라며 “8세대 TPU는 구글의 자체 Arm 기반 CPU인 ‘액시온(Axion)’ 헤더를 통합해 성능을 높이면서도 에너지 효율을 2배 개선해 전력 소모 부담까지 줄였다”고 설명했다.

구글의 8세대 TPU 시리즈는 올해 말 정식 버전(GA)으로 출시될 예정이며, 하드웨어부터 소프트웨어까지 수직 계열화된 ‘구글 AI 하이퍼컴퓨터’ 아키텍처를 통해 전 세계 구글 클라우드 고객사들에 제공될 계획이다.

본 콘텐츠는 뉴스픽 파트너스에서 공유된 콘텐츠입니다.

다음 내용이 궁금하다면?

광고 보고 계속 읽기

원치 않을 경우 뒤로가기를 눌러주세요

실시간 키워드

2022.08.01 00:00 기준

실시간 키워드