구글이 마벨과 함께 AI 추론 효율을 높이기 위한 2종 칩 개발을 검토 중인 것으로 알려졌다. 기존 TPU의 메모리 병목을 덜어주는 보조 칩과 추론 전용 차세대 TPU를 병행하는 구상으로, AI 반도체 시장에서 ASIC 설계 방향 자체를 바꿀 수 있는 시도라는 해석이 나온다.
Google is reportedly discussing a two-chip AI inference strategy with Marvell, pairing a memory-focused companion chip for existing TPUs with a next-generation TPU designed specifically for inference workloads.
구글이 마벨과 함께 AI 추론용 반도체 전략을 손보고 있다. 관련 업계에 따르면 양사는 서로 다른 역할을 맡는 두 종류의 칩 개발을 논의 중이다. 하나는 기존 TPU와 함께 쓰이는 메모리 처리용 칩이고, 다른 하나는 AI 추론에 맞춰 새로 설계하는 차세대 TPU다. 단일 칩 성능을 높이는 방식에서 벗어나, 추론 과정의 병목을 기능별로 나눠 풀려는 접근이다.
먼저 눈에 띄는 것은 메모리 처리용 보조 칩이다. 기존 TPU가 처리하던 일부 메모리 관련 작업을 분담하는 성격이다. 대규모 언어모델 추론에서는 연산 성능만큼 데이터 이동과 메모리 접근 효율이 중요하다. 이런 구조라면 TPU는 핵심 연산에 더 집중하고, 별도 칩은 메모리 처리와 데이터 흐름 최적화를 맡는 식으로 역할을 나눌 수 있다.
다른 한 축은 추론 전용 TPU다. 차세대 TPU를 학습과 추론을 모두 포괄하는 범용 가속기가 아니라, 추론 성능과 효율에 초점을 맞추고 있다. 현재 구글의 주력 AI 가속기는 TPU v7 아이언우드다. 192GB HBM 메모리와 4614TFLOPs급 성능을 바탕으로 대규모 슈퍼팟 구성에 투입되고 있다. 다만 AI 인프라의 중심이 학습에서 서비스 단계의 추론으로 이동하면서, 추론 특화 설계의 필요성이 더 커졌다는 평가가 나온다.
핵심은 구글이 TPU를 더 빠르게 만드는 데 그치지 않고, 추론 시스템 전체를 다시 설계하려 한다는 점이다.
AI 추론 성능은 메모리 대역폭, 데이터 이동 경로, 지연시간, 전력 효율이 함께 맞물려야 실제 처리량이 올라간다. 때문에 보조 칩과 메인 칩을 분리하는 방식은 추론 인프라의 병목을 보다 직접적으로 겨냥하는 전략으로 볼 수 있다.
이번 구상은 최근 AI 반도체 시장의 흐름과도 맞닿아 있다. 시장에서는 학습용 대형 가속기와 별도로, 추론에 맞춘 전용 아키텍처의 중요성이 빠르게 커지고 있다. 특히 대규모 모델을 실제 서비스에 투입하는 환경에서는 최고 연산 성능보다 메모리 활용 효율과 저지연 처리가 더 중요한 경쟁력으로 작용한다. 구글이 메모리 처리 칩을 별도로 붙이는 방안을 검토하는 것도 이런 현실을 반영한 움직임에 가깝다.
업계에서는 이를 ASIC 진화의 다음 단계로 보는 시각도 있다. 그동안 추론용 ASIC은 GPU의 대안으로 주목받아 왔지만, 실제 확산 과정에서는 메모리와 패키징, 공급망 문제가 발목을 잡아왔다. 결국 연산칩 하나를 키우는 방식만으로는 한계가 있다는 뜻이다. 구글이 TPU와 별도 메모리 처리 칩을 조합하는 구조를 현실화한다면, 앞으로는 AI 가속기를 평가할 때 연산 성능보다 시스템 구성 능력이 더 중요해질 가능성이 있다.
다만 변수도 적지 않다. 구글 TPU 수요는 늘고 있지만, 첨단 반도체 생산능력은 여전히 빠듯하다. 새 칩이 실제 제품으로 이어지려면 설계 완성도뿐 아니라 HBM 조달, 패키징, 양산 일정까지 함께 맞아떨어져야 한다. 특히 추론 특화 칩은 성능 수치보다 운영 비용과 공급 안정성이 더 중요하게 작용할 수 있어, 시장 안착 여부는 양산 단계에서 판가름 날 가능성이 크다.
본 콘텐츠는 뉴스픽 파트너스에서 공유된 콘텐츠입니다.