[이뉴스투데이 김진영 기자] 생성형 인공지능 확산으로 추론 비용이 AI 경쟁력의 핵심 변수로 떠오른 가운데, 마이크로소프트가 반도체 설계부터 데이터센터 아키텍처까지 직접 통제하는 ‘수직 통합형 AI 인프라 전략’을 본격화하고 있다. 엔비디아 중심의 범용 GPU 구조에서 벗어나, 자사 클라우드 환경에 최적화된 전용 가속기를 앞세워 성능과 비용을 동시에 끌어내리겠다는 전략적 행보다.
마이크로소프트는 대규모 AI 추론 비용을 낮추기 위한 자체 추론 가속기 ‘마이아 200(Maia 200)’을 공개했다고 27일 밝혔다. 애저(Azure) 데이터센터에 최적화된 이 칩은 초고속 메모리와 저정밀 연산 성능을 앞세워 달러당 성능을 기존 대비 30% 이상 개선, 차세대 AI 인프라의 핵심 축으로 활용될 전망이다.
마이아 200은 TSMC 3나노 공정 기반으로 설계된 AI 추론 전용 가속기다. 216GB HBM3e 메모리(초당 7TB 대역폭), 네이티브 FP8·FP4 텐서 코어, 데이터 이동 엔진을 결합해 대규모 언어모델(LLM) 추론에 특화됐다. FP4 기준 초당 10PFLOPS 이상, FP8 기준 5PFLOPS 이상의 성능을 제공하며, 설계 전력(TDP)은 750W 수준이다.
성능 지표에서도 경쟁 제품을 상회한다. FP4 기준 처리량은 아마존의 3세대 트레이니움 대비 약 3배 높고, FP8 기준으로는 구글 7세대 TPU를 웃돈다. 이를 통해 마이크로소프트는 동일 비용 대비 처리 성능을 크게 끌어올렸다는 설명이다.
오픈AI의 최신 GPT-5.2를 포함한 다양한 대형 모델을 지원한다. 마이크로소프트 파운드리와 마이크로소프트 365 코파일럿 등 주요 AI 서비스의 가격 대비 성능을 개선하는 데 직접 활용될 예정이다. 내부적으로는 슈퍼인텔리전스 팀의 합성 데이터 생성과 강화학습에도 투입돼, 고품질 학습 데이터 생성과 필터링 속도를 높이는 역할을 맡는다.
대규모 클러스터 운용을 위한 네트워크 설계도 특징이다. 마이크로소프트는 표준 이더넷 기반 2계층 스케일업 네트워크를 도입해 독점 패브릭 없이도 성능과 신뢰성을 확보했다. 가속기당 초당 2.8TB 양방향 대역폭을 제공, 최대 6,144개 가속기를 연결해도 일관된 성능을 유지하도록 설계됐다. 트레이(4개 가속기)–랙 단위로 동일한 통신 구조를 적용해 확장성과 운영 효율도 높였다.
개발 및 배포 과정 역시 대폭 단축됐다. 설계 초기부터 LLM 연산·통신 패턴을 반영한 프리 실리콘 환경을 구축하고, 네트워크·액체 냉각·제어 플레인을 사전에 통합 검증했다. 그 결과 칩 입고 후 수일 만에 실제 모델 구동에 성공, 데이터센터 배치까지 걸리는 기간을 기존 대비 절반 이하로 줄였다.
미국 아이오와주 디모인 인근 US 센트럴 데이터센터부터 배포되고 있는 마이아 200은 향후 애리조나주 피닉스 인근 US 웨스트 3 지역 등으로 확대될 것으로 보인다. 마이크로소프트는 다세대 마이아 로드맵을 통해 AI 추론 효율과 비용 구조를 지속적으로 개선한다는 계획이다.
한편, 개발자와 연구기관을 위한 ‘마이아 200 SDK’ 프리뷰도 공개됐다. Triton 컴파일러, 파이토치 지원, 시뮬레이터와 비용 계산기를 포함해 모델 설계 초기 단계부터 성능과 운영 비용을 함께 최적화할 수 있도록 했다.
Copyright ⓒ 이뉴스투데이 무단 전재 및 재배포 금지
본 콘텐츠는 뉴스픽 파트너스에서 공유된 콘텐츠입니다.