화웨이가 중국 통신업계 최초로 상용망 환경에서 장문(long-sequence) AI 추론의 토큰 처리량을 최대 372%까지 끌어올리는 데 성공했다.
화웨이는 지난 24일(현지시간) 중국 상하이에서 열린 'MWC 상하이 2026'에서 차이나모바일 후베이와 공동으로 'AI 추론 가속 솔루션'의 검증 성과를 공개했다고 28일 밝혔다.
이번 솔루션은 화웨이의 오션스토어 A800 스토리지와 어센드 A3 슈퍼팟, 통합 캐시 관리자를 기반으로 구축됐다. 통신사가 대규모 AI 컴퓨팅 서비스를 효율적으로 배포할 수 있는 핵심 기술 토대를 마련했다는 평가다.
최근 AI 서비스가 에이전트 중심으로 진화하면서 코드 생성이나 멀티턴 대화 등 긴 문맥을 다루는 장문 시나리오가 늘고 있다. 그러나 기존 온칩 메모리와 D램의 한계로 데이터 처리가 지연되는 병목 현상이 발생해 왔다.
화웨이는 이를 해결하기 위해 외부 고성능 스토리지를 활용하는 UCM 기술을 도입, 페타바이트(PB)급 대용량 KV 캐시를 구현하고 중복 연산을 제거해 추론 비용을 대폭 낮췄다.
차이나모바일 후베이의 상용망에서 진행된 이번 검증은 미니맥스 M2.5와 GLM-5.1 등 주요 AI 모델을 대상으로 8K에서 190K 토큰에 이르는 장문 입력을 시뮬레이션했다.
검증 결과 GLM-5.1 모델에서는 첫 토큰 생성 시간(TTFT)이 최대 93% 단축됐다. 초당 토큰 수(TPS)는 128K 장문 환경에서 최대 372%까지 향상됐다. 미니맥스 M2.5 모델 역시 128K 환경에서 TPS가 78% 증가하는 등 컨텍스트 창이 길어질수록 가속 효과가 더 뚜렷하게 나타났다.
마이클 추 화웨이 글로벌 데이터 스토리지 마케팅·솔루션 세일즈 부문 사장은 "AI 추론 가속 솔루션은 응답 시간을 크게 줄일 뿐 아니라 토큰 비용 절감에도 기여한다”며 “통신사들이 효율적이고 친환경적인 AI 컴퓨팅 인프라를 구축할 수 있도록 지원을 아끼지 않겠다"고 강조했다.
Copyright ⓒ 아주경제 무단 전재 및 재배포 금지
본 콘텐츠는 뉴스픽 파트너스에서 공유된 콘텐츠입니다.