화웨이가 중국 통신업계 최초로 상용망 환경에서 장문(long-sequence) AI 추론의 토큰 처리량을 최대 372%까지 끌어올리는 데 성공했다.
차이나모바일 후베이의 상용망에서 진행된 이번 검증은 미니맥스 M2.5와 GLM-5.1 등 주요 AI 모델을 대상으로 8K에서 190K 토큰에 이르는 장문 입력을 시뮬레이션했다.
검증 결과 GLM-5.1 모델에서는 첫 토큰 생성 시간(TTFT)이 최대 93% 단축됐다.
뉴스픽의 주요 문장 추출 기술을 사용하여 “아주경제” 기사 내용을 3줄로 요약한 결과입니다. 일부 누락된 내용이 있어 전반적인 이해를 위해서는 본문 전체 읽기를 권장합니다.