화웨이, '장문 AI 추론 병목' 뚫어···속도 최대 372%↑
뒤로가기

3줄 요약

본문전체읽기

화웨이, '장문 AI 추론 병목' 뚫어···속도 최대 372%↑

화웨이가 중국 통신업계 최초로 상용망 환경에서 장문(long-sequence) AI 추론의 토큰 처리량을 최대 372%까지 끌어올리는 데 성공했다.

차이나모바일 후베이의 상용망에서 진행된 이번 검증은 미니맥스 M2.5와 GLM-5.1 등 주요 AI 모델을 대상으로 8K에서 190K 토큰에 이르는 장문 입력을 시뮬레이션했다.

검증 결과 GLM-5.1 모델에서는 첫 토큰 생성 시간(TTFT)이 최대 93% 단축됐다.

뉴스픽의 주요 문장 추출 기술을 사용하여 “아주경제” 기사 내용을 3줄로 요약한 결과입니다. 일부 누락된 내용이 있어 전반적인 이해를 위해서는 본문 전체 읽기를 권장합니다.

이 콘텐츠를 공유하세요.

알림 문구가 한줄로 들어가는 영역입니다

이 콘텐츠를 공유하세요.