딥시크가 V4 모델에서 100만 토큰 문맥창을 구현하면서도, V3.2 대비 단일 토큰 추론 연산량은 27%, KV 캐시는 10%만 사용한다고 밝혔다.
핵심은 100만 토큰 문맥창과 메모리 절감이다.
딥시크 V4는 같은 길이의 문맥을 처리하면서도 KV 캐시 사용량을 10분의 1 수준으로 줄였다면, 동일한 GPU 메모리에서 더 많은 요청을 처리하거나 더 긴 문맥을 수용할 수 있다.
뉴스픽의 주요 문장 추출 기술을 사용하여 “위클리 포스트” 기사 내용을 3줄로 요약한 결과입니다. 일부 누락된 내용이 있어 전반적인 이해를 위해서는 본문 전체 읽기를 권장합니다.