딥시크 V4, 100만 토큰 문맥 구현…V3.2 대비 메모리 10%만 사용

딥시크가 V4 모델에서 100만 토큰 문맥창을 구현하면서도, V3.2 대비 단일 토큰 추론 연산량은 27%, KV 캐시는 10%만 사용한다고 밝혔다. 중국 AI 업계의 경쟁 축이 단순 성능 확대에서 연산 효율과 메모리 절감으로 옮겨가고 있음을 보여주는 대목이다. 오픈AI와의 격차를 좁히기 위한 중국식 AI 전략이 하드웨어보다 효율 최적화에 더 무게를 싣고 있다는 점도 드러난다.

DeepSeek says its V4 model can handle a one-million-token context window while using just 27% of the single-token inference FLOPs and 10% of the KV cache required by V3.2, underscoring how model efficiency is becoming a central front in the global AI race.

딥시크가 V4 모델을 통해 AI 효율 경쟁의 방향을 다시 제시했다. 핵심은 100만 토큰 문맥창과 메모리 절감이다. 회사는 V4가 V3.2와 비교해 단일 토큰 추론 FLOPs를 27% 수준으로 줄였고, KV 캐시 사용량은 10% 수준으로 낮췄다고 설명했다. 모델 규모 경쟁이 아니라, 같은 자원으로 얼마나 더 긴 문맥과 더 많은 요청을 처리할 수 있느냐가 새 경쟁 기준이 되고 있다는 뜻이다.

변화의 중심에는 KV 캐시가 있다. 대규모 언어모델은 프리필과 디코드 두 단계를 거쳐 동작하는데, 실제 응답 생성이 이뤄지는 디코드 단계에서는 이전 문맥 정보를 계속 저장해둬야 한다. 이때 필요한 것이 KV 캐시다. 문맥창이 길어질수록 KV 캐시가 차지하는 메모리 부담도 함께 커진다. 100만 토큰 수준의 긴 문맥을 다루는 모델이라면, 캐시 구조를 어떻게 줄이느냐가 사실상 성능과 운영비를 좌우하게 된다.

딥시크 V4는 같은 길이의 문맥을 처리하면서도 KV 캐시 사용량을 10분의 1 수준으로 줄였다면, 동일한 GPU 메모리에서 더 많은 요청을 처리하거나 더 긴 문맥을 수용할 수 있다. AI 서비스 사업자 입장에서는 HBM 같은 고가 메모리 의존도를 낮추는 효과가 있고, 모델 설계자 입장에서는 더 큰 문맥창을 보다 현실적인 비용으로 구현할 수 있는 여지가 생긴다.

딥시크는 V4의 단일 토큰 추론 FLOPs가 V3.2의 27% 수준이라고 설명했다. 다만 이 수치는 메모리 여건이 받쳐줄 때 비로소 실효성을 갖는다. 연산량이 줄어도 메모리 병목이 그대로라면 실제 체감 성능 개선은 제한될 수 있다. 결국 V4의 강점은 연산 절감과 캐시 절감을 동시에 겨냥했다는 데 있다.

물론 대가도 있다. 캐시를 공격적으로 줄인만큼 정보 손실 위험을 동반할 수 있다. 긴 문맥 안에 숨어 있는 특정 정보를 놓치는 이른바 니들 인 어 헤이스택 실패 가능성이 높아질 수 있다. 다만, 메모리 절감이 곧바로 품질 향상으로 이어지는 것은 아니다. 효율과 정확도 사이의 균형이 실제 경쟁력을 가르는 기준이 될 가능성이 크다.

AI 인프라 경쟁은 지금까지 더 많은 GPU와 더 많은 HBM 확보에 집중돼 왔다. 그 결과 D램과 SSD, 범용 메모리 시장까지 가격 압박이 번졌다. 딥시크 V4 같은 접근은 흐름에 다른 답이 된다. 하드웨어를 무한정 늘리는 대신, 소프트웨어와 아키텍처 수준에서 메모리 부담을 줄이면 전체 인프라 비용 구조도 달라질 수 있다.

결국 딥시크 V4는 중국 AI 업계의 경쟁 방식이 어디에 초점을 맞추고 있는지와 밀접하다. 초대형 모델의 절대 성능보다, 제한된 자원 안에서 얼마나 효율적으로 긴 문맥과 추론 수요를 처리하느냐가 더 중요한 싸움이 되고 있다는 점이다. 오픈AI와의 경쟁도 이제 모델 크기만으로 설명하기 어려워졌다. 메모리 효율과 운영비, 문맥 처리 능력을 함께 끌어올리는 구조적 최적화가 다음 단계의 승부처가 되고 있다.

실시간 키워드

2022.08.01 00:00 기준

실시간 키워드