엔비디아, AI 추론 최적화 오픈소스 ‘다이나모’ 공개, 딥시크-R1 구동시 토큰 생성 30배 증가

엔비디아, AI 가속화와 확장 위한 ‘다이나모’ 오픈소스 라이브러리 추론 모델 발표

[엠투데이 이정근기자] 엔비디아(NVIDIA)가 미국 새너제이에서 열린 GTC에서 오픈소스 AI 추론 소프트웨어 ‘엔비디아 다이나모(NVIDIA Dynamo)’ 를 공개했다. 이를 통해 AI 팩토리는 추론 모델을 최저 비용, 최고 효율로 가속하고 확장할 수 있게 된다.

AI 추론이 보편화됨에 따라 대규모 GPU 플릿에서 효율적인 작업 조정이 필수적이다. 엔비디아 다이나모는 AI 모델의 토큰 생성 속도를 높이고 비용을 절감 하도록 설계돼, AI 서비스 제공업체들이 더 높은 수익을 창출할 수 있도록 돕는다.

GPU 활용 최적화, AI 추론 성능 극대화

엔비디아 다이나모는 기존 트리톤 추론 서버(Triton Inference Server™) 의 후속 제품으로, 대형 언어 모델(LLM)의 추론을 최적화하는 기능을 제공한다. 특히, 분리 서빙 방식(disaggregated serving) 을 통해 모델의 처리 및 생성 단계를 서로 다른 GPU에서 독립적으로 실행 할 수 있도록 설계됐다.

이를 통해 AI 팩토리는 수천 개의 GPU에서 병목 현상을 최소화 하며, 각 단계별 최적화를 통해 리소스 활용도를 극대화할 수 있다.

젠슨 황 엔비디아 CEO는 “AI 모델의 추론 방식이 점점 정교해짐에 따라, 대규모 AI 서빙이 필수적이다. 엔비디아 다이나모는 이를 지원해 AI 팩토리 전반의 비용을 절감하고 효율성을 높일 것”이라고 말했다.

다이나모, AI 모델 성능 30배 향상

다이나모는 AI 팩토리의 성능과 수익을 두 배로 증가 시킬 수 있으며, GB200 NVL72 랙 기반 클러스터에서 딥시크(DeepSeek)-R1 모델을 구동할 경우, GPU당 토큰 생성 수가 30배 이상 증가 한다.

이외에도 다이나모는 GPU 리소스를 동적으로 조정해, 요청 유형과 양에 따라 GPU를 추가·제거·재할당 가능, 대형 클러스터에서 특정 GPU를 정확히 찾아내 응답 최적화, AI 추론 데이터를 저렴한 메모리·저장장치로 오프로드 해 비용 절감이 가능하다.

완전한 오픈소스로 제공, 주요 클라우드 서비스 도입 예정

엔비디아 다이나모는 파이토치(PyTorch), SG랭(SGLang), 텐서RT™-LLM, vLLM 을 지원하며, 기업·스타트업·연구자들이 분산된 AI 추론 환경에서 모델을 최적화할 수 있도록 돕는다.

또한, 다이나모는 다음과 같은 글로벌 클라우드 서비스 및 AI 기업들이 도입할 예정이다.

클라우드 서비스 분야에서는 AWS, 구글 클라우드, 마이크로소프트 애저, OCI가 도입할 예정이며, AI 기업 및 플랫폼으로는 메타, 코히어(Cohere), 코어위브(CoreWeave), 람다(Lambda), 퍼플렉시티(Perplexity), 투게더 AI(Together AI)등이 예정이다.

엔비디아, AI 팩토리의 표준 구축 가속화

엔비디아 다이나모는 AI 추론의 비용을 절감하면서도 성능을 극대화하는 솔루션으로, AI 팩토리 구축을 원하는 기업들에게 최적의 선택이 될 전망이다. 이번 발표를 통해 엔비디아는 AI 서빙 소프트웨어 시장에서도 표준을 주도하며 AI 컴퓨팅 생태계를 더욱 확장 할 것으로 보인다.

본 콘텐츠는 뉴스픽 파트너스에서 공유된 콘텐츠입니다.

다음 내용이 궁금하다면?

광고 보고 계속 읽기

원치 않을 경우 뒤로가기를 눌러주세요

실시간 키워드

2022.08.01 00:00 기준

실시간 키워드