[포인트경제] 네이버클라우드는 국내 최초 AI 데이터센터 ‘각 세종’에서 GPU 운영 효율을 극대화하고 AI 인프라를 자체 설계·운영하는 기술 역량을 공개했다. 네이버클라우드는 글로벌 수준의 GPU 운영 내재화 역량을 바탕으로 산업 전반의 AI 활용을 확대한다는 계획이다.
네이버클라우드 이상준 CIO가 발표를 하고 있다.
이상준 네이버클라우드 CIO는 AI 인프라 경쟁력은 GPU 확보량을 넘어 확보한 자원을 안정적이고 효율적으로 운영하는 데 달려 있다고 밝혔다. 네이버클라우드는 GPU 확보와 운영 기술 내재화의 균형을 통해 AI 인프라 경쟁력을 완성하고 있다.
네이버는 2019년 엔비디아 슈퍼컴퓨팅 인프라인 ‘슈퍼팟(SuperPod)’을 세계에서 가장 빠르게 상용화한 기업으로, 초고성능 GPU 클러스터를 직접 설계·운영한 경험을 보유하고 있다. 이 경험을 바탕으로 ‘각 세종’에서 대규모 GPU 클러스터를 직접 설계·운영하며 냉각·전력·네트워크 등 데이터센터 핵심 인프라를 자체 설계하고 AI 워크로드에 최적화하는 기술을 내재화했다.
이상준 CIO는 네이버 데이터센터가 AI 워크로드 전체를 통합적으로 제어할 수 있는 풀스택 AI 인프라라고 설명했다. 인프라를 하나의 시스템으로 통합 설계·운영하는 역량은 국내뿐 아니라 글로벌에서도 손꼽힌다.
네이버클라우드 노상민 데이터센터 통합센터장이 발표를 하고 있다.
‘각 세종’은 기존 IDC가 수행하던 저장·처리 기능을 넘어 AI 학습과 추론이 동시에 이뤄지는 고밀도 GPU 연산 공간으로 설계됐다. 전력과 냉각 효율, 무정지 운영을 모두 고려해 AI 인프라가 24시간 안정적으로 작동할 수 있는 환경을 구축했다.
AI 연산 집중에 따른 발열 관리를 위해 ‘각 세종’은 ‘각 춘천’ 운영에서 축적한 실데이터와 열환경 분석을 바탕으로 직접외기·간접외기·냉수를 병행하는 하이브리드 냉각 시스템을 적용했다. 계절별로 냉각 방식을 자동 전환해 겨울에는 외부 찬 공기로 직접 냉각하고, 간절기와 여름에는 간접외기와 냉수를 병행해 GPU 밀도가 높아도 안정적인 열 제어와 높은 에너지 효율을 유지한다.
네이버클라우드는 액침냉각 컨테이너 인프라를 구축해 냉각 용액의 안정성, 에너지 효율, 운영 안정성을 검증 중이다. 고전력·고밀도 환경에 대응하는 차세대 냉각 기술 로드맵을 구체화했으며, 수냉식 서버 냉각 관련 자체 특허도 출원 완료했다.
‘각 세종’은 장애 상황에서도 서비스가 멈추지 않도록 전력과 냉각, 서버 운용 체계를 완전히 분리하면서도 유기적으로 통합한 이중화 구조(Active–Active Architecture)로 설계됐다. GPU 서버의 고전력 특성에 맞게 UPS(무정전 전원 장치)와 배전 설비를 재배치해 장애 전파를 구조적으로 차단했다. 이 구조가 ‘각 세종’의 24시간 안정적 운영의 핵심 기반이다.
네이버는 수십만 대 서버 운영 경험을 바탕으로 장애 상황에서도 흔들리지 않는 표준화된 인프라 구조와 자동화된 운영 체계를 구축했다. 모든 서버는 도입 전 성능·전력 효율·운용성을 검증해 표준 사양으로 구성하며, GPU 등 고성능 자원은 실시간 상태 감시와 자동 복구 기능을 통해 장애 발생 시에도 안정적인 서비스 연속성을 유지한다.
GPU 클러스터 운영에는 자원 관리·배치·복구를 자동화하는 기술이 적용돼 대규모 환경에서도 일관된 효율과 안정성을 유지한다. 반복적인 장애 대응이나 자원 조정 작업 상당 부분도 시스템이 자동 처리하도록 설계됐다. 네이버는 이 운영 기술을 GPU뿐 아니라 데이터센터 전반 인프라 관리 영역으로 확장해 복잡한 AI 워크로드 환경에서도 예측 가능한 인프라 운영을 실현하고 있다. 향후 AI 기술을 활용해 운영 효율을 지속적으로 고도화할 계획이다.
네이버 AI 플랫폼은 모델 개발부터 학습, 추론, 서빙까지 AI 전 과정을 하나로 연결하는 통합 운영 체계로 작동한다. 하이퍼클로바(HyperCLOVA)의 학습과 운영이 모두 이 플랫폼 위에서 이루어지며 GPU 자원 배분, 모델 관리, 스케줄링을 효율적으로 통제한다.
개발자는 인프라 제약 없이 학습·실험을 진행할 수 있고, 운영자는 GPU 사용 현황과 전력 효율을 실시간 모니터링·분석하며 최적화 요소를 적용할 수 있다. 네이버 AI 플랫폼은 단순 실행 환경이 아닌 AI 개발과 운영이 통합된 ‘AI 인프라의 두뇌’ 역할을 한다.
네이버클라우드는 내부에 축적한 기술과 운영 역량을 기반으로 GPUaaS(GPU as a Service) 모델을 통해 국내 주요 기업에 AI 인프라 서비스를 제공하고 있다. 이미 여러 산업 현장에서 활용되고 있다.
이상준 CIO는 네이버클라우드가 축적한 AI 인프라 운영 역량을 GPUaaS 모델로 발전시켜 국내 기업들이 손쉽게 AI를 활용할 수 있는 생태계를 조성할 것이라고 밝혔다. 이를 통해 AI 인프라가 특정 기업 자산을 넘어 산업 전반의 성장 기반이 될 수 있도록 하겠다고 말했다.
Copyright ⓒ 포인트경제 무단 전재 및 재배포 금지
본 콘텐츠는 뉴스픽 파트너스에서 공유된 콘텐츠입니다.