엔비디아가 이더넷 네트워킹 기술을 통해 일론 머스크의 인공지능 기업 xAI가 구축한 AI 슈퍼컴퓨터 ‘콜로서스’를 가속화하고 있다고 밝혔다.
xAI의 콜로서스 슈퍼컴퓨터 클러스터는 엔비디아 스펙트럼-X 이더넷 네트워킹 플랫폼을 사용해 10만 개의 호퍼 GPU로 구성된 대규모 시스템을 구현했다. 스펙트럼-X 플랫폼은 표준 기반 이더넷을 사용해 멀티 테넌트, 하이퍼스케일 AI 팩토리에 뛰어난 성능을 제공하도록 설계됐으며, 원격 직접 메모리 액세스(RDMA) 네트워크를 지원한다.
콜로서스는 세계에서 가장 큰 AI 슈퍼컴퓨터로, xAI의 그록(Grok) 거대 언어 모델(LLM) 제품군을 훈련하는 데 사용된다. 이 모델은 엑스 프리미엄 구독자를 위한 챗봇 기능을 제공하는 데도 활용된다. 현재 xAI는 콜로서스의 규모를 두 배로 늘려 총 20만 개의 엔비디아 호퍼 GPU로 구성하는 작업을 진행 중이다.
엔비디아와 xAI는 지원 시설과 슈퍼컴퓨터를 122일 만에 구축했다. 일반적으로 이 정도 규모의 시스템을 구축하는 데 수개월에서 수년이 걸리는 기간을 생각하면 빠른 속도이다. 그록 모델을 훈련하는 동안 콜로서스는 네트워크 패브릭의 세 계층 모두에서 플로우 충돌로 인한 애플리케이션 지연 시간 저하나 패킷 손실이 발생하지 않았다. 또한, 스펙트럼-X 혼잡 제어를 통해 95%의 데이터 처리량을 유지했다.
표준 이더넷으로는 이러한 수준의 성능을 달성할 수 없는데, 이는 데이터 처리량이 60%에 불과하면서 수천 건의 플로우 충돌을 일으키기 때문이다.
엔비디아 네트워킹 담당 수석 부사장인 길라드 샤이너는 “엔비디아 스펙트럼-X 이더넷 네트워킹 플랫폼은 xAI와 같은 혁신가들에게 AI 워크로드의 빠른 처리, 분석, 실행을 제공하고 결과적으로 AI 솔루션의 개발과 배포, 출시 시간을 단축할 수 있도록 설계됐다”고 말했다.
일론 머스크는 자신의 엑스 계정에서 “콜로서스는 세계에서 가장 강력한 훈련 시스템이다. xAI 팀과 엔비디아, 그리고 많은 파트너, 공급업체들이 훌륭한 작업을 했다”고 말했다.
Copyright ⓒ 경향게임스 무단 전재 및 재배포 금지