알퍼 일크바하르(Alper Ilkbahar), 샌디스크 CTO
인공지능(AI)은 컴퓨팅 환경 전반으로 빠르게 확산되고 있다. 현재 AI 워크로드를 처리할 수 있는 데이터센터는 전체의 약 7분의 1에 불과하지만, 2030년에는 그 비중이 약 70%에 이를 것으로 예상된다¹. AI는 하이퍼스케일 데이터센터를 넘어 엔터프라이즈 데이터센터와 네트워크 엣지로 확장되고 있으며, 엣지 AI 애플리케이션은 이번 10년이 끝나기 전 약 665억 달러 규모의 매출을 창출할 것으로 전망된다.
AI 인프라의 확산은 데이터 처리와 메모리 구조에 대한 요구를 빠르게 바꾸고 있다. 모델 규모가 커지고 추론 워크로드가 증가하면서, 데이터센터와 엣지 환경은 더 많은 데이터를 더 빠르게 공급할 수 있는 메모리 체계를 필요로 한다. 그러나 데이터 규모가 폭발적으로 증가하면서 기존 스토리지와 메모리 구조의 한계도 더욱 분명해지고 있다.
데이터센터에서 사용되는 DRAM과 HBM으로 알려진 고대역폭 메모리는 그동안 고성능 컴퓨팅의 핵심 역할을 해왔다. 하지만 대규모 AI 모델이 요구하는 집적도, 저장 용량, 확장성을 계속 충족하기에는 부담이 커지고 있다. 동시에 하이퍼스케일 컴퓨팅 기업들은 DRAM과 HBM의 생산 비용 증가, 설계 복잡성, 전력 소비 확대라는 과제에 직면해 있다. 특히 물리적 공간과 전력 여유가 제한적인 엔터프라이즈 데이터센터와 엣지 AI 환경에서는 이러한 부담이 더욱 크게 작용한다.
AI 추론(inference)의 부상도 기존 메모리 구조의 한계를 드러내는 요인이다. 추론은 AI 학습(training)과 다른 데이터 관리 방식을 요구한다. 점점 더 커지는 AI 모델을 저장하고 실행해야 하지만, 기존 HBM과 DRAM 기반 메모리는 용량과 비용 효율성 측면에서 새로운 요구를 충분히 충족하기 어렵다. AI 추론에 최적화된 새로운 메모리 기술이 필요한 이유다.
AI 추론 시대, 기존 메모리 구조의 한계
DRAM과 HBM이 장기적인 AI 활용에 최적화되어 있지 않은 이유는 구조적 한계에서 찾을 수 있다³. 지금은 일부 제약처럼 보일 수 있지만, 이를 해결하지 못하면 차세대 AI 중심 스토리지와 메모리 인프라의 기반이 흔들릴 수 있다.
먼저 DRAM은 집적도 측면에서 한계를 보이고 있다. DRAM의 용량 확장은 점차 정체되는 반면, AI 추론을 위한 대용량 메모리 수요는 계속 증가하고 있다³. 모델 규모가 커지고 처리해야 할 데이터가 늘어날수록 메모리는 더 높은 용량과 밀도를 제공해야 하지만, 기존 구조만으로는 이를 충족하기 어렵다.
AI 추론 워크로드와의 적합성도 문제다. DRAM의 강점은 낮은 지연 시간과 랜덤 액세스 성능에 있다. 그러나 AI 추론에서는 데이터 프리패칭과 같은 기법을 통해 데이터 접근 패턴이 비교적 예측 가능해지고, 지연 시간에 대한 허용 범위도 상대적으로 넓어진다³. 다시 말해 DRAM이 제공하는 일부 장점은 AI 추론 환경에서 반드시 결정적인 요소가 아닐 수 있다.
이러한 구조적 균열은 1,200억 달러 규모의 DRAM 산업 전반에 걸쳐 나타나고 있다. 동시에 하이퍼스케일 사업자의 AI 인프라 지출은 이번 10년이 지나기 전 6조 7천억 달러에 이를 수 있다는 전망도 나온다. AI 인프라 투자가 빠르게 확대되는 상황에서 기존 메모리 구조만으로는 미래 수요에 충분히 대응하기 어렵다.
이제는 기존 방식을 보완하는 수준을 넘어, AI 추론의 요구에 맞춘 새로운 메모리를 설계해야 할 시점이다. AI에 최적화된 스토리지 클래스 메모리는 대용량과 확장성을 갖춰야 하며, 높은 메모리 집적도(GB/mm²)를 제공해야 한다. 동시에 AI 추론에 필요한 높은 대역폭을 지원하면서도 시스템 전력 소비를 낮추고, TB당 비용 기준으로도 효율적인 구조를 갖춰야 한다.
고대역폭 플래시 메모리가 제시하는 새로운 방향
고대역폭 플래시 메모리(HBF)는 차세대 AI 컴퓨팅을 위해 설계된 새로운 메모리 아키텍처다. HBF는 고성능 컴퓨팅과 데이터 집약적 애플리케이션이 요구하는 용량, 전력 효율, 처리량, 확장성을 충족하도록 개발됐다.
HBM과 비교했을 때 HBF는 AI 추론 트렌드에 더 적합한 특성을 제공한다. 유사한 수준의 대역폭을 유지하면서도 더 높은 용량과 메모리 집적도를 제공할 수 있기 때문이다. 또한 HBF는 비휘발성 저장 매체로서 전원이 꺼진 뒤에도 데이터를 유지하며, 온도 안정성이 높아 높은 동작 온도에서도 활용할 수 있다.
이러한 특성을 구현하기 위해 HBF는 샌디스크의 BiCS NAND 설계 및 제조 기술과 다이 아키텍처를 기반으로 한다. 기존 NAND 플래시를 고대역폭과 AI 추론 메모리의 요구에 맞게 재설계한 것이다. 특히 BiCS CBA(CMOS Bonded Array) 웨이퍼 기술은 에너지 효율성과 대역폭을 높이는 데 기여한다.
HBF는 기존 NAND 플래시와 비교해 병렬 처리, 고도화된 로직 미세화, 맞춤형 적층 기술을 통해 지연 시간을 줄이고 읽기 대역폭을 크게 향상시킨다. 이를 통해 대형 언어 모델은 DRAM에 근접한 속도로 데이터를 처리할 수 있다.
또한 HBF는 대규모 KV 캐시를 지원한다. 이는 길고 복잡한 사용자 프롬프트는 물론, 고객별·도메인별 특화 데이터를 효율적으로 처리하는 데 중요하다. 대규모 KV 캐시를 활용하면 AI 추론 과정에서 더 많은 맥락을 유지할 수 있고, 이는 추론 정확도 향상에도 기여할 수 있다.
HBF의 활용 가능성은 데이터센터에만 머물지 않는다. HBM은 밀도, 비용, 전력 측면의 제약으로 인해 엣지와 모바일 환경에서 폭넓게 사용되기 어렵다. 반면 HBF는 보다 복잡한 AI 추론 문제를 처리하는 데 필요한 대용량 메모리 수요를 충족할 수 있다. 이는 스마트폰과 같은 엣지 디바이스가 실시간으로 의사결정을 수행하고, 더 고도화된 작업을 처리할 수 있는 가능성을 열어준다. HBF의 비휘발성 메모리 특성은 이전 질의의 컨텍스트를 자연스럽게 재활용하는 데도 유리하다.
엔터프라이즈 컴퓨팅 환경에서도 HBF의 장점은 분명하다. 엔터프라이즈 데이터센터는 하이퍼스케일 데이터센터에 비해 운영 규모가 작기 때문에, HBM 기반 대규모 GPU 클러스터를 구축하고 운영하는 데 큰 비용 부담을 느낄 수밖에 없다. HBF 기반 가속기를 활용하면 중소 규모 엔터프라이즈도 도메인 특화 목적의 대규모 사전 학습 모델을 미세 조정하고 활용할 수 있다.
데이터센터와 엣지 AI 디바이스는 이미 다양한 영역에서 자율적으로 작동하며, 일상적인 정보 처리부터 과학적 발견에 이르기까지 폭넓은 작업을 지원하고 있다. 웹사이트 호스팅과 엔터프라이즈 데이터 관리처럼 기존에 일반적이던 워크로드도 머신러닝, 딥러닝, 데이터 분석을 기반으로 실행 가능한 인사이트를 생성하는 지능형 워크로드로 전환되고 있다.
이러한 변화에 대응하려면 대규모 추론 모델을 관리하는 방식과 함께 데이터센터 및 엣지 메모리 구조도 재검토해야 한다. HBF는 HBM 대비 용량 측면에서 뚜렷한 우위를 제공하면서도, AI 추론에 필요한 높은 처리량을 충족한다⁶. 확장 가능한 차세대 시스템 메모리로서 HBF는 성능 병목을 줄이고, 최신 데이터센터와 엣지 네트워크 환경에서 AI 애플리케이션이 인사이트를 더 빠르게 도출하도록 지원할 수 있다.
본 콘텐츠는 뉴스픽 파트너스에서 공유된 콘텐츠입니다.