모레는 텐스토렌트의 ‘갤럭시 웜홀(Galaxy Wormhole)’ 시스템에 자사 ‘MoAI 추론 프레임워크’를 적용한 결과, 대형언어모델(LLM) 추론에서 엔비디아의 DGX A100급 이상의 성능을 달성했다고 밝혔다. 해당 성과는 5월 1일(현지 시각) 미국 샌프란시스코에서 열린 신제품 발표 행사 ‘TT-Deploy’에서 공개됐다.
|
◇캐나다 AI 반도체 기업 텐스토렌트…오픈형 구조로 차별화
텐스토렌트는 캐나다 토론토에 본사를 둔 AI 반도체 기업으로, 반도체 설계 전문가 Jim Keller가 이끌고 있다. 미국 실리콘밸리에도 거점을 둔 북미 기반 기업으로, GPU 중심의 폐쇄형 생태계에서 벗어난 ‘오픈형 AI 하드웨어’를 지향한다.
자체 NPU(신경망처리장치)와 개방형 소프트웨어 스택을 기반으로 다양한 AI 가속기를 유연하게 결합할 수 있는 구조를 갖춘 것이 특징이다.
◇엔비디아 vs 텐스토렌트…‘통합형 vs 분산형’ 구조 경쟁
현재 AI 인프라 시장은 엔비디아의 GPU 기반 통합형 구조가 주도하고 있다. DGX와 같은 시스템은 하드웨어와 소프트웨어가 긴밀히 결합된 형태로 높은 성능과 안정성을 제공하지만, 고가의 GPU와 HBM(고대역폭메모리)에 대한 의존도가 높다는 한계가 있다.
반면 텐스토렌트는 역할을 나눠 처리하는 분산형 아키텍처를 채택한다. 입력 처리(prefill)와 추론(decode)을 분리하고, 다양한 칩을 조합하는 방식으로 인프라를 구성할 수 있다. 이를 통해 특정 벤더에 대한 종속을 낮추고 비용 효율성을 높일 수 있다는 점에서 차별화된다.
|
◇최신 MoE 모델 기준 성능 검증…GPU 대체 가능성 부각
모레는 GPT-OSS, 큐웬, GLM, 딥시크 등 최신 MoE(Mixture of Experts) 모델을 기준으로 테스트를 진행했으며, 텐스토렌트 갤럭시 웜홀 시스템에서 기존 GPU 기반 인프라와 동등하거나 그 이상의 추론 성능을 확인했다.
이는 고가 GPU 중심으로 구축돼 온 AI 인프라 시장에서 실질적인 대체 가능성을 보여준 사례로 평가된다.
모레는 GPU와 텐스토렌트 칩을 결합한 ‘이종 분산 서빙(Disaggregated Serving)’ 구조를 적용해 비용 효율성을 크게 개선했다.
텐스토렌트 칩을 입력 처리 전용 가속기로 활용함으로써 HBM 사용량을 줄이고, 전체 인프라 비용을 낮췄다는 설명이다.
|
◇멀티 벤더 전략 현실화…AI 인프라 유연성 확대
모레의 ‘MoAI 추론 프레임워크’는 엔비디아, AMD, 텐스토렌트 등 다양한 GPU·NPU를 하나의 클러스터에서 통합 운용할 수 있는 구조를 제공한다.
이를 통해 기업들은 특정 벤더에 종속되지 않고, 성능과 비용을 고려한 최적의 인프라를 설계할 수 있게 된다.
모레는 이번 행사에서 ‘텐스토렌트 갤럭시 기반 프로덕션급 LLM 추론’ 기술을 시연하며 실제 서비스 환경에서도 적용 가능한 수준의 안정성과 성능을 확보했음을 강조했다.
조강원 모레 대표는 “텐스토렌트 기반 시스템에서도 실제 서비스에 적용 가능한 성능과 안정성을 확인했다”며 “이종 GPU 간 KV 캐시 전송 효율화, 분리 추론 최적화 등을 통해 지속적인 성능 고도화를 추진할 것”이라고 밝혔다.
모레는 AI 인프라 핵심 엔진을 자체 개발하고 있으며, 자회사 모티프테크놀로지스를 통해 모델 영역까지 기술 역량을 확장하고 있다. 글로벌 파트너십을 기반으로 AI 인프라 시장에서 영향력을 확대해 나간다는 전략이다.
Copyright ⓒ 이데일리 무단 전재 및 재배포 금지
본 콘텐츠는 뉴스픽 파트너스에서 공유된 콘텐츠입니다.


