노타, GPU·NPU 동시 활용 AI 추론 구현…"AI PC 전력효율 개선"

[이데일리 박정수 기자] 인공지능(AI) 모델 경량화 및 최적화 기술 기업 노타(486990)가 AI PC 환경에서 GPU와 NPU를 함께 활용하는 이기종 컴퓨팅 기반 대규모언어모델(LLM) 추론 최적화 기술을 구현했다고 4일 밝혔다.

이기종 컴퓨팅은 CPU, GPU, NPU 등 서로 다른 특성을 가진 프로세서가 각자 강점을 살려 연산을 분담하는 방식이다. AI PC에서는 단일 칩의 성능보다 다양한 연산 장치를 얼마나 효율적으로 활용하느냐가 실제 성능을 좌우하는 핵심 요소로 꼽힌다.

노타는 인텔 루나 레이크 기반 AI PC에서 LLM 구동 과정을 입력 처리 단계와 답변 생성 단계로 나눠 각각 최적의 연산 장치를 배치하는 ‘분리형 추론(Disaggregated Inference)’ 기술을 적용했다. 이에 따라 입력 처리 연산은 GPU가 담당하고 답변 생성은 NPU가 수행하도록 설계했다.

성능 평가 결과 분리형 추론 방식은 단일 GPU 방식 대비 토큰당 에너지 소비를 약 32% 줄였으며 생성 처리량은 약 12% 향상됐다. 또한 단일 NPU 방식과 비교하면 첫 응답 지연시간을 약 89% 단축한 것으로 나타났다.

회사는 이번 기술의 핵심이 GPU와 NPU를 단순히 병렬 활용하는 것이 아니라 AI 모델의 작업 특성에 맞춰 연산을 최적 배치한 데 있다고 설명했다. 동일한 AI PC에서도 하드웨어 활용 방식에 따라 사용자 경험이 달라질 수 있다는 의미다.

최근 글로벌 AI 업계에서도 이기종 컴퓨팅과 분리형 추론 기술 도입이 확대되고 있다. 컴퓨텍스 2026에서는 인텔과 엔비디아 등 주요 기업들이 CPU·GPU·NPU를 결합한 AI PC를 공개했으며, 데이터센터 분야에서도 엔비디아와 아마존웹서비스(AWS) 등이 AI 연산을 단계별로 분리하는 구조를 적용하고 있다.

노타는 이번 기술 구현을 통해 AI 모델 경량화뿐 아니라 실행 환경과 하드웨어 활용까지 최적화하는 역량을 입증했다고 강조했다. 특히 제한된 전력과 연산 자원 안에서 AI를 구동해야 하는 온디바이스 AI 환경에서 차별화된 경쟁력이 될 것으로 기대하고 있다.

채명수 노타 대표는 “AI PC 시대에는 단순히 AI 모델을 기기에 탑재하는 것을 넘어 GPU와 NPU 등 다양한 연산 장치를 모델 특성에 맞게 조합하는 최적화 역량이 중요하다”며 “모델 경량화와 런타임 최적화, 하드웨어 최적화 기술을 결합해 온디바이스 AI 실행 효율을 지속적으로 높여 나가겠다”고 말했다.

노타의 분리형 추론(Disaggregated Inference)을 적용한 AI PC에서 동일한 LLM에 같은 입력을 준 실행 화면. 왼쪽 노타 분리형 추론(GPU+NPU)이 응답을 완료한 반면, 단일 NPU·단일 GPU는 아직 생성 중이다.(사진=노타)

실시간 키워드

2022.08.01 00:00 기준

실시간 키워드