| 서울=한스경제 김종효 기자 | 노타는 AI PC 환경에서 GPU와 NPU를 함께 활용하는 이기종 컴퓨팅 기반 LLM 추론 최적화 기술을 선보였다고 4일 밝혔다.
노타는 인텔 루나 레이크 기반 AI PC에서 입력 처리와 답변 생성 단계를 분리해 각 연산을 GPU와 NPU에 각각 배치하는 분리형 추론 방식을 적용했다.
이 방식으로 노타는 단일 GPU 실행 대비 토큰당 에너지 소비를 32% 줄이고 생성 처리량을 12% 높였다. 단일 NPU 실행 대비 첫 응답 지연은 89% 감소했다.
노타는 AI 모델의 작업 특성을 분석해 각 연산을 적합한 장치에 배치함으로써, 같은 AI PC에서도 하드웨어 활용에 따라 사용자 경험이 달라질 수 있음을 확인했다.
글로벌 AI 업계에서도 이기종 컴퓨팅 흐름이 확산되고 있다. 최근 대만에서 열린 컴퓨텍스 2026에서 주요 기업들이 CPU·GPU·NPU를 결합한 AI PC를 공개했다. 데이터센터에서도 분리형 추론 방식이 도입되고 있다.
노타는 모델 경량화와 AI 실행 과정, 하드웨어 활용 방식까지 최적화해 시스템 전체의 효율을 높이는 기술 역량을 입증했다. 이는 제한된 전력과 연산 자원 환경에서 온디바이스 AI 사용자 경험을 좌우하는 핵심 기술로 평가된다.
채명수 노타 대표는 "AI PC 시대에는 다양한 연산 장치를 모델 특성에 맞게 조합하는 최적화 역량이 실제 AI 경험을 좌우한다"며 "노타는 모델 경량화, 런타임 최적화, 하드웨어 최적화 기술을 결합해 AI PC의 온디바이스 AI 실행 효율을 높여 나가겠다"고 말했다.
이번 성능 평가는 Intel Lunar Lake 기반 AI PC, MoE LLM, context window size 512 조건에서 진행됐다. 실제 성능은 모델, 입력 길이, 시스템 구성, 메모리 조건 등에 따라 달라질 수 있다.
Copyright ⓒ 한스경제 무단 전재 및 재배포 금지
본 콘텐츠는 뉴스픽 파트너스에서 공유된 콘텐츠입니다.