노타, '1000억 파라미터' LLM 메모리 사용량 72%↓…"현존 양자화 수준 압도 독자 기술 개발"

[프라임경제] 인공지능(AI) 경량화 및 최적화 기술 기업 노타(486990)가 업스테이지의 고성능 대형언어모델(이하 LLM)인 '솔라'의 모델 크기를 대폭 압축해 추론 비용을 절감하고 처리 속도를 높이면서도 높은 정확도를 유지하는 차세대 양자화 기술을 개발했다고 5일 밝혔다.

이번 개발은 과학기술정보통신부가 주도하는 '독자 AI 파운데이션 모델 프로젝트'의 일환으로, 업스테이지의 '솔라 오픈 100B'에 노타의 경량화·최적화 기술을 적용해 성능은 유지하고 메모리 효율을 크게 개선한 결과다.

이번 성과로 100B 규모 초대형 모델 솔라의 메모리 사용량을 대폭 낮추면서도 성능은 유지해, 모빌리티·로봇 등 피지컬 AI 환경에서 한국형 AI 파운데이션 모델을 보다 원활하게 활용할 수 있는 여건이 마련됐다.

이번 기술은 특히 차세대 LLM 구조로 대중화되고 있는 'MoE(Mixture of Experts, 전문가 혼합 구조)'의 기술적 난제를 해결하는데 초점을 맞췄다. 기존에는 이러한 전문가 모델별 특성을 고려하지 않고 모델 전체를 일괄적으로 압축하는 양자화 기법이 주를 이뤄왔다.

노타는 이러한 한계를 극복하기 위해 MoE 구조에 최적화된 독자 알고리즘인 '노타 MoE 양자화(Nota MoE Quantization) 방법론'을 개발했다. 해당 기법은 MoE 모델의 추론 과정에서 발생하는 양자화 왜곡을 최소화하도록 설계됐다.

즉, 모든 연산을 동일하게 줄이는 기존 방식과 달리 필요한 부분은 정밀도를 유지하고 덜 중요한 부분만 압축해 성능 손실을 최소화하면서 경량화를 구현한 것이 차별점이다.

노타의 기술을 적용한 결과, 100B(1천억개) 파라미터를 가진 솔라에서 범용 양자화 기법 대비 유의미한 성과를 보였다. 기존 191.2GB에 달하던 솔라의 메모리 사용량을 51.9GB까지 줄이는 데 성공했다. 이는 약 72.8%의 메모리 절감 수치다.

성능지표인 PPL(Perplexity, 숫자가 낮을수록 성능은 더 향상됨) 역시 6.81을 기록하며 원본 모델(6.06)과 유사한 수준을 유지했다. 일부 범용 양자화 기법의 경우 성능이 5배 이상 저하된 것과 달리 성능 손실을 최소화하면서 메모리 효율을 크게 개선한 결과다.

노타는 해당 기술에 대해 특허를 출원해 기술 경쟁력도 강화했다.

일반적인 양자화 기술이 메모리 절감을 위해 성능 저하를 감수해야 했다면, 노타의 성과는 성능을 유지하면서도 적은 GPU 인프라에서 더 많은 사용자에게 빠른 AI 서비스를 제공할 수 있음을 보여준다. 이를 통해 기업들은 기존에는 탑재가 어려웠던 대용량 LLM도 자사 디바이스에 보다 손쉽게 구현할 수 있게 됐다.

특히 솔라 100B의 메모리 사용량을 대폭 줄이면서도 성능을 유지한 이번 결과는 로봇이나 자동차 등 실제 온디바이스 AI 환경에서도 고성능 AI를 안정적으로 구현할 수 있는 기반을 마련했다는 점에서 의미가 크다.

또한 이번 성과는 고사양 GPU 인프라 확보에 어려움을 겪는 기업들이 동일한 하드웨어로 더 많은 사용자에게 신속한 AI 서비스를 제공할 수 있도록 해 운영 비용 절감에 직접적으로 기여할 수 있다.

채명수 노타 대표는 "이번 성과는 한국형 AI 파운데이션 모델인 솔라 100B에 노타만의 양자화 기법을 적용해 메모리를 대폭 줄이면서도 성능을 유지했다는 점에서 의미가 크다"며 "디바이스에 대규모 모델을 구현해야 하는 수요가 커질수록, 노타의 경량화·최적화 기술이 고성능 AI를 실현하는 핵심적인 역할을 해나갈 것"이라고 말했다.

실시간 키워드

2022.08.01 00:00 기준

실시간 키워드