중국 AI 스타트업 Z.ai가 초대형 언어모델 ‘GLM-4.7’을 공개하며 글로벌 생성형 AI 시장에 도전장을 던졌다. 회사 측은 GLM-4.7이 GPT-4급 성능을 제공하면서도 비용은 최대 80%까지 낮췄다고 밝혔다. AI 인프라 비용 부담이 커진 상황에서 가격과 개방성을 동시에 내세운 전략이다.
GLM-4.7은 총 3580억 개의 파라미터를 갖춘 대형 모델로, Mixture-of-Experts(MoE) 구조를 채택했다. 가장 눈에 띄는 부분은 최대 20만 토큰에 달하는 컨텍스트 윈도다. 대규모 코드베이스나 장문 문서를 한 번에 처리할 수 있도록 설계됐다는 설명이다.
Z.ai는 GLM-4.7의 전체 모델 가중치를 MIT 라이선스로 공개했다. 개발자는 허깅페이스(Hugging Face)를 통해 모델을 내려받아 로컬 환경에서 직접 실행할 수 있다. API 호출에 따른 지속적인 비용이 발생하지 않는 구조로, 상업적 활용에도 제약이 적다. 최근 폐쇄형 모델 위주의 시장 흐름과는 다른 선택이다.
성능 지표도 공개됐다. Z.ai에 따르면 두 달 전 진행된 비교 평가에서 이전 모델인 GLM-4.6은 코딩 과제에서 클로드 소넷 4와의 대결에서 48.6%의 승률을 기록했다. GLM-4.7은 수학 추론 벤치마크 AIME-25에서 93.9%, LiveCodeBench 코딩 테스트에서 82.8% 점수를 얻어 같은 항목에서 공개된 클로드 수치를 상회했다고 회사는 설명했다.
효율성도 강조됐다. GLM-4.7은 동일한 작업을 수행하는 데 이전 버전 대비 약 15% 적은 토큰을 사용한다. 토큰 사용량 감소는 곧바로 비용 절감으로 이어진다. 실제 요금 구조를 보면 GLM 코딩 플랜은 월 3달러부터 시작하며, API 사용 단가는 입력 토큰 기준 100만 개당 0.60달러, 출력 토큰은 2달러로 책정됐다. 클로드 계열 모델의 공개 요금과 비교하면 차이가 크다.
기능 측면에서 GLM-4.7은 코드 생성과 추론, 대규모 컨텍스트 처리, 에이전트 기반 작업 수행을 주요 타깃으로 삼았다. OpenAI 스타일의 툴 콜링을 지원해 외부 시스템 호출과 다단계 작업 계획이 가능하다. vLLM, SGLang, LMDeploy 등 주요 추론 엔진과의 연동도 지원한다.
접근 경로도 다양하다. 개발자는 Z.ai의 자체 API뿐 아니라 OpenRouter를 통해서도 모델을 사용할 수 있으며, 완전한 로컬 배포도 가능하다. 문제 난이도에 따라 ‘사고 모드’를 켜거나 끌 수 있는 설정도 제공된다.
다만 시장 반응은 신중하다. 공개된 벤치마크 결과는 회사 측 발표에 기반한 수치로, 장기적인 안정성과 실제 서비스 환경에서의 성능은 추가 검증이 필요하다. 초대형 모델을 로컬에서 운영하기 위해서는 여전히 높은 하드웨어 비용이 요구된다는 점도 현실적인 제약으로 꼽힌다.
그럼에도 GLM-4.7 공개는 중국 AI 업계가 가격, 개방성, 규모 세 측면에서 서구 중심 시장 구조에 정면으로 도전하고 있음을 보여준다. 고가 API 중심의 비즈니스 모델에 의존해 온 기존 질서에 균열을 낼 수 있을지, 글로벌 개발자 커뮤니티의 선택이 향후 흐름을 가를 전망이다.
Copyright ⓒ 스타트업엔 무단 전재 및 재배포 금지
본 콘텐츠는 뉴스픽 파트너스에서 공유된 콘텐츠입니다.