| 한스경제=박정현 기자 | SK텔레콤 정예팀이 매개변수 5190억 개(519B) 규모의 초거대 인공지능(AI) 모델 ‘에이닷엑스 케이원(A.X K1)’ 기술 보고서를 오픈소스 플랫폼 허깅페이스에 공개했다고 7일 밝혔다.
A.X K1은 약 4개월의 짧은 개발 기간과 제한된 그래픽처리장치(GPU) 자원 속에서도 효율성을 극대화한 설계를 통해 완성된 국내 최초 500B 이상 초거대 AI 모델이다. SKT 관계자는 "A.X.K1은 주요 벤치마크에서 글로벌 오픈소스 초거대 모델인 ‘딥시크-V3.1’ 등과 유사하거나 이를 상회하는 성능을 기록해 주목받고 있다"고 설명했다.
통상 매개변수가 커질수록 최적화 시간과 GPU 투입량이 급증하지만 A.X K1은 타 정예팀 대비 최소 2배 이상의 모델 규모에도 불구하고 높은 성능을 확보했다. SKT는 향후 추가 연구를 통해 컴퓨팅 자원과 데이터를 확대 투입하고 연내 멀티모달 기능을 추가한 뒤 조 단위 파라미터 모델로 확장할 계획이다.
정예팀은 약 1000개의 GPU를 활용해 학습을 진행했다. 학습 기간과 GPU 규모를 바탕으로 가능한 총 학습량을 산정하고 모델 성능은 투입 자원에 비례한다는 스케일링 이론에 근거해 519B 규모의 모델 구조를 설계했다. 학습에는 약 10조개의 데이터가 투입됐으며 개발 전 과정에서 정부 지원 없이 자체 GPU 조달만으로 목표를 달성했다는 점도 특징이다.
모델 학습에는 웹 데이터와 코드, 이공계(STEM) 데이터, 추론 데이터 등 고품질 데이터가 활용됐다. 한국어 특화 PDF 문서를 파싱하고 합성 데이터를 생성했으며 난이도별 커리큘럼 학습 방식도 적용했다.
성능 측면에서도 경쟁력을 입증했다. 수학 능력을 평가하는 AIME25 벤치마크에서 89.8점을 기록해 딥시크-V3.1(88.4점)을 웃돌았다. 실시간 코딩 문제 해결 능력을 평가하는 LiveCodeBench에서는 영어 기반 75.8점, 한국어 기반 73.1점을 받아 딥시크-V3.1 대비 각각 109%, 110% 수준의 성능을 보였다.
A.X K1은 519B 파라미터 중 33B만 선택적으로 활성화하는 전문가 혼합(MoE) 구조를 채택해 학습 안정성과 효율을 동시에 확보했다. 또한 최대 128K 토큰의 긴 문맥을 처리할 수 있어 소설책이나 기업 연간보고서 한 권 분량을 한 번에 분석할 수 있다.
Copyright ⓒ 한스경제 무단 전재 및 재배포 금지
본 콘텐츠는 뉴스픽 파트너스에서 공유된 콘텐츠입니다.