글로벌 현지화·언어 솔루션 기업 업템포글로벌이 인공지능(AI) 데이터 구축 사업을 빠르게 확대하고 있다. 생성형 AI 경쟁이 모델 개발에서 데이터 품질 경쟁으로 이동하면서 다국어 데이터 구축 역량을 앞세운 사업 확장에 속도를 내는 분위기다.
업템포글로벌은 최근 글로벌 기술기업 및 AI 데이터 전문 파트너사들과 협력을 확대하며 AI 학습·평가용 데이터 프로젝트를 연이어 수행하고 있다고 8일 밝혔다.
회사는 기존 번역·현지화 사업 중심 구조에서 벗어나 대형언어모델(LLM) 학습용 다국어 코퍼스 구축, 검색 관련도 평가, 음성·영상 데이터 수집, 데이터 라벨링, LLM 출력 평가 등 AI 데이터 운영 영역 전반으로 사업 범위를 넓히고 있다.
업계에서는 최근 AI 모델 성능 경쟁의 핵심이 단순 연산 능력보다 데이터 품질과 정교한 평가 체계로 이동하고 있다는 분석이 나온다. 실제 글로벌 빅테크 기업들도 모델 학습뿐 아니라 정렬(alignment), 안전성 검증, 문화·언어별 맥락 평가에 대규모 투자를 이어가는 상황이다.
업템포글로벌이 수행 중인 프로젝트 역시 다국어·다문화 환경에 초점이 맞춰져 있다. 회사 측에 따르면 글로벌 IT 기업의 LLM 개선용 500만 단어 규모 다국어 코퍼스 구축 프로젝트를 비롯해 글로벌 데이터 기업 대상 한국어 검색 관련도 라벨링 및 24시간 모니터링 업무, 글로벌 플랫폼 기업의 다국어 음성·영상 코퍼스 구축 프로젝트 등을 진행 중이다.
누적 데이터 구축 규모도 빠르게 늘고 있다. 업템포글로벌은 현재까지 음성 데이터 40만 분, 텍스트 데이터 100만 문장, 라벨링 데이터 300만 건 이상을 구축했다고 밝혔다.
회사는 데이터 수집부터 가공·검수·운영까지 자체 품질관리 체계로 통합 운영하고 있다는 점을 경쟁력으로 내세운다. 프로젝트별로 전담 PM(Project Manager), 데이터 사이언티스트, 링귀스트가 참여해 가이드라인 설계와 품질 검수를 진행한다.
또 자체 개발 CMS와 검수 솔루션 ‘MatchUP’을 활용해 데이터 품질 안정성과 운영 효율을 높이고 있다고 설명했다.
AI 데이터 산업에서는 단순 라벨링을 넘어 언어적 정확성과 문화적 맥락 이해가 중요한 경쟁 요소로 떠오르고 있다. 특히 생성형 AI 서비스가 글로벌 사용자 기반으로 확대되면서 지역별 언어 특성과 표현 방식까지 반영한 데이터 구축 수요가 증가하는 추세다.
업템포글로벌 관계자는 “AI 데이터 구축은 단순 번역 작업이 아니라 실제 서비스 품질을 좌우하는 운영 영역으로 진화하고 있다”며 “현지화 경험과 AI 데이터 운영 역량을 결합해 글로벌 고객사의 AI 품질 향상을 지원하고 있다”고 말했다.
시장 성장 전망도 가파르다. 스위스 기반 언어산업·언어AI 시장조사기관 슬레이터(Slator)는 글로벌 ‘Data-for-AI’ 시장 규모가 2026년 약 93억 달러에서 2031년 약 215억 달러 수준으로 확대될 것으로 전망하고 있다.
업템포글로벌은 시장 변화에 맞춰 베트남어, 태국어, 말레이어, 타갈로그어 등 동남아 저자원 언어 데이터 구축 역량도 강화하고 있다. 글로벌 AI 기업들이 영어 중심 모델에서 다국어·로컬 특화 모델로 전략을 확대하는 흐름에 대응하기 위한 행보다.
회사는 한국 본사와 베트남 법인, 싱가포르 지사, 인도 기반 운영 조직을 연결한 크로스보더 프로젝트 체계를 구축하고 있으며, 전 세계 60개국 파트너 네트워크를 기반으로 글로벌 AI 데이터 프로젝트 범위를 확대하고 있다.
업템포베트남 지사의 Vu Pham COO는 “다국어 AI 데이터 시장은 언어 이해와 현지 운영 경험이 함께 요구되는 영역”이라며 “아시아를 대표하는 글로벌 AI 데이터 파트너로 성장해 나갈 계획”이라고 밝혔다.
다만 업계에서는 AI 데이터 시장이 빠르게 커지는 만큼 데이터 품질 검증 기준과 개인정보·저작권 이슈, 데이터 윤리 문제에 대한 관리 체계 역시 기업 경쟁력을 좌우할 핵심 변수로 보고 있다.
Copyright ⓒ 스타트업엔 무단 전재 및 재배포 금지
본 콘텐츠는 뉴스픽 파트너스에서 공유된 콘텐츠입니다.