인공지능(AI) 인프라와 클라우드, 산업별 솔루션을 제공하는 AI 풀스택 기업 엘리스그룹이 한국어 교육용 데이터셋 2종을 글로벌 오픈소스 플랫폼 ‘허깅페이스(Hugging Face)’에 공개했다고 14일 밝혔다.
공개된 데이터셋은 거대 언어 모델(LLM)의 한국어 성능을 학술∙교육 도메인에서 강화하기 위해 설계된 ‘한국어 파인웹 교육 데이터셋 데모(Korean FineWeb-Edu Demo)’와 ‘한국어 웹 텍스트 교육 데이터셋(Korean-webtext-edu)’ 2종으로 구성됐다.
이번에 공개한 ‘한국어 파인웹 교육 데이터셋 데모’는 이 중 5% 분량의 샘플이지만 오픈소스로 공개된 한국어 고품질 데이터셋 중에서는 대규모 수준에 해당한다.
뉴스픽의 주요 문장 추출 기술을 사용하여 “모두서치” 기사 내용을 3줄로 요약한 결과입니다. 일부 누락된 내용이 있어 전반적인 이해를 위해서는 본문 전체 읽기를 권장합니다.