이파피루스는 자사 문서 데이터 추출 라이브러리 '파이뮤PDF 프로(PyMuPDF Pro)'의 올해 다운로드 수가 지난해 연간 대비 5배 이상 증가했다고 11일 밝혔다.
김정아 이파피루스 부사장은 "'파이뮤 PDF 프로'는 문서 내 페이지와 위치 등의 메타 데이터를 포함한 청크(말뭉치)를 생성할 수 있으며, 추출한 문서 데이터를 LLM(대규모 언어 모델) 및 RAG(검색 증강 생성) 친화적인 제이슨(JSON)과 마크다운(Markdown), 라마인덱스 리더(LlamaIndex Reader) 파일로 출력할 수 있어 AI 학습용 데이터 추출이나 문서 기반 대화형 서비스 개발에 매우 유리하다"고 소개했다.
이와 달리 ‘파이뮤PDF 프로’는 자체 개발한 머신러닝 기반 레이아웃 분석기를 통해 문서 구조 자체를 파악해 데이터로 추출, VLM 방식을 사용하는 글로벌 유사 제품 대비 약 10배 빠른 속도로 정확한 데이터 처리가 가능하다.
뉴스픽의 주요 문장 추출 기술을 사용하여 “모두서치” 기사 내용을 3줄로 요약한 결과입니다. 일부 누락된 내용이 있어 전반적인 이해를 위해서는 본문 전체 읽기를 권장합니다.