글로벌 AI 생태계와 직접 연동
경쟁 오픈소스 대비 벤치마크 지표서 85% 수준 탁월 입증
[포인트경제] 한글과컴퓨터(한컴)가 AI 학습 과정에서 발생하는 PDF 문서 데이터 처리 병목 현상을 해소하는 핵심 기술을 글로벌 오픈소스로 공개했다고 17일 밝혔다. 이번에 공개된 ‘오픈데이터로더 PDF(OpenDataLoader PDF)’는 한컴이 축적한 문서 처리 기술을 바탕으로 개발한 PDF 데이터 추출 엔진이다. 이 기술은 글로벌 AI 생태계 확산에 기여할 기반 기술로 자리 잡았다.
한컴, PDF 추출 핵심 기술 글로벌 오픈소스로 전격 공개 /한컴 제공
최근 허깅 페이스(Hugging Face)는 PDF 문서를 기반으로 한 약 4억 7500만 건 규모의 대규모 데이터셋 ‘FinePDFs’를 공개했다. PDF는 AI 학습에 가장 널리 쓰이는 문서 포맷임에도 복잡한 내부 구조 때문에 학습용 데이터 추출이 어려워 ‘데이터 감옥’으로 불렸다. 이에 따라 AI 개발 과정에서 큰 제약이 발생했다.
이번 오픈소스 프로젝트는 한컴이 7월 PDF 기술 전문 기업 듀얼랩(Dual Lab)과 체결한 업무협약(MOU)의 첫 성과다. 양사는 오픈소스 기반 PDF 데이터로더를 공동 개발해 AI 생태계 확장을 목표로 하고 있으며, 이번 기술 공개를 통해 본격적인 확산에 나섰다.
오픈데이터로더 PDF는 PDF 문서 내 텍스트, 표, 이미지, 레이아웃 정보를 높은 정확도와 빠른 속도로 추출한다. 추출된 데이터는 AI 학습에 즉시 활용 가능한 JSON, Markdown, HTML 등 정형화된 데이터로 변환된다.
한컴은 공식 홈페이지에 공개한 벤치마크 테스트 결과를 통해 오픈데이터로더 PDF가 경쟁 오픈소스 기술 대비 우수한 성능을 입증했다. 사람의 읽기 순서를 측정하는 지표인 NID(Normalized Indel Distance)에서 타 기술 대비 85% 수준의 높은 수치를 기록했다. 이 밖에도 다양한 테스트에서 탁월한 성능을 보였다.
또한 금융·공공기관 등 민감한 데이터를 다루는 환경에 적합하도록 네트워크 연결 없이 완전 오프라인으로 작동하는 기능을 탑재했다. 이를 통해 데이터 유출과 외부 업로드로 인한 정보 노출 위험을 원천 차단한다. 오프라인 기반 보안성은 기업과 기관 단위 활용에 중요한 기술적 장점으로 작용한다.
아울러 AI 산업에서 중요하게 대두된 학습 데이터 안전성 문제에도 대응한다. 오픈데이터로더 PDF는 악의적인 콘텐츠 삽입에 따른 프롬프트 인젝션(Prompt Injection) 등 보안 위협을 자동 감지·차단하는 기능을 추가로 제공할 예정이다. 이를 통해 AI 학습 데이터의 안정성과 신뢰성을 동시에 확보한다.
한컴은 이번 오픈소스 공개를 단순한 기술 공유에 그치지 않고 AI 생태계 전반의 오픈소스 확산과 기술 고도화를 추진한다. 챗GPT, 제미나이, 랭체인 등 주요 AI 프레임워크와의 연동·호환성을 강화하며, 깃허브(GitHub)를 통한 글로벌 개발자 커뮤니티와 협력을 이어간다.
정지환 한컴 최고기술책임자(CTO)는 “AI 트랜스포메이션 시대에 오픈소스는 기업과 사회 전반의 혁신과 경쟁력 확보를 위한 필수 전략”이라며, “이번 오픈데이터로더 PDF 핵심 기술 공개로 전 세계 개발자들의 인정을 받고 협력을 통해 PDF 데이터 추출 기술을 한 단계 더 발전시켜 글로벌 최고 수준의 AI 데이터 추출 기술을 완성하겠다”고 밝혔다. 이어 “연말에는 AI 기반 문서 인식 기술을 추가하는 등 오픈소스 프로젝트를 지속적으로 고도화하겠다”고 말했다.
오픈데이터로더 PDF 프로젝트에 관한 자세한 정보와 활용 사례는 공식 홈페이지에서 확인할 수 있으며, 오픈소스 코드는 깃허브 공식 저장소를 통해 제공된다.
Copyright ⓒ 포인트경제 무단 전재 및 재배포 금지
본 콘텐츠는 뉴스픽 파트너스에서 공유된 콘텐츠입니다.