로민은 삼성SDS 컨소시엄의 컨소시엄의 기술 파트너로 참여해 ‘범정부 AI 공통기반’ 및 연계 서비스가 활용할 공공 행정 문서를 거대언어모델(LLM)이 학습·이해할 수 있는 형태로 구조화·정제하는 전처리 영역에 Doc 파서를 적용했다.
로민이 공급한 Doc 파서는 공문서·보고서·각종 양식 등 다양한 행정 문서에서 텍스트·표·그림 등 핵심 요소를 추출하고 문서의 레이아웃과 읽기 순서를 함께 인식해 원문의 구조와 맥락을 보존한 형태로 데이터를 구조화하는 문서 레이아웃 분석 솔루션이다.
이를 통해 범정부 AI 공통기반의 문서 작성 지원과 법령·지침 검색 등 서비스에서 활용할 행정 문서를 LLM 적용에 맞게 정제·구조화하는 전처리 체계를 구축했다.
뉴스픽의 주요 문장 추출 기술을 사용하여 “한스경제” 기사 내용을 3줄로 요약한 결과입니다. 일부 누락된 내용이 있어 전반적인 이해를 위해서는 본문 전체 읽기를 권장합니다.