먼지 쌓인 수만 권의 근대 역사 기록물이 인공지능(AI)을 만나 살아있는 지식 정보로 부활한다. 난해한 한문과 일어, 국한문이 뒤섞인 세로쓰기 고문헌까지 완벽하게 읽어내고 번역하는 국가 차원의 AI 플랫폼 구축이 본궤도에 올랐다.
지식정보 자원화 전문기업 나라지식정보(대표 손영호)는 과학기술정보통신부 산하 정보통신산업진흥원(NIPA)이 주관하는 ‘공공AX(AI 전환) 프로젝트’ 2차년도 착수보고회에서 ‘한국 근대 다문자 자료 활용 지원 AI 솔루션 개발 및 실증’ 사업의 추진 계획을 발표했다고 6일 밝혔다.
충북 진천에서 열린 이번 통합 보고회에서 나라지식정보 컨소시엄은 세 번째 발표자로 나서, 근대 역사 자료의 디지털 전환을 위한 핵심 전략을 공개했다. 사업 총괄을 맡은 정규상 이사는 1차년도의 성과를 바탕으로 한층 고도화된 2차년도 로드맵을 제시해 주목을 받았다.
지난 1차년도 사업을 통해 국사편찬위원회의 근대 자료 약 4만 건을 확보하고 이미지 정제 및 다문자 병렬 데이터 구축을 마친 나라지식정보는 올해 사업 범위를 대폭 확대한다.
2차년도에는 20만 건 이상의 근대 자료를 추가로 확보하는 한편, AI OCR(광학문자인식) 기술 고도화에 집중한다. 특히 해독이 까다로운 ▲한문·일어·국한문 혼용 ▲세로쓰기 ▲필기체 등에 대응하는 모델을 구축한다. 여기에 전처리 자동화 기술과 거대언어모델(LLM) 기반의 보정 기술을 결합해 문자인식의 정확도를 전문가 수준으로 끌어올린다는 계획이다.
단순한 글자 읽기를 넘어 정보의 가치를 높이는 작업도 병행된다. 번역과 요약 모델을 정교화하고, 생성형 AI의 약점인 환각 현상을 방지하기 위해 검색증강생성(RAG) 기술을 도입한 의미검색 시스템을 구축한다.
이렇게 개발된 솔루션은 국사편찬위원회 역사정보시스템과 연계되어 실제 연구자와 국민들이 활용할 수 있도록 실증 과정을 거친다. 사용자 참여형 플랫폼을 통해 국민들의 피드백을 실시간으로 반영함으로써 기술 완성도를 높이는 구조다.
나라지식정보는 이번 사업을 통해 확보한 기술을 범용 공공AX 솔루션으로 확장할 방침이다. 손영호 나라지식정보 대표는 “이번 2차년도는 OCR 중심의 AI 기술을 실질적인 공공 서비스로 전환하는 중대한 단계”라며 “향후 시각장애인을 위한 보조기기 등 복지 분야로도 기술을 확산시켜 국민 누구나 역사적 지식 정보에 제약 없이 접근할 수 있는 환경을 만들겠다”고 포부를 밝혔다.
Copyright ⓒ 스타트업엔 무단 전재 및 재배포 금지
본 콘텐츠는 뉴스픽 파트너스에서 공유된 콘텐츠입니다.