질병관리청 국립보건연구원이 고려대학교 의과대학과 공동으로 한국어와 영어가 혼합된 국내 병원 전자의무기록(EMR)을 정확하게 분석할 수 있는 한·영 이중언어 인공지능 언어모델을 국내 최초로 개발하고, 임상 흉부 CT 판독문 분석에서 종합정확도 0.94를 달성해 임상 적용 가능성을 확인했다.
◆국내 EMR의 80%가 비정형 혼합 텍스트… 단일 언어 AI의 한계
국내 의료기관에서 생성되는 전자의무기록의 약 80%는 자유서술 형태의 비정형 문서로 구성되어 있으며, 한국어와 영어 의학 용어가 혼합된 형태로 작성된다.
이로 인해 기존 단일 언어 기반 인공지능 모델을 적용할 경우 분석 정확도가 현저히 저하되는 한계가 지속적으로 제기돼 왔다.
의료 도메인 특성과 다국어 환경을 동시에 반영한 인공지능 언어모델 개발 필요성이 높아진 배경이다.
◆한·영 의료 말뭉치 기반 이중언어 모델 개발
이번 연구에서는 한국어 의료 교과서, 건강정보 자료, 영어 의료 교과서, MIMIC-IV 임상 노트 등 대규모 한·영 이중언어 의료 말뭉치를 구축하고 4만 5,000개 규모의 의료 특화 어휘 체계를 설계했다.
이를 기반으로 기존 의료 언어모델인 KM-BERT(한국어 의료 텍스트 학습), BioBERT(영어 생의학 문헌 학습), M-BERT(104개 언어 일반 텍스트 학습)에 도메인 적응형 추가 사전학습(Domain-Adaptive Pre-training)을 수행해 이중언어 인공지능 모델을 고도화했다.
◆마스킹 언어모델 학습으로 성능 개선
마스킹 언어모델 학습(Masked Language Modeling) 기법을 적용해 의료 문맥 이해 능력을 강화했으며, 이중언어 학습을 통해 미인식 토큰([UNK]) 발생률을 0.0001% 수준으로 최소화하는 성과를 거뒀다.
이를 통해 한국어·영어 혼합 임상 기록에서 의료 용어 인식 정확도가 향상됐음이 확인됐다.
◆흉부 CT 판독문 분석에서 종합정확도 0.94 달성
개발된 이중언어 모델을 의료현장에서 수집한 흉부 CT 판독문에 적용해 암, 폐렴, 폐색전증 등 주요 질환의 다중 분류 분석을 수행한 결과, 내부 검증에서 최대 종합정확도 0.946을 달성했고, 외부 검증에서도 종합정확도 0.94를 기록했다.
종합정확도는 질환 판별의 정확도와 검출 능력을 종합적으로 평가하는 지표로, 0.9 이상일 경우 임상 활용 가능성을 검토할 수 있는 수준으로 평가된다.
또한 의료 문장 의미 유사도 평가(MedSTS) 성능도 기존 모델 대비 향상됐다.
◆“실제 의료데이터 검증으로 임상 적용 가능성 확인”
연구를 주도한 고려대학교 의과대학 주형준 교수는 “이번 연구는 국내 임상 현장 특성을 반영한 이중언어 의료 언어모델을 구현하고, 실제 의료데이터 검증을 통해 임상 적용 가능성을 확인한 점에서 의미가 있다”고 밝혔다.
이번 연구 결과는 국제 학술지 ‘BMC Medical Informatics and Decision Making’에 게재됐다.
◆GitHub 공개 예정… 의료 AI 연구 생태계 확산 기대
국립보건연구원 헬스케어인공지능연구과는 코호트 기반의 멀티모달 데이터를 활용한 인공지능 모델 개발 연구를 지속 수행하고 있으며, 연구자와 의료기관이 활용할 수 있는 의료 인공지능 데이터와 연구 생태계 조성을 지원한다는 계획이다.
이번에 개발된 이중언어 인공지능 모델은 국제 인공지능 누리집 GitHub(github.com/NIHxAI)에 공개될 예정이다.
임승관 질병관리청장은 “이번 성과는 국내 의료기관에서 생성되는 전자의무기록 데이터를 보다 체계적으로 분석·활용할 수 있는 인공지능 기반을 구축했다는 점에서 중요하다”며, “의료데이터의 활용 가치를 높이고, 국내 인공지능 연구 역량을 한 단계 끌어올리는 계기가 될 것"이라고 강조했다. 이어 "이번 기술 개발이 의료정보 활용 체계 고도화와 공공보건 정책의 정밀도 향상으로 이어지기를 기대한다”고 밝혔다.
[메디컬월드뉴스]
Copyright ⓒ 메디컬월드뉴스 무단 전재 및 재배포 금지