-
서울대병원과 하버드 의과대학 공동 연구팀이 의료 인공지능(AI)의 성능을 실제 임상 흐름에 가깝게 평가하는 ‘가상 병원 시뮬레이터’를 제시했다. 기존처럼 진단 정확도를 중심으로 평가하던 방식에서 나아가, AI의 판단이 환자 예후와 병원 운영에 미치는 영향을 함께 반영하는 구조다. 해당 연구는 국제 학술지 네이처 메디슨(Nature Medicine) 온라인판에 게재됐다.
환자 변화와 병원 자원 흐름을 함께 반영
-
기존 의료 AI 평가는 과거 데이터를 기반으로 한 정적 분석이 중심이었다. 그러나 실제 임상에서는 치료 결정이 환자 상태 변화뿐 아니라 병상, 인력, 장비 등 병원 자원 배분에 연쇄적으로 영향을 미친다.
연구팀이 제시한 ‘임상 환경 시뮬레이터(Clinical Environment Simulator, CES)’는 이러한 시간적·시스템적 요소를 반영한 평가 구조다. 시스템은 환자 상태 변화를 생성하는 ‘환자 엔진’과 병원 내 자원 흐름을 재현하는 ‘병원 엔진’으로 구성된다.
환자 엔진은 전자의무기록 초기 정보와 질병 경과 모델을 바탕으로, 거대언어모델(LLM)을 활용해 치료에 따른 상태 변화를 시간 흐름에 따라 생성한다. 병원 엔진은 실제 임상 흐름을 반영해 검사·처치 과정과 자원 배분을 단계적으로 반영하고, 응급도에 따른 우선순위까지 적용한다.
이 구조를 통해 AI의 판단이 특정 환자의 경과뿐 아니라 다른 환자의 대기 시간, 자원 소모 등 병원 전체에 미치는 영향까지 함께 평가할 수 있도록 했다. 기존 정적 평가를 넘어, 의사결정의 결과와 파급 효과까지 고려하는 접근이라는 점이 특징이다.
-
복합 지표로 평가…임상 적용은 추가 검증 필요
연구팀은 AI 성능을 ▲환자 예후(생존 여부, 치료 시간, 가이드라인 준수) ▲병원 운영 효율성(입원 기간, 응급실 처리량, 자원 활용도)을 결합한 복합 지표로 평가했다. 특정 환자의 치료 성과를 높이더라도 전체 시스템 효율성이 저하될 경우 점수가 낮아지는 구조다.
또한 다수의 응급 환자가 동시에 발생하는 상황 등 극단적 조건을 가정한 스트레스 테스트를 통해, AI의 대응 능력도 함께 점검하도록 설계됐다.
김성은 서울대병원 연구교수(공동 제1저자)는 이번 연구가 의료 AI의 의사결정을 실제 임상 환경 속에서 평가하기 위한 단계라는 점에서 의미가 있다고 설명했다.
다만 이번 연구는 실제 환자를 대상으로 한 임상시험이 아닌 시뮬레이션 기반 연구다. 가상 환경에서 생성된 환자 상태 변화와 치료 반응이 실제 임상에서 재현되는지에 대해서는 추가 검증이 필요하다. 특히 LLM 기반 환자 생성 모델의 정확도와 복합 지표 설계가 결과 해석에 미치는 영향도 향후 과제로 남는다.
- 김정아 기자 jungya@chosun.com
최신뉴스
본 콘텐츠는 뉴스픽 파트너스에서 공유된 콘텐츠입니다.

