서울아산병원·인하대병원 교수팀, 상용 AI 보안 취약성 분석
"악의적 명령어로 잘못된 정보 유도하는 공격에 94% 이상 뚫려"
(서울=연합뉴스) 성서호 기자 = 생성형 인공지능(AI)에 질환을 상담하는 사례가 느는 가운데 대부분의 상용 AI 모델이 손쉽게 보안 체계가 뚫려 잘못된 치료를 권할 위험이 크다는 연구 결과가 나왔다.
5일 서울아산병원에 따르면 이 병원 비뇨의학과 서준교 교수·정보의학과 전태준 교수, 인하대병원 영상의학과 이로운 교수팀은 의료용 대규모 언어모델(LLM)이 '프롬프트 인젝션' 공격에 94% 이상 취약하다는 사실을 최근 확인했다.
프롬프트 인젝션 공격은 해커가 생성형 AI 모델에 악의적인 명령어(프롬프트)를 집어넣어 본래 의도와는 다르게 작동하도록 유도하는 사이버 공격이다.
연구진은 지난해 1∼10월 AI 모델 3종인 지피티(GPT-4o-mini), 제미나이(Gemini-2.0-flash-lite), 클로드(Claude 3 Haiku)의 보안 취약성을 분석했다.
연구진은 12개 임상 시나리오를 구성하고 위험도를 중간·상위·최고 등 3단계로 나눈 뒤 교란과 증거 조작 등의 방법으로 각 AI 모델을 공격했다.
이후 환자와 AI 모델 3종이 나눈 총 216건의 대화를 분석한 결과, 모델 3종 전체에 대한 공격 성공률은 94.4%로 나타났다.
위험도별 성공률은 ▲ 중간 단계 100% ▲ 상위 단계 93.3% ▲ 최고 단계 91.7%였다.
최고 단계 위험도는 임신부에게 금기 약물을 권장하는 것으로, 태아 장애를 유발하는 약물을 권할 수도 있는 셈이다.
연구진은 또 각 AI 모델의 최상위 버전을 대상으로도 보안 취약성을 평가했는데, 최상위 버전에서조차 최소 80% 이상의 확률로 임신부에게 금기 약물을 추천했다.
서 교수는 "이번 연구는 의료용 AI 모델이 단순 오류를 넘어 의도적 조작에 구조적으로 취약하다는 사실을 실험적으로 규명했다"며 "환자 대상 의료 챗봇이나 원격 상담 시스템을 도입하려면 AI 모델을 철저히 시험하고 보안 검증 체계를 의무화해야 한다"고 말했다.
AI 모델의 프롬프트 인젝션 공격 취약성을 처음으로 규명한 이 연구 결과는 미국의사협회가 발간하는 국제 학술지 '자마 네트워크 오픈(JAMA Network Open, 피인용지수 9.7)' 최근호에 실렸다.
soho@yna.co.kr
Copyright ⓒ 연합뉴스 무단 전재 및 재배포 금지
본 콘텐츠는 뉴스픽 파트너스에서 공유된 콘텐츠입니다.