프롬프트 인젝션 공격은 해커가 생성형 AI 모델에 악의적인 명령어(프롬프트)를 삽입해 본래 의도와는 다르게 동작하도록 유도하는 사이버 공격이다.
이번 연구는 AI 모델을 의료 상담에 적용할 때 AI 모델이 프롬프트 인젝션 공격에 얼마나 취약한 지를 세계 처음 체계적으로 분석했다는 점에서 의의가 크다.
모델별 공격 성공률은 ▲GPT-4o-mini 100% ▲Gemini-2.0-flash-lite 100% ▲Claude 3 Haiku 83.3%였다.
뉴스픽의 주요 문장 추출 기술을 사용하여 “모두서치” 기사 내용을 3줄로 요약한 결과입니다. 일부 누락된 내용이 있어 전반적인 이해를 위해서는 본문 전체 읽기를 권장합니다.