AI 에이전트 시대, 실시간 보안 점검과 글로벌 협력 없이는 위험 통제 불가

연합뉴스에 따르면 인공지능 에이전트의 보안 위협에 대응하기 위해 국제 공조와 실행 단계 평가가 필수라는 전문가 진단이 나왔다.

26일 서울 드림플러스 강남에서 개최된 '2026 AI 세이프티 컴패스' 컨퍼런스에서 김명주 인공지능안전연구소(AISI) 소장이 이 같은 분석을 내놓았다.

◇ 자체 플랫폼 통한 공격 실험…모델 간 방어력 편차 뚜렷

AISI는 오픈소스 에이전트 환경 '오픈클로'와 에이전트 전용 SNS '몰트북'을 활용해 보안 평가 시스템을 독자 구축했다. 이를 기반으로 세계 주요 AI 모델들을 대상으로 실제 침투 시험이 수행됐다.

악성 명령 삽입, 저장 데이터 변조, 도구 설명 왜곡 등 세 가지 공격 유형이 오픈클로에 적용됐다. 그 결과 방어 성공률은 최고 93.9%부터 최저 53.3%까지 모델별로 큰 차이를 보였다.

몰트북 환경에서는 집단적 위험 행동이나 선동 현상은 발견되지 않았다. 다만 개인정보 노출 위험과 연산 자원을 의도적으로 소모시키는 행위가 포착됐다고 김 소장은 설명했다.

그는 "프롬프트에 단순 반응하는 대형언어모델과 달리, 에이전트는 스스로 목표를 설정하고 도구를 활용해 행동까지 실행한다"며 "위험 완화 접근법 자체가 근본적으로 달라져야 한다"고 역설했다.

◇ 3단계·10원칙 담은 위험 관리 지침 발표

영국 AI 안전 보고서 등 해외 주요 기관의 권고사항을 종합 분석한 '에이전틱 위험 관리 보고서'도 이날 공개됐다.

설계·개발, 테스팅·배포, 운영·모니터링의 세 단계로 구성된 이 보고서에는 최소 권한 원칙, 신원 추적 관리, 검증 기반 배포, 공급망 리스크 대응, 다중 에이전트 안전 확보 등 열 가지 핵심 원칙이 수록됐다.

"개발 과정에서 검증을 완료해도 실행 환경의 맥락이 바뀌면 에이전트 행태 역시 변화한다"고 김 소장은 강조했다. 사전 테스트만으로는 한계가 있으며 작동 중 지속적 평가가 병행되어야 한다는 설명이다.

도구, API, 메모리를 폭넓게 사용하는 에이전트 특성상 기존 소프트웨어의 코드 의존성을 넘어서는 공급망 위험이 발생한다는 점도 지적됐다. 김 소장은 "현재 원칙들은 초기 형태이며 지속 갱신될 예정"이라며 "궁극적으로 국제 표준 중심의 검증 프레임워크가 정착할 것"이라고 전망했다.

◇ 앤트로픽 '미토스' 대응…글래스윙 확대엔 신중론

앤트로픽의 최신 고성능 모델 '미토스'와 국제 보안 협력체 '프로젝트 글래스윙'에 관한 질문도 쏟아졌다.

미토스 관련 정부 대응은 과학기술정보통신부 소관이라고 전제하면서도, 글래스윙 참여국 확대 가능성에 대해 김 소장은 "녹록지 않을 것으로 본다"며 조심스러운 견해를 밝혔다.

"악의적 행위자가 먼저 기술을 확보하면 사회적 혼란이 증폭된다"며 "전반적인 보안 역량이 충분히 갖춰진 후 공개하는 방향을 선택할 것"이라고 그는 예측했다. 이어 "하위 버전 모델이라도 활용해 최대한 빠르게 보안 패치를 적용하는 것이 현실적 대안"이라고 덧붙였다.

한편 국제AI윤리협회(IAAE)가 세 번째로 주최한 이번 행사에는 AI 에이전트 보안과 기업의 신뢰 구축 전략을 논의하기 위해 공공 및 민간 분야 전문가들이 참석했다.

전창배 IAAE 이사장은 개회사를 통해 "자율성이 커질수록 AI 통제 난도는 상승하고 위험도 함께 높아진다"고 경고했다. 그는 "AI 에이전트의 진정한 가치는 성능 수준이 아니라 안전성과 신뢰도에서 결정될 것"이라고 강조했다.

본 콘텐츠는 뉴스픽 파트너스에서 공유된 콘텐츠입니다.

다음 내용이 궁금하다면?

광고 보고 계속 읽기

원치 않을 경우 뒤로가기를 눌러주세요

실시간 키워드

2022.08.01 00:00 기준

실시간 키워드