[스낵커블 마켓] 고영향 AI, 안전장치를 풀어보면

GPT-4o 모델에 불법이 자행될 수 있는 질문을 시도하자 윤리적 기준을 이유로 답변을 거절했다. ⓒ투데이신문

스낵커블 마켓은 마치 마켓에서 다양한 스낵을 고르듯 즐겁게 읽을 수 있는 기사로 가득한 공간입니다. 일상에서 문득 떠오르는 산업과 관련된 궁금증부터 브랜드의 비하인드 스토리까지, 소비자의 시선에서 재미있고 유익한 정보를 제공합니다.

소비 트렌드에 관심이 많은 사람부터 단순한 호기심을 가진 독자까지 누구나 부담 없이 들러 한 조각씩 지식을 맛볼 수 있습니다. 가벼운 정보 한 입이 모여 언젠가는 더 현명한 소비를 돕는 든든한 안목으로 쌓이기를 바랍니다. 스낵처럼 쉽고 맛있게, 정보를 한입 베어 물어 보세요.

【투데이신문 최주원 기자】 우리가 자연스럽게 대화를 주고받을 수 있는 이유는 머릿속에 이미 언어 모델이 존재하기 때문입니다. 예를 들어, 어떤 문장을 보면 그다음에 어떤 말이 나올지 어느 정도 예측이 가능하죠. 이러한 인간의 언어 능력을 기계에 구현한 것이 바로 ‘언어 모델(Language Model)’인데요.

언어 모델은 사람처럼 말을 이해하고, 다음에 어떤 단어가 나올지 예측하는 능력을 가지고 있습니다. 특히 ‘대규모 언어 모델(LLM)’은 수많은 문장을 학습해 문맥에 맞는 단어를 자연스럽게 이어 붙일 수 있게 되죠. GPT 같은 모델은 이렇게 배운 지식을 바탕으로 사람과 대화할 수 있도록 특별한 조정 과정을 거쳐 만들어집니다.

LLM의 한계 넘어선 ‘에이전트’

하지만 LLM은 기본적으로 예측 기반 구조이기 때문에 실제 행동을 실행하는 데는 한계가 있습니다. 예를 들어 “분석 도표를 그려달라”는 요청에 적절한 설명은 할 수 있지만 실제로 생성하지는 못하죠. 이때 등장한 개념이 바로 ‘AI 에이전트’입니다.

AI 에이전트는 언어 모델에 실행 능력을 부여한 형태로, 외부 툴(API, 코드 실행기 등)을 호출해 복잡한 작업을 수행할 수 있도록 설계됐습니다. 예를 들어 사용자가 “이 데이터를 시각화해줘”라고 요청하면 에이전트는 코드 작성부터 툴 호출, 결과 출력까지 전 과정을 스스로 처리하죠. 이제 언어 모델은 단순한 대화 도우미를 넘어 진짜 ‘작업자’로 진화한 셈입니다.

한 걸음 더 나아가면 ‘자율형 AI 에이전트’도 있습니다. 이들은 세부 명령 없이도 목표만 주어지면 스스로 계획을 수립하고 필요한 툴을 선택해 실행하며 때로는 다른 에이전트와 협력하기도 합니다. AI가 스스로 문제를 정의하고 해결하는 방향으로 진화하고 있는 것이죠.

GPT-4o 모델에 특정 코드 학습으로 탈옥을 진행한 뒤 위험한 질문을 진행한 결과, 유해한 답변이 그대로 노출됐다. ⓒ투데이신문

탈옥: 안전장치 무력화

하지만 이처럼 강력해진 AI는 동시에 중대한 위험성도 안고 있습니다. 특히 AI 모델에 설정된 제한이나 필터를 우회해 생성 AI의 안전장치를 해제하는 ‘탈옥(Jailbreak)’을 시도해 위험한 질문을 할 수도 있죠.

가장 최신 모델인 GPT-4o를 활용해 실험을 진행했습니다. 일반적으로 언어 모델은 마약이나 폭탄 제조처럼 위험하고 불법적인 질문에 대해 윤리적 기준에 따라 답변을 거절하도록 설계돼 있습니다. 실제로 이러한 질문을 입력하면 대부분 응답을 차단하는 방식으로 작동합니다.

하지만 특정 코드를 입력해 탈옥을 진행한 뒤 동일한 질문을 반복하자 처음에는 차단됐던 민감한 정보가 그대로 출력되는 장면이 나타났습니다. 원래는 차단돼야 할 불법적 정보나 유해한 지시가 아무런 제약 없이 노출되는 것을 확인할 수 있었죠.

※ 악용 가능성에 대비해 우회 코드와 학습 방식, 생성된 답변 결과는 블러 처리했습니다.

필수가 된 검증 체계

전문가들은 AI의 판단력이 높아질수록 이를 통제하고 검증할 수 있는 체계 역시 더 정교하고 엄격해져야 한다고 말합니다. 공장 자동화 장비, 금융 인프라, 무인기처럼 물리적 실행력이 동반된 시스템과 결합될 경우, 단 한 줄의 탈옥 코드가 재산 피해는 물론 인명 사고로까지 이어질 수 있기 때문입니다.

포항공과대학교 컴퓨터공학과 김형훈 교수는 “AI 에이전트는 사용자가 정한 목표를 달성하기 위해 외부 API와 툴을 호출하는데, 이 과정에서 어떤 작업이 어떻게 실행될지는 예측이 어렵습니다”라며 “특히 에이전트가 실제 로봇이나 무인기 같은 물리적 장비와 연결될 경우, 단 하나의 잘못된 판단이 사고로 이어질 가능성도 있습니다”라고 경고했습니다.

그는 또 “에이전트가 수집한 민감 정보가 외부로 유출되거나 의도치 않은 방식으로 악용될 가능성도 배제할 수 없습니다”라며 “에이전트의 자율성이 커질수록 그에 따른 책임 체계도 반드시 명확해져야 합니다”라고 강조했습니다.

AI의 자율성이 커질수록 인간의 책임과 검증 체계는 더욱 중요해집니다. 지금까지 자동차, 전자제품, 항공기 등은 철저한 검증을 거쳐 출시됐죠. 이처럼 AI 시스템도 사전 검증과 테스트, 책임 분담 체계, 안전한 설계 철학이 필수적으로 뒷받침돼야 하겠습니다.

본 콘텐츠는 뉴스픽 파트너스에서 공유된 콘텐츠입니다.

다음 내용이 궁금하다면?

광고 보고 계속 읽기

원치 않을 경우 뒤로가기를 눌러주세요

실시간 키워드

2022.08.01 00:00 기준

실시간 키워드