인간은 AI가 쓴 글을 알아챌 수 있을까? "교사·의사·대학생 모두 식별 실패"

“교사도, 의사도 AI의 문장에 속았습니다.” 인간의 직관으로 AI가 쓴 글을 식별할 확률이 ‘동전 던지기’ 수준으로 떨어졌다는 충격적인 연구 결과들이 잇따르고 있습니다.

AI포스트 핵심 요약

✅ [전문가도 무너진 ‘AI 탐지’의 벽] 힐데스하임대 연구 결과, 숙련된 교사들이 AI 에세이를 식별할 확률은 37.8%에 불과. 베테랑 성형외과 의사들 역시 레지던트 지원서 중 AI가 쓴 글을 65.9%만 가려내며 인간 직관의 한계를 노출.
✅ [고도화된 LLM, 튜링 테스트 무력화] GPT-3 이후 모델들의 정확도는 49.9%로 수렴, 사실상 인간의 글과 구분이 불가능해짐. 특히 GPT-4 실험에서는 참가자의 54%가 AI를 ‘인간’으로 오인하며 지능의 경계가 완전히 허물어짐.
✅ [‘억울한 오판’의 위험성 증폭] 사람이 쓴 논문 요약본을 AI가 쓴 것으로 잘못 판단한 사례가 38%에 달해, 학술 및 전문 영역에서 무고한 피해자가 발생할 가능성 확인. 주관적 평가를 넘어 전문 탐지 도구 병행이 필수적인 시대 도래.

인공지능(AI)이 생성한 텍스트가 일상과 학업, 전문 영역 깊숙이 침투하면서 이를 인간의 눈으로 구별할 수 있는지에 대한 논란이 거세다. 하지만 최근 발표된 AI 관련 연구 결과들을 종합해 보면, 인간이 AI와 인간의 글을 식별할 확률은 동전 던지기 수준에 불과한 것으로 나타났다.

교육 현장의 대혼란…숙련된 교사도 AI 에세이에 ‘속수무책’

가장 먼저 주목받는 분야는 교육계다. 독일 힐데스하임대학교 연구진이 발표한 연구에 따르면 예비 교사들은 AI가 생성한 텍스트를 단 45.1%만 정확하게 식별해냈다. 놀라운 점은 경력이 풍부한 교사들의 결과다.

이들은 학생이 직접 쓴 글은 73%의 확률로 알아맞혔지만, AI가 쓴 글은 37.8%만 식별하는 데 그쳤다. 전문가들조차 자신의 탐지 능력을 과대평가하고 있으며, AI 탐지 도구 없이는 부정행위를 가려내기 어렵다는 점을 시사한다.

대학 사회도 마찬가지다. 미국 캘리포니아대학교 심리학과 연구진이 2년 전 내놓은 연구를 살펴보면, 대학 강사들은 챗GPT가 쓴 에세이를 70%, 학생들은 60%의 정확도로 식별했다. 수치상으로는 절반을 넘겼으나, 여전히 학업 현장에서 AI 활용 여부를 명확히 판단하기에는 역부족인 수준이다.

코넬대학교의 연구진이 뉴스 기사, 이야기, 레시피 등 다양한 장르를 대상으로 실시한 실험에서도 인간의 한계는 명확히 드러났다. 참가자들은 GPT-2와 사람의 글을 58% 확률로 구분했으나, 성능이 향상된 GPT-3와의 대결에서는 정확도가 49.9%로 떨어졌다.

여기에다 AI 모델의 성능이 몇 년 사이 눈부신 발전을 거듭한 점을 감안하면, 사실상 구분이 불가능해진 셈이다. 또 다른 튜링 테스트 기반 연구에서는 참가자들이 GPT-4를 54%의 확률로 '인간'으로 오인했다.

기사의 이해를 돕기 위해 AI 도구로 제작한 이미지. (사진=AI포스트 DB)

흥미로운 점은 AI에 대한 사전 지식보다 연령이 식별력에 더 큰 영향을 미쳤다는 것이다. 디지털 기기에 익숙한 젊은 층이 고령층보다 상대적으로 AI 모델을 더 정확하게 찾아내는 경향을 보였다.

의학·전문직 지원서도 통과…‘인간 검수자’ 한계 드러내

전문 지식이 필요한 영역에서도 AI의 위세는 대단했다. 관절경 수술 관련 학술지에 게재된 연구에 따르면, 전문 심사위원들은 AI가 생성한 논문 요약본을 62%만 식별해냈다. 특히 사람이 직접 작성한 논문 요약본을 AI가 쓴 것으로 잘못 판단한 사례도 38%에 달해, 억울한 피해자가 발생할 가능성도 확인됐다.

캐나다 성형외과 학회의 레지던트 지원서 검토 실험 역시 결론은 비슷했다. 20년 경력의 베테랑 외과의사들이 투입됐음에도 식별 정확도는 65.9%에 머물렀다. 지원자의 인생이 걸린 중요한 결정 과정에서도 인간의 직관만으로는 AI의 정교한 자기소개서를 완벽히 걸러낼 수 없다는 뜻이다.

“인간의 감각만으로는 부족하다”

연구 결과가 가리키는 방향은 일관된다. 인간은 경우에 따라 AI의 흔적을 찾아낼 수도 있지만, 고도화된 언어 모델(LLM)이 쏟아내는 콘텐츠를 일관되게 식별하는 데는 명백히 실패하고 있다.

전문가들은 “텍스트의 진위 여부가 중요한 영역에서는 인간의 주관적 평가를 넘어 전문적인 AI 탐지 도구를 병행하는 것이 필수적인 시대가 됐다”고 입을 모은다. AI가 인간보다 더 인간다운 문장을 구사하기 시작하면서, 이제 ‘인간적인 것이 모두 인간의 것은 아니다’라는 사실을 인정해야 할 때가 온 것으로 보인다.

실시간 키워드

2022.08.01 00:00 기준

실시간 키워드