“더 똑똑해졌지만 더 자주 틀린다”… 오픈AI, 최신 GPT 모델의 ‘환각 현상’ 원인 몰라 혼란

오픈 AI가 더욱 진화된 신형 AI ‘GPT-4o(포오)’를 발표했다.

[엠투데이 이세민 기자] AI 기술이 점점 정교해지는 와중에, 그 성능에 대한 신뢰도는 오히려 낮아지고 있다.

최근 오픈AI의 최신 GPT 모델에서 환각(Hallucination)이라 불리는 오류 현상이 이전보다 더 자주 발생하고 있다는 보고가 나왔다.

이 현상은 단순한 오답을 넘어, 그럴듯하지만 잘못된 정보를 AI가 스스로 ‘지어내는’ 것으로 알려져 있다.

오픈AI 내부 테스트 결과에 따르면, 최신 모델인 GPT-o3는 공인 인물 관련 질문의 약 33%에서 잘못된 정보를 생성했다. 이는 전작인 GPT-o1의 2배 이상이며, 경량화된 GPT o4-mini 모델은 무려 48%에 달하는 오류율을 보였다.

보다 일반적인 상식 문제를 다룬 SimpleQA 벤치마크에서는 GPT-o3의 오류율이 51%, o4-mini는 충격적인 79%에 도달했다.

오픈AI 로고 (출처 : 연합뉴스)

이는 단순히 ‘모델이 약간 틀렸다’는 수준을 넘어서, AI가 스스로 자신감을 가지고 잘못된 추론을 만들어내는 심각한 문제를 드러낸다.

이런 현상은 최신 GPT 모델들이 채택한 '리즈닝(Reasoning) 모델 구조'에서 기인할 수 있다는 분석이 나온다.

기존 모델은 단순히 통계적 확률 기반으로 응답을 생성한 반면, 리즈닝 모델은 사고 과정을 단계별로 쪼개어 '인간처럼' 사고하려 시도한다.

뉴욕타임스에 따르면, 이러한 단계별 추론 과정 자체가 오히려 오류를 누적시킬 수 있다. 즉, 한 번의 잘못된 추론이 이후 사고 흐름 전체를 왜곡시키는 것이다.

복잡한 사고를 시도하면서 ‘생각하는 척’하지만 더 자주 틀리는 역설적 상황이 벌어진 것이다.

오픈 AI의 대변인은 “리즈닝 모델이 본질적으로 환각을 더 많이 일으키는 건 아니지만, o3와 o4-mini에서 높은 오류율이 관측된 것은 사실이며, 이를 개선하기 위해 활발한 연구를 진행 중”이라고 밝혔다.

AI 모델의 신뢰성 저하는 단순한 기술적 이슈를 넘는다. 이미 챗 GPT가 허위 판례를 생성해 변호사들이 법정에서 곤란을 겪은 사례가 등장하고 있으며, 교육, 의료, 공공기관 등 AI의 실질적 활용이 이뤄지는 영역에서 큰 위험이 될 수 있다.

이는 1980년대 '엘리자 효과(Eliza Effect)'의 현대적 버전이라고도 할 수 있다. 인간이 기계에게 과도한 이해력과 지능을 부여한다고 믿는 현상으로, 지금의 AI는 그 스스로 '더 많이 알고 있다'고 착각하며 결과를 출력하는 수준에 도달하고 있다.

현장 전문가들은 “AI가 시간을 절약해준다는 명분이 무의미해지고 있다. 결과를 다시 사람이 검증해야 한다면 결국 그만큼의 리소스가 또 든다”고 지적한다. 환각 현상이 심각해지면, AI는 도움보다 혼란을 유발하는 존재가 될 수 있다.

본 콘텐츠는 뉴스픽 파트너스에서 공유된 콘텐츠입니다.

다음 내용이 궁금하다면?

원치 않을 경우 뒤로가기를 눌러주세요

실시간 키워드

2022.08.01 00:00 기준