비드래프트, 세계 최초 AI 메타인지 벤치마크 'FINAL Bench' 공개

사진=비드래프트 제공

[비하인드=김현수기자] AI 스타트업 비드래프트(VIDRAFT)가 인공지능(AI)의 '메타인지' 능력을 세계 최초로 정량 측정하는 벤치마크 'FINAL Bench'를 허깅페이스(Hugging Face)와 GitHub에 동시 공개했다.

공개 직후 허깅페이스 데이터셋 전체 인기순위에서 글로벌 5위를 기록했으며, FINAL Bench를 기반으로 구축한 'FINAL Bench Leaderboard'는 허깅페이스가 선정하는 '금주의 스페이스(Spaces of the Week)'에 선정됐다.

'금주의 스페이스'는 허깅페이스가 전 세계에서 매주 신규 공개되는 수천 개의 AI 서비스 웹앱 중 단 8개만을 엄선하는 '주간 명예의 전당'으로, 한국 연구진의 벤치마크가 글로벌 AI 커뮤니티에서 폭발적 관심을 얻고 있음을 입증한다.

메타인지는 '자기가 틀렸다는 것을 스스로 인식하고 교정하는 능력'으로, 현재 AI 평가의 글로벌 표준인 MMLU, GPQA, HumanEval 등은 모두 '최종 정답의 정확도'만 측정할 뿐, AI가 자기 실수를 알고 고칠 수 있는지는 평가하지 못한다.

FINAL Bench는 이 사각지대를 정면으로 겨냥한다. 수학, 과학, 철학, 의학, 경제, 역사 등 15개 학문 도메인에 걸친 100개 전문가 수준 과제로 구성되며, 각 과제에는 AI가 빠지기 쉬운 '인지적 함정(hidden trap)'이 내장돼 있다. AI가 함정에 빠지는 것이 아니라, 빠졌다가 스스로 빠져나오는 과정을 5개 축(과정품질·메타인지정확도·오류복구·통합깊이·최종정답)으로 분리 측정하는 것이 핵심이다.

연구팀은 OpenAI GPT-5.2, Google Gemini 3 Pro, Anthropic Claude Opus 4.6, DeepSeek-V3.2, Kimi K2.5 등 글로벌 SOTA(최고 성능) LLM 9종을 대상으로 총 1,800건의 평가를 수행했다.

9개 모델 전부에서 '틀릴 수 있다고 말하는 능력(MA·선언적 메타인지)'은 평균 0.694로 비교적 높았지만, '실제로 오류를 찾아 고치는 능력(ER·절차적 메타인지)'은 평균 0.302에 불과했다. 전체 평가의 79.6%(215건)에서 ER 점수가 최저인 0.25를 기록했다. 현존 최고 AI들이 '겸손한 척은 하면서 정작 고치지는 못하는' 상태, 연구팀이 명명한 '겸손한 기만자(Humble Deceiver)' 프로필에 해당하는 셈이다.

더 결정적인 발견도 있다. 자기교정 구조를 적용했을 때 전체 성능 향상(+9.30점, +15.4%)의 114.7%가 ER(오류복구) 단일 축에서 발생했다. 나머지 4개 축의 합산 기여는 오히려 마이너스(-14.7%)였다. 이는 AI 지능 향상의 핵심 병목이 지식의 양도, 추론 능력도, 최종 정확도도 아닌, 오직 '자기교정' 하나에 있음을 데이터로 입증한 것이다.

Baseline 리더보드에서는 Kimi K2.5가 FINAL Score 68.71점으로 1위를 차지했다. ER 0.450으로 유일하게 자기교정에서 유의미한 점수를 기록했다. GPT-5.2(62.76점), GLM-5(62.50점)가 뒤를 이었으며, Claude Opus 4.6은 56.04점으로 9개 모델 중 최하위를 기록했다.

논문 'FINAL Bench: Measuring Functional Metacognitive Reasoning in LLMs'(Kim, Kim, Choi, Jang, 2026)는 현재 글로벌 유수 국제학술대회에 정식 게재 신청 중이다. 평가 데이터셋(100개 과제 전문), 채점 코드, 심판 프롬프트 전체는 허깅페이스와 GitHub에 전면 공개돼 누구나 자신의 모델을 FINAL Bench로 평가할 수 있다.

김민식 대표는 "인지심리학 40년 이론인 Nelson & Narens의 메타인지 프레임워크를 AI에 최초 적용한 연구"라며 "기존 벤치마크가 MMLU 90%대로 포화된 상황에서 ER 축은 0.250~0.450의 넓은 변별 범위를 제공하며, 향후 수년간 포화되지 않을 새로운 평가 기준을 확립했다"고 말했다.

이어 "메타인지 없는 AGI는 눈 감고 운전하는 것과 같다"며 "AI가 얼마나 많이 아는가가 아니라, 자기가 모르는 것을 아는가를 묻는 시대가 열렸다. 한국 연구진이 AGI 평가의 글로벌 표준을 만들겠다"고 말했다.

[사진=비드래프트 제공]

본 콘텐츠는 뉴스픽 파트너스에서 공유된 콘텐츠입니다.

다음 내용이 궁금하다면?

광고 보고 계속 읽기

원치 않을 경우 뒤로가기를 눌러주세요

실시간 키워드

2022.08.01 00:00 기준

실시간 키워드