비드래프트, 세계 최초 AI 메타인지 벤치마크 'FINAL Bench' 공개
뒤로가기

3줄 요약

본문전체읽기

비드래프트, 세계 최초 AI 메타인지 벤치마크 'FINAL Bench' 공개

AI 스타트업 비드래프트(VIDRAFT)가 인공지능(AI)의 '메타인지' 능력을 세계 최초로 정량 측정하는 벤치마크 'FINAL Bench'를 허깅페이스(Hugging Face)와 GitHub에 동시 공개했다.

메타인지는 '자기가 틀렸다는 것을 스스로 인식하고 교정하는 능력'으로, 현재 AI 평가의 글로벌 표준인 MMLU, GPQA, HumanEval 등은 모두 '최종 정답의 정확도'만 측정할 뿐, AI가 자기 실수를 알고 고칠 수 있는지는 평가하지 못한다.

연구팀은 OpenAI GPT-5.2, Google Gemini 3 Pro, Anthropic Claude Opus 4.6, DeepSeek-V3.2, Kimi K2.5 등 글로벌 SOTA(최고 성능) LLM 9종을 대상으로 총 1,800건의 평가를 수행했다.

뉴스픽의 주요 문장 추출 기술을 사용하여 “비하인드” 기사 내용을 3줄로 요약한 결과입니다. 일부 누락된 내용이 있어 전반적인 이해를 위해서는 본문 전체 읽기를 권장합니다.

이 콘텐츠를 공유하세요.

알림 문구가 한줄로 들어가는 영역입니다

이 콘텐츠를 공유하세요.