“가장 똑똑한 AI는 누구?”… GPT 5.4·Grok 4.20 공동 1위, AI IQ 경쟁 치열

생성형 AI 경쟁이 ‘속도전’을 넘어 ‘지능 경쟁’ 국면으로 들어섰다. 미국 인공지능 분석 플랫폼 TrackingAI가 공개한 2026년 4월 기준 ‘Mensa Norway IQ 벤치마크’ 결과에서 OpenAI와 xAI의 대표 모델이 공동 1위에 올랐다. 다만 전문가들은 “AI IQ 점수만으로 실제 활용 능력을 단정하기는 어렵다”고 선을 긋는다.

최근 공개된 자료에 따르면, xAI의 ‘Grok-4.20 Expert Mode’와 OpenAI의 ‘GPT 5.4 Pro(Vision)’가 나란히 IQ 145를 기록하며 공동 선두에 올랐다. 상위권 모델 간 점수 차는 불과 몇 점 수준에 머물렀다. AI 업계의 기술 격차가 빠르게 좁혀지고 있다는 해석이 나오는 배경이다.

특히 지난해 같은 벤치마크 최고 점수가 135 수준이었던 점을 감안하면, 최상위 AI 모델의 추론 능력 향상 속도는 예상보다 훨씬 가파른 흐름을 보이고 있다.

◇ OpenAI·xAI 공동 1위… “상위권 AI, 사실상 박빙”

2026년 4월 TrackingAI 평가 기준 상위 모델 순위를 보면 xAI의 Grok-4.20 Expert Mode와 OpenAI GPT 5.4 Pro(Vision)가 각각 145점을 기록했다.

그 뒤를 구글 계열 Gemini 3.1 Pro Preview(141점)가 바짝 추격했다. OpenAI GPT 5.4 Thinking(Vision)은 139점, GPT 5.3은 136점을 기록하며 상위권을 형성했다.

메타의 Meta Muse Spark, OpenAI GPT 5.4 Thinking, xAI의 Grok-4.20 Expert Mode(Vision)는 모두 133점으로 같은 수준에 위치했다. 중국 AI 기업 계열 모델인 Qwen 3.5와 Claude-4.6 Opus는 130점, Kimi K2.5는 127점으로 뒤를 이었다.

반면 DeepSeek R1(112점), DeepSeek V3(111점)는 선두권과 다소 간격을 보였다. TrackingAI 데이터 기준으로 Mistral의 대표 모델은 97점에 머물며 주요 경쟁군 중 가장 낮은 수준으로 집계됐다.

눈에 띄는 부분은 ‘압축된 격차’다. 불과 4~5점 차이만으로 순위가 뒤바뀌는 구조가 형성되면서 AI 시장이 절대 강자 중심에서 ‘초박빙 경쟁’ 체제로 바뀌는 모습이다.

업계에서는 성능 우위가 더 이상 단순 모델 공개만으로 결정되지 않는다고 본다. 추론 성능, 멀티모달 처리, 응답 안정성, 비용 효율, 기업용 도구 연동 능력까지 복합 경쟁이 시작됐다는 분석이 나온다.

◇ 왜 ‘AI IQ 테스트’가 주목받나

TrackingAI는 공공에 공개된 ‘Mensa Norway IQ Test’를 활용해 AI 모델의 문제 해결 능력을 측정한다. 총 35개 시각 패턴 문제를 기반으로 점수를 산정한다.

차이는 입력 방식에 있다. Vision 기능이 있는 모델은 원본 이미지를 직접 해석한다. 비전 기능이 없는 모델은 문제를 텍스트로 변환한 뒤 답을 유도하는 방식이다.

같은 시험이라도 입력 방식에 따라 결과가 달라질 수 있다는 의미다. 때문에 업계에서는 해당 순위를 ‘AI 종합 성적표’가 아닌 ‘특정 추론 영역 비교 지표’ 정도로 보는 시각이 우세하다.

TrackingAI 측은 모델이 답변을 거부할 경우 동일 질문을 최대 10차례 반복하고, 가장 최근 응답을 평가에 반영한다고 설명했다. 측정 환경에 따른 변수가 존재한다는 지적이 나오는 이유다.

◇ “AI IQ 높아도 실무 성능은 다를 수 있다”

이번 순위가 주목받는 이유는 AI 발전 속도를 수치로 체감할 수 있기 때문이다. 지난해 최고점보다 10점 가까이 상승한 점은 최첨단 AI 모델의 추론 능력이 짧은 기간 안에 크게 개선됐다는 점을 보여준다.

다만 IQ형 벤치마크만으로 AI 우열을 판단하기엔 무리가 있다는 반론도 적지 않다.

실제 기업 환경에서는 코딩 능력, 사실 검증 정확도, 데이터 분석 역량, 도구 활용성, 업무 자동화 능력, 환각(hallucination) 최소화 같은 요소가 훨씬 중요하게 평가된다. 시각 패턴 인식 시험에서 높은 점수를 받았더라도 개발 생산성이나 비즈니스 실전 성능이 반드시 비례한다고 보기 어렵다는 얘기다.

AI 업계 관계자들은 “벤치마크는 현재 기술 흐름을 읽는 참고자료로는 의미가 있지만, 특정 모델의 절대 우위를 단정하는 자료로 해석하는 데는 신중할 필요가 있다”고 말한다.

◇ AI 경쟁, 이제는 ‘누가 더 똑똑한가’의 싸움

생성형 AI 시장은 이미 단순 챗봇 경쟁을 넘어섰다. OpenAI, xAI, 구글, 메타, Anthropic, 중국 빅테크까지 최상위 모델 경쟁에 뛰어들면서 ‘AI 성능 순위’에 대한 관심도 높아지는 분위기다.

2026년 벤치마크 결과는 한 가지 분명한 신호를 던진다. 선두 기업 몇 곳이 독주하던 구도가 흔들리고 있으며, 최상위 모델 간 성능 차가 빠르게 좁혀지고 있다는 점이다. 다만 AI 성능을 평가하는 잣대는 앞으로 더 다층적으로 변할 가능성이 크다. IQ 테스트 점수만으로 설명되지 않는 실사용 경험과 신뢰성 경쟁이 본격화하고 있기 때문이다.

본 콘텐츠는 뉴스픽 파트너스에서 공유된 콘텐츠입니다.

다음 내용이 궁금하다면?

광고 보고 계속 읽기

원치 않을 경우 뒤로가기를 눌러주세요

실시간 키워드

2022.08.01 00:00 기준

실시간 키워드