中 딥시크 AI 모델, 일부 성능 오픈AI ‘GPT’ 제쳤다

투데이코리아=김준혁 기자 | 중국 AI 스타트업 딥시크(DeepSeek)의 모델이 오픈AI 등 미국 AI 모델들의 성능을 일부 앞선 것으로 나타나 미·중 간 AI 경쟁에 있어 새로운 양상이 형성되고 있다.

29일 업계에 따르면, 딥시크는 최근 기술보고서를 내고 자사 LLM(대규모 언어모델) V3가 22개 평가 테스트 중 13개 부문에서 타 경쟁 모델 대비 가장 뛰어난 모습을 보였다고 밝혔다.

앞서 딥시크는 지난해 12월 V3를 선보였으며, 지난 20일에는 추론 모델인 R1을 새로 공개했다.

딥시크는 기술보고서에서 V3와 함께 오픈AI의 ‘GPT-4o’, 메타의 ‘라마 3.1’, 앤스로픽의 ‘클로드 3.5 소네트’ 등의 성능을 비교했다.

먼저 V3는 선별된 500개의 수학 문제 테스트(MATH-500)에서 90.2%의 정확도를 기록해 타 모델들이 기록한 80%를 크게 상회하는 모습을 보였다.

다중 언어 코드 생성 평가(HumanEval-Mul)에서도 V3는 82.6%를 기록해 GPT-4o(80.5%)와 라마 3.1(77.2%)를 앞선 것으로 나타났다.

다양한 언어 이해 작업 수행 능력인 대규모 멀티태스크 언어 이해 능력 평가(MMLU)에서는 89.1%를 기록해 두 번째로 높은 클로드 3.5 소네트(88.9%)를 상회했으며 수치 추론과 정보 추출 능력 테스트(DROP)는 91.6%, 중국어 기반 테스트(C-Eval)은 43.2%로 타 모델이 10점대 이하를 기록한 것과 비교해 크게 웃돌았다.

또한 딥시크의 추론모델 ‘R1’의 경우, 오픈AI의 o1을 앞선 것으로 나타나 업계에 충격을 불러 일으키고 있다.

R1은 미국 수학경시대회인 AIME 2024 벤치마크 테스트에서 79.8%의 정확도를 기록해 o1의 79.2%를 능가한 것으로 나타났다.

아울러 500개 수학 문제 테스트에서 97.3%를 기록했으며 다양한 주제의 복잡한 다중 질문 테스트(FRAMES)에서 82%의 정확도를 기록해 역시 o1(76.9%)를 따돌렸다.

사티아 나델라 마이크로소프트 CEO는 지난주 스위스 다보스에서 개최된 세계경제포럼에서 “딥시크의 새로운 모델을 보면 추론 연산을 수행하는 오픈소스 모델을 정말 효과적으로 만들면서, 슈퍼 컴퓨팅 효율성도 뛰어나다는 점에서 엄청나게 인상적이다”고 말했다.

본 콘텐츠는 뉴스픽 파트너스에서 공유된 콘텐츠입니다.

다음 내용이 궁금하다면?

광고 보고 계속 읽기

원치 않을 경우 뒤로가기를 눌러주세요

실시간 키워드

2022.08.01 00:00 기준

실시간 키워드