이번 연구는 Web3와 블록체인 산업 전반에서 대형언어모델(LLM)의 성능을 체계적으로 검증하기 위한 평가 체계를 제시하며, 기존 범용 AI 평가 방식이 산업 전문성을 충분히 반영하지 못한다는 문제를 해결하고자 블록체인 특화 과제를 중심으로 벤치마크를 설계했다.
특히 상용화된 AI 모델들도 Web3 전문 추론 분야에서는 한계를 드러냈으며, 복잡한 토큰 구조 해석이나 스마트 컨트랙트 보안 문제에서는 모델별 성능 차이가 크게 나타났다.
DMind의 32B 파라미터 오픈소스 모델은 제한된 비용 환경에서도 높은 성능을 기록했으며, 토큰 이코노믹스와 보안 영역에서는 대규모 범용 모델 대비 10~30% 수준의 비용으로 유사하거나 더 높은 성능을 보였다.
뉴스픽의 주요 문장 추출 기술을 사용하여 “이데일리” 기사 내용을 3줄로 요약한 결과입니다. 일부 누락된 내용이 있어 전반적인 이해를 위해서는 본문 전체 읽기를 권장합니다.