MS 소형 언어모델 '파이-3'에 눈 달린다…차트·그래프 등 AI가 보고 답해

마이크로소프트(MS)가 지난달 공개한 소형언어모델(SLM) 파이-3(Phi-3)에 비전(Vision) 기능을 추가했다. 이미지를 제공하면 AI가 자연어로 대답할 수 있게 됐다. 노트북이나 스마트폰 등 개인용 기기에서 활용하기에 가장 적합하다는 것이 MS의 설명이다.

MS는 21일(현지시간) 파이-3 비전 모델을 공개했다. 언어와 비전 기능을 결합한 멀티모달 기능을 탑재했다는 것이 특징이다. 파이-3 비전의 파라미터(매개변수)는 42억개로, 38억개의 미니보다는 크고, 70억개의 파이-3 스몰(Small)이나 140억개의 파이-3 미디엄(Medium)보다는 적은 규모다.

매개변수는 언어 모델이 문장을 생성하거나 해석할 때 사용되는 변수를 말한다. 파이-3 비전은 멀티모달 기능이 탑재돼, AI가 이미지를 읽을 수 있게 됐다. 차트, 그래프, 표 등 이미지를 읽고 이를 AI가 분석해 텍스트로 답할 수 있다. 거대언어모델(LLM)과 같이 이미지를 생성하진 않지만, 이미지 내용을 제대로 이해하고 사용자를 위해 분석할 수 있다는 것이다.

거대언어모델에 비해 SLM은 휴대전화와 노트북과 같은 개인용 기기들에서 작동하기 적합하다. 구동에 드는 비용도 매우 저렴하다. 특히 선별된 고품질 학습 데이터를 사용해 보다 정확한 결과를 얻을 수 있다는 설명이다. 이 때문에 최근 파이와 같은 작고 가벼운 AI 모델을 선호하는 추세다.

이에 반해 거대언어모델은 파라미터가 수천억 개 이상이기 때문에 저장 공간이 많이 필요하고, 구동하는 데 있어 많은 자원이 소모된다. MS는 파이-3 비전이 이미지와 텍스트를 함께 추론해야 하는 작업에 적합하다고 설명했다.

본 콘텐츠는 뉴스픽 파트너스에서 공유된 콘텐츠입니다.

다음 내용이 궁금하다면?

광고 보고 계속 읽기

원치 않을 경우 뒤로가기를 눌러주세요

실시간 키워드

2022.08.01 00:00 기준

실시간 키워드