마이크로소프트(MS)가 지난달 공개한 소형언어모델(SLM) 파이-3(Phi-3)에 비전(Vision) 기능을 추가했다. 이미지를 제공하면 AI가 자연어로 대답할 수 있게 됐다. 노트북이나 스마트폰 등 개인용 기기에서 활용하기에 가장 적합하다는 것이 MS의 설명이다.
MS는 21일(현지시간) 파이-3 비전 모델을 공개했다. 언어와 비전 기능을 결합한 멀티모달 기능을 탑재했다는 것이 특징이다. 파이-3 비전의 파라미터(매개변수)는 42억개로, 38억개의 미니보다는 크고, 70억개의 파이-3 스몰(Small)이나 140억개의 파이-3 미디엄(Medium)보다는 적은 규모다.
매개변수는 언어 모델이 문장을 생성하거나 해석할 때 사용되는 변수를 말한다. 파이-3 비전은 멀티모달 기능이 탑재돼, AI가 이미지를 읽을 수 있게 됐다. 차트, 그래프, 표 등 이미지를 읽고 이를 AI가 분석해 텍스트로 답할 수 있다. 거대언어모델(LLM)과 같이 이미지를 생성하진 않지만, 이미지 내용을 제대로 이해하고 사용자를 위해 분석할 수 있다는 것이다.
거대언어모델에 비해 SLM은 휴대전화와 노트북과 같은 개인용 기기들에서 작동하기 적합하다. 구동에 드는 비용도 매우 저렴하다. 특히 선별된 고품질 학습 데이터를 사용해 보다 정확한 결과를 얻을 수 있다는 설명이다. 이 때문에 최근 파이와 같은 작고 가벼운 AI 모델을 선호하는 추세다.
이에 반해 거대언어모델은 파라미터가 수천억 개 이상이기 때문에 저장 공간이 많이 필요하고, 구동하는 데 있어 많은 자원이 소모된다. MS는 파이-3 비전이 이미지와 텍스트를 함께 추론해야 하는 작업에 적합하다고 설명했다.
Copyright ⓒ AI포스트 무단 전재 및 재배포 금지
본 콘텐츠는 뉴스픽 파트너스에서 공유된 콘텐츠입니다.