오케스트로, GPU 활용률 높이는 ‘콘체르토 AI’ 공개… AI 추론 속도 2.2배 향상

AI·클라우드 소프트웨어 기업 오케스트로가 기업 AI 인프라 운영 과정에서 발생하는 추론 병목 문제 해결에 나섰다. 생성형 AI 서비스 확산으로 GPU 확보 경쟁이 이어지는 가운데, 기존 인프라를 얼마나 효율적으로 활용할 수 있는지가 새로운 과제로 떠오르면서다.

오케스트로는 29일 GPU 자원 활용률을 높이고 AI 서비스 응답 지연을 줄이는 AI 추론 운영 플랫폼 ‘콘체르토 AI(CONCERTO A.I.)’를 공개했다고 밝혔다.

최근 기업 AI 환경은 단순 모델 구축을 넘어 실서비스 운영 단계로 빠르게 이동하고 있다. AI 챗봇, 업무 자동화 에이전트, 검색증강생성(RAG) 기반 서비스 사용이 늘어나면서 AI 추론 요청도 함께 증가하는 추세다. 특히 에이전트형 AI는 하나의 요청 안에서도 여러 차례 모델 호출과 반복 추론이 이뤄지는 구조여서 GPU 자원 사용량이 급격히 늘어나는 특징이 있다.

문제는 GPU를 충분히 확보했더라도 실제 운영 효율이 기대만큼 높지 않다는 점이다. 특정 GPU에 요청이 몰리면 응답 지연이 발생하는 반면 일부 자원은 유휴 상태로 남아 비용 부담을 키우는 경우가 적지 않다. 업계에서는 GPU 추가 구매만으로는 한계가 있는 만큼, 보유 인프라 최적화 기술 중요성이 커지고 있다는 분석이 나온다.

오케스트로가 선보인 콘체르토 AI는 이런 문제를 해결하기 위해 설계된 AI 추론 운영 플랫폼이다. 핵심은 ‘분산 서빙(Distributed Serving)’ 기반 구조다. 대규모 추론 요청을 여러 자원에 나눠 처리하고 GPU·NPU 같은 AI 가속기를 작업 특성에 맞춰 배분해 병목을 줄이는 방식이다.

기존 단일 처리 구조에서는 질문 분석과 답변 생성 작업이 같은 GPU 자원에서 동시에 수행되는 경우가 많았다. 요청량이 급증하면 특정 작업 지연이 전체 응답 속도 저하로 이어질 수 있다는 한계가 있었다. 콘체르토 AI는 작업 단계를 분리하고 적합한 자원을 배치해 GPU 활용 효율을 높인다고 회사는 설명했다.

성능 개선을 위한 세부 기술도 포함됐다. 키-값 캐시(KV Cache) 최적화와 메모리 재사용 기술을 적용해 초기 응답 시간을 줄였고, 실시간 대기열과 자원 상태를 반영하는 지능형 라우팅 기능을 통해 고부하 상황에서도 안정적인 응답 성능 유지에 초점을 맞췄다.

오케스트로에 따르면 자체 온프레미스 AI 인프라 환경에서 진행한 벤치마크 테스트 결과, 동시 요청이 집중되는 고부하 상황에서 콘체르토 AI의 분산 서빙 방식은 기존 단일 처리 대비 토큰 출력 속도를 약 2.2배 높였다. 같은 하드웨어 환경에서도 자원 배분 방식 차이에 따라 성능 격차가 발생할 수 있다는 점을 보여준다는 설명이다. 다만 해당 수치는 회사 내부 테스트 결과로, 실제 운영 환경에서는 워크로드 특성과 인프라 구성에 따라 차이가 나타날 가능성이 있다.

LLMOps 운영 자동화 기능도 강화했다. 콘체르토 AI는 AI 모델 배포부터 추론 요청 처리, 자원 배분, 성능 모니터링까지 하나의 플랫폼에서 관리할 수 있도록 설계됐다. 쿠버네티스(Kubernetes) 기반 환경에서 표준화된 모델 패키징 기술을 활용해 파드(Pod) 생성과 엔드포인트 연결을 자동화하고, 배포 이후에는 응답 속도와 자원 사용량 등을 통합 모니터링할 수 있다.

특히 눈에 띄는 부분은 국내 유일 수준이라고 회사가 강조한 ‘이기종 AI 가속기 지원’ 구조다. 특정 GPU 생태계에 의존하지 않고 리벨리온, 퓨리오사AI 등 국산 NPU 환경까지 지원한다는 설명이다. 최근 공공·금융권을 중심으로 데이터 통제권과 보안성을 강화한 ‘소버린 AI(Sovereign AI)’ 논의가 커지는 점을 고려하면, 하드웨어 선택권 확대는 경쟁 요소가 될 가능성이 있다.

다만 국내 NPU 생태계가 아직 초기 단계인 만큼, 실제 시장 확산 속도와 호환성 검증은 향후 과제로 남는다. GPU 중심으로 형성된 글로벌 AI 생태계 안에서 얼마나 안정적인 성능과 개발 편의성을 제공할 수 있을지가 경쟁력을 좌우할 전망이다.

김범재 대표는 “생성형 AI와 에이전트형 AI 서비스 확산으로 기업 과제가 GPU 확보에서 자원 운영 효율로 이동하고 있다”며 “콘체르토 AI를 통해 기업이 기존 AI 인프라 활용도를 높이고 프라이빗 AI 환경에서도 안정적인 서비스 운영을 할 수 있도록 지원하겠다”고 말했다.

본 콘텐츠는 뉴스픽 파트너스에서 공유된 콘텐츠입니다.

다음 내용이 궁금하다면?

광고 보고 계속 읽기

원치 않을 경우 뒤로가기를 눌러주세요

실시간 키워드

2022.08.01 00:00 기준

실시간 키워드