엔비디아가 GenSLM 모델을 훈련하기 위해 엔비디아 A100 텐서 코어 GPU 기반 슈퍼컴퓨터를 사용했다. 아울러 이번 주 콜로라도주 덴버에서 열리는 SC23에서 엔비디아는 가속 컴퓨팅 분야의 새롭고 획기적인 연구 결과를 공유한다.
널리 알려진 게놈 데이터용 대규모 언어 모델이 코로나19의 원인 바이러스인 SARS-CoV-2의 실제 변종과 매우 유사한 유전자 서열을 생성하는 능력을 증명했다.
지난해 고성능 컴퓨팅 기반 코로나19 연구 부문에서 고든벨 상을 수상한 GenSLM 모델은 DNA와 RNA의 구성 요소인 뉴클레오티드 서열 데이터 세트를 기반으로 학습됐다. 이 모델은 아르곤 국립 연구소, 엔비디아, 시카고 대학교와 기타 여러 학계와 상업 협력업체의 연구원들에 의해 개발됐다.
연구진은 GenSLM이 생성한 뉴클레오티드 서열을 되돌아본 결과, 팬데믹 첫해부터 코로나19 바이러스 게놈만 훈련했음에도 불구하고 A·I가 생성한 서열의 특정 특성이 올해 유행한 실제 에리스(Eris)와 피롤라(Pirola) 변종과 거의 일치하는 것을 발견했다.
GenSLM은 자체 염기서열을 생성하는 것 외에도 변종을 구분함으로써 서로 다른 코로나19 게놈 염기서열을 분류하고 클러스터링할 수 있다. 엔비디아의 가속 소프트웨어 허브인 NGC에 곧 공개될 데모에서는 사용자가 코로나19 바이러스 게놈 내 다양한 단백질의 진화 패턴에 대한 GenSLM의 분석 시각화를 살펴볼 수 있다.
GenSLM의 핵심 기능은 긴 뉴클레오티드 문자열을 해석하는 능력이다. 이는 영어 텍스트를 학습한 LLM이 문장을 해석하는 것과 같은 방식으로 DNA의 A, T, G, C 또는 RNA의 A, U, G, C의 서열로 표시되는 문자열을 해석한다. 이 기능을 통해 모델은 약 30,000개의 뉴클레오티드로 구성된 코로나바이러스의 게놈에서 서로 다른 영역 간의 관계를 이해할 수 있다.
데모에서 사용자는 8개의 서로 다른 코로나19 변종 중에서 하나를 선택할 수 있다. 이로써 AI 모델이 바이러스 게놈의 다양한 단백질에서 돌연변이를 추적하는 방법을 이해한다. 이 시각화는 바이러스 단백질 전반의 진화적 결합을 묘사해 특정 변종에서 어떤 게놈 조각이 발견될 가능성이 높은지 강조한다.
Copyright ⓒ 경향게임스 무단 전재 및 재배포 금지
본 콘텐츠는 뉴스픽 파트너스에서 공유된 콘텐츠입니다.