암의 발병 기전을 이해하기 위해 암세포의 유전체(게놈)에서 발생하는 돌연변이를 규명하려는 연구가 많이 시도되는 가운데, 최근에는 유전자에서 발생하는 점 돌연변이(point mutation)뿐 아니라 암세포의 특이적 유전자 발현 조절 기전 규명의 중요성이 주목받고 있다.
광주과학기술원(GIST, 총장 임기철)은 AI대학원 이현주 교수 연구팀이 서울대병원 박성혜 교수 연구팀과 함께 암세포의 전장 유전체(한 사람의 전체 유전자) 정보를 활용하여 3차원 암(cancer) 게놈을 예측하는 AI 모델, ‘InfoHiC’를 개발했다고 밝혔다.
암세포에서는 3차원 게놈의 변화가 유전자 발현형의 조절에 중요한 역할을 한다. Hi-C 데이터를 사용하면 3차원 암 게놈의 neo-TAD 구조를 확인할 수 있으나, 전장 유전체 데이터에 비해 상대적으로 분석이 까다롭고 비용도 많이 든다.
연구팀이 개발한 InfoHiC는 기존의 방법론과 달리, 사전에 정의된 인간 참조 유전체 서열이 아닌 암세포의 전장 유전체 데이터를 사용하여 Hi-C 서열 데이터를 예측한다. 암세포의 염색체에서는 복잡한 구조 변이가 빈번하게 일어나는데, InfoHiC는 이러한 복잡한 구조 변이에 의한 neo-TAD를 더 높은 정확도로 예측할 수 있다.
연구팀은 이를 통해 비암호화 DNA(non-coding DNA) 영역에서 발생하는 구조적 변이에 의한 neo-TAD 생성 및 인핸서 납치 현상을 예측함으로써, 비암호화 DNA 영역의 구조 변이가 암의 발생과 진행에 미치는 영향을 종전보다 저비용으로 정확히 밝혀낼 수 있을 뿐만 아니라 암 환자에게서 직접 관찰할 수 있는 기술을 확보했다.
연구팀이 수모세포종 환자 A의 전장 유전체 데이터에 InfoHiC를 적용한 결과, 비정상적인 유전자 발현을 유발하는 인핸서 납치 현상을 예측했고, 이를 통해 유전자 발현 조절 이상을 확인할 수 있었다.
또한 연구팀은 종양 유전자의 암호화 DNA(coding DNA) 영역에서 돌연변이가 발견되지 않아 치료 타깃 유전자 선정이 힘든 환자 B를 대상으로 InfoHiC를 활용하여 3D 게놈 변이에 따른 유전자 발현 이상을 확인했는데, 이와 같은 방식으로 InfoHiC가 추후 환자 맞춤형 치료 추천에 기여할 것으로 기대된다.
연구팀은 암세포의 복잡한 구조 변이가 다양한 하플로타입(haplotype) 콘티그(contig)를 생성하고, neo-TAD가 바로 이러한 하플로타입에 따라 특이적으로 형성된다는 사실에 주목하여 이를 AI 모델에 반영함으로써 3차원 게놈을 예측했다.
또한 연구팀은 앞선 연구에서 개발한 바 있는 유전 변이 발굴 및 유전체 복원 알고리즘인 인포지노머(InfoGenomeR)를 활용하여 암 유전체의 하플로타입 콘티그(contig)를 구성했다.
이로써 유전적 변이가 다른 각 콘티그에 특이적으로 대응하는 Hi-C 데이터의 예측 결과를 결합하여 최종적으로 3차원 게놈을 예측했다. Hi-C 데이터는 콘티그의 염기서열 및 복제 수 변이를 입력하여 부호화(encoding)한 후, 합성곱 신경망(convolutional neural network, CNN) 구조의 학습을 통해 예측됐다.
기존의 인간 참조 유전체에 기반한 모델과 비교하여 연구팀이 개발한 InfoHiC는 구조 변이가 있는 암세포의 3D 게놈 예측 성능이 크게 향상됐다.
모델 학습에 사용된 데이터와는 별개의 외부 데이터인 유방암 세포주를 활용하여 검증한 결과, 기존 알고리즘의 Pearson’s R 값은 0.642이었으나, InfoHiC는 0.715로 11% 향상됐다. 유방암 세포주에서 예측한 neo-TAD 중 20% 이상이 복잡한 구조 변이에서 비롯된 것으로, 이것은 기존의 인간 참조 유전체에 기반한 모델에서는 예측할 수 없다는 결론을 내렸다.
또한 연구팀이 InfoHiC를 유방암 환자 90명의 전장 유전체 데이터에 적용하여 neo-TAD를 예측한 결과, 여러 환자들에게서 반복적으로 나타나는 neo-TAD 관련 유전자를 발견했는데 인핸서 납치에 의한 이들 유전자의 과발현이 암환자의 생존율과 연관이 높다는 점도 밝혀졌다.
이현주 교수는 “최근에 시퀀싱 데이터 비용의 감소로 암 환자의 전장유전체 데이터는 많이 생산되고 있으나, 이에 반해 3차원 암 게놈을 확인할 수 있는 Hi-C 데이터는 고비용 탓에 확보가 쉽지 않다” 면서 “이번 연구는 Hi-C 데이터 예측을 통해서 비암호화 DNA 영역에서의 구조 변이를 가진 암 환자의 개인 맞춤형 치료에 기여할 수 있을 것”이라고 말했다.
GIST AI대학원 이현주 교수와 서울대학교 의과대학 병리학교실 박성혜 교수의 이번 공동연구는 GIST 전기전자컴퓨터공학부 이영훈 박사가 수행했으며, 정보통신기획평가원(IITP)의 지원을 받았다. 연구 결과는 생화학 및 분자생물학 분야 상위 10% 국제학술지 ‘몰레큘러 시스템즈 바이올로지(Molecular Systems Biology)’에 2024년 11월 4일 표지논문으로 게재됐다.
Copyright ⓒ AI포스트 무단 전재 및 재배포 금지