[학위논문]생물의학 문헌을 활용한 유전자와 희귀질환 간 가설 생성에 관한 연구 : 루게릭병을 중심으로 A Study on Hypothesis Generation between Genes and Rare diseases via Biomedical literature : Focusing on Lou Gehrig's disease원문보기
전통적인 신약 개발 과정은 높은 난이도로 인해 많은 시간과 비용이 소요되며 특히 희귀질환 신약을 개발하는 것은 다른 질환에 비해 기술적으로 더욱 어렵고 관련 연구도 적다. 희귀질환의 경우 환자 수가 적기 때문에 표본을 모집하고 데이터를 얻는 데 한계가 있으며, 개발 난이도가 높다는 이유로 대부분의 글로벌 제약사들이 희귀질환 연구에 큰 관심을 두지 않았기 때문이다. 그러나 최근 정부에서 희귀질환 신약 개발을 지원함에 따라 많은 제약사들이 희귀질환에 집중하기 시작하였으며, 기술의 발전으로 작은 ...
전통적인 신약 개발 과정은 높은 난이도로 인해 많은 시간과 비용이 소요되며 특히 희귀질환 신약을 개발하는 것은 다른 질환에 비해 기술적으로 더욱 어렵고 관련 연구도 적다. 희귀질환의 경우 환자 수가 적기 때문에 표본을 모집하고 데이터를 얻는 데 한계가 있으며, 개발 난이도가 높다는 이유로 대부분의 글로벌 제약사들이 희귀질환 연구에 큰 관심을 두지 않았기 때문이다. 그러나 최근 정부에서 희귀질환 신약 개발을 지원함에 따라 많은 제약사들이 희귀질환에 집중하기 시작하였으며, 기술의 발전으로 작은 모집단 데이터에 대해 생체 분자 수준의 분석이 가능해졌다. 희귀질환으로 진단받은 대부분의 환자들은 진단 후 평균 수명이 짧고 높은 사망률을 보이지만, 일부 환자들은 치료를 통해 병의 진행을 완화시키면서 몇 년 심지어 수십 년을 살기도 한다. 루게릭병으로 널리 알려진 근위축성 측삭경화증은 희귀질환 범주에 속하는 신경퇴행성 질환으로, 몸의 골격근을 움직이게 하는 운동신경세포의 사멸로 인해 근육이 위축되는 증상이 나타난다. 루게릭병에 대한 근본적인 치료법이 아직 없으며 루게릭병에 대한 연구들은 신약 개발을 위한 유전자 바이오 마커를 찾는 데 초점을 맞추고 있다. 그동안의 유전체 관련 연구들은 수많은 질병-유전자 간 연관성을 확인하였으며 유전학이 주도하는 신약 개발에 도움을 주었으나, 신약 개발 비용과 시간을 줄이는 것은 여전히 어려운 과제이다. 이전 연구들은 신약 개발에 소요되는 시간을 단축하기 위해 유전자, 단백질, 화합물 등 신약 개발 후보군을 생성하는 프레임워크를 제안해왔다. 특히 컴퓨터 과학의 발달에 따라 신약 개발 후보 생성을 위한 프레임워크에 생물의학텍스트 마이닝과 인공지능이 주로 활용되고 있다. 후보 가설 생성을 위하여 널리 알려진 프레임워크 중 하나가 Swanson의 ABC 모델이다. Swanson은 문헌 기반 발견 접근법을 사용하여 가설을 생성하기 위해 ABC 모델을 제안하였으며 dietary fish oil(DFO)과 Raynaud’s syndrome 사이의 연관성을 조사하였다. 그는 연구를 통해 DFO가 치료를 위한 잠재적인 타겟일 수 있다는 결론을 내렸고 Raynaud’s syndrome에 대한 추가 연구를 위해 DFO를 추천했다. Swanson의 연구와 유사하게, 본 연구에서는 두 개의 생물학적 개체인 루게릭병과 루게릭병을 유발하는 45개의 유전자 사이의 연관성을 발견하고자 한다. 이를 위해 PubMed에서 수집한 288,853개의 문헌을 기반으로 연구를 진행하였으며, 연관성을 찾고 가설을 생성하기 전에, 루게릭병에 대한 연구 동향을 분석하고 지식 그래프를 구축하였다. 본 연구는 Latent Dirichlet Allocation(LDA) 토픽 모델링을 사용하여 루게릭병의 주제적 특성을 확인하고, term burstiness를 분석하여 특정 기간 동안 사용 정도가 급증한 토픽을 확인하였다. 또한, 지식 그래프를 구축하기 위하여 텍스트 마이닝 도구인 MELKE를 사용하여 생물학적 개체와 개체 간 관계를 추출하였다. 구축된 지식 그래프에는 상당히 많은 수의 노드와 엣지(4,027,625개의 노드와 5,287,912개의 엣지)가 있었기 때문에 본 연구에서는 경로 순위화 알고리즘을 통해 경로에 점수를 부여하고, 상위 경로만 대상으로 루게릭병과 45개의 관련 유전자를 연결하는 중요한 경로를 발견하고자 하였다. 본 연구에서 루게릭병의 연구 동향을 분석한 결과, 유전자 변이, 신경퇴행성 질환, 삶의 질, 동물 실험 연구, 질병 메커니즘, 검사, 약물, 증상, 세포, 대뇌 피질 등 10가지 주제가 루게릭병과 강하게 연관되어 있음을 알 수 있었다. 또한, 생성된 660,726개의 경로를 순위화하기 위하여 Complex라는 그래프 임베딩 모델을 기반으로 하는 경로 순위화 알고리즘을 사용하였다. 경로 순위화 알고리즘으로 확인한 상위 5%의 경로를 생물학 전문가와 함께 분석하여 가장 가능성 있는 가설 경로를 선별한 결과, 본 연구에서 루게릭병 신약 개발을 위한 실험을 위해 제안하는 두 가지 경로는 SCFD1—[is a]—JUP—[part of]—STMN2—[use]—ALS 와 FUS—[location of]—methylation—[is a]—CTN2—[part of]—ALS 이다. 본 연구는 방대한 문헌으로부터 생물학적 개체명과 개체관계를 추출하고 지식 그래프를 구축하여 유전자와 루게릭병 사이의 생물학적 경로를 자동으로 생성하고 순위화하였다는 데 의의가 있다. 이러한 가설 생성 프레임워크는 희귀질환 뿐만 아니라 모든 질환에 대한 신약 개발 과정에 사용될 수 있으며, 연구 대상이 되는 후보 물질의 범위를 줄여주고 우선순위를 결정하는 데 기여할 수 있을 것으로 기대한다.
전통적인 신약 개발 과정은 높은 난이도로 인해 많은 시간과 비용이 소요되며 특히 희귀질환 신약을 개발하는 것은 다른 질환에 비해 기술적으로 더욱 어렵고 관련 연구도 적다. 희귀질환의 경우 환자 수가 적기 때문에 표본을 모집하고 데이터를 얻는 데 한계가 있으며, 개발 난이도가 높다는 이유로 대부분의 글로벌 제약사들이 희귀질환 연구에 큰 관심을 두지 않았기 때문이다. 그러나 최근 정부에서 희귀질환 신약 개발을 지원함에 따라 많은 제약사들이 희귀질환에 집중하기 시작하였으며, 기술의 발전으로 작은 모집단 데이터에 대해 생체 분자 수준의 분석이 가능해졌다. 희귀질환으로 진단받은 대부분의 환자들은 진단 후 평균 수명이 짧고 높은 사망률을 보이지만, 일부 환자들은 치료를 통해 병의 진행을 완화시키면서 몇 년 심지어 수십 년을 살기도 한다. 루게릭병으로 널리 알려진 근위축성 측삭경화증은 희귀질환 범주에 속하는 신경퇴행성 질환으로, 몸의 골격근을 움직이게 하는 운동신경세포의 사멸로 인해 근육이 위축되는 증상이 나타난다. 루게릭병에 대한 근본적인 치료법이 아직 없으며 루게릭병에 대한 연구들은 신약 개발을 위한 유전자 바이오 마커를 찾는 데 초점을 맞추고 있다. 그동안의 유전체 관련 연구들은 수많은 질병-유전자 간 연관성을 확인하였으며 유전학이 주도하는 신약 개발에 도움을 주었으나, 신약 개발 비용과 시간을 줄이는 것은 여전히 어려운 과제이다. 이전 연구들은 신약 개발에 소요되는 시간을 단축하기 위해 유전자, 단백질, 화합물 등 신약 개발 후보군을 생성하는 프레임워크를 제안해왔다. 특히 컴퓨터 과학의 발달에 따라 신약 개발 후보 생성을 위한 프레임워크에 생물의학 텍스트 마이닝과 인공지능이 주로 활용되고 있다. 후보 가설 생성을 위하여 널리 알려진 프레임워크 중 하나가 Swanson의 ABC 모델이다. Swanson은 문헌 기반 발견 접근법을 사용하여 가설을 생성하기 위해 ABC 모델을 제안하였으며 dietary fish oil(DFO)과 Raynaud’s syndrome 사이의 연관성을 조사하였다. 그는 연구를 통해 DFO가 치료를 위한 잠재적인 타겟일 수 있다는 결론을 내렸고 Raynaud’s syndrome에 대한 추가 연구를 위해 DFO를 추천했다. Swanson의 연구와 유사하게, 본 연구에서는 두 개의 생물학적 개체인 루게릭병과 루게릭병을 유발하는 45개의 유전자 사이의 연관성을 발견하고자 한다. 이를 위해 PubMed에서 수집한 288,853개의 문헌을 기반으로 연구를 진행하였으며, 연관성을 찾고 가설을 생성하기 전에, 루게릭병에 대한 연구 동향을 분석하고 지식 그래프를 구축하였다. 본 연구는 Latent Dirichlet Allocation(LDA) 토픽 모델링을 사용하여 루게릭병의 주제적 특성을 확인하고, term burstiness를 분석하여 특정 기간 동안 사용 정도가 급증한 토픽을 확인하였다. 또한, 지식 그래프를 구축하기 위하여 텍스트 마이닝 도구인 MELKE를 사용하여 생물학적 개체와 개체 간 관계를 추출하였다. 구축된 지식 그래프에는 상당히 많은 수의 노드와 엣지(4,027,625개의 노드와 5,287,912개의 엣지)가 있었기 때문에 본 연구에서는 경로 순위화 알고리즘을 통해 경로에 점수를 부여하고, 상위 경로만 대상으로 루게릭병과 45개의 관련 유전자를 연결하는 중요한 경로를 발견하고자 하였다. 본 연구에서 루게릭병의 연구 동향을 분석한 결과, 유전자 변이, 신경퇴행성 질환, 삶의 질, 동물 실험 연구, 질병 메커니즘, 검사, 약물, 증상, 세포, 대뇌 피질 등 10가지 주제가 루게릭병과 강하게 연관되어 있음을 알 수 있었다. 또한, 생성된 660,726개의 경로를 순위화하기 위하여 Complex라는 그래프 임베딩 모델을 기반으로 하는 경로 순위화 알고리즘을 사용하였다. 경로 순위화 알고리즘으로 확인한 상위 5%의 경로를 생물학 전문가와 함께 분석하여 가장 가능성 있는 가설 경로를 선별한 결과, 본 연구에서 루게릭병 신약 개발을 위한 실험을 위해 제안하는 두 가지 경로는 SCFD1—[is a]—JUP—[part of]—STMN2—[use]—ALS 와 FUS—[location of]—methylation—[is a]—CTN2—[part of]—ALS 이다. 본 연구는 방대한 문헌으로부터 생물학적 개체명과 개체관계를 추출하고 지식 그래프를 구축하여 유전자와 루게릭병 사이의 생물학적 경로를 자동으로 생성하고 순위화하였다는 데 의의가 있다. 이러한 가설 생성 프레임워크는 희귀질환 뿐만 아니라 모든 질환에 대한 신약 개발 과정에 사용될 수 있으며, 연구 대상이 되는 후보 물질의 범위를 줄여주고 우선순위를 결정하는 데 기여할 수 있을 것으로 기대한다.
주제어
#텍스트마이닝 문헌 기반 발견 ABC 모델 신약개발 희귀질환 루게릭병 근위축성 측삭 경화증 지식 그래프
학위논문 정보
저자
안유리
학위수여기관
연세대학교 일반대학원
학위구분
국내석사
학과
문헌정보학과
지도교수
송민
발행연도
2022
총페이지
vii, 72 p.
키워드
텍스트마이닝 문헌 기반 발견 ABC 모델 신약개발 희귀질환 루게릭병 근위축성 측삭 경화증 지식 그래프
※ AI-Helper는 부적절한 답변을 할 수 있습니다.