대규모 고속 시퀀싱 기술의 출현으로 인해 생물학 및 의료 데이터가 기하급수적으로 생성되었다. 이러한 데이터들은 Gene Expression Omnibus (GEO)와 Sequence Read Archive (SRA)와 같은 공개 데이터베이스를 통해 제공되는데, 이를 통해 축적된 방대한 양의 데이터를 재가공하고 재사용함으로써 새로운 생물학적 발견을 할 수 있게 되었다. 또한 화합물 고속 ...
대규모 고속 시퀀싱 기술의 출현으로 인해 생물학 및 의료 데이터가 기하급수적으로 생성되었다. 이러한 데이터들은 Gene Expression Omnibus (GEO)와 Sequence Read Archive (SRA)와 같은 공개 데이터베이스를 통해 제공되는데, 이를 통해 축적된 방대한 양의 데이터를 재가공하고 재사용함으로써 새로운 생물학적 발견을 할 수 있게 되었다. 또한 화합물 고속 스크리닝 기술을 통해서 생성되는 암세포주에 대한 대규모 약물 스크리닝 데이터로 하여금, 약물 반응성에 영향을 미치는 유전체적인 특징을 발굴할 수 있게 되었다. 이러한 생물, 의료 빅데이터와 인공지능(Artificial intelligence, 이하 AI) 기법과의 용하여 다양한 질환의 진단 및 질환발생 기전 등을 알아내기 위한 연구를 지속적으로 진행하게 되었다. 제2형 당뇨병(Type 2 diabetes mellitus, 이하 T2DM)과 지방간(Fatty liver, 이하 FL) 질환에 있어 다양한 인공지능 기법을 이용한 바이오마커 발굴 연구가 진행되고 있다. 그러나, 질환을 진단하기 위한 최적의 바이오마커 조합을 발굴하는 연구는 아직 많이 진행되지 않았다. 또한 화합물 고속 스크리닝 기술로 인해 약물유전체 빅데이터가 생성되었다. 이를 기반으로 인공지능 기법을 이용하여 암세포주에 대한 약물 반응성 예측 연구가 진행되고 있다. 하지만 개별 약물에 대한 약물 반응을 예측하기 위한 전통적인 머신러닝(Traditaional machine learning, ML) 또는 딥러닝(Deep learning, 이하 DL) 모델의 우위가 아직 결정되지 않았으며, 이를 판단하고 개선하는 연구가 필요하다. 또한 설명 가능한 인공지능(Explainable artificial intelligence, 이하 XAI) 기술의 도입으로 인공지능예측 모델에 영향을 주는 주요 유전적 특징들을 발굴할 수 있게 되었다. 그러나, 암 환자 데이터를 고려한 약물 반응 예측 모델 구축에 대해 XAI 적용 사례는 여전히 많지 않았다. 이에 본 연구는 AI 기법을 생물정보학에 적용하여 질병의 감지 및 예측 모델 구축 및 바이오마커의 발굴과 항암 약물 반응성 예측모델 구축, 평가 및 모델 해석을 목표로 하였다. 제 2장에서는 miRNA-Seq 데이터를 활용하여 T2DM과 정상군을 구별하는 최적의 바이오마커 조합을 도출하였다. 이를 위해 유전 알고리즘(genetic algorithm, 이하 GA)과 random forest (RF)를 기반으로 한 특징 선택 알고리즘(miRDM-rfGA)을 개발하여 T2DM을 효과적으로 탐지하는 miRNA 조합을 발굴하였다. 또한 추가 분석을 통해 해당 바이오마커 조합이 T2DM과 관련되어 있음이 표적 mRNA 및 신호경로 분석으로 확인하였다. 제3장에서는 인슐린 저항성(Insulin resistance, 이하 IR)을 가진 개인들 중 FL 질환 보유 환자에 대한 대변 16S rDNA 시퀀싱 데이터를 사용하여 RF를 이용한 지도 학습 기반 분류 모델을 개발하였다. 또한 GA를 사용하여 분류 모델을 최적화함으로써, IRFL 질환에 대한 진단적 바이오마커로 활용될 수 있는 10개의 미생물 군집을 도출하였다. 제 4장에서는 약물유전체 데이터를 이용하여 개별 약물들의 항암 약물 반응성을 예측하는 AI 모델을 ML 및 DL 기법을 이용하여 구축하였다. 이를 통해 Panobinostat 예측 ridge 모델이 가장 우수한 성능을 보임을 확인하였다. 또한, 이 모델에서 XAI를 이용하여 Panobionstat에 대한 약물 반응성 예측에 영향을 미치는 중요한 유전자 22개를 확인하였다. 본 연구를 통해 의료 및 생물학 연구에서 AI 기법의 잠재력을 확인하였다. 특히 GA와 ML 기법을 결합하여 질환을 진단하는 최적의 바이오마커 조합을 도출하도록 하였고, 이들이 질환 발생에 대해 중요한 역할을 담당함을 확인하였다. 또한 약물유전체 빅데이터에 대해 DL과 ML 및 XAI 기법을 이용한 일련의 분석과정을 수립함으로써, 정밀치료에 있어 AI 기법을 이용하여 항얌 약물 반응성 예측 및 중요 인자 발굴에 대한 가이드라인을 제시할 수 있었다. 이처럼 의료 빅데이터가 쏟아지는 상황에서, AI 기법을 이용한 질병 진단, 약물 반응성 예측 모델 구축과 더불어 각 모델을 통해 도출하는 유용한 바이오마커 도출은 질병 진단, 치료 선택 및 맞춤형 의학 전략 개선에 도움을 줄 수 있다.
대규모 고속 시퀀싱 기술의 출현으로 인해 생물학 및 의료 데이터가 기하급수적으로 생성되었다. 이러한 데이터들은 Gene Expression Omnibus (GEO)와 Sequence Read Archive (SRA)와 같은 공개 데이터베이스를 통해 제공되는데, 이를 통해 축적된 방대한 양의 데이터를 재가공하고 재사용함으로써 새로운 생물학적 발견을 할 수 있게 되었다. 또한 화합물 고속 스크리닝 기술을 통해서 생성되는 암세포주에 대한 대규모 약물 스크리닝 데이터로 하여금, 약물 반응성에 영향을 미치는 유전체적인 특징을 발굴할 수 있게 되었다. 이러한 생물, 의료 빅데이터와 인공지능(Artificial intelligence, 이하 AI) 기법과의 용하여 다양한 질환의 진단 및 질환발생 기전 등을 알아내기 위한 연구를 지속적으로 진행하게 되었다. 제2형 당뇨병(Type 2 diabetes mellitus, 이하 T2DM)과 지방간(Fatty liver, 이하 FL) 질환에 있어 다양한 인공지능 기법을 이용한 바이오마커 발굴 연구가 진행되고 있다. 그러나, 질환을 진단하기 위한 최적의 바이오마커 조합을 발굴하는 연구는 아직 많이 진행되지 않았다. 또한 화합물 고속 스크리닝 기술로 인해 약물유전체 빅데이터가 생성되었다. 이를 기반으로 인공지능 기법을 이용하여 암세포주에 대한 약물 반응성 예측 연구가 진행되고 있다. 하지만 개별 약물에 대한 약물 반응을 예측하기 위한 전통적인 머신러닝(Traditaional machine learning, ML) 또는 딥러닝(Deep learning, 이하 DL) 모델의 우위가 아직 결정되지 않았으며, 이를 판단하고 개선하는 연구가 필요하다. 또한 설명 가능한 인공지능(Explainable artificial intelligence, 이하 XAI) 기술의 도입으로 인공지능 예측 모델에 영향을 주는 주요 유전적 특징들을 발굴할 수 있게 되었다. 그러나, 암 환자 데이터를 고려한 약물 반응 예측 모델 구축에 대해 XAI 적용 사례는 여전히 많지 않았다. 이에 본 연구는 AI 기법을 생물정보학에 적용하여 질병의 감지 및 예측 모델 구축 및 바이오마커의 발굴과 항암 약물 반응성 예측모델 구축, 평가 및 모델 해석을 목표로 하였다. 제 2장에서는 miRNA-Seq 데이터를 활용하여 T2DM과 정상군을 구별하는 최적의 바이오마커 조합을 도출하였다. 이를 위해 유전 알고리즘(genetic algorithm, 이하 GA)과 random forest (RF)를 기반으로 한 특징 선택 알고리즘(miRDM-rfGA)을 개발하여 T2DM을 효과적으로 탐지하는 miRNA 조합을 발굴하였다. 또한 추가 분석을 통해 해당 바이오마커 조합이 T2DM과 관련되어 있음이 표적 mRNA 및 신호경로 분석으로 확인하였다. 제3장에서는 인슐린 저항성(Insulin resistance, 이하 IR)을 가진 개인들 중 FL 질환 보유 환자에 대한 대변 16S rDNA 시퀀싱 데이터를 사용하여 RF를 이용한 지도 학습 기반 분류 모델을 개발하였다. 또한 GA를 사용하여 분류 모델을 최적화함으로써, IRFL 질환에 대한 진단적 바이오마커로 활용될 수 있는 10개의 미생물 군집을 도출하였다. 제 4장에서는 약물유전체 데이터를 이용하여 개별 약물들의 항암 약물 반응성을 예측하는 AI 모델을 ML 및 DL 기법을 이용하여 구축하였다. 이를 통해 Panobinostat 예측 ridge 모델이 가장 우수한 성능을 보임을 확인하였다. 또한, 이 모델에서 XAI를 이용하여 Panobionstat에 대한 약물 반응성 예측에 영향을 미치는 중요한 유전자 22개를 확인하였다. 본 연구를 통해 의료 및 생물학 연구에서 AI 기법의 잠재력을 확인하였다. 특히 GA와 ML 기법을 결합하여 질환을 진단하는 최적의 바이오마커 조합을 도출하도록 하였고, 이들이 질환 발생에 대해 중요한 역할을 담당함을 확인하였다. 또한 약물유전체 빅데이터에 대해 DL과 ML 및 XAI 기법을 이용한 일련의 분석과정을 수립함으로써, 정밀치료에 있어 AI 기법을 이용하여 항얌 약물 반응성 예측 및 중요 인자 발굴에 대한 가이드라인을 제시할 수 있었다. 이처럼 의료 빅데이터가 쏟아지는 상황에서, AI 기법을 이용한 질병 진단, 약물 반응성 예측 모델 구축과 더불어 각 모델을 통해 도출하는 유용한 바이오마커 도출은 질병 진단, 치료 선택 및 맞춤형 의학 전략 개선에 도움을 줄 수 있다.
With the advent of large-scale high-throughput sequencing technology, biological and medical data have been generated exponentially. Through public databases such as the Gene Expression Omnibus (GEO) and Sequence Read Archive (SRA), these vast amounts of data are reprocessed and reused, enabling new...
With the advent of large-scale high-throughput sequencing technology, biological and medical data have been generated exponentially. Through public databases such as the Gene Expression Omnibus (GEO) and Sequence Read Archive (SRA), these vast amounts of data are reprocessed and reused, enabling new biological discoveries. Furthermore, large-scale drug screening data for cancer cell lines generated through high-throughput drug screening technology have enabled us to unearth genomic features that affect drug responsiveness. These biological and medical big data have been continuously used in conjunction with artificial intelligence (AI) techniques to conduct research aimed at diagnosing various diseases and understanding their mechanisms of occurrence. In the case of Type 2 Diabetes Mellitus (T2DM) and Fatty Liver Disease (FL), various AI techniques are being used in ongoing biomarker discovery research. However, there is still much progress to be made in research aimed at discovering the optimal combination of biomarkers for diagnosing diseases. In addition, drug genomic big data has been created through high-speed compound screening technology. Based on this, AI techniques are being used to conduct research predicting drug responsiveness in cancer cell lines. However, it has not yet been determined whether ML or DL models have superiority for predicting individual drug responses, necessitating further research to assess and improve this situation. The introduction of Explainable Artificial Intelligence (XAI) technology has allowed us to discover key genetic features that influence AI prediction models; however there are still not many cases where XAI has been applied when constructing a drug response prediction model considering cancer patient data. In light of this, our study aimed to apply AI techniques in bioinformatics for disease detection & prediction model construction, biomarker discovery as well as construction, evaluation & interpretation of anti-cancer drug responsiveness prediction models. In Chapter 2 we identified an optimal biomarker combination differentiating T2DM from normal groups using miRNA-Seq data. For this purpose we developed a feature selection algorithm based on Genetic Algorithm(GA) and Random Forest(RF), called miRDM-rfGA which helped discover an effective miRNA combination detecting T2DM. Furthermore additional analysis confirmed that these biomarkers were related with T2DM via target mRNA & signal pathway analysis. In Chapter 3 we developed a supervised learning-based classification model using stool 16S rDNA sequencing data from patients with FL among individuals with insulin resistance(IR). Also by optimizing classification models using GA we were able to derive 10 microbial clusters that could serve as diagnostic markers for IRFL disease. In Chapter 4 we constructed an AI model predicting anti-cancer drug responses using ML & DL techniques based on pharmacogenomic data. Through this process it was confirmed that Panobinostat's predictive ridge model showed superior performance while XAI was utilized within this model revealing 22 crucial genes affecting Panobinostat's predicted response. Through our study we confirmed the potentiality of AI techniques within medical & biological studies especially by combining GA & ML techniques which allowed us derive an optimal set of diagnostic markers confirming their important roles within disease occurrence. Also by establishing series analysis processes utilizing DL&ML along with XAI based on pharmacogenomic big-data we were able provide guidelines applying AI technique towards precision medicine particularly in predicting anti-cancer drug responses & discovering crucial factors. In the current situation where medical big data is being poured out, deriving useful biomarkers through disease diagnosis and drug response prediction model construction using AI techniques can be helpful in improving disease diagnosis, treatment selection and personalized medical strategies.
With the advent of large-scale high-throughput sequencing technology, biological and medical data have been generated exponentially. Through public databases such as the Gene Expression Omnibus (GEO) and Sequence Read Archive (SRA), these vast amounts of data are reprocessed and reused, enabling new biological discoveries. Furthermore, large-scale drug screening data for cancer cell lines generated through high-throughput drug screening technology have enabled us to unearth genomic features that affect drug responsiveness. These biological and medical big data have been continuously used in conjunction with artificial intelligence (AI) techniques to conduct research aimed at diagnosing various diseases and understanding their mechanisms of occurrence. In the case of Type 2 Diabetes Mellitus (T2DM) and Fatty Liver Disease (FL), various AI techniques are being used in ongoing biomarker discovery research. However, there is still much progress to be made in research aimed at discovering the optimal combination of biomarkers for diagnosing diseases. In addition, drug genomic big data has been created through high-speed compound screening technology. Based on this, AI techniques are being used to conduct research predicting drug responsiveness in cancer cell lines. However, it has not yet been determined whether ML or DL models have superiority for predicting individual drug responses, necessitating further research to assess and improve this situation. The introduction of Explainable Artificial Intelligence (XAI) technology has allowed us to discover key genetic features that influence AI prediction models; however there are still not many cases where XAI has been applied when constructing a drug response prediction model considering cancer patient data. In light of this, our study aimed to apply AI techniques in bioinformatics for disease detection & prediction model construction, biomarker discovery as well as construction, evaluation & interpretation of anti-cancer drug responsiveness prediction models. In Chapter 2 we identified an optimal biomarker combination differentiating T2DM from normal groups using miRNA-Seq data. For this purpose we developed a feature selection algorithm based on Genetic Algorithm(GA) and Random Forest(RF), called miRDM-rfGA which helped discover an effective miRNA combination detecting T2DM. Furthermore additional analysis confirmed that these biomarkers were related with T2DM via target mRNA & signal pathway analysis. In Chapter 3 we developed a supervised learning-based classification model using stool 16S rDNA sequencing data from patients with FL among individuals with insulin resistance(IR). Also by optimizing classification models using GA we were able to derive 10 microbial clusters that could serve as diagnostic markers for IRFL disease. In Chapter 4 we constructed an AI model predicting anti-cancer drug responses using ML & DL techniques based on pharmacogenomic data. Through this process it was confirmed that Panobinostat's predictive ridge model showed superior performance while XAI was utilized within this model revealing 22 crucial genes affecting Panobinostat's predicted response. Through our study we confirmed the potentiality of AI techniques within medical & biological studies especially by combining GA & ML techniques which allowed us derive an optimal set of diagnostic markers confirming their important roles within disease occurrence. Also by establishing series analysis processes utilizing DL&ML along with XAI based on pharmacogenomic big-data we were able provide guidelines applying AI technique towards precision medicine particularly in predicting anti-cancer drug responses & discovering crucial factors. In the current situation where medical big data is being poured out, deriving useful biomarkers through disease diagnosis and drug response prediction model construction using AI techniques can be helpful in improving disease diagnosis, treatment selection and personalized medical strategies.
주제어
#인공지능 기계 학습 딥 러닝 특징 선택 유전 알고리즘 설명 가능한 인공지능 2형 당뇨병 지방간 질환
학위논문 정보
저자
박아론
학위수여기관
가천대학교 메디컬캠퍼스 일반대학원
학위구분
국내박사
학과
융합의과학과 의생명과학전공(생물정보학)
지도교수
남승윤
발행연도
2024
키워드
인공지능 기계 학습 딥 러닝 특징 선택 유전 알고리즘 설명 가능한 인공지능 2형 당뇨병 지방간 질환
※ AI-Helper는 부적절한 답변을 할 수 있습니다.