의학기술의 발달로 기하급수적으로 축적되는 의학 데이터를 신약개발에 적용하기 위한 관심이 높아지고 있다. 이는 신약개발 전 단계에 드는 방대한 시간과 노력, 비용을 단축하고, 부작용을 예측하여 실패율을 최소화하는 것이 중요한 문제이기 때문이다. 그중 신약 후보 물질의 탐색 단계에서는 광범위한 생의학 분야를 고려한 논문과 보고서, 임상 데이터, 생물학 정보 등의 빅데이터를 분석해야 하는 어려움이 있다. 이에 따라 신약개발을 위한 전 과정에 데이터 사이언스 및 ...
의학기술의 발달로 기하급수적으로 축적되는 의학 데이터를 신약개발에 적용하기 위한 관심이 높아지고 있다. 이는 신약개발 전 단계에 드는 방대한 시간과 노력, 비용을 단축하고, 부작용을 예측하여 실패율을 최소화하는 것이 중요한 문제이기 때문이다. 그중 신약 후보 물질의 탐색 단계에서는 광범위한 생의학 분야를 고려한 논문과 보고서, 임상 데이터, 생물학 정보 등의 빅데이터를 분석해야 하는 어려움이 있다. 이에 따라 신약개발을 위한 전 과정에 데이터 사이언스 및 인공지능을 접목하기 위한 노력이 계속되고 있다. 특히 천연물 신약 분야는 명확한 약효가 입증되어있고 부작용이 적기 때문에 고속 대량 스크리닝, 조합 화학 등과 같은 접근법을 적용하고 있지만 낮은 수율과 합성의 어려움으로 인해 여전히 높은 진입장벽이 존재한다. 한편, 방대한 생의학 문헌들 속에서 단순한 정보 검색으로는 지식의 단편을 찾는 것에서 그칠 뿐 새로운 발견을 하기 어렵다. 이를 위해 문헌 기반 발견(LBD) 연구에 앞장선 Swanson의 ABC모델이 제시되며 발전되어왔다. ABC모델은 문헌에서 추출한 A 개념이 B 개념과 연결되어 있고, B 개념이 C 개념과 연결되어 있을 때, A 개념과 C 개념은 서로 암묵적인 관계를 가지고 있다고 보고 새로운 가설을 제시하는 접근 방법이다. 하지만 선행 연구의 경우 기존의 가설을 재확인하거나, 단일 타입의 개체로 이루어진 네트워크를 그리는 데 그쳤으며, 새로 생성된 가설의 유용성을 파악하기 위한 후속 분석까지 진행된 경우가 많지 않았다. 특히 천연물 연구에 LBD를 접목한 연구는 많지 않았다. 따라서 본 연구에서는 민간요법으로 널리 사용된 창이자 천연물과 아직 연구가 활발히 이루어지지 않은 당뇨병 질병을 중심으로 연구를 진행했다. 연구의 전반적인 절차와 방법론은 다음과 같다. 먼저 LDA 토픽모델링 방법론을 적용하여 출판된 당뇨병의 신약개발 관련 문헌을 분석하여 지금까지 연구된 주제적 특성을 발견하였고, A knowledge extraction engine인 MELKE를 통해 방대한 생의학 문헌 내 개체 및 개체 간 관계를 추출하고, 추출된 관계 데이터를 활용하여 동시출현단어 분석했다. 이를 중심으로 ABC모델 중 폐쇄형 발견 과정을 적용한 지식그래프 기반 가설을 자동으로 생성하고 최종 결과를 이미 출판된 문헌을 근거로 분석했다. 본 연구에서 발견한 분석 결과에 대해 요약하면 다음과 같다. 당뇨병 신약개발 문헌 데이터를 활용한 LDA 토픽모델링 분석 결과는 경구 투여 방식인 ‘metformin’과 ‘CSII’(지속적 인슐린 피하 주사요법), pump와 같은 투여 방식이 주요한 주제로 다루어지고 있었으며, ‘glucose’, ‘blood’, ‘response’와 같은 당뇨 진단과 관련된 주제와 ‘eye’, ’edema’와 같이 당뇨병의 합병증인 안질환과 관련된 주제와 ‘rat’, ‘mouse’, ‘model’과 같이 임상시험 시 널리 이용되는 동물모델에 관련된 주제를 확인할 수 있었다. 창이자 성분과 당뇨병 문헌 데이터를 활용한 전체 동시출현분석 결과는 ‘glucose’와 ‘insulin’이 가장 높은 순위를 차지하였고, 다음으로 ‘hypertension’과 ‘diabetes’가 차지하였다. 다른 하위 순위에서 이 4개의 개체가 반복적으로 나타났는데, 특히 ‘diabetes’의 경우 동의어인 ‘diabetes mellitus’와 당뇨병의 분류 중 하나인 ‘type 2 diabetes’로 세분화하여 등장하며 다른 개체들과의 연관성을 보였다. 또한, Modularity 기반 커뮤니티 분석을 통해 총 12개의 커뮤니티가 발견하였는데 이를 통해 단순하게 중심성값이 높은 일반적인 단어 위주 분석이 아닌, 커뮤니티 특성이 반영된 분석으로 창이자 성분과 당뇨병 문헌에서 주요하게 작용하는 성분들을 확인할 수 있었다. 마지막으로 그래프 모델 기반으로 생성된 경로 중 동시출현 단어분석 및 토픽모델링을 통해 중점적으로 나타난 노드를 분석에 적용하여 betulin (Associated with) mmp-2 (미발견 관계) c-reactive protein (Associated) insulin resistance (Associated with) diabetes와 emodin (Associated with) streptozotocin (미발견 관계) glucose oxidase (Associated )insulin resistance (Associated with) diabetes를 최종 가설로써 제시했다. 선별된 가설은 사이의 작용 기전이 명확하지 않았던 부분을 기존 문헌 중심으로 분석함으로써 유효성을 높였다. 본 연구를 통해 방대한 문헌로부터 신약개발의 연구 동향을 파악하고, 자동으로 천연물 성분과 질병 간 경로를 추출한 후 분석을 통해 유력한 가설을 생성해내는 프레임워크를 제시하였다. 이를 통해 과도한 천연물 신약 후보 물질 탐색의 기간과 비용을 줄일 수 있을 것이며, 본 연구의 프레임워크는 특정 천연물 혹은 질병에만 국한되지 않기 때문에 천연물 임상 연구자들에게 신약 개발을 위한 유의미한 가설을 제시함으로써 통찰력을 줄 수 있고 나아가 신약을 위한 연구 생산성 향상에 기여할 수 있다.
의학기술의 발달로 기하급수적으로 축적되는 의학 데이터를 신약개발에 적용하기 위한 관심이 높아지고 있다. 이는 신약개발 전 단계에 드는 방대한 시간과 노력, 비용을 단축하고, 부작용을 예측하여 실패율을 최소화하는 것이 중요한 문제이기 때문이다. 그중 신약 후보 물질의 탐색 단계에서는 광범위한 생의학 분야를 고려한 논문과 보고서, 임상 데이터, 생물학 정보 등의 빅데이터를 분석해야 하는 어려움이 있다. 이에 따라 신약개발을 위한 전 과정에 데이터 사이언스 및 인공지능을 접목하기 위한 노력이 계속되고 있다. 특히 천연물 신약 분야는 명확한 약효가 입증되어있고 부작용이 적기 때문에 고속 대량 스크리닝, 조합 화학 등과 같은 접근법을 적용하고 있지만 낮은 수율과 합성의 어려움으로 인해 여전히 높은 진입장벽이 존재한다. 한편, 방대한 생의학 문헌들 속에서 단순한 정보 검색으로는 지식의 단편을 찾는 것에서 그칠 뿐 새로운 발견을 하기 어렵다. 이를 위해 문헌 기반 발견(LBD) 연구에 앞장선 Swanson의 ABC모델이 제시되며 발전되어왔다. ABC모델은 문헌에서 추출한 A 개념이 B 개념과 연결되어 있고, B 개념이 C 개념과 연결되어 있을 때, A 개념과 C 개념은 서로 암묵적인 관계를 가지고 있다고 보고 새로운 가설을 제시하는 접근 방법이다. 하지만 선행 연구의 경우 기존의 가설을 재확인하거나, 단일 타입의 개체로 이루어진 네트워크를 그리는 데 그쳤으며, 새로 생성된 가설의 유용성을 파악하기 위한 후속 분석까지 진행된 경우가 많지 않았다. 특히 천연물 연구에 LBD를 접목한 연구는 많지 않았다. 따라서 본 연구에서는 민간요법으로 널리 사용된 창이자 천연물과 아직 연구가 활발히 이루어지지 않은 당뇨병 질병을 중심으로 연구를 진행했다. 연구의 전반적인 절차와 방법론은 다음과 같다. 먼저 LDA 토픽모델링 방법론을 적용하여 출판된 당뇨병의 신약개발 관련 문헌을 분석하여 지금까지 연구된 주제적 특성을 발견하였고, A knowledge extraction engine인 MELKE를 통해 방대한 생의학 문헌 내 개체 및 개체 간 관계를 추출하고, 추출된 관계 데이터를 활용하여 동시출현단어 분석했다. 이를 중심으로 ABC모델 중 폐쇄형 발견 과정을 적용한 지식그래프 기반 가설을 자동으로 생성하고 최종 결과를 이미 출판된 문헌을 근거로 분석했다. 본 연구에서 발견한 분석 결과에 대해 요약하면 다음과 같다. 당뇨병 신약개발 문헌 데이터를 활용한 LDA 토픽모델링 분석 결과는 경구 투여 방식인 ‘metformin’과 ‘CSII’(지속적 인슐린 피하 주사요법), pump와 같은 투여 방식이 주요한 주제로 다루어지고 있었으며, ‘glucose’, ‘blood’, ‘response’와 같은 당뇨 진단과 관련된 주제와 ‘eye’, ’edema’와 같이 당뇨병의 합병증인 안질환과 관련된 주제와 ‘rat’, ‘mouse’, ‘model’과 같이 임상시험 시 널리 이용되는 동물모델에 관련된 주제를 확인할 수 있었다. 창이자 성분과 당뇨병 문헌 데이터를 활용한 전체 동시출현분석 결과는 ‘glucose’와 ‘insulin’이 가장 높은 순위를 차지하였고, 다음으로 ‘hypertension’과 ‘diabetes’가 차지하였다. 다른 하위 순위에서 이 4개의 개체가 반복적으로 나타났는데, 특히 ‘diabetes’의 경우 동의어인 ‘diabetes mellitus’와 당뇨병의 분류 중 하나인 ‘type 2 diabetes’로 세분화하여 등장하며 다른 개체들과의 연관성을 보였다. 또한, Modularity 기반 커뮤니티 분석을 통해 총 12개의 커뮤니티가 발견하였는데 이를 통해 단순하게 중심성값이 높은 일반적인 단어 위주 분석이 아닌, 커뮤니티 특성이 반영된 분석으로 창이자 성분과 당뇨병 문헌에서 주요하게 작용하는 성분들을 확인할 수 있었다. 마지막으로 그래프 모델 기반으로 생성된 경로 중 동시출현 단어분석 및 토픽모델링을 통해 중점적으로 나타난 노드를 분석에 적용하여 betulin (Associated with) mmp-2 (미발견 관계) c-reactive protein (Associated) insulin resistance (Associated with) diabetes와 emodin (Associated with) streptozotocin (미발견 관계) glucose oxidase (Associated )insulin resistance (Associated with) diabetes를 최종 가설로써 제시했다. 선별된 가설은 사이의 작용 기전이 명확하지 않았던 부분을 기존 문헌 중심으로 분석함으로써 유효성을 높였다. 본 연구를 통해 방대한 문헌로부터 신약개발의 연구 동향을 파악하고, 자동으로 천연물 성분과 질병 간 경로를 추출한 후 분석을 통해 유력한 가설을 생성해내는 프레임워크를 제시하였다. 이를 통해 과도한 천연물 신약 후보 물질 탐색의 기간과 비용을 줄일 수 있을 것이며, 본 연구의 프레임워크는 특정 천연물 혹은 질병에만 국한되지 않기 때문에 천연물 임상 연구자들에게 신약 개발을 위한 유의미한 가설을 제시함으로써 통찰력을 줄 수 있고 나아가 신약을 위한 연구 생산성 향상에 기여할 수 있다.
With the development of medical technology, interest in applying the exponentially accumulated medical data to the development of new drugs is increasing. This is because it is an important issue to reduce the vast amount of time, effort, and cost required for the entire stage of new drug developmen...
With the development of medical technology, interest in applying the exponentially accumulated medical data to the development of new drugs is increasing. This is because it is an important issue to reduce the vast amount of time, effort, and cost required for the entire stage of new drug development and to minimize the failure rate by predicting side effects. Among them, there are difficulties in analyzing big data such as academic papers and reports, clinical data, and biological information in consideration of a wide range of biomedical fields in the discovery stage of new drug candidates. Accordingly, efforts to incorporate data science and artificial intelligence into the entire process for drug development are continuing. In particular, in the field of new drug development with natural products, as clear drug efficacy has been proven and side effects are few, even when applying approaches such as high‐speed high‐throughput screening and combinatorial chemistry, there is still a high barrier to entry due to low yield and difficulty in synthesis. On the other hand, a simple information search in the vast biomedical literature only finds fragments of knowledge and makes it difficulties to bring out new discoveries. For this purpose, Swanson's ABC model, which led the literature based discovery (LBD) research, has been proposed and developed. In the ABC model, when concept A extracted from the literature is connected to concept B, and when concept B is connected to concept C, on the premise that concept A and concept C have an implicit relation to each other, which is an approach that proposes a new hypothesis. However, previous studies only reaffirmed the existing hypothesis or drew a network consisting of a single type of entity, and in many cases, follow-up analysis was hardly conducted to determine the usefulness of the newly generated hypothesis. In particular, there are not many studies that applied LBD to research on natural products. Therefore, this study is conducted focusing on the Xanthium natural product, which has traditionally been widely used as a folk remedy, and the diabetes disease, which have not been actively studied. The overall procedure and methodology of the study are as follows: By applying the LDA topic modeling methodology, the published literature on new drug development for diabetes was analyzed to discover the topical characteristics studied, and entities and relations between entities in a vast amount of biomedical literature were extracted through a knowledge extraction engine, MELKE. word co-occurrence analysis was performed using the extracted relational data. Based on this, a knowledge graph based hypothesis is automatically generated by applying the closed discovery process among the ABC model, and the results were analyzed based on previously published literature. The analysis results found in this study are summarized as follows. As for the results of LDA topic modeling analysis using literature data on diabetes drug development, the administration methods such as 'metformin', 'CSII' (Continuous Subcutaneous Insulin Infusion), and pump were treated as the principal topics, and topics related to diabetes diagnosis such as ‘glucose’, ‘blood’ and ‘response’, topics related to eye diseases, which are complications that can appear as diabetes, such as ‘eye’ and ‘edema’, and topics related to animal models widely used in clinical trials such as ‘rat’, ‘mouse’, and ‘model’ could be identified. As a result of the overall word co-occurrence analysis through network visualization using literature data on Xanthium ingredients and diabetes, ‘glucose’ and ‘insulin’ ranked highest, followed by ‘hypertension’ and ‘diabetes’. These four entities repeatedly appeared in different sub‐ranks, and in particular, in the case of 'diabetes', it appeared subdivided into 'diabetes mellitus', which is a synonym, and 'type 2 diabetes', which is one of the classifications of diabetes, and showed correlation with other entities. Also, a total of 12 communities were discovered through modularity‐based community detection, and through this, not simply a general word‐oriented analysis with a high centrality value, but by reflecting the community characteristics, it was possible to identify the components that play a major role in the Xanthium ingredient and the diabetes literature. Lastly, among the paths created by the knowledge graph, through word co-occurrence analysis and topic modeling, by applying the highlighted nodes to the analysis, the betulin (associated with) mmp‐2 (undiscovered relation), c‐reactive protein (associated), insulin resistance (associated with) diabetes and emodin (associated with) streptozotocin (undiscovered relation), glucose oxidase (associated) and insulin resistance (associated with) diabetes were proposed as final hypotheses. The selected hypothesis increased its effectiveness by analyzing areas where action mechanisms were not clear, focusing on existing literature. Through this study, the research trend of new drug development was identified from the vast literature, and a framework for generating significant hypotheses through analysis after automatically extracting pathways between natural product ingredients and diseases was presented. Through this, it will be possible to reduce the period and cost of searching for excessive natural drug candidates, because the framework of this study is not limited to specific natural products or diseases, it can give insights to clinical researchers of natural products by suggesting meaningful hypotheses for the development of new drugs, and furthermore, may contribute to the improvement of research productivity for new drugs.
With the development of medical technology, interest in applying the exponentially accumulated medical data to the development of new drugs is increasing. This is because it is an important issue to reduce the vast amount of time, effort, and cost required for the entire stage of new drug development and to minimize the failure rate by predicting side effects. Among them, there are difficulties in analyzing big data such as academic papers and reports, clinical data, and biological information in consideration of a wide range of biomedical fields in the discovery stage of new drug candidates. Accordingly, efforts to incorporate data science and artificial intelligence into the entire process for drug development are continuing. In particular, in the field of new drug development with natural products, as clear drug efficacy has been proven and side effects are few, even when applying approaches such as high‐speed high‐throughput screening and combinatorial chemistry, there is still a high barrier to entry due to low yield and difficulty in synthesis. On the other hand, a simple information search in the vast biomedical literature only finds fragments of knowledge and makes it difficulties to bring out new discoveries. For this purpose, Swanson's ABC model, which led the literature based discovery (LBD) research, has been proposed and developed. In the ABC model, when concept A extracted from the literature is connected to concept B, and when concept B is connected to concept C, on the premise that concept A and concept C have an implicit relation to each other, which is an approach that proposes a new hypothesis. However, previous studies only reaffirmed the existing hypothesis or drew a network consisting of a single type of entity, and in many cases, follow-up analysis was hardly conducted to determine the usefulness of the newly generated hypothesis. In particular, there are not many studies that applied LBD to research on natural products. Therefore, this study is conducted focusing on the Xanthium natural product, which has traditionally been widely used as a folk remedy, and the diabetes disease, which have not been actively studied. The overall procedure and methodology of the study are as follows: By applying the LDA topic modeling methodology, the published literature on new drug development for diabetes was analyzed to discover the topical characteristics studied, and entities and relations between entities in a vast amount of biomedical literature were extracted through a knowledge extraction engine, MELKE. word co-occurrence analysis was performed using the extracted relational data. Based on this, a knowledge graph based hypothesis is automatically generated by applying the closed discovery process among the ABC model, and the results were analyzed based on previously published literature. The analysis results found in this study are summarized as follows. As for the results of LDA topic modeling analysis using literature data on diabetes drug development, the administration methods such as 'metformin', 'CSII' (Continuous Subcutaneous Insulin Infusion), and pump were treated as the principal topics, and topics related to diabetes diagnosis such as ‘glucose’, ‘blood’ and ‘response’, topics related to eye diseases, which are complications that can appear as diabetes, such as ‘eye’ and ‘edema’, and topics related to animal models widely used in clinical trials such as ‘rat’, ‘mouse’, and ‘model’ could be identified. As a result of the overall word co-occurrence analysis through network visualization using literature data on Xanthium ingredients and diabetes, ‘glucose’ and ‘insulin’ ranked highest, followed by ‘hypertension’ and ‘diabetes’. These four entities repeatedly appeared in different sub‐ranks, and in particular, in the case of 'diabetes', it appeared subdivided into 'diabetes mellitus', which is a synonym, and 'type 2 diabetes', which is one of the classifications of diabetes, and showed correlation with other entities. Also, a total of 12 communities were discovered through modularity‐based community detection, and through this, not simply a general word‐oriented analysis with a high centrality value, but by reflecting the community characteristics, it was possible to identify the components that play a major role in the Xanthium ingredient and the diabetes literature. Lastly, among the paths created by the knowledge graph, through word co-occurrence analysis and topic modeling, by applying the highlighted nodes to the analysis, the betulin (associated with) mmp‐2 (undiscovered relation), c‐reactive protein (associated), insulin resistance (associated with) diabetes and emodin (associated with) streptozotocin (undiscovered relation), glucose oxidase (associated) and insulin resistance (associated with) diabetes were proposed as final hypotheses. The selected hypothesis increased its effectiveness by analyzing areas where action mechanisms were not clear, focusing on existing literature. Through this study, the research trend of new drug development was identified from the vast literature, and a framework for generating significant hypotheses through analysis after automatically extracting pathways between natural product ingredients and diseases was presented. Through this, it will be possible to reduce the period and cost of searching for excessive natural drug candidates, because the framework of this study is not limited to specific natural products or diseases, it can give insights to clinical researchers of natural products by suggesting meaningful hypotheses for the development of new drugs, and furthermore, may contribute to the improvement of research productivity for new drugs.
주제어
#신약개발 텍스트마이닝 문헌 기반 발견 ABC모델 천연물 당뇨병 LDA 토픽모델링 동시출현분석 지식그래프 기반 가설 자동 생성 Drug development Text mining Literature Based Discovery(LBD) ABC model Natural products Diabetes Topic Modeling word co-occurrence Knowledge graph
학위논문 정보
저자
송규리
학위수여기관
연세대학교 대학원
학위구분
국내석사
학과
문헌정보학과
지도교수
송민
발행연도
2021
총페이지
vii, 80 p.
키워드
신약개발 텍스트마이닝 문헌 기반 발견 ABC모델 천연물 당뇨병 LDA 토픽모델링 동시출현분석 지식그래프 기반 가설 자동 생성 Drug development Text mining Literature Based Discovery(LBD) ABC model Natural products Diabetes Topic Modeling word co-occurrence Knowledge graph
※ AI-Helper는 부적절한 답변을 할 수 있습니다.