제약산업은 국민의 생명과 건강을 책임지는 고부가가치 미래 성장산업의 성격을 가지고 있다. 특히 신약개발은 성공할 확률은 낮으나 제약산업에 있어 중요한 요소이며 궁극적인 목표이다. 신약개발이 성공할 경우 독점적 위치에 따른 막대한 부가가치 창출과 국민 건강을 향상시킬 수 있다. 그러나 국내 신약은 2017년 기준 29개에 불가하다. 또한 최근에는 세계적인 노령인구의 증가와 건강한 삶에 대한 요구가 커지면서 의약품에 대한 수요가 증가될 것으로 예상된다. 하지만 막대한 비용과 시간이 소요되는 신약개발은 제약기업들이 쉽게 투자를 하지 못하는 실정이다. 신약개발은 평균적으로 10년 ~ 15년의 기간이 소요되며 성공률이 매우 낮은 고위험 산업으로의 특징을 가지고 있다. 제약산업의 궁극적인 목표인 신약개발 단계는 일반적으로 탐색, 개발, 상용화 단계로 구성되어 있다. 첫 번째 탐색 단계에서는 질병에 대한 물질연구와 분자설계 등이 이루어지며 평균 3.5년 이상의 기간이 소요되고 있다. 구체적으로 이 기간에는 물질연구를 위해 in vitro (시험관 내 시험) 및 in vivo (...
제약산업은 국민의 생명과 건강을 책임지는 고부가가치 미래 성장산업의 성격을 가지고 있다. 특히 신약개발은 성공할 확률은 낮으나 제약산업에 있어 중요한 요소이며 궁극적인 목표이다. 신약개발이 성공할 경우 독점적 위치에 따른 막대한 부가가치 창출과 국민 건강을 향상시킬 수 있다. 그러나 국내 신약은 2017년 기준 29개에 불가하다. 또한 최근에는 세계적인 노령인구의 증가와 건강한 삶에 대한 요구가 커지면서 의약품에 대한 수요가 증가될 것으로 예상된다. 하지만 막대한 비용과 시간이 소요되는 신약개발은 제약기업들이 쉽게 투자를 하지 못하는 실정이다. 신약개발은 평균적으로 10년 ~ 15년의 기간이 소요되며 성공률이 매우 낮은 고위험 산업으로의 특징을 가지고 있다. 제약산업의 궁극적인 목표인 신약개발 단계는 일반적으로 탐색, 개발, 상용화 단계로 구성되어 있다. 첫 번째 탐색 단계에서는 질병에 대한 물질연구와 분자설계 등이 이루어지며 평균 3.5년 이상의 기간이 소요되고 있다. 구체적으로 이 기간에는 물질연구를 위해 in vitro (시험관 내 시험) 및 in vivo (동물 시험) 등이 이루어지고 있는데 이러한 시험과정을 통해 물질 탐색을 한다. 본 연구는 당뇨병 치료제 합성화합물을 대상으로 기계 학습 (machine learning)을 이용하여 동물에서 잠재적으로 선도물질로써 역할을 할 수 있는 주요 분자표현자를 도출하고자 한다. 당뇨병은 혈당 수치가 오랜 기간 높게 지속되는 대사 질환을 말하고, 이를 치료하지 않으면 다른 합병증이 유발되어 많은 사회적 비용이 발생한다. 우리나라 당뇨병 환자는 사회경제가 발달하고 생활이 서구화 되면서 급속히 늘어나고 있다. 2018년 건강보험 통계연보 보도자료에 따르면 당뇨병 진료인원은 286만 여명으로 평균 5.1%의 꾸준한 증가를 나타내고 있다. 특히 2017년에는 전년 대비 5.9%의 증가율과 22,239억 원의 진료비가 발생하였다. 이러게 꾸준히 증가하고 있는 당뇨병에 대해 당뇨병 치료제 합성화합물 개발을 위한 연구방법으로 OECD 선진국을 중심으로 대체검증 시험방법으로 사용되고 있는 정량적구조 활성관계 (quantitative structure activity relationship: QSAR) 모델을 채택했다. QSAR은 화합물 구조 (molecular structure)와 활성 (activity) 간의 관계를 설명하는 것으로, 화합물 구조가 활성에 중요한 영향을 미치는 상관관계를 찾아내어 모델을 만들고 만들어진 모델을 이용해서 공통된 패턴을 찾아 화합물의 활성을 미리 예측하는데 사용된다. 개발된 기계 학습 모델로는 변수 간 다중공선성이 존재하더라도 예측률이 높고 스코어 (score)에 대해 순위를 매겨 주요변수를 찾을 수 있는 기계 학습 분야에서 활용되고 있는 부분최소자승법 (partial least square: PLS)과 변수중요도척도 (PLS-variable importance in projection: PLS-VIP) 알고리즘을 사용하여 모델링 하는 방법을 제시하였다. 첫 번째 실험에서 독립변수는 in vitro 시험 값과 물리화학적 특성들을 컴퓨터에 의해 계산된 값 (데이터집합)이다. 다른 실험에서는 화합물 데이터 구조를 SMILES (simplified molecular input line entry system)을 이용하여 변환하고 독립변수로 설정했다. 구체적으로 두 번째 실험에서는 SMILES 형식을 881 비트로 이진화한 pubchem 핑거프린트를 독립변수로 사용했으며, 세 번째 실험에서는 307 비트로 이진화한 substructure 핑거프린트, 네 번째 실험에서는 166 비트로 이진화한 MACCS (molecular access system) 핑거프린트를 각각 독립변수로 사용했다. 네 가지 실험 모두에서 종속변수 (Y)는 OGTT (oral glucose tolerance test)로 실험용 쥐에 화합물을 경구 투여하여 혈당 강화 활성평가를 시험한 in vivo 값으로 설정했다. PLS 검증 결과 MACCS 핑거프린트 데이터를 이용한 실험의 통계적 설명력 ( 𝑅2 = 0.63)이 기존 in vitro 데이터 집합을 이용한 실험의 설명력 ( 𝑅2 = 0.537) 보다 높았다. 그러나 pubchem 핑거프린트와 substructure 핑거프린트 데이터를 이용한 실험에서는 검증 설명력이 in vitro 데이터 집합 보다 떨어짐을 알 수 있었다. 이는 pubchem 핑거프린트 데이터와 substructure 핑거프린트 데이터가 in vivo 시험결과를 설명하는데 부족하다는 증거이다. 이 결과를 바탕으로 본 실험에서는 독립변수인 in vitro 데이터집합 중에서 종속변수인 in vivo 실험결과를 설명하는데 중요한 독립변수를 PLSVIP를 이용해 찾아냈다. 그 결과 첫 번째 in vitro 데이터집합에서 VIP score가 1.0을 넘는 변수는 총 6개가 존재했다. 두 번째 MACCS 핑거프린트 데이터에 적용한 결과 VIP score가 1.0을 상회하는 변수는 총 44개가 도출되어서 in vitro 데이터 집합 보다 훨씬 많은 인자를 찾아 낼 수 있었다. 그 중 VIP score가 2.0을 넘는 주요 인자는 9개가 도출되었다. 결론적으로 제안 방법에 의해 도출된 주요 인자들을 기반으로 화합물을 탐색하게 되면 분자의 구조와 주요 구성 구조를 찾은 과정에서도 긍정적인 효과를 가져 올 수 있다. 따라서 도출된 주요 인자들을 기반으로 선도물질을 탐색한다면 동물에서의 항당뇨 효과를 사전에 예측할 수 있어 신약개발 시 실패를 최소화 할 수 있고, 동물시험에 있어 윤리적 문제에 대한 대체검증 기술로 사용할 수 있다. 또한 신약개발 탐색기간 단축 및 개발비용도 절감할 수 있을 것으로 기대된다.
제약산업은 국민의 생명과 건강을 책임지는 고부가가치 미래 성장산업의 성격을 가지고 있다. 특히 신약개발은 성공할 확률은 낮으나 제약산업에 있어 중요한 요소이며 궁극적인 목표이다. 신약개발이 성공할 경우 독점적 위치에 따른 막대한 부가가치 창출과 국민 건강을 향상시킬 수 있다. 그러나 국내 신약은 2017년 기준 29개에 불가하다. 또한 최근에는 세계적인 노령인구의 증가와 건강한 삶에 대한 요구가 커지면서 의약품에 대한 수요가 증가될 것으로 예상된다. 하지만 막대한 비용과 시간이 소요되는 신약개발은 제약기업들이 쉽게 투자를 하지 못하는 실정이다. 신약개발은 평균적으로 10년 ~ 15년의 기간이 소요되며 성공률이 매우 낮은 고위험 산업으로의 특징을 가지고 있다. 제약산업의 궁극적인 목표인 신약개발 단계는 일반적으로 탐색, 개발, 상용화 단계로 구성되어 있다. 첫 번째 탐색 단계에서는 질병에 대한 물질연구와 분자설계 등이 이루어지며 평균 3.5년 이상의 기간이 소요되고 있다. 구체적으로 이 기간에는 물질연구를 위해 in vitro (시험관 내 시험) 및 in vivo (동물 시험) 등이 이루어지고 있는데 이러한 시험과정을 통해 물질 탐색을 한다. 본 연구는 당뇨병 치료제 합성화합물을 대상으로 기계 학습 (machine learning)을 이용하여 동물에서 잠재적으로 선도물질로써 역할을 할 수 있는 주요 분자표현자를 도출하고자 한다. 당뇨병은 혈당 수치가 오랜 기간 높게 지속되는 대사 질환을 말하고, 이를 치료하지 않으면 다른 합병증이 유발되어 많은 사회적 비용이 발생한다. 우리나라 당뇨병 환자는 사회경제가 발달하고 생활이 서구화 되면서 급속히 늘어나고 있다. 2018년 건강보험 통계연보 보도자료에 따르면 당뇨병 진료인원은 286만 여명으로 평균 5.1%의 꾸준한 증가를 나타내고 있다. 특히 2017년에는 전년 대비 5.9%의 증가율과 22,239억 원의 진료비가 발생하였다. 이러게 꾸준히 증가하고 있는 당뇨병에 대해 당뇨병 치료제 합성화합물 개발을 위한 연구방법으로 OECD 선진국을 중심으로 대체검증 시험방법으로 사용되고 있는 정량적구조 활성관계 (quantitative structure activity relationship: QSAR) 모델을 채택했다. QSAR은 화합물 구조 (molecular structure)와 활성 (activity) 간의 관계를 설명하는 것으로, 화합물 구조가 활성에 중요한 영향을 미치는 상관관계를 찾아내어 모델을 만들고 만들어진 모델을 이용해서 공통된 패턴을 찾아 화합물의 활성을 미리 예측하는데 사용된다. 개발된 기계 학습 모델로는 변수 간 다중공선성이 존재하더라도 예측률이 높고 스코어 (score)에 대해 순위를 매겨 주요변수를 찾을 수 있는 기계 학습 분야에서 활용되고 있는 부분최소자승법 (partial least square: PLS)과 변수중요도척도 (PLS-variable importance in projection: PLS-VIP) 알고리즘을 사용하여 모델링 하는 방법을 제시하였다. 첫 번째 실험에서 독립변수는 in vitro 시험 값과 물리화학적 특성들을 컴퓨터에 의해 계산된 값 (데이터집합)이다. 다른 실험에서는 화합물 데이터 구조를 SMILES (simplified molecular input line entry system)을 이용하여 변환하고 독립변수로 설정했다. 구체적으로 두 번째 실험에서는 SMILES 형식을 881 비트로 이진화한 pubchem 핑거프린트를 독립변수로 사용했으며, 세 번째 실험에서는 307 비트로 이진화한 substructure 핑거프린트, 네 번째 실험에서는 166 비트로 이진화한 MACCS (molecular access system) 핑거프린트를 각각 독립변수로 사용했다. 네 가지 실험 모두에서 종속변수 (Y)는 OGTT (oral glucose tolerance test)로 실험용 쥐에 화합물을 경구 투여하여 혈당 강화 활성평가를 시험한 in vivo 값으로 설정했다. PLS 검증 결과 MACCS 핑거프린트 데이터를 이용한 실험의 통계적 설명력 ( 𝑅2 = 0.63)이 기존 in vitro 데이터 집합을 이용한 실험의 설명력 ( 𝑅2 = 0.537) 보다 높았다. 그러나 pubchem 핑거프린트와 substructure 핑거프린트 데이터를 이용한 실험에서는 검증 설명력이 in vitro 데이터 집합 보다 떨어짐을 알 수 있었다. 이는 pubchem 핑거프린트 데이터와 substructure 핑거프린트 데이터가 in vivo 시험결과를 설명하는데 부족하다는 증거이다. 이 결과를 바탕으로 본 실험에서는 독립변수인 in vitro 데이터집합 중에서 종속변수인 in vivo 실험결과를 설명하는데 중요한 독립변수를 PLSVIP를 이용해 찾아냈다. 그 결과 첫 번째 in vitro 데이터집합에서 VIP score가 1.0을 넘는 변수는 총 6개가 존재했다. 두 번째 MACCS 핑거프린트 데이터에 적용한 결과 VIP score가 1.0을 상회하는 변수는 총 44개가 도출되어서 in vitro 데이터 집합 보다 훨씬 많은 인자를 찾아 낼 수 있었다. 그 중 VIP score가 2.0을 넘는 주요 인자는 9개가 도출되었다. 결론적으로 제안 방법에 의해 도출된 주요 인자들을 기반으로 화합물을 탐색하게 되면 분자의 구조와 주요 구성 구조를 찾은 과정에서도 긍정적인 효과를 가져 올 수 있다. 따라서 도출된 주요 인자들을 기반으로 선도물질을 탐색한다면 동물에서의 항당뇨 효과를 사전에 예측할 수 있어 신약개발 시 실패를 최소화 할 수 있고, 동물시험에 있어 윤리적 문제에 대한 대체검증 기술로 사용할 수 있다. 또한 신약개발 탐색기간 단축 및 개발비용도 절감할 수 있을 것으로 기대된다.
Pharmaceutical industries are high-value growth industries that substantially contribute to the quality of life and health status of a nation. Despite low success rates, the ultimate aim of pharmaceutical industries is to develop novel drugs. Successful drug development can provide a significant add...
Pharmaceutical industries are high-value growth industries that substantially contribute to the quality of life and health status of a nation. Despite low success rates, the ultimate aim of pharmaceutical industries is to develop novel drugs. Successful drug development can provide a significant added value and improve the health status of a nation; however, only 29 novel drugs have been developed as of 2017. The worldwide population aging and growing demand for a healthy lifestyle will increase the demand for novel medications. However, pharmaceutical industries are reluctant in investing in drug development because it is an extremely time-consuming and expensive process. Drug development is a high-risk venture requiring 10–15 years to develop a drug, with a very low success rate. Novel drug development, which is the ultimate aim of pharmaceutical industries, typically includes there phases: discovery, development, and commercialization. The discovery phase involves the research of substances related to the target disease and molecular designing. This phase requires over 3.5 years on an average. The discovery phase involves the use of in vitro (test tube experiments) and in vivo (animal experiments) experiments for screening chemicals. The present study used machine learning with structural information of antidiabetic chemicals to identify major factors related to potential lead compounds in animals. Diabetes is a metabolic disorder characterized by high blood glucose levels for a prolonged period. If left untreated, it can lead to complications that can cause a high social cost. In South Korea, economic development and Westernization have led to a rapid increase in the number of diabetic patients. According to the National Health Insurance Statistical Yearbook (2018), the number of diabetic patients was 2.86 million and has consistently increased at a rate of 5.1% per year. In particular, the rate increased by 5.9% from the previous year in 2017 with medical costs of 222.3 billion won. To develop a method to tackle this disease, I decided to use a quantitative structure–activity relationship (QSAR) model, which is used as an alternative test for antidiabetic compounds in high-income OECD countries. The model that describes the relationship between a compound’s molecular structure and its biological activity is created by identifying correlations between the molecular structure and the biological activity. It then detects common patterns and makes predictions regarding the compound’s activity based on these patterns. I created a machine learning model using the partial least squares (PLS) method and PLS-variable importance in projection (PLS-VIP) algorithm, which are commonly used in machine learning. These techniques have high predictability even in the presence of multicollinearity between variables and can identify major factors by scoring them. In the first experiment, the in vitro experiment results and computer-calculated values of physiochemical properties (dataset) were used as independent variables. In another experiment, chemical structures were represented using the simplified molecular input line entry system (SMILES) and set as independent variables. In particular, I used PubChem fingerprints created by converting SMILES to an 881-bit binary digit in the second experiment, substructure fingerprints created by converting SMILES to a 307-bit binary digit in the third experiment, and molecular access system (MACCS) fingerprints created by converting SMILES to a 166-bit binary digit in the fourth experiment. In all four experiments, the in vivo hypoglycemic effect of a chemical orally administered to an experimental rat in the oral glucose tolerance test (OGTT) was set as the dependent variable (Y). Based on the PLS method results, the experiment using MACCS fingerprint data had higher explanatory power (R2 = 0.63) than the experiment using in vitro dataset (R2 = 0.537). On the other hand, experiments using PubChem and substructure fingerprint data had lower explanatory power than the experiment using in vitro dataset. This demonstrates that the PubChem and substructure fingerprint data failed to sufficiently explain the in vivo experiment results. Based on these results and using the PLS-VIP method, from the in vitro dataset, I identified the independent variable, number of independent variables required to explain the in vivo experiment results, and dependent variable. I found a total of six variables from the in vitro dataset with VIP scores of >1.0. However, I found a significantly higher number of variables (n = 44) from the MACCS fingerprint data with VIP scores of >1.0. Of these, 9 major variables with VIP scores of >2.0 were extracted. The method for identifying major factors and examining chemicals based on these factors as described above can be advantageous in detecting the major molecular structures of chemicals. For instance, by examining lead compounds based on major factors, we can predict their antidiabetic effect on animals, thereby preventing failures in drug development. This method can also be used as a substitute for animal experiments, which tend to raise ethical issues. In addition, this method may shorten the length of the drug discovery phase and, subsequently, the cost of drug development.
Pharmaceutical industries are high-value growth industries that substantially contribute to the quality of life and health status of a nation. Despite low success rates, the ultimate aim of pharmaceutical industries is to develop novel drugs. Successful drug development can provide a significant added value and improve the health status of a nation; however, only 29 novel drugs have been developed as of 2017. The worldwide population aging and growing demand for a healthy lifestyle will increase the demand for novel medications. However, pharmaceutical industries are reluctant in investing in drug development because it is an extremely time-consuming and expensive process. Drug development is a high-risk venture requiring 10–15 years to develop a drug, with a very low success rate. Novel drug development, which is the ultimate aim of pharmaceutical industries, typically includes there phases: discovery, development, and commercialization. The discovery phase involves the research of substances related to the target disease and molecular designing. This phase requires over 3.5 years on an average. The discovery phase involves the use of in vitro (test tube experiments) and in vivo (animal experiments) experiments for screening chemicals. The present study used machine learning with structural information of antidiabetic chemicals to identify major factors related to potential lead compounds in animals. Diabetes is a metabolic disorder characterized by high blood glucose levels for a prolonged period. If left untreated, it can lead to complications that can cause a high social cost. In South Korea, economic development and Westernization have led to a rapid increase in the number of diabetic patients. According to the National Health Insurance Statistical Yearbook (2018), the number of diabetic patients was 2.86 million and has consistently increased at a rate of 5.1% per year. In particular, the rate increased by 5.9% from the previous year in 2017 with medical costs of 222.3 billion won. To develop a method to tackle this disease, I decided to use a quantitative structure–activity relationship (QSAR) model, which is used as an alternative test for antidiabetic compounds in high-income OECD countries. The model that describes the relationship between a compound’s molecular structure and its biological activity is created by identifying correlations between the molecular structure and the biological activity. It then detects common patterns and makes predictions regarding the compound’s activity based on these patterns. I created a machine learning model using the partial least squares (PLS) method and PLS-variable importance in projection (PLS-VIP) algorithm, which are commonly used in machine learning. These techniques have high predictability even in the presence of multicollinearity between variables and can identify major factors by scoring them. In the first experiment, the in vitro experiment results and computer-calculated values of physiochemical properties (dataset) were used as independent variables. In another experiment, chemical structures were represented using the simplified molecular input line entry system (SMILES) and set as independent variables. In particular, I used PubChem fingerprints created by converting SMILES to an 881-bit binary digit in the second experiment, substructure fingerprints created by converting SMILES to a 307-bit binary digit in the third experiment, and molecular access system (MACCS) fingerprints created by converting SMILES to a 166-bit binary digit in the fourth experiment. In all four experiments, the in vivo hypoglycemic effect of a chemical orally administered to an experimental rat in the oral glucose tolerance test (OGTT) was set as the dependent variable (Y). Based on the PLS method results, the experiment using MACCS fingerprint data had higher explanatory power (R2 = 0.63) than the experiment using in vitro dataset (R2 = 0.537). On the other hand, experiments using PubChem and substructure fingerprint data had lower explanatory power than the experiment using in vitro dataset. This demonstrates that the PubChem and substructure fingerprint data failed to sufficiently explain the in vivo experiment results. Based on these results and using the PLS-VIP method, from the in vitro dataset, I identified the independent variable, number of independent variables required to explain the in vivo experiment results, and dependent variable. I found a total of six variables from the in vitro dataset with VIP scores of >1.0. However, I found a significantly higher number of variables (n = 44) from the MACCS fingerprint data with VIP scores of >1.0. Of these, 9 major variables with VIP scores of >2.0 were extracted. The method for identifying major factors and examining chemicals based on these factors as described above can be advantageous in detecting the major molecular structures of chemicals. For instance, by examining lead compounds based on major factors, we can predict their antidiabetic effect on animals, thereby preventing failures in drug development. This method can also be used as a substitute for animal experiments, which tend to raise ethical issues. In addition, this method may shorten the length of the drug discovery phase and, subsequently, the cost of drug development.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.