PCBs 독성 예측을 위한 주요 분자표현자 선택 기법 및 계산독성학 기반 QSAR 모델 개발 Development of QSAR Model Based on the Key Molecular Descriptors Selection and Computational Toxicology for Prediction of Toxicity of PCBs원문보기
EU의 REACH 제도 도입에 따라 각종 화학물질에 대한 독성 및 활성 정보 확보를 위해 화학물질의 분자구조 정보를 기반으로 화학물질의 독성 및 활성을 예측하는 정량적구조활성관계(QSAR)에 대한 연구가 최근 활발히 진행되고 있다. QSAR 모델에 사용되는 분자표현자는 매우 다양하기 때문에 화학물질의 물성 및 활성을 잘 표현할 수 있는 주요한 분자표현자를 선택하는 과정은 QSAR 모델 개발에 있어 중요한 부분이다. 본 연구에서는 화학물질의 분자구조 정보를 나타내는 주요 분자표현자의 통계적 선택 방법과 부분최소자승법(Partial least square: PLS) 기반의 새로운 QSAR 모델을 제안하였다. 제안된 QSAR 모델은 130종의 폴리염화바이페닐(Polychlorinated biphenyl: PCB)에 대한 분배계수(log P)와 14종의 PCBs에 대한 반수 치사 농도(Lethal concentration 50%: $LC_{50}$) 예측에 사용되고, 제안된 QSAR 모델 예측 정확도는 기존의 OECD QSAR Toolbox에서 제공하는 QSAR 모델과 비교하였다. 관심 화학물질의 분자표현자와 활성정보 간의 높은 상관관계를 갖는 주요 분자표현자를 선별하기 위해서, 상관계수(r)와 variable importance on projections (VIP)기법을 적용하였으며, 화학물질의 독성 및 활성정보를 예측하기 위해 선별된 분자표현자와 활성정보를 이용해 부분최소자승법(PLS)를 사용하였다. 회귀계수($R^2$)와 prediction residual error sum of square (PRESS)을 이용한 성능평가결과, 제안된 QSAR 모델은 OECD QSAR Toolbox의 QSAR 모델보다 PCBs의 log P와 $LC_{50}$에 대하여 각각 26%, 91% 향상된 예측력을 나타내었다. 본 연구에서 제안된 계산독성학 기반의 QSAR 모델은 화학물질의 독성 및 활성정보에 대한 예측력을 향상시킬 수 있고 이러한 방법은 유독 화학물질의 인체 및 환경 위해성 평가에 기여할 것으로 판단된다.
EU의 REACH 제도 도입에 따라 각종 화학물질에 대한 독성 및 활성 정보 확보를 위해 화학물질의 분자구조 정보를 기반으로 화학물질의 독성 및 활성을 예측하는 정량적구조활성관계(QSAR)에 대한 연구가 최근 활발히 진행되고 있다. QSAR 모델에 사용되는 분자표현자는 매우 다양하기 때문에 화학물질의 물성 및 활성을 잘 표현할 수 있는 주요한 분자표현자를 선택하는 과정은 QSAR 모델 개발에 있어 중요한 부분이다. 본 연구에서는 화학물질의 분자구조 정보를 나타내는 주요 분자표현자의 통계적 선택 방법과 부분최소자승법(Partial least square: PLS) 기반의 새로운 QSAR 모델을 제안하였다. 제안된 QSAR 모델은 130종의 폴리염화바이페닐(Polychlorinated biphenyl: PCB)에 대한 분배계수(log P)와 14종의 PCBs에 대한 반수 치사 농도(Lethal concentration 50%: $LC_{50}$) 예측에 사용되고, 제안된 QSAR 모델 예측 정확도는 기존의 OECD QSAR Toolbox에서 제공하는 QSAR 모델과 비교하였다. 관심 화학물질의 분자표현자와 활성정보 간의 높은 상관관계를 갖는 주요 분자표현자를 선별하기 위해서, 상관계수(r)와 variable importance on projections (VIP)기법을 적용하였으며, 화학물질의 독성 및 활성정보를 예측하기 위해 선별된 분자표현자와 활성정보를 이용해 부분최소자승법(PLS)를 사용하였다. 회귀계수($R^2$)와 prediction residual error sum of square (PRESS)을 이용한 성능평가결과, 제안된 QSAR 모델은 OECD QSAR Toolbox의 QSAR 모델보다 PCBs의 log P와 $LC_{50}$에 대하여 각각 26%, 91% 향상된 예측력을 나타내었다. 본 연구에서 제안된 계산독성학 기반의 QSAR 모델은 화학물질의 독성 및 활성정보에 대한 예측력을 향상시킬 수 있고 이러한 방법은 유독 화학물질의 인체 및 환경 위해성 평가에 기여할 것으로 판단된다.
Recently, the researches on quantitative structure activity relationship (QSAR) for describing toxicities or activities of chemicals based on chemical structural characteristics have been widely carried out in order to estimate the toxicity of chemicals in multiuse facilities. Because the toxicity o...
Recently, the researches on quantitative structure activity relationship (QSAR) for describing toxicities or activities of chemicals based on chemical structural characteristics have been widely carried out in order to estimate the toxicity of chemicals in multiuse facilities. Because the toxicity of chemicals are explained by various kinds of molecular descriptors, an important step for QSAR model development is how to select significant molecular descriptors. This research proposes a statistical selection of significant molecular descriptors and a new QSAR model based on partial least square (PLS). The proposed QSAR model is applied to estimate the logarithm of partition coefficients (log P) of 130 polychlorinated biphenyls (PCBs) and lethal concentration ($LC_{50}$) of 14 PCBs, where the prediction accuracies of the proposed QSAR model are compared to a conventional QSAR model provided by OECD QSAR toolbox. For the selection of significant molecular descriptors that have high correlation with molecular descriptors and activity information of the chemicals of interest, correlation coefficient (r) and variable importance of projection (VIP) are applied and then PLS model of the selected molecular descriptors and activity information is used to predict toxicities and activity information of chemicals. In the prediction results of coefficient of regression ($R^2$) and prediction residual error sum of square (PRESS), the proposed QSAR model showed improved prediction performances of log P and $LC_{50}$ by 26% and 91% than the conventional QSAR model, respectively. The proposed QSAR method based on computational toxicology can improve the prediction performance of the toxicities and the activity information of chemicals, which can contribute to the health and environmental risk assessment of toxic chemicals.
Recently, the researches on quantitative structure activity relationship (QSAR) for describing toxicities or activities of chemicals based on chemical structural characteristics have been widely carried out in order to estimate the toxicity of chemicals in multiuse facilities. Because the toxicity of chemicals are explained by various kinds of molecular descriptors, an important step for QSAR model development is how to select significant molecular descriptors. This research proposes a statistical selection of significant molecular descriptors and a new QSAR model based on partial least square (PLS). The proposed QSAR model is applied to estimate the logarithm of partition coefficients (log P) of 130 polychlorinated biphenyls (PCBs) and lethal concentration ($LC_{50}$) of 14 PCBs, where the prediction accuracies of the proposed QSAR model are compared to a conventional QSAR model provided by OECD QSAR toolbox. For the selection of significant molecular descriptors that have high correlation with molecular descriptors and activity information of the chemicals of interest, correlation coefficient (r) and variable importance of projection (VIP) are applied and then PLS model of the selected molecular descriptors and activity information is used to predict toxicities and activity information of chemicals. In the prediction results of coefficient of regression ($R^2$) and prediction residual error sum of square (PRESS), the proposed QSAR model showed improved prediction performances of log P and $LC_{50}$ by 26% and 91% than the conventional QSAR model, respectively. The proposed QSAR method based on computational toxicology can improve the prediction performance of the toxicities and the activity information of chemicals, which can contribute to the health and environmental risk assessment of toxic chemicals.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
변수선별과정은 QSAR 모델의 복잡성을 줄여 예측력 향상 및 계산 시간의 단축을 갖고 온다. 따라서 본 연구에서는 화학물질의 활성도와 높은 상관관계를 갖는 분자표현자를 선별하기 위해서 통계적 선택법을 도입하였다. Dragon software에서 수집된 4885개의 분자표현자들 중 누락된 항목들을 제거한 후, 대상화학물질의 활성치를 잘 나타낼 수 있는 분자표현자를 선택하기 위해 상관계수(correlation coefficients: r)와 Variable importance in projection (VIP) 방법을 적용하였다.
본 연구에서는 향상된 QSAR 모델 개발을 위해 QSAR 모델에 사용되는 분자표현자 선정에 있어 단변량 및 다변량 통계적 방법을 도입하여 다양한 그룹의 분자표현자들을 고려하며 동시에 다중공선성에 대한 문제를 해결하고자 하였다. 또한 선택된 분자표현자들로 기존 QSAR 모델보다 향상된 예측력을 갖는 QSAR 모델을 개발하였다.
본 연구에서는 화학물질의 미확인된 물성 및 활성치 예측을 위해 단변량 및 다변량 통계분석을 도입한 분자표현자 선택법과 계산독성학 기반의 QSAR 모델을 제시하였다. 주요 화학물질의 분자표현자들과 활성치에 있어 상관계수 r와 VIP 기법을 적용하여 활성치와 큰 상관관계를 갖는 분자표현자들을 선별하였으며, 선별된 분자표현자들을 이용하여 PLS 기반의 QSAR 모델을 생성하였다.
제안 방법
LC50은 48 시간 기준에서 Branchiopoda의 반수 치사 농도(LC50 48 h)를 관심 활성치로 삼았으며 본 연구에 적용할 때는 −log 항을 추가 하여 pLC50로 전환 후 연구에 적용하였다.
PCBs의 log P를 예측하는 새로운 QSAR 모델을 개발하기 위해 본 연구에서 제시한 방법론을 적용하여 다음과 같이 QSAR 모델 개발을 진행하였다. Dragon software에서 얻을 수 있는 PCBs에 대한 4885개의 분자표현자들 중 계산이 이루어진 2370개의 분자표현자들을 선별한 후, log P와 비교 시 상관계수 0.
이때 PLS 차원의 개수가 2개일 때 PRESS 값이 가장 작았기 때문에 2개의 PLS 차원이 PLS 적용에 있어 최적의 차원개수이다. 교차검정을 통해 선택된 최적의 차원개수과 본 연구에서 제안한 방법을 통해 선택된 분자표현자들을 이용하여 PLS 기반의 QSAR 모델을 개발 하였다. 이때 전체 139개의 PCBs의 log P 중 100개의 log P를 학습데이터로 사용하였다.
첫 번째 단계로 연구의 대상이 되는 화학물질의 활성치와 분자표현자들을 수집한 후, 활성치와 분자표현자 간에 있어 높은 상관관계를 가지는 분자표현자를 선별하였다. 그 후 활성치와 선별된 분자표현자를 각각 종속변수와 독립변수로 하여 PLS 기반의 QSAR 모델을 개발하였다. 마지막으로, 모델의 잔차와 회귀계수를 이용하여 기존의 QSAR 모델과 제안된 QSAR 모델의 성능을 비교 평가하였다.
잠재변수의 개수가 증가할수록 PRESS의 값은 작아지며, 이때 잠재변수의 개수가 5개 이상일 때, PRESS의 값에 대한 변화가 없는 것을 확인할 수 있었다. 따라서 최적의 PLS 차원은 5개로 선정되었으며 선택된 분자표현자를 이용하여 PLS를 수행함으로 LC50을 예측하는 새로운 QSAR 모델을 개발하였다. 이때 전체 14개의 PCBs의 LC50 중 12개의 LC50를 학습데이터로 사용하였다.
LC50 48 h는 OECD QSAR Toolbox내에 내장되어 있는 14 개의 PCBs에 대한 LC50를 이용하였다[20]. 또한 데이터를 수집하는 과정에서 두 종속변수인 log P와 LC50을 동시에 보유한 PCBs 데이터는 없었기 때문에 본 연구에서는 log P와 LC50에 대해서 각각 두 개의 PLS 모델을 구축 하였다.
본 연구에서는 향상된 QSAR 모델 개발을 위해 QSAR 모델에 사용되는 분자표현자 선정에 있어 단변량 및 다변량 통계적 방법을 도입하여 다양한 그룹의 분자표현자들을 고려하며 동시에 다중공선성에 대한 문제를 해결하고자 하였다. 또한 선택된 분자표현자들로 기존 QSAR 모델보다 향상된 예측력을 갖는 QSAR 모델을 개발하였다. 관심 활성치와 높은 상관관계를 갖는 분자표현자들을 선택하기 위해 상관계수(r)와 Variable importance in projection (VIP)를 적용하였으며 향상된 QSAR 모델을 제시하기 위해 다변량 통계 방법인 부분최소자승법(Partial least square: PLS)을 적용하였다.
95 이상의 매우 높은 상관관계를 갖는 분자표현자들을 우선적으로 선택하였으며, 선택된 분자표현자를 PLS에 적용하여 VIP가 1이상인 분자표현자들을 선택하였다. 모델의 복잡성을 줄이기 위해 최종 선택 되는 분자표현자의 수는 5개 이하로 선택하였으며 이때 선택되는 분자표현자가 5개 초과인 경우, 선택된 분자표현자들을 다시 PLS 에 적용하여 임의의 VIP 기준(0.83~1.21)에 맞는 분자표현자를 선택하는 과정을 반복하였다(Fig. 2).
연구의 대상이 되는 화학물질에 대한 분자표현자들을 수집하여 이를 독립변수로 지정하고, 관심 물성 및 활성에 대한 정보를 수집하여 QSAR 모델에 대한 종속변수로 선정하였다. 독립변수에 들어가는 분자표현자는 Dragon software 6[18]를 이용하여 수집하였으며 종속변수에 대한 관심 화학물질에 대한 물성 및 활성정보는 OECD QSAR Toolbox에서 제공하는 정보와 문헌정보를 참고하였다.
QSAR 모델의 예측도를 높이고 오차를 줄이기 위하여 모델 생성 전후에 있어 다음과 같은 과정을 실시하였다. 우선 학습데이터를 기반으로 PLS 방법을 적용하여 QSAR 모델을 개발하였다. 일반적으로 변수 간의 상관관계를 규정하기 위해서는 다중 선형 회귀 모델을 사용하지만, 이를 QSAR 모델에 적용했을 경우 독립변수간의 강한 상관관계에 따라 발생할 수 있는 다중공선성을 유발할 수 있다[19].
LOOCV 기법은 학습데이터를 일정 개수의 그룹으로 나눈 후, 하나의 그룹을 검증대상으로 삼고, 나머지 그룹으로 모델을 생성하는 과정이다. 이 과정을 수행하여 생성된 각각의 모델의 예측력을 Prediction residual error sum of square (PRESS) 값을 이용하여 나타내고, 가장 적은 PRESS값을 나타내는 잠재변수의 개수를 QSAR 모델에서의 PLS 차원으로 설정하였다.
Dragon software에서 수집된 4885개의 분자표현자들 중 누락된 항목들을 제거한 후, 대상화학물질의 활성치를 잘 나타낼 수 있는 분자표현자를 선택하기 위해 상관계수(correlation coefficients: r)와 Variable importance in projection (VIP) 방법을 적용하였다. 전체 분자표현자들 중 활성치와 0.95 이상의 매우 높은 상관관계를 갖는 분자표현자들을 우선적으로 선택하였으며, 선택된 분자표현자를 PLS에 적용하여 VIP가 1이상인 분자표현자들을 선택하였다. 모델의 복잡성을 줄이기 위해 최종 선택 되는 분자표현자의 수는 5개 이하로 선택하였으며 이때 선택되는 분자표현자가 5개 초과인 경우, 선택된 분자표현자들을 다시 PLS 에 적용하여 임의의 VIP 기준(0.
QSAR 모델 생성 시, 최적의 차원개수를 찾기 위해 leave-one-out방법의 교차검증을 사용하였으며, 모델 검정을 위하여 결정계수 R2과 PRESS을 계산하였다. 제안된 QSAR 모델은 OECD QSAR Toolbox에서 제공하는 QSAR 모델과의 성능 비교를 통해 예측 성능을 검정하였으며, 예측 대상이 되는 화학물질의 활성은 PCBs의 log P와 LC50으로 설정되었다. 본 연구에서 제안된 QSAR 모델은 PCBs의 log P와 LC50를 예측하는 과정에서 기존의 QSAR 모델 보다 각각 26%, 91%의 PRESS를 줄이는 높은 예측력을 나타내었다.
본 연구에서는 화학물질의 미확인된 물성 및 활성치 예측을 위해 단변량 및 다변량 통계분석을 도입한 분자표현자 선택법과 계산독성학 기반의 QSAR 모델을 제시하였다. 주요 화학물질의 분자표현자들과 활성치에 있어 상관계수 r와 VIP 기법을 적용하여 활성치와 큰 상관관계를 갖는 분자표현자들을 선별하였으며, 선별된 분자표현자들을 이용하여 PLS 기반의 QSAR 모델을 생성하였다. QSAR 모델 생성 시, 최적의 차원개수를 찾기 위해 leave-one-out방법의 교차검증을 사용하였으며, 모델 검정을 위하여 결정계수 R2과 PRESS을 계산하였다.
2와 같다. 첫 번째 단계로 연구의 대상이 되는 화학물질의 활성치와 분자표현자들을 수집한 후, 활성치와 분자표현자 간에 있어 높은 상관관계를 가지는 분자표현자를 선별하였다. 그 후 활성치와 선별된 분자표현자를 각각 종속변수와 독립변수로 하여 PLS 기반의 QSAR 모델을 개발하였다.
대상 데이터
PCBs의 log P를 예측하는 새로운 QSAR 모델을 개발하기 위해 본 연구에서 제시한 방법론을 적용하여 다음과 같이 QSAR 모델 개발을 진행하였다. Dragon software에서 얻을 수 있는 PCBs에 대한 4885개의 분자표현자들 중 계산이 이루어진 2370개의 분자표현자들을 선별한 후, log P와 비교 시 상관계수 0.95 이상의 강한 상관관계를 보이는 135개의 분자표현자들을 선별하였다. Fig.
LC50은 48 시간 기준에서 Branchiopoda의 반수 치사 농도(LC50 48 h)를 관심 활성치로 삼았으며 본 연구에 적용할 때는 −log 항을 추가 하여 pLC50로 전환 후 연구에 적용하였다. LC50 48 h는 OECD QSAR Toolbox내에 내장되어 있는 14 개의 PCBs에 대한 LC50를 이용하였다[20]. 또한 데이터를 수집하는 과정에서 두 종속변수인 log P와 LC50을 동시에 보유한 PCBs 데이터는 없었기 때문에 본 연구에서는 log P와 LC50에 대해서 각각 두 개의 PLS 모델을 구축 하였다.
PCBs의 여러 활성정보에 있어 본 연구에서 예측하고자 하는 활성치는 화학물질의 일반적인 독성 지표 중 하나인 분배계수(Partition coefficient: P)와 실험군의 50%를 사망시키는 독성 물질의 농도를 뜻하는 반수 치사 농도(lethal concentration 50%: LC50)이다. 분배계수의 경우 일반적으로 log 항을 도입하여 log P로 지칭하며, 전체 209개의 PCBs 중 log P 에 대한 정보가 알려진 139개의 PCBs를 본 연구에서의 대상화학물질로 선택하였다[22]. LC50은 48 시간 기준에서 Branchiopoda의 반수 치사 농도(LC50 48 h)를 관심 활성치로 삼았으며 본 연구에 적용할 때는 −log 항을 추가 하여 pLC50로 전환 후 연구에 적용하였다.
Table 1은 Dragon software로 수집되는 분자표현자의 그룹과 그 개수를 나타내었다[18]. 분자의 기하학적 구조 및 결합 종류와는 상관없이 가장 기본적인 정보를 나타내는 Constitutional descriptors와 분자의 위상학적 정보에 근거한 Topological indices 등을 포함한 총 29개의 그룹에 해당하는 4885개의 분자표현자에 대한 정보를 수집하였다. 수집된 대상 화학물질의 분자표현자와 물성 및 활성정보는 학습데이터(Training set)와 검증데이터(Test set)로 나뉘어 모델 생성 및 검증에 사용되었다.
Table 2은 PCBs의 log P와 가장 높은 상관관계를 갖는 5개의 분자표현자의 이름, group 및 특성을 나타내었다. 선정된 분자표현자 들은 H2e, SP01, SP02, SHP2, F06[C-Cl]로 총 5개이며 이 중 SP01, SP02, SHP2는 Randic molecular profiles에 속하고 H2e와 F06[C-Cl]은 각각 GETAWAY descriptors와 2D Atom Pair group에 속한다. Randic molecular profiles은 원자 사이의 기하학적 거리에 기반하여 분자의 3D 구조 또는 분자 형상(molecular shape)에 따라 계산되는분자표현자이다[23-25].
와 가장 높은 상관관계를 갖는 것으로 확인된 5개의 분자표현자의 이름, group 및 특성을 나타내었다. 선정된 분자표현자들은 VE1_D/Dt, ATSC3m, ATSC3e, SpMax6_Bh(s), RDF025m로 총 5개이며 이 중 ATSC3m, ATSC3e는 2D autocorrelations 에 속하고 나머지 분자표현자들은 각각 2D matrix-based descriptor, Burden eigenvalues 그리고 RDF descriptors에 속한다. 2D autocorrelations와 2D matrix-based descriptor 은 위상학적 분자구조를 기반으로 하여 계산되는 분자표현자이며, Burden eigenvalues는 각 분자의 hydrogen-filled molecular graph와 Burden matrix에 근거하여 계산되는 분자표현자이다.
분자의 기하학적 구조 및 결합 종류와는 상관없이 가장 기본적인 정보를 나타내는 Constitutional descriptors와 분자의 위상학적 정보에 근거한 Topological indices 등을 포함한 총 29개의 그룹에 해당하는 4885개의 분자표현자에 대한 정보를 수집하였다. 수집된 대상 화학물질의 분자표현자와 물성 및 활성정보는 학습데이터(Training set)와 검증데이터(Test set)로 나뉘어 모델 생성 및 검증에 사용되었다.
4(a)는 상관계수를 기반으로 선정한 분자표현자에 VIP를 2회에 걸쳐 적용 하여 최종 분자표현자를 선별한 결과를 나타내고 있다. 이 과정에서 135개의 분자표현자들 중 VIP score가 1 이상인 38개의 분자표현자들을 선별하였고, 38개의 분자표현자들 중 VIP score가 1.01이상인 5개의 분자표현자를 최종 선별하였다.
6(a)는 VIP 수행 과정을 나타내고 있다. 이때 두 번째 VIP 적용 시 VIP score가 1.05 이상인 분자표현자 5개를 최종 선별하였다.
교차검정을 통해 선택된 최적의 차원개수과 본 연구에서 제안한 방법을 통해 선택된 분자표현자들을 이용하여 PLS 기반의 QSAR 모델을 개발 하였다. 이때 전체 139개의 PCBs의 log P 중 100개의 log P를 학습데이터로 사용하였다.
따라서 최적의 PLS 차원은 5개로 선정되었으며 선택된 분자표현자를 이용하여 PLS를 수행함으로 LC50을 예측하는 새로운 QSAR 모델을 개발하였다. 이때 전체 14개의 PCBs의 LC50 중 12개의 LC50를 학습데이터로 사용하였다.
데이터처리
PLS 기반의 QSAR 모델 생성과정에서의 PLS 차원은 leave-one-out 교차검정(leave-one-out cross validation: LOOCV) 방법을 통하여 결정하였다. LOOCV 기법은 학습데이터를 일정 개수의 그룹으로 나눈 후, 하나의 그룹을 검증대상으로 삼고, 나머지 그룹으로 모델을 생성하는 과정이다.
주요 화학물질의 분자표현자들과 활성치에 있어 상관계수 r와 VIP 기법을 적용하여 활성치와 큰 상관관계를 갖는 분자표현자들을 선별하였으며, 선별된 분자표현자들을 이용하여 PLS 기반의 QSAR 모델을 생성하였다. QSAR 모델 생성 시, 최적의 차원개수를 찾기 위해 leave-one-out방법의 교차검증을 사용하였으며, 모델 검정을 위하여 결정계수 R2과 PRESS을 계산하였다. 제안된 QSAR 모델은 OECD QSAR Toolbox에서 제공하는 QSAR 모델과의 성능 비교를 통해 예측 성능을 검정하였으며, 예측 대상이 되는 화학물질의 활성은 PCBs의 log P와 LC50으로 설정되었다.
그 후 활성치와 선별된 분자표현자를 각각 종속변수와 독립변수로 하여 PLS 기반의 QSAR 모델을 개발하였다. 마지막으로, 모델의 잔차와 회귀계수를 이용하여 기존의 QSAR 모델과 제안된 QSAR 모델의 성능을 비교 평가하였다. 본 연구에서의 QSAR 모델 개발 및 분석은 공학용 소프트웨어인 Matlab을 통하여 수행되었다.
본 방법론에 대한 검증을 위해 PCBs (Polychlorinated biphenyl)를 연구대상물질로 선정하여 제안된 방법론에 의한 QSAR 모델개발 및 기존의 QSAR 모델과 비교분석을 수행하였다. PCBs는 Fig.
관심 활성치와 높은 상관관계를 갖는 분자표현자들을 선택하기 위해 상관계수(r)와 Variable importance in projection (VIP)를 적용하였으며 향상된 QSAR 모델을 제시하기 위해 다변량 통계 방법인 부분최소자승법(Partial least square: PLS)을 적용하였다. 본 연구에서 제시된 분자표현자 선택법 및 QSAR 모델의 성능을 파악하기 위해 기존의 QSAR 모델인 OECD QSAR Toolbox와 비교 분석을 수행하였으며 이때 성능 지표로 결정계수(R2)와 모델예측에러를 나타내는 Prediction residual error sum of square (PRESS)를 이용하였다. 본 연구에서 제안한 분자표현자 선택 방법과 PLS 기반의 QSAR 모델은 기존 모델보다 화학물질의 활성치에 대해 보다 정확한 예측이 가능하며, 이는 각종 화학물질에 대한 인체 및 환경위해성 검정에 기여할 수 있을 것으로 판단된다.
선별된 5개의 분자표현자와 PCBs의 log P를 기반으로 PLS 모델을 생성하기 위한 최적의 PLS 차원을 찾기 위해 leave-one-out 교차검정을 수행하였으며 이에 대한 결과를 Fig. 4(b)에 나타내었다. 이때 PLS 차원의 개수가 2개일 때 PRESS 값이 가장 작았기 때문에 2개의 PLS 차원이 PLS 적용에 있어 최적의 차원개수이다.
위 과정을 통해 선별된 PLS 차원을 기반으로 PLS 기반의 QSAR 모델을 개발하였으며, 이때 제안된 QSAR 모델의 성능은 회귀계수(R2)와 PRESS를 이용하여 검정하였다. PRESS는 모든 측정 값과 예측 값 간의 차이의 제곱의 합이며 식 (7)과 같이 표현할 수 있다.
제안된 PLS 기반의 QSAR 모델의 성능평가를 위해 기존에 존재 하는 QSAR 모델 프로그램 중 하나인 OECD QSAR Toolbox에서 제공하는 Trend analysis와 비교하였다. Trend analysis는 화학물질들의 관심 활성치와 화학물질들의 특성에 대한 경향을 파악한 후, 관심 활성치와 특성에 대한 선형식을 제시하여 타 화학물질의 미확인된 활성치를 예측하는 방법이다.
제안된 QSAR 모델의 성능평가를 위해 OECD QSAR Toolbox 내의 Trend analysis 기반의 QSAR 모델과 비교·평가 하였다[20].
이론/모형
따라서 본 연구에서는 화학물질의 활성도와 높은 상관관계를 갖는 분자표현자를 선별하기 위해서 통계적 선택법을 도입하였다. Dragon software에서 수집된 4885개의 분자표현자들 중 누락된 항목들을 제거한 후, 대상화학물질의 활성치를 잘 나타낼 수 있는 분자표현자를 선택하기 위해 상관계수(correlation coefficients: r)와 Variable importance in projection (VIP) 방법을 적용하였다. 전체 분자표현자들 중 활성치와 0.
또한 선택된 분자표현자들로 기존 QSAR 모델보다 향상된 예측력을 갖는 QSAR 모델을 개발하였다. 관심 활성치와 높은 상관관계를 갖는 분자표현자들을 선택하기 위해 상관계수(r)와 Variable importance in projection (VIP)를 적용하였으며 향상된 QSAR 모델을 제시하기 위해 다변량 통계 방법인 부분최소자승법(Partial least square: PLS)을 적용하였다. 본 연구에서 제시된 분자표현자 선택법 및 QSAR 모델의 성능을 파악하기 위해 기존의 QSAR 모델인 OECD QSAR Toolbox와 비교 분석을 수행하였으며 이때 성능 지표로 결정계수(R2)와 모델예측에러를 나타내는 Prediction residual error sum of square (PRESS)를 이용하였다.
연구의 대상이 되는 화학물질에 대한 분자표현자들을 수집하여 이를 독립변수로 지정하고, 관심 물성 및 활성에 대한 정보를 수집하여 QSAR 모델에 대한 종속변수로 선정하였다. 독립변수에 들어가는 분자표현자는 Dragon software 6[18]를 이용하여 수집하였으며 종속변수에 대한 관심 화학물질에 대한 물성 및 활성정보는 OECD QSAR Toolbox에서 제공하는 정보와 문헌정보를 참고하였다. Table 1은 Dragon software로 수집되는 분자표현자의 그룹과 그 개수를 나타내었다[18].
일반적으로 변수 간의 상관관계를 규정하기 위해서는 다중 선형 회귀 모델을 사용하지만, 이를 QSAR 모델에 적용했을 경우 독립변수간의 강한 상관관계에 따라 발생할 수 있는 다중공선성을 유발할 수 있다[19]. 따라서 본 연구에서는 다중공선성 문제를 피할 수 있고 정확한 예측력을 가진 QSAR 모델을 개발하기 위해 PLS 방법을 적용하였다.
마지막으로, 모델의 잔차와 회귀계수를 이용하여 기존의 QSAR 모델과 제안된 QSAR 모델의 성능을 비교 평가하였다. 본 연구에서의 QSAR 모델 개발 및 분석은 공학용 소프트웨어인 Matlab을 통하여 수행되었다.
분자표현자들과 독성 수치 간의 관계를 나타내는 QSAR 모델을 개발하기 위해서 본 연구에서는 독립변수(X)와 종속변수(Y)의 상관관계를 규명하는데 사용하는 부분최소자승법(Partial Least Squares: PLS)을 적용하였다. 이 방법은 두 변수 간의 공분산을 최대로 하는 공간에 각 변수를 사영시키는 과정에서 다차원의 독립변수와 종속변수의 차원을 축소시키며, 이를 통해 독립변수와 종속변수간의 최적의 상관관계를 확인할 수 있다.
성능/효과
Fig. 7(a)는 LC50를 예측하기 위해 만들어진 QSAR 모델의 loading plot이며, 이때 분자표현자들 중 VE1_D/Dt와 SpMax6_Bh(s)이 LC50과 높은 상관관계를 갖는 것을 확인하였다. 또한 Fig.
5(a)에서 확인할 수 있는 loading plot은 독립변수(X)와 종속변수(Y) 간의 상관성을 보여 주는 그래프로 두 변수가 근접한 위치에 있을수록 높은 상관성을 갖는 것을 뜻한다. Loading plot의 분석결과, 분자표현자 SHP2와 SP02가 log P와 가까운 위치에 있기에 이 분자표현자들은 log P와 높은 상관관계를 갖는 것을 확인하였다.
이는 기존의 QSAR 모델 개발을 위해 선택된 분자표현자가 관심 활성치를 표현하기에 약한 상관관계를 가지며, 관심 활성치를 예측하기 위한 분자표현자의 개수가 부족하기 때문이다. 따라서 본 연구에서 제시한 분자표현자선별 방법 및 QSAR 모델 개발법은 기존 방법보다 향상된 예측력을 가졌다고 할 수 있다.
7(a)는 LC50를 예측하기 위해 만들어진 QSAR 모델의 loading plot이며, 이때 분자표현자들 중 VE1_D/Dt와 SpMax6_Bh(s)이 LC50과 높은 상관관계를 갖는 것을 확인하였다. 또한 Fig. 7(b)의 OECD QSAR Toolbox에서 제공하는 QSAR 모델과의 Q-Q plot 비교에 있어서도 제안된 모델이 측정값에 더 잘 수렴하는 것을 확인하였으며, 검증데이터에 대한 예측 또한 측정값과의 차이가 매우 적은 것을 확인하였다.
150의 PRESS 값과 비교 시 제안된 PLS 기반의 QSAR 모델이 기존의 OECD QSAR Toolbox보다 더 좋은 성능을 나타낸다고 할 수 있다. 또한 LC50에 대한 PLS 기반의 QSAR 모델에서는 전체 데이터를 기준으로 0.984의 R2와 0.314의 PRESS를 나타내었으며, 이는 OECD QSAR Toolbox에서의 0.832의 R2와 3.680의 PRESS값과 비교 시 좋은 예측력을 갖는다고 할 수 있다. 이는 기존 모델과 제안된 모델을 비교 시 OECD QSAR Toolbox는 여러 분자표현자들 중에서 단 하나의 특성만을 독립변수로 설정하여 QSAR 모델을 한 반면, 제안된 PLS 기반의 QSAR 모델은 관심 활성치와 강한 활성관계를 갖는 분자표현자들을 QSAR 모델의 독립변수로 설정하였기 때문에 기존의 QSAR 모델보다 더 좋은 예측력을 갖는 것으로 판단된다.
제안된 QSAR 모델은 OECD QSAR Toolbox에서 제공하는 QSAR 모델과의 성능 비교를 통해 예측 성능을 검정하였으며, 예측 대상이 되는 화학물질의 활성은 PCBs의 log P와 LC50으로 설정되었다. 본 연구에서 제안된 QSAR 모델은 PCBs의 log P와 LC50를 예측하는 과정에서 기존의 QSAR 모델 보다 각각 26%, 91%의 PRESS를 줄이는 높은 예측력을 나타내었다. 따라서 본 연구에서 제안된 방법은 REACH 제도에 대응하는데 있어 화학물질의 물성 또는 활성 정보에 대한 예측력 향상 및 독성실험에 대한 시간과 비용의 절약이 가능할 것으로 판단되며, 유독 화학물질의 인체 및 환경 위해성 평가 등 다양한 분야에 있어서 적용할 수 있을 것으로 판단된다.
위의 과정을 거쳐 본 연구에서 제시된 분자표현자 선택법 및 QSAR 모델 개발 방법론이 기존의 QSAR 모델보다 향상된 성능을 보이는 것을 확인하였으며, 이 방법을 바탕으로 PCBs의 여러 독성 기준 중 데이터가 부족한 LC50를 예측하는 새로운 QSAR 모델을 개발하였다. 기존의 방법과 같이 상관계수와 VIP를 적용하여 분자표현자 선택 과정을 수행하였으며 Fig.
680의 PRESS값과 비교 시 좋은 예측력을 갖는다고 할 수 있다. 이는 기존 모델과 제안된 모델을 비교 시 OECD QSAR Toolbox는 여러 분자표현자들 중에서 단 하나의 특성만을 독립변수로 설정하여 QSAR 모델을 한 반면, 제안된 PLS 기반의 QSAR 모델은 관심 활성치와 강한 활성관계를 갖는 분자표현자들을 QSAR 모델의 독립변수로 설정하였기 때문에 기존의 QSAR 모델보다 더 좋은 예측력을 갖는 것으로 판단된다.
6(b)는 PCBs의 LC50을 예측할 PLS 모델에 적용될 최적의 PLS 차원을 찾기 위해 leave-one-out 교차검정을 수행한 결과이다. 잠재변수의 개수가 증가할수록 PRESS의 값은 작아지며, 이때 잠재변수의 개수가 5개 이상일 때, PRESS의 값에 대한 변화가 없는 것을 확인할 수 있었다. 따라서 최적의 PLS 차원은 5개로 선정되었으며 선택된 분자표현자를 이용하여 PLS를 수행함으로 LC50을 예측하는 새로운 QSAR 모델을 개발하였다.
후속연구
본 연구에서 제안된 QSAR 모델은 PCBs의 log P와 LC50를 예측하는 과정에서 기존의 QSAR 모델 보다 각각 26%, 91%의 PRESS를 줄이는 높은 예측력을 나타내었다. 따라서 본 연구에서 제안된 방법은 REACH 제도에 대응하는데 있어 화학물질의 물성 또는 활성 정보에 대한 예측력 향상 및 독성실험에 대한 시간과 비용의 절약이 가능할 것으로 판단되며, 유독 화학물질의 인체 및 환경 위해성 평가 등 다양한 분야에 있어서 적용할 수 있을 것으로 판단된다.
본 연구에서 제시된 분자표현자 선택법 및 QSAR 모델의 성능을 파악하기 위해 기존의 QSAR 모델인 OECD QSAR Toolbox와 비교 분석을 수행하였으며 이때 성능 지표로 결정계수(R2)와 모델예측에러를 나타내는 Prediction residual error sum of square (PRESS)를 이용하였다. 본 연구에서 제안한 분자표현자 선택 방법과 PLS 기반의 QSAR 모델은 기존 모델보다 화학물질의 활성치에 대해 보다 정확한 예측이 가능하며, 이는 각종 화학물질에 대한 인체 및 환경위해성 검정에 기여할 수 있을 것으로 판단된다.
질의응답
핵심어
질문
논문에서 추출한 답변
정량적구조활성관계란 무엇인가?
정량적구조활성관계(Quantitative structure activity relationship: QSAR)는 화학물질이 보유하고 있는 물리적, 화학적, 생물학적 활성 정도는 화학물질의 분자구조와 상관관계를 갖는다는 개념이다[8]. 화학물질의 구조와 활성 정도간의 상관관계를 계산할 때 화학물질의 구조는 분자표현자라는 수치적인 값으로 표현된다.
REACH 제도는 어떤 항목에 대해 관리를 하며 한계점은 무엇인가?
이를 시작으로 중국, 대만, 일본, 미국 등의 여러 국가들도 기존의 화학물질 관리제도에서 물질 규정에 대한 항목을 추가 및 신설하고 있다. REACH 제도는 대상 물질의 물리화학적 특성, 환경독성 및 인체 유해성 등 다양한 항목에 대해서 관리를 하고 있지만 위 항목들에 대한 실험에 있어 많은 시간과 비용이 소비된다는 단점이 있다[2].
정량적구조활성관계는 어떤 정보에 대한 예측을 가능하게 하는가?
EU 등의 국제 기구에서는 화학물질의 물성 및 독성 측정을 위한 실험에 따르는 부담을 줄이기 위해 정량적구조활성관계(Quantitative Structure Activity Relationship: QSAR)개념을 이용하여 화학물질의 물성 및 독성을 예측하고, 그 결과를 활용할 수 있도록 허용하고 있다[3]. QSAR란 화학물질의 독성 또는 활성 정도는 화학물질의 구조적 특성에 따라 결정된다는 개념으로, 기존의 알려진 화학물질의 독성 및 활성 정보를 기반으로 알려지지 않은 화학물질의 정보에 대한 예측을 가능하게 한다[4]. 현재까지 QSAR와 다양한 예측 기법들을 이용하여 화학물질의 활성치와 분자표현자들과의 관계를 성립하고 화학물질의 독성 및 물성을 예측하고자 하는 연구들이 진행되어 왔다.
참고문헌 (32)
Ahlers, J., Stock, F. and Werschkun, B., "Integrated Testing and Intelligent Assessment - New Challenges Under REACH," Environ. Sci. Pollut. Res., 15(7), 565-572(2008).
Kananpanah, S., Dizadji, N., Abolghasemi, H. and Salamatinia, B., "Developing a New Model to Predict Mass Transfer Coefficient of Salicylic Acid Adsorption onto IRA-93: Experimental and Modeling," Korean J. Chem. Eng., 26(5), 1208-1212(2009).
TGD, E., Technical Guidance Document (TGD) in support of commission directive 93/67/EEC on risk assessment for new notified substances and commission regulation (EC) No. 1488/94 on risk assessment for existing substances, Part i to IV, Office for official publications of the European Communities (1996).
Devillers, J. and Balaban, A. T. (Ed.), Topological indices and related descriptors in QSAR and QSPAR. CRC Press(2000).
Song, I. S., Cha, J. Y. and Lee, S. K., "Prediction and Analysis of Acute Fish Toxicity of Pesticides to the Rainbow Trout Using 2D-QSAR," Anal. Sci. Technol., 24(6), 544-555(2011).
Ammi, Y., Khaouane, L. and Hanini, S., "Prediction of the Rejection of Organic Compounds (neutral and ionic) by Nanofiltration and Reverse Osmosis Membranes Using Neural Networks," Korean J. Chem. Eng., 32(11), 2300-2310(2015).
Kim, J., Jung, D. H., Rhee, H., Choi, S. H., Sung, M. J. and Choi, W. S., "Aqueous Solubility of Poorly Water-soluble Drugs: Prediction Using Similarity and Quantitative Structure-property Relationship Models," Korean J. Chem. Eng., 25(4), 865-873 (2008).
Coccini, T., Giannoni, L., Karcher, W., Manzo, L. and Roi, R., Quantitative structure/Activity relationships (QSAR) in Toxicology. Joint Research Centre, Pavia, Italy (1991).
Todeschini, R. and Consonni, V. Handbook of molecular descriptors, Vol. 11., John Wiley & Sons (2008).
Shi, H., "IAQ monitoring of sub-PCA and health risk assessment of nonlinear QSAR for indoor air pollutants," Master Dissertation, Kyung Hee University, Seoul, Korea (2015).
Ock, H. S., "Developing trend of QSAR modeling and pesticides," Korean J. Pestic. Sci., 15(1), 68-85(2011).
Han, I. S. and Shin, H. K., "Modeling of a PEM Fuel Cell Stack Using Partial Least Squares and Artificial Neural Networks," Korean Chem. Eng. Res., 53(2), 236-242(2015).
Lee, C. J., Ko, J. W. and Lee, G. B., "Comparison of Partial Least Squares and Support Vector Machine for the Flash Point Prediction of Organic Compounds," Korean Chem. Eng. Res., 48(6), 717-724(2010).
Montgomery, D. C., Runger, G. C. and Hubele, N. F. Engineering statistics. John Wiley & Sons (2009).
Pao, S. Y., Lin, W. L. and Hwang, M. J., "In Silico Identification and Comparative Analysis of Differentially Expressed Genes in Human and Mouse Tissues," BMC genomics, 7(1), 1(2006).
Mehmood, T., Liland, K. H., Snipen, L. and Saebo, S., "A Review of Variable Selection Methods in Partial Least Squares Regression," Chemometr. Intell. Lab., 118, 62-69(2012).
Chong, I. G. and Jun, C. H., "Performance of Some Variable Selection Methods when Multicollinearity is Present," Chemometr. Intell. Lab., 78(1), 103-112(2005).
Talete srl, Dragon Version 6.0, http://www.talete.mi.it/.
Gholivand, K., Ebrahimi Valmoozi, A. A., Mahzouni, H. R., Ghadimi, S. and Rahimi, R., "Molecular Docking and QSAR Studies: Noncovalent Interaction between Acephate Analogous and the Receptor Site of Human Acetylcholinesterase," J. Agric. Food Chem., 61(28), 6776-6785(2013).
OECD QSAR toolbox Version 3.2, http://www.qsartoolbox.org.
Robertson, L. W. and Hansen, L. G. (Ed)., PCBs: recent advances in environmental toxicology and health effects. University Press of Kentucky(2015).
Gramatica, P., Navas, N. and Todeschini, R., "3D-modelling and prediction by WHIM descriptors. Part 9. Chromatographic relative retention time and physico-chemical properties of polychlorinated biphenyls (PCBs)," Chemometr. Intell. Lab., 40(1), 53-63 (1998).
Consonni, V., Todeschini, R. and Pavan, M., "Structure/response Correlations and Similarity/diversity Analysis by GETAWAY Descriptors. 1. Theory of the novel 3D Molecular Descriptors," J. Chem. Inform. Comput. Sci., 42(3), 682-692(2002).
Consonni, V., Todeschini, R., Pavan, M. and Gramatica, P., "Structure/response Correlations and Similarity/diversity Analysis by GETAWAY Descriptors. 2. Application of the Novel 3D Molecular Descriptors to QSAR/QSPR Studies," J. Chem. Inform. Comput. Sci., 42(3), 693-705(2002).
Carhart, R. E., Smith, D. H. and Venkataraghavan, R., "Atom Pairs as Molecular Features in Structure-activity Studies: Definition and Applications," J. Chem. Inform. Comput. Sci., 25(2), 64-73(1985).
Broto, P., Moreau, G. and Vandycke, C., "Molecular Structures: Perception, Autocorrelation Descriptor and SAR Studies. Autocorrelation Descriptor," Eur. J. Med. Chem., 19(1), 66-70(1984).
Buckley, F. and Harary, F., Distance in graphs. Addison-Wesley Longman(1990).
Pearlman, R. S. and Smith, K. M., "Novel Software Tools for Chemical Diversity," 3D QSAR in drug design, 339-353. Springer Netherlands(2002).
Hemmer, M. C., Steinhauer, V. and Gasteiger, J., "Deriving the 3D Structure of Organic Molecules from Their Infrared Spectra," Vib. Spectrosc., 19(1), 151-164(1999).
※ AI-Helper는 부적절한 답변을 할 수 있습니다.