최근 단백질 및 도메인과 관련된 방대한 양의 데이타들이 인터넷상에 공표되고 축적됨에 따라, 단백질간의 상호작용에 대한 예측 시스템의 필요성이 제기되고 있다. 본 논문에서는 이러한 데이타를 이용하여 계산적으로 도메인 조합 쌍에 기반하여 단백질의 상호작용 확률을 예측하는 새로운 단백질 상호작용 예측 시스템을 제안한다. 제안된 예측 시스템에서는 기존의 도메인 쌍(domain pair)의 제약성을 극복하기 위하여 도메인 조합(domain combination)과 도메인 조합 쌍(domain combination pair)의 개념이 새롭게 도입하였다. 그리고 도메인 조합 쌍(domain combination pair 또는 dc-pair)을 단백질 상호작용의 기본 단위로 간주하고 예측을 시도한다. 예측 시스템은 크게 예측 준비 과정과 서비스 과정으로 구성되어 있다. 예측 준비 과정에서는 상호작용이 있는 것으로 알려진 단백질 쌍 집합과 상호작용이 없는 것으로 추정되는 단백질 도메인 쌍 집합으로부터 각각 도메인 조합 정보와 그 출현 빈도를 추출한다. 추출된 정보들은 출현 확률 배열(Appearance Probability Matrix 또는 AP matrix)로 불리는 배열 구조에 저장된다. 논문에서는 출현 확률 배열에 기반을 두어, 단백질-단백질 상호작용을 예측하는 확률식 PIP(Primary Interaction Probability)를 고안하고, 고안된 확률식을 이용하여, 상호작용이 있는 것으로 알려진 단백질 쌍 집합과 상호작용이 없는 것으로 추정되는 단백질 도메인 쌍 집합의 확률 값 분포를 생성시킨다. 예측서비스 과정에서는 예측 준비 과정에서 얻어진 분포와 확률식을 이용하여 임의의 단백질 쌍의 상호작용 확률을 계산한다. 예측 모델의 유효성은 효모(yeast)에서 상호작용이 있는 것으로 보고된 단백질 쌍 집합과 상호작용이 없는 것으로 추정되는 단백질 쌍 집합을 이용하여 검증하였다. DIP(Database of Inter-acting Proteins)의 상호작용이 있는 것으로 알려진 효모 단백질 쌍 집합의 80%를 학습 집단으로 사용했을 때, 86%의 sensitivity와 56%의 specificity를 나타내어, 도메인을 기반으로 한 기존의 예측 시스템에 비해서 우월한 예측 정확도를 보여주었다. 이와 같은 예측 정확도의 개선은 본 예측 시스템이 상호작용의 기본 단위로 dc-pair를 채택한 점과 분류를 위하여 새롭게 고안하여 사용한 PIP식이 유효했던 것으로 판단된다.
최근 단백질 및 도메인과 관련된 방대한 양의 데이타들이 인터넷상에 공표되고 축적됨에 따라, 단백질간의 상호작용에 대한 예측 시스템의 필요성이 제기되고 있다. 본 논문에서는 이러한 데이타를 이용하여 계산적으로 도메인 조합 쌍에 기반하여 단백질의 상호작용 확률을 예측하는 새로운 단백질 상호작용 예측 시스템을 제안한다. 제안된 예측 시스템에서는 기존의 도메인 쌍(domain pair)의 제약성을 극복하기 위하여 도메인 조합(domain combination)과 도메인 조합 쌍(domain combination pair)의 개념이 새롭게 도입하였다. 그리고 도메인 조합 쌍(domain combination pair 또는 dc-pair)을 단백질 상호작용의 기본 단위로 간주하고 예측을 시도한다. 예측 시스템은 크게 예측 준비 과정과 서비스 과정으로 구성되어 있다. 예측 준비 과정에서는 상호작용이 있는 것으로 알려진 단백질 쌍 집합과 상호작용이 없는 것으로 추정되는 단백질 도메인 쌍 집합으로부터 각각 도메인 조합 정보와 그 출현 빈도를 추출한다. 추출된 정보들은 출현 확률 배열(Appearance Probability Matrix 또는 AP matrix)로 불리는 배열 구조에 저장된다. 논문에서는 출현 확률 배열에 기반을 두어, 단백질-단백질 상호작용을 예측하는 확률식 PIP(Primary Interaction Probability)를 고안하고, 고안된 확률식을 이용하여, 상호작용이 있는 것으로 알려진 단백질 쌍 집합과 상호작용이 없는 것으로 추정되는 단백질 도메인 쌍 집합의 확률 값 분포를 생성시킨다. 예측서비스 과정에서는 예측 준비 과정에서 얻어진 분포와 확률식을 이용하여 임의의 단백질 쌍의 상호작용 확률을 계산한다. 예측 모델의 유효성은 효모(yeast)에서 상호작용이 있는 것으로 보고된 단백질 쌍 집합과 상호작용이 없는 것으로 추정되는 단백질 쌍 집합을 이용하여 검증하였다. DIP(Database of Inter-acting Proteins)의 상호작용이 있는 것으로 알려진 효모 단백질 쌍 집합의 80%를 학습 집단으로 사용했을 때, 86%의 sensitivity와 56%의 specificity를 나타내어, 도메인을 기반으로 한 기존의 예측 시스템에 비해서 우월한 예측 정확도를 보여주었다. 이와 같은 예측 정확도의 개선은 본 예측 시스템이 상호작용의 기본 단위로 dc-pair를 채택한 점과 분류를 위하여 새롭게 고안하여 사용한 PIP식이 유효했던 것으로 판단된다.
In this paper, we propose a probabilistic framework to predict the interaction probability of proteins. The notion of domain combination and domain combination pair is newly introduced and the prediction model in the framework takes domain combination pair as a basic unit of protein interactions to ...
In this paper, we propose a probabilistic framework to predict the interaction probability of proteins. The notion of domain combination and domain combination pair is newly introduced and the prediction model in the framework takes domain combination pair as a basic unit of protein interactions to overcome the limitations of the conventional domain pair based prediction systems. The framework largely consists of prediction preparation and service stages. In the prediction preparation stage, two appearance probability matrices, which hold information on appearance frequencies of domain combination pairs in the interacting and non-interacting sets of protein pairs, are constructed. Based on the appearance probability matrix, a probability equation is devised. The equation maps a protein pair to a real number in the range of 0 to 1. Two distributions of interacting and non-interacting set of protein pairs are obtained using the equation. In the prediction service stage, the interaction probability of a Protein pair is predicted using the distributions and the equation. The validity of the prediction model is evaluated for the interacting set of protein pairs in Yeast organism and artificially generated non-interacting set of protein pairs. When 80% of the set of interacting protein pairs in DIP database are used as teaming set of interacting protein pairs, very high sensitivity(86%) and specificity(56%) are achieved within our framework.
In this paper, we propose a probabilistic framework to predict the interaction probability of proteins. The notion of domain combination and domain combination pair is newly introduced and the prediction model in the framework takes domain combination pair as a basic unit of protein interactions to overcome the limitations of the conventional domain pair based prediction systems. The framework largely consists of prediction preparation and service stages. In the prediction preparation stage, two appearance probability matrices, which hold information on appearance frequencies of domain combination pairs in the interacting and non-interacting sets of protein pairs, are constructed. Based on the appearance probability matrix, a probability equation is devised. The equation maps a protein pair to a real number in the range of 0 to 1. Two distributions of interacting and non-interacting set of protein pairs are obtained using the equation. In the prediction service stage, the interaction probability of a Protein pair is predicted using the distributions and the equation. The validity of the prediction model is evaluated for the interacting set of protein pairs in Yeast organism and artificially generated non-interacting set of protein pairs. When 80% of the set of interacting protein pairs in DIP database are used as teaming set of interacting protein pairs, very high sensitivity(86%) and specificity(56%) are achieved within our framework.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 연구에서는 단백질-단백질 상호작용을 예측하는 확률 시스템을 제안하였으며, 유효성 테스트를 실시하였다. 제안된 확률 틀에서는 단백질의 상호작용 기본 단위로서 dc-pair를 채택하였으며, 확률식 PIP은 단백질 쌍을 실수 0~1 범위에 투사시킴으로써, 그 분류 능력이 증명되었다.
가설 설정
이 방법들은 단백질-단백질 상호작용 데이타로부터 도메인-도메인 상호 작용정보롤 추측하고, 이를 토대로 단백질의 상호작용올 얘측하는 것이 일반적이다. 그리고 도메인에 기반한 대부분의 기존 연구들은 계산의 편의상, 단백절의 상호작용이 독립적으로 발생하는 단일 도메인 쌍(single domain 诚r)의 결합에 의해 유발된다고 가정하고 있다. 그 결과 기존의 도메인에 기반한 단백질 상호작용 예측 기법의 예측 정확도가 높지 않은 것이 현실이다.
개의 도메인 조합이 얻어진다. 본 논문에서 제시하는 예측 모델에서는 도메인 조합 쌍(de-p疝厂)을 단백질 상호작용의 기본 단위로 간주하며, 동일 단백질 안의 하나 이상의 복수의 도메인 조합 쌍이 연합하여 단백질 상호작용에 영향올 주는 것으로 가정한다. 두 단백질 pf Q에서 모든 가능한 도메인 조합 쌍의 집합의 정의는 다음과 같다.
제안 방법
즉 단일 도메인 쌍 보다는 복수의 도메인들이 합동으로 단백질 상호작용에 영향을 미친다고 가정하는 것이 적절할 것으로 판단된다. 이러한 문제점올 극복하기 위하여, 본 논문에서 도메인 조합(domain combination)과 도메인 조합 쌍 (domain combinations, pair 또는 dc-p命)의 개념올 도입한다. 도메인 조합이란 용어는 하나의 도메인 집합에서 생성 가능한 도메인 부분 집합을 의미한다.
도메인 조합이란 용어는 하나의 도메인 집합에서 생성 가능한 도메인 부분 집합을 의미한다. 즉 본 논문에서 제시하는 확률 예측 모델 온 단백질-단백질 상호작용은 복수의 도메인 쌍이나 도메인 조합 간의 상호작용의 결과로 인식하며, de-pah를 단백질 상호작용의 기본 단위로 해석한다.
본 논문에서는 상호작용이 있는 단백질 쌍 집합과 상호작용이 없는 것으로 가정된 단백질 쌍 집합에 대해서 각각 &-囲1厂의 출현 빈도를 측정하여 출현 확률 배열구조에 저장한다. 그리고 이 배열올 토대로 단백질-단백질 상호작용 확률 예측 모델을 구축한다.
저장한다. 그리고 이 배열올 토대로 단백질-단백질 상호작용 확률 예측 모델을 구축한다. 본 논문에서 사용한 접근 방법에서는 도메인 쌍에 대한 정보가 dc-pair 정보 안에 포함되어 있으므로, 종래의 도메인 쌍에 기반한 방법에 비교할 때 더 포괄적이다.
Marcotte[기은 지놈(genome) 정보를 이용하여 단백질의 기능을 예측하는 방법을 제시하였으며, domain fusion method[6, 기를 고안하였다. 즉 동일한 도메인을 가지는 단백질은 기능적으로 관련이 있으므로 단백질 상호작용 연계(linkage)를 구성할 수 있어, 이링크를 이용하여 새로운 경로(pathway)나 복합체(com- plex)를 확인하는데 이용하였다.
shtml) 데이타베이스에 정의된 도메인을 이용하여, 도메인 쌍 간의 상호작용 확률을 추정하였다. 그의 방법은 maximum likelihood estimation을 적용하여, 관측된 단백질-단백질 상호작용과 일치하는 상호작용 도메인올 추론한다. 즉, 모든 도메인 쌍 간의 상호작용 확률을 추론하여, 단백질 수준에서 그들의 예측 정확도를 측정하였다.
그의 방법은 maximum likelihood estimation을 적용하여, 관측된 단백질-단백질 상호작용과 일치하는 상호작용 도메인올 추론한다. 즉, 모든 도메인 쌍 간의 상호작용 확률을 추론하여, 단백질 수준에서 그들의 예측 정확도를 측정하였다.
이 확률은 DCclA, B)가 AP^ dc-pair 공간에서 발견될 때 단백질 쌍 <A, B>가 서로 상호작용할 확률을 의미한다. 상호작용이 일어나는 사건과 일어나지 않는 사건을 표현하기 위하여 확률 변수 X를 도입하였다. 1 값은 상호작용이 일어나는 사건, 0 값은 상호작용이 없는 사건을 나타낸다.
즉, 임의로 주어진 단백질 쌍에 대하여, 상호작용 가능성올 예측하기 위해서는 그 단백질 쌍의 PIP 값이 어느 분포에 속할지를 결정해야 한다. 2-카테고리 분류(two-category classification)의 많은 기법이 있지만, 이를 확률적으로 표현하기 위하여, 단백질 쌍의 조건부 확률을 계산하여 어떤 카테고리에 속하는지를 결정하였다.
그러나, 만일 전체 단백질 쌍 공간 안에 상호작용하는 단백질 쌍이 아주 드물다고 추측한다면, 본 예측 모델에서 사용된 상호작용이 없다고 추정되는 집단으로도 충분할 것이며, 입증 결과가, 이러한 방법으로 상호작용이 없다고 추정되는 집단올 생성하고 사용하는 것이 적절하다는 것을 보일 것으로 예상된다. 이상의 방법으로 2개의 집단을 준비한 후, 각각을 학습 집단과 검증 집단으로 나누었다. 학습 집단으로 상호작용이 있는 것으로 알려진 전체 단백질 쌍의 80%를 사용했을 때, 12861*12861 크기의 厶戸와 14470*14470 크기의 APr°] 생성되었다.
PIP 값의 분포를 다양한 2-카테고리 분류(2-category classification)방식을 적용하여 분류할 수 있다. 본 논문에서는 예측 모델의 유효성을 검사하기 위하여, hybrid classification을 고안하였으며, 에러 확률식 값을 최소화하는 새로운 hybrid classification 방식을 고안하여 분류한 후 예측에 사용하였다. 에러 확률식은 다음과 같다.
그러나, 상호작용이 보고된 단백질 쌍 중에 예외적으로 낮은 PIP 값을 가지는 경우와 높은 값을 가지면서도 상호작용이 일어나지 않는 단백질 쌍이 존재하므로, 이들을 효과적으로 분리하기 위하여 여러 가지 classification 방법을 조합하였다.
먼저 상호작용이 알려진 단백질 쌍과 없다고 추정되는 단백질 쌍의 학습 집단을 이용하여, 단백질 쌍 전체수 중 80%을 학습 집단으로 PIP 값을 계산하여 PIP 값의 분포를 n리고, 나머지 20%를 검중 집단으로 이용하여 PIP 값을 계산한 후, 학습 집단의 PIP 분포에서 검색한다’ 이 때 허용한계는 0.00005로 결정하였다. 검증 집단의 PIP 값과 학습 집단의 PIP 값이 허용한계 범위의 PIP 값과 일치할 때, 상호작용올 한다고 보고된 단백질 쌍의 것과 같은 PIP 값인 경우는 상호작용이 있다고 결정하였다.
검증 집단의 PIP 값과 학습 집단의 PIP 값이 허용한계 범위의 PIP 값과 일치할 때, 상호작용올 한다고 보고된 단백질 쌍의 것과 같은 PIP 값인 경우는 상호작용이 있다고 결정하였다. 그러나, 주어진 PIP 값에 상호작용 쌍과 상호작용이 없는 쌍으로 추정되는 쌍이 모두 존재하면, frequency의 차이가 적올 경우에는 상호작용 한다고 결정하며, 차이가 큰 경우에는 큰 값에 따라 상호작용 여부를 결정하였다.
수행하였다. 주어진 PIP 값올 기준으로 가변적인 윈도우를 설정하고 기존의 PIP 분포에서 이 윈도우에 속하는 단백질 쌍의 frequency를 비교하며, frequency가 같은 경우에는 윈도우 사이즈를 늘려가며 상호작용 여부를 결정하였다. 이와 같이 classification 방법올 변화시켜 나가는 과정에서 sensitivity와 specificity가 조금씩 올라가는 것을 살펴볼 수 있었다.
대상 데이터
단백질 쌍 데이타를 준비하였다. 상호작용이 알려진 단백질 쌍 집합은 DIP 데이타베이스(http:〃dip.doe- mbi.ucla.edu)의 효모(yeast)에서 총 15, 174개의 상호작용이 보고된 단백질 쌍(yeast20030202.1st)을 준비하였다. 반면에, 상호작용이 없다고 추정되는 단백질 쌍은 도메인 정보가 알려진 단백질 쌍 집단에서, 상호작용이 알려진 단백질 쌍 집단을 제거하는 방식을 통하여, 임의로 생성되었다.
반면에, 상호작용이 없다고 추정되는 단백질 쌍은 도메인 정보가 알려진 단백질 쌍 집단에서, 상호작용이 알려진 단백질 쌍 집단을 제거하는 방식을 통하여, 임의로 생성되었다. 총 단백질 각각에 대한 도메인의 정보는 PDB(http'-//www.ebi.ac.uk/proteome/)[2]에 서 추출하였다. 입증의 편의를 위하여, 상호작용이 없는 것으로 추정된 단백질 쌍의 경우에는 상호작용이 보고된 단백질 쌍과 같은 수의 단백질 쌍을 준비하였다.
예측 모델의 유효성은 효모(yeast) 에서 상호작용이 있는 것으로 알려진 단벡질 쌍 집합과 상호작용이 없는 것으로 추정되는 단백질 쌍 집합올 대상으로 검중하였다. DIP 데이타 베이스[3, 12]의 상호작용이 있는 것으로 알려진 단백질 쌍 집합의 80%를 학습 집단으로 사용했을 때, 제안된 예측 시스템은 매우 높은 sensitivity (86%)와 specificity(56%)를 보여 주어 제안된 예측 시스템의 유용성을 입증하였다.
이론/모형
일치하는 PIP값이 없으며, 조건부 확률 결정을 통하여서도 상호작용 여부가 결정되지 않은 단백질 쌍에 대해서는 k-nearest-neighbor estimation올 수행하였다. 주어진 PIP 값올 기준으로 가변적인 윈도우를 설정하고 기존의 PIP 분포에서 이 윈도우에 속하는 단백질 쌍의 frequency를 비교하며, frequency가 같은 경우에는 윈도우 사이즈를 늘려가며 상호작용 여부를 결정하였다.
성능/효과
그리고 도메인에 기반한 대부분의 기존 연구들은 계산의 편의상, 단백절의 상호작용이 독립적으로 발생하는 단일 도메인 쌍(single domain 诚r)의 결합에 의해 유발된다고 가정하고 있다. 그 결과 기존의 도메인에 기반한 단백질 상호작용 예측 기법의 예측 정확도가 높지 않은 것이 현실이다. 이와 같이 도메인에 기반한 단백질 상호작용 예축 기법이 낮은 예측 정확도롤 보이는 것은 많은 이유가 있을 수 있겠지만 위에서 언급한 단백질의 상호작용이 독립적으로 발생하는 단일 도메인 쌍(single domain pair)의 결합에 의해 유발된다는 가정에 문제가 있는 것으로 생각된다.
이와 같이 도메인에 기반한 단백질 상호작용 예축 기법이 낮은 예측 정확도롤 보이는 것은 많은 이유가 있을 수 있겠지만 위에서 언급한 단백질의 상호작용이 독립적으로 발생하는 단일 도메인 쌍(single domain pair)의 결합에 의해 유발된다는 가정에 문제가 있는 것으로 생각된다. 즉 단일 도메인 쌍 보다는 복수의 도메인들이 합동으로 단백질 상호작용에 영향을 미친다고 가정하는 것이 적절할 것으로 판단된다. 이러한 문제점올 극복하기 위하여, 본 논문에서 도메인 조합(domain combination)과 도메인 조합 쌍 (domain combinations, pair 또는 dc-p命)의 개념올 도입한다.
그리고 이 배열올 토대로 단백질-단백질 상호작용 확률 예측 모델을 구축한다. 본 논문에서 사용한 접근 방법에서는 도메인 쌍에 대한 정보가 dc-pair 정보 안에 포함되어 있으므로, 종래의 도메인 쌍에 기반한 방법에 비교할 때 더 포괄적이다. 또한, 종래의 기술은 주로 계산식(scoring system)을 고안하고 계산 값을 제공하는데 반해서, 본 방법온 상호작용 가능성에 대한 확률 값올 제시함으로써 좀 더 실질적인 정보를 생물학자에게 제공하는 것이 가능하다.
DIP 데이타 베이스[3, 12]의 상호작용이 있는 것으로 알려진 단백질 쌍 집합의 80%를 학습 집단으로 사용했을 때, 제안된 예측 시스템은 매우 높은 sensitivity (86%)와 specificity(56%)를 보여 주어 제안된 예측 시스템의 유용성을 입증하였다.
현재까지 모든 단백질에 대한 상호작용이 밝혀진 것이 아니므로, 이상의 방법을 통해서, 상호작용이 없다고 추정되는 집단 안에 상호작용이 있는 단백질 쌍이 완전히 제거되지는 않을 것이다. 그러나, 만일 전체 단백질 쌍 공간 안에 상호작용하는 단백질 쌍이 아주 드물다고 추측한다면, 본 예측 모델에서 사용된 상호작용이 없다고 추정되는 집단으로도 충분할 것이며, 입증 결과가, 이러한 방법으로 상호작용이 없다고 추정되는 집단올 생성하고 사용하는 것이 적절하다는 것을 보일 것으로 예상된다. 이상의 방법으로 2개의 집단을 준비한 후, 각각을 학습 집단과 검증 집단으로 나누었다.
00005로 결정하였다. 검증 집단의 PIP 값과 학습 집단의 PIP 값이 허용한계 범위의 PIP 값과 일치할 때, 상호작용올 한다고 보고된 단백질 쌍의 것과 같은 PIP 값인 경우는 상호작용이 있다고 결정하였다. 그러나, 주어진 PIP 값에 상호작용 쌍과 상호작용이 없는 쌍으로 추정되는 쌍이 모두 존재하면, frequency의 차이가 적올 경우에는 상호작용 한다고 결정하며, 차이가 큰 경우에는 큰 값에 따라 상호작용 여부를 결정하였다.
hybrid classification 수행 결과, 상호작용이 알려진 단백질 쌍 전체 수 중 80%의 단백질 쌍을 학습 집단으로 사용하였을 때 약 86%의 sensitivity와 약 56%의 specificity가 얻어져 기존의 방식에 비하여 현저하게 예측의 정확도가 개선되는 것이 확인되었다. 여기서 sensitivity라 함은 전체 테스트 샘플에서 상호작용이 있는 것에 대해서 상호작용이 있는 것으로 예측하는 비율을 의미하고 specificity라 함은 전체 테스트 샘플에서 상호작용이 없는 것에 대해서 상호작용이 없는 것으로 예측하는 비율을 의미하는 것으로 이 값이 높올수록 예측의 정확도가 좋음을 의미한다.
현재까지 상호작용이 있다고 보고된 단백질 쌍 집단과 본 논문에서 사용한 상호작용이 없다고 추정되는 단백질 쌍 집단 안에는 실험적인 에러가 포함되어 있을 수 있기 때문에, 얼마나 많은 데이타가 오류인지는 단정하기 어럽다. 그러나, 본 논문의 테스트 결과로 볼 때, 에러 데이타는 많은 부분을 차지하지 않는 것으로 추정되며, 본 예측 모델이 유효하다고 결론지을 수 있다. 이러한 결과는 상호작용의 기본 단위로 dc-pair를 채택한 점과 분류를 위하여 PIP 식올 사용한 것이 주효한 것으로 판단된다.
그러나, 본 논문의 테스트 결과로 볼 때, 에러 데이타는 많은 부분을 차지하지 않는 것으로 추정되며, 본 예측 모델이 유효하다고 결론지을 수 있다. 이러한 결과는 상호작용의 기본 단위로 dc-pair를 채택한 점과 분류를 위하여 PIP 식올 사용한 것이 주효한 것으로 판단된다.
제안된 확률 틀에서는 단백질의 상호작용 기본 단위로서 dc-pair를 채택하였으며, 확률식 PIP은 단백질 쌍을 실수 0~1 범위에 투사시킴으로써, 그 분류 능력이 증명되었다.
후속연구
첫째로 기대할 수 있는 장점은 낮은 가격에 대량의 단백질-단백질 상호작용 예측이 가능하다는 점이다. 또한 예측된 정보를 이용하여 생물학자들은 수많은 후보 단백질 중에 실험올 하지 않고도 어떤 단백질부터 살험에 착수할 것인지에 대한 우선순위 부여가 가능하게 된다.
본 논문에서 사용한 접근 방법에서는 도메인 쌍에 대한 정보가 dc-pair 정보 안에 포함되어 있으므로, 종래의 도메인 쌍에 기반한 방법에 비교할 때 더 포괄적이다. 또한, 종래의 기술은 주로 계산식(scoring system)을 고안하고 계산 값을 제공하는데 반해서, 본 방법온 상호작용 가능성에 대한 확률 값올 제시함으로써 좀 더 실질적인 정보를 생물학자에게 제공하는 것이 가능하다. 또한 기존의 방법은 단백질 상호작용이 있는 것으로 보고된 단백질 쌍의 집합만을 사용하는 데 반하여, 본 예측 틀은 그것과 임의의 상호작용이 없는 것으로 추정되는 단백질 ^(non-interacting set) 에 대한 정보도 같이 사용한다는 점에서도 기존의 방식과 구별된다.
제공하지는 않는다. 향후 인터넷을 통한 상호작용 단백질 쌍의 정보가 축적이 되면, 중요한 dep前를 추출하는 것이 가능할 것으로 예상된다 또한 dc-pcE의 기여도를 정확히 결정하기 위해서는 적절한 가중치 (weight) 부여가 매우 중요할 것으로 판단되며 이것에 관한 자세한 사항은 3.3에서 설명하기로 한다
가중치 부여의 의미는 상호작용하는 단백질 쌍으로부터 얻어지는 가능한 도메인 조합 쌍의 수가 적으면 적을수록, 각 de-pair에 의한 상호작용에서의 기여도는 더 클 것이라는 가정에서 출발한다. dc-p命의 출현 빈도에 가중깃를 주는 방법에 대하여 많은 다른 방법이 있겠지만, 논문에서는 이것에 관한 더 이상의 논의는 생략하기로 한다.
식에서. 상수 k는 자연계에서 7(何과 7?响의 비율올 나타내며 이 값올 정확하게 알 수 없으므로, 추후에 ma ximum likelihood estimation 적용올 통하여 결정한다. P(DCdA, B) 丨 X = 1)는 AP 공간에서 DCc(A, B) 에 속하는 despair 집합이 만들어질 확률이고, P(DCc (A, B) I X = 0)는 AP' 공간에서 DG乂4, B)에 속하는 dc-pair 집합이 만들어질 확률이다.
이와 같이 classification 방법올 변화시켜 나가는 과정에서 sensitivity와 specificity가 조금씩 올라가는 것을 살펴볼 수 있었다. 이에 비추어 볼 때, 본 논문에서 제시하는 hybrid classification 역시 개선의 여지가 있으며, 향후 연구를 통해 향상될 것이다.
인터넷을 통한 단백질 상호작용 데이타가 축적될수록 본 예측 틀의 예측 능력은 더 향상될 것이라 기대된다. 제안된 예측 틀의 효과는 4가지로 요약할 수 있다.
제안된 예측 틀의 효과는 4가지로 요약할 수 있다. 첫째로, 본 예측 틀을 이용하여, 생물학자로 하여금, 많은 용과 시간이 소요되는 단백질 상호작용 실험을 통하지 않고 단백질 상호작용에 대해서 시간과 비용 측면에서 획기적인 기여를 할 것으로 기대된다. 둘째 본 예측 틀에서 사용한 계산적 방법에 의한 단백질 상호작용 예측은 단시간 내에 대규모 단백질 쌍에 대해서 상호작용 가능성을 예측할 수 있어 이를 기반으로 대규모 단백질 상호작용 네트워크 구성이 용이하고 다시 이를 기반으로 수많은 단백질 중에서 중요한 단백질을 추정하고 검증하는 데 활용할 수 있을 것으로 기대된다.
첫째로, 본 예측 틀을 이용하여, 생물학자로 하여금, 많은 용과 시간이 소요되는 단백질 상호작용 실험을 통하지 않고 단백질 상호작용에 대해서 시간과 비용 측면에서 획기적인 기여를 할 것으로 기대된다. 둘째 본 예측 틀에서 사용한 계산적 방법에 의한 단백질 상호작용 예측은 단시간 내에 대규모 단백질 쌍에 대해서 상호작용 가능성을 예측할 수 있어 이를 기반으로 대규모 단백질 상호작용 네트워크 구성이 용이하고 다시 이를 기반으로 수많은 단백질 중에서 중요한 단백질을 추정하고 검증하는 데 활용할 수 있을 것으로 기대된다. 셋째 본 시스템은 미지의 단백질에 대한 기능올 추정하는 것과 같은 단백질 동정(identification)시에 기본적인 계산적 접근 방법으로 활용될 수 있다.
둘째 본 예측 틀에서 사용한 계산적 방법에 의한 단백질 상호작용 예측은 단시간 내에 대규모 단백질 쌍에 대해서 상호작용 가능성을 예측할 수 있어 이를 기반으로 대규모 단백질 상호작용 네트워크 구성이 용이하고 다시 이를 기반으로 수많은 단백질 중에서 중요한 단백질을 추정하고 검증하는 데 활용할 수 있을 것으로 기대된다. 셋째 본 시스템은 미지의 단백질에 대한 기능올 추정하는 것과 같은 단백질 동정(identification)시에 기본적인 계산적 접근 방법으로 활용될 수 있다. 넷째 본 연구에서 제안하고 있는 예측 를은 생물학자들이 그들의 연구 분야에서 유사한 경우를 만났을 때 참고 모델로 이용될 수 있다.
셋째 본 시스템은 미지의 단백질에 대한 기능올 추정하는 것과 같은 단백질 동정(identification)시에 기본적인 계산적 접근 방법으로 활용될 수 있다. 넷째 본 연구에서 제안하고 있는 예측 를은 생물학자들이 그들의 연구 분야에서 유사한 경우를 만났을 때 참고 모델로 이용될 수 있다. 향후에는 쥐와 인간과 같은 다른 종의 단백질 집단에 본 예측 틀을 적용할 예정이다.
넷째 본 연구에서 제안하고 있는 예측 를은 생물학자들이 그들의 연구 분야에서 유사한 경우를 만났을 때 참고 모델로 이용될 수 있다. 향후에는 쥐와 인간과 같은 다른 종의 단백질 집단에 본 예측 틀을 적용할 예정이다. 다음 단계에는 단백질 상호작용 네트워크 구축이나 예측된 상호작용 데이타에 기반한 시각화(visualization)를 통하여 생물학자들이 객관적으로 유용한 단백질 정보를 손쉽게 추출할 수 있도록 할 계획이다.
향후에는 쥐와 인간과 같은 다른 종의 단백질 집단에 본 예측 틀을 적용할 예정이다. 다음 단계에는 단백질 상호작용 네트워크 구축이나 예측된 상호작용 데이타에 기반한 시각화(visualization)를 통하여 생물학자들이 객관적으로 유용한 단백질 정보를 손쉽게 추출할 수 있도록 할 계획이다.
참고문헌 (20)
R. Apweiler, T, K. Attwood, A. Bairoch, A. Bateman, E. Birney, M. Biswas, P. Bucher, L. Cerutti, F. Corpet, M. D. Croning, R. Durbin, L. Falquet, W. Fleischmann, J. Gouzy, H. Hermjakob, N. Hulo, I. Jonassen, D. Kahn, A. Kanapin, Y. Karavidopoulou, R. Lopez, B. Marx, N. J. Mulder, T. M. Oinn, M. Pagni and F. Servant, The InterPro database, an integrated documentation resource for protein families, domains and functional sites. Nucleic Acids Res., 29, 37-40, 2001
H. M. Berman, J. Westbrook, Z. Feng, G. Gilliland, T. N. Bhat, H. Weissig, I. N. Shindyalov and P. E. Bourne, The Protein Data Bank. Nucleic Acids Res., 28, 235-242, 2000
A. J. Enright, I. Iliopoulos, N. C. Kyrpides and C. A. Ouzounis, Protein interaction maps for complete genomes based on gene fusion events. Nature, 402, 86-90, 1999
E. M. Marcotte, M. Pellegrini, H. L. Ng, D. W. Rice, T. O. Yeates and D. Eisenberg, Detecting protein function and protein-protein interactions from genome sequences. Science, 285, 751-753, 1999
J. Wojcik and V. Schachter, Protein-Protein interaction map inference using interacting domain profile pairs. Bioinformatics, 17 Suppl., S296-S305, 2001
I. Xenarios, E. Fernandez, L. Salwinski, X. J. Duan, M. J. Thompson, E. M. Marcotte and D. Eisenberg, DIP: The Database of Inter acting Proteins: 2001 update. Nucleic Acids Res., 29, 239-241, 2001
A. G. Murzin, S. E. Brenner, T. Hubbard and C. Chothia, SCOP: a structural classification of proteins database for the investigation of sequences and structures. J. Mol. Biol., 247, 536-540, 1995
F. M. G. Pearl, D. Lee, J. E. Bray, I. Sillitoe, A. E. Todd, A. P. Harrison, J. M. Thornton and C. A. Orengo, Assigning genomic sequences to CATH. Nucleic Acids Research, 28, 277-282, 2000
L. Holm, and C. Sander, The FSSP database: fold classification based on structure-structure alignment of proteins. Nucleic Acids Res., 24, 206-210, 1996
J. Park, M. Lappe and S. A. Teichmann, Mapping protein family interactions: intramolecular and intermolecular protein family interaction repertoires in the PDB and yeast. J. Mol. Biol., 307, 929-938, 2001
W. K. Kim, J. Park, J. K. Suh, Large Scale Statistical Prediction of Protein-Protein Interaction by Potentially Interacting Domain (PID) Pair, Genome Informatics, No. 13, 2002
N. Goffard, V. Garcia, F. Iragne, A. Groppi and A. de Daruvar, IPPRED: Server for Proteins Interactions Inference. Bioinformatics, 19, 903-904, 2003
※ AI-Helper는 부적절한 답변을 할 수 있습니다.