최근 계산을 통한 단백질 상호작용 예측 기법 중, 단백질 쌍이 포함하고 있는 도메인들 사이의 관계에 중점을 둔 도메인 정보 기반 예측 기법들이 다양하게 제안되고 있다. 하지만, 다수의 도메인 쌍들이 상호작용에 기여하는 정도를 정밀하게 반영하는 계산 기법은 드문 실정이다. 본 논문에서는 단백질 상호작용에 있어 도메인 조합 쌍의 상호작용 영향력을 수치화하여 반영한 상호작용 중요도 행렬을 고안하고 이를 기반으로 한 단백질 상호작용 예측 시스템을 구현한다. 일반적인 도메인 조합 기법과 달리, 상호작용 중요도 행렬에서는 상호작용을 위한 도메인간의 협업 확률이 고려된 Weighted 도메인 조합과, 다수의 Weighted 도메인 조합 중 실제 상호작용 주체가 될 확률을 도메인 조합 쌍의 힘(Domain Combination Pair Power, DCPPW)으로 수치화한다. DIP과 IntAct에서 얻어온 S. cerevisiae의 단백질 상호작용 데이터와 Pfam-A 도메인 정보를 사용한 정확도 검증 결과, 평균 63%의 민감도와 94%의 특이도를 확인하였으며, 학습집단의 증가에 따른 안정적인 예측 정확도 향상을 보였다. 본 논문에서 구현한 예측 시스템과 학습 데이터는 웹(http://code.google.com/p/prespi)을 통하여 내려 받을 수 있다.
최근 계산을 통한 단백질 상호작용 예측 기법 중, 단백질 쌍이 포함하고 있는 도메인들 사이의 관계에 중점을 둔 도메인 정보 기반 예측 기법들이 다양하게 제안되고 있다. 하지만, 다수의 도메인 쌍들이 상호작용에 기여하는 정도를 정밀하게 반영하는 계산 기법은 드문 실정이다. 본 논문에서는 단백질 상호작용에 있어 도메인 조합 쌍의 상호작용 영향력을 수치화하여 반영한 상호작용 중요도 행렬을 고안하고 이를 기반으로 한 단백질 상호작용 예측 시스템을 구현한다. 일반적인 도메인 조합 기법과 달리, 상호작용 중요도 행렬에서는 상호작용을 위한 도메인간의 협업 확률이 고려된 Weighted 도메인 조합과, 다수의 Weighted 도메인 조합 중 실제 상호작용 주체가 될 확률을 도메인 조합 쌍의 힘(Domain Combination Pair Power, DCPPW)으로 수치화한다. DIP과 IntAct에서 얻어온 S. cerevisiae의 단백질 상호작용 데이터와 Pfam-A 도메인 정보를 사용한 정확도 검증 결과, 평균 63%의 민감도와 94%의 특이도를 확인하였으며, 학습집단의 증가에 따른 안정적인 예측 정확도 향상을 보였다. 본 논문에서 구현한 예측 시스템과 학습 데이터는 웹(http://code.google.com/p/prespi)을 통하여 내려 받을 수 있다.
Recently, among the computational methods of protein-protein interaction prediction, vast amounts of domain based methods originated from domain-domain relation consideration have been developed. However, it is true that multi domains collaboration is avowedly ignored because of computational comple...
Recently, among the computational methods of protein-protein interaction prediction, vast amounts of domain based methods originated from domain-domain relation consideration have been developed. However, it is true that multi domains collaboration is avowedly ignored because of computational complexity. In this paper, we implemented a protein interaction prediction system based the Interaction Significance matrix, which quantified an influence of domain combination pair on a protein interaction. Unlike conventional domain combination methods, IS matrix contains weighted domain combinations and domain combination pair power, which mean possibilities of domain collaboration and being the main body on a protein interaction. About 63% of sensitivity and 94% of specificity were measured when we use interaction data from DIP, IntAct and Pfam-A as a domain database. In addition, prediction accuracy gradually increased by growth of learning set size, The prediction software and learning data are currently available on the web site.
Recently, among the computational methods of protein-protein interaction prediction, vast amounts of domain based methods originated from domain-domain relation consideration have been developed. However, it is true that multi domains collaboration is avowedly ignored because of computational complexity. In this paper, we implemented a protein interaction prediction system based the Interaction Significance matrix, which quantified an influence of domain combination pair on a protein interaction. Unlike conventional domain combination methods, IS matrix contains weighted domain combinations and domain combination pair power, which mean possibilities of domain collaboration and being the main body on a protein interaction. About 63% of sensitivity and 94% of specificity were measured when we use interaction data from DIP, IntAct and Pfam-A as a domain database. In addition, prediction accuracy gradually increased by growth of learning set size, The prediction software and learning data are currently available on the web site.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
사용하였다. 또한 상호작용하는 단백질 쌍의 검증 집단과 동일한 수의 무작위로 생성된 단백질 쌍의 집단을 상호작용하지 않는 집단의 검증을 위해 사용하였다. 검증 결과는 예측결과를 통계적으로 측정할 수 있는 대표적인 지표인 Sensitivity와 Specificity를 통해 나타낸다.
본 논문에서는 기존의 도메인 조합 기반 출현 확률행렬 기반의 단백질 상호작용 기법을 수정 보완한 상호작용 중요도 행렬 기반의 예측 방식을 고안하였다. 출현확률 행렬 기반의 예측에서는 단백질 상호작용 쌍이 생성할 수 있는 도메인 조합 쌍의 중요도가 동일하다고가정하였다.
본 논문에서는 단백질 상호작용 데이터에서 도메인조합 쌍의 상호작용 영향력을 수치화하는 상호작용 중요도 행렬(Interaction Significance)을 제안한다. 행렬의 구축을 위해, 하나의 단백질 내에 포함된 도메인 조합을 협업 가능성에 따라 차등을 둔 Weighted 도메인 조합으로 확장하였고, 이를 바탕으로 하나의 상호작용에서 단백질 쌍이 생성할 수 있는 여러 Weighted 도메인 조합 중 실제 상호작용 주체가 될 확률을 도메인 조합 쌍의 힘 (Domain Combination Pair Power, DCPPW>으로 정의하였다.
관계를 가지고 있다. 본 예측 시스템에서는 단백질 상호작용이 가지는 여러 도메인 조합 쌍들 간의 상호작용들 중에 적어도 하나의 유효한 상호작용이 존재 할 경우 단백질 상호작용이 일어난다고 보고 예측을 진행하였다. 기존 예측 시스템의 AP matrix[13, 14]는 각 원소들의 전체 합이 1로 두 개의 행렬(상호작용 하는 단백질 쌍과 상호작용하지 않는 단백질 쌍에 대한 행렬) 을 서로 비교하여 상호작용 확률을 예측하였다.
Han[13] 그룹은 도메인 간의 상호 영향력을 확률 값에 포함하기 위해 도메인 조합(domain combination)-®- 제안하고, 이들 조합간의 상호작용 정보를 바탕으로 단백질 쌍의 상호작용을 예측하는 방법을 고안하였다. 이때, 실험적으로 밝혀진 단백질 상호작용 쌍에서 도메인조합의 줄현 빈도를 줄현 확률 행렬(Appearance Probability Matrix)로 구성하고 미지의 단백질 쌍에 대한 상호작용 가능성을 확률 값으로 제공하고자 하였다. 그러나 출현 확률 행렬에서는 모든 도메인 조합의 상호작용 기여도를 동일하다고 가정하고 있으며, 예즉에 있어서도 출현 확률 행렬에 포함되어 있지 않은 도메인을 제외함으로써, 예측 가능한 단백질 쌍의 범위가 줄어드는 문제점을 지니고 있다.
가설 설정
학습에 사용하였다. 그러나, 본 연구에서는 도메인 조합 쌍이 생성될 수 있는 경우의 수가 매우 크다는 점과, 이에 반해 실험적으로 밝혀진 단백질 상호작용 쌍의 개수가 비교적 적음에도 불구하고 중복되는 도메인조합 쌍이 다수 발견됨에 주목하고, 학습에서 비 상호작용 쌍의 사용을 배제하였다.
대부분의 연구에서는 단백질 쌍 각각의 도메인들이 상호작용하여 단백질 상호작용을 이룬다는 관점을 바탕으로 예측 모델을 제안하였다. 도메인 조합은 기존의 단일 도메인이 아닌 도메인 조합 쌍이 상호작용의 단위라는 가정을 바탕으로 한다. 이것은 도메인이 기본 기능 단위로 간주된다.
출현확률 행렬 기반의 예측에서는 단백질 상호작용 쌍이 생성할 수 있는 도메인 조합 쌍의 중요도가 동일하다고가정하였다. 반면, 새롭게 제안하는 상호작용 중요도 행렬에서는 도메인 조합 쌍이 상호작용에서 실제로 영향을 미칠 확률을 차등 계산하도록 하였다.
제안 방법
따라서 상호작용의 주체로서의 도메인 조합은 단일 도메인과 그 weight를 달리 해야 할 것이다. weight 는 도메인 조합이 어느 정도 기능을 위해 협업하는지가 고려되어야 하며, 본 논문에서는 도메인 조합의 보존 정도를 측정하여 weight로 적용하였다. 단백질이 특정 기능을 위해 발전하여 왔음을 고려할 때, 하위 기능 구조체인 도메인은 그 기능을 위해 협업하거나 영향을 주는 도메인과 함께 팀을 이루어 단백질을 형성하였을 것이다.
각 단백질의 도메인 정보는 해당하는 UniProt ID를 통하여 Pfam-A에서 추출하였다. 본 논문에 사용된 DIP의 데이터는 2008년 10월 14일 릴리즈 버전으로 총 단백질 수 20, 442개를 포함한 57, 330의 상호작용을 가지고 있으며, IntAct는 2008년 11월 17일 릴리즈 버전으로 55, 036 개의 단백질로 이루어진 115, 311개의 상호작용을 포함하고 있다.
검증 시에는 상호작용 확률 IP 값의 threshold를 0에서 1사이로 0.1 씩 증가 시키면서 정확도를 분리하여 측정하였다. 이 때, threshold 보다 높은 확률 값을 가지면 해당 단백질 쌍은 상호작용이 존재한다고 예측하며, 낮은 확률 값을 가질 경우 상호작용이 존재하지 않는다고 예측한다.
단백질 상호작용 예측 결과의 검증을 위해 전체 단백질 상호작용 쌍들 중 80%를 학습 집단으로 사용하였고, 나머지 20%를 상호작용하는 단백질 쌍의 검증 집단으로 사용하였다. 또한 상호작용하는 단백질 쌍의 검증 집단과 동일한 수의 무작위로 생성된 단백질 쌍의 집단을 상호작용하지 않는 집단의 검증을 위해 사용하였다.
이러한 대전제 하에, 단백질의 발전에서 단지 서열 및 단일 도메인만이 보존되는 것이 아니라 기능을 위한 도메인 조합 또한 보존되어 왔을 가능성이 크다고 할 수 있으며, 보존이 잘된 도메인 조합은 어떠한 방식으로든 기능적 협업을 한다고 볼 수 있다. 본 논문에서는 보존 정도를 계산하기 위해 연관성 규칙의 all-confidence 를 사용함으로써 조합 내 도메인 간의 상호 의존성을 측정하였다. all-confidence는 전체 단백질들 사이에서 해당 도메인 조합이 함께 나타날 확률을 측정한 것으로, Jung[10]의 연구에 따르면 도메인 조합의 분자 기능 협업 도와 all-confidence는 상관관계를 가지는 것을 알 수 있다.
본 논문에서는 이러한 문제를 크게, 단일 단백질 내부에서 도메인 조합의 협력 정도를 계산하는 것과 이를 바탕으로 도메인 조합 쌍이 가지는 상호작용 기여 정도를 반영하는 것으로 구분하여 접근한다.
본 연구에서는 기존의 도메인 조합 쌍 모델을 바탕으로, 기존에 축적된 상호작용을 학습하여 도메인 조합 쌍의 힘 (Domain Combination Pair Power, DCPPW)을계산한다. DCPPW는 하나의 단백질 상호작용에서 특정도 메인 조합 쌍이 상호작용을 주관할 확률을 수치화 시킨 값이다.
DCPPW는 하나의 단백질 상호작용에서 특정도 메인 조합 쌍이 상호작용을 주관할 확률을 수치화 시킨 값이다. 이를 계산하기 위해서 단일 단백질 내에서 도메인 간의 협업 정도를 고려하며, 도메인 조합 쌍들이 상호작용에 미치는 힘의 차이를 반영한 Weighted 도메인 조합 쌍을 정의한다. 도메인 조합의 협업 정도는 DCPPW 계산의 weight로 쓰이게 된다.
반면, 새롭게 제안하는 상호작용 중요도 행렬에서는 도메인 조합 쌍이 상호작용에서 실제로 영향을 미칠 확률을 차등 계산하도록 하였다. 이를 위하여, 도메인들이 진화과정에서 서로 특정한 기능을 위하여 협업할 확률을 계산하고, 이를 바탕으로 하나의 단백질 쌍 내에서 생성할 수 있는 도메인 조합 쌍 각각의 중요도를 수치화 하여 상호작용 중요도 행렬을 완성하였다. 새롭게 구성된 상호작용 중요도 행렬을 적용한 결과, 기존의 시스템과 비교하여 예측 정확도가 향상됨을 발견할 수 있었다.
향상을 기대할 수 있다. 이를 확인하기 위해 고정된 수의 테스트 집단(300개의 상호작용 및 비 상호작용 단백질 쌍)을 준비하고 학습 집단의 크기를 전체 상호작용 쌍의 10%에서 90%까지 변화시키며 예측 정확도의 추이를 검증한 결과 표 2와 같은 예측 정확도의 변화를 확인하였다. 학습 집단의 크기가 전체 단백질 쌍의 10%일 경우, sensitivity는 약 26%에서 학습집단의 크기가 늘어남에 따라 급격히 상승하였으며, 70%를 기점으로 점차 완만하게 증가하며 90% 크기의 학습집단에서 약 65%의 정확도를 보였다.
무리가 있다. 이에, 기존 방법에서 Hit하지 않는 경우의 sensitivity와 specificity를 50%로 가정하고 학습집단의 상호작용 단백질 쌍과 비 상호작용 단백질 쌍의 ratio중 가장 높은 예측 정확도를 보이는 ratio의 결과로 비교를 수행하였다. AP matrix 기반의 단백질 상호작용 예측은 ratio 10.
가능하였다. 최종 선별된 단백질 상호작용들이 제안하는 방법과 같은 도메인 기반의 예측 방식에서 어느 정도 유효성을 가지는지 알아보기 위하여, 최종 선별된 단백질 상호작용을 10%씩 추출하면서 새롭게 추가되는 도메인 패턴의 개수를 측정하였다. 그 결과 그림 4와 같이, 약 70% 정도(PPI 개수 32000여개)부터 새롭게 추가되는 도메인의 개수는 ■현저하게 감소하는 추세를 보였다.
한편, 기존의 방식에서는 단백질 상호작용 쌍뿐만 아니라, 비 상호작용 쌍에 대해서도 출현 확률 행렬을 생성하여 학습에 사용하였다. 그러나, 본 연구에서는 도메인 조합 쌍이 생성될 수 있는 경우의 수가 매우 크다는 점과, 이에 반해 실험적으로 밝혀진 단백질 상호작용 쌍의 개수가 비교적 적음에도 불구하고 중복되는 도메인조합 쌍이 다수 발견됨에 주목하고, 학습에서 비 상호작용 쌍의 사용을 배제하였다.
한편, 본 논문의 상호작용 예측 시스템은 학습을 통하여 예측을 수행하는 방식으로, 학습집단의 축적은 예측정확도의 향상을 기대할 수 있다. 이를 확인하기 위해 고정된 수의 테스트 집단(300개의 상호작용 및 비 상호작용 단백질 쌍)을 준비하고 학습 집단의 크기를 전체 상호작용 쌍의 10%에서 90%까지 변화시키며 예측 정확도의 추이를 검증한 결과 표 2와 같은 예측 정확도의 변화를 확인하였다.
행렬의 구축을 위해, 하나의 단백질 내에 포함된 도메인 조합을 협업 가능성에 따라 차등을 둔 Weighted 도메인 조합으로 확장하였고, 이를 바탕으로 하나의 상호작용에서 단백질 쌍이 생성할 수 있는 여러 Weighted 도메인 조합 중 실제 상호작용 주체가 될 확률을 도메인 조합 쌍의 힘 (Domain Combination Pair Power, DCPPW>으로 정의하였다.
대상 데이터
이에, 기존 방법에서 Hit하지 않는 경우의 sensitivity와 specificity를 50%로 가정하고 학습집단의 상호작용 단백질 쌍과 비 상호작용 단백질 쌍의 ratio중 가장 높은 예측 정확도를 보이는 ratio의 결과로 비교를 수행하였다. AP matrix 기반의 단백질 상호작용 예측은 ratio 10.0에서 평균 40*48%의 hit을 보였으므로, 이 때의 sensitivity 78.73%, specificity 95%를 비교 대상으로 한다. hit하지 않은 59.
각 단백질의 도메인 정보는 해당하는 UniProt ID를 통하여 Pfam-A에서 추출하였다. 본 논문에 사용된 DIP의 데이터는 2008년 10월 14일 릴리즈 버전으로 총 단백질 수 20, 442개를 포함한 57, 330의 상호작용을 가지고 있으며, IntAct는 2008년 11월 17일 릴리즈 버전으로 55, 036 개의 단백질로 이루어진 115, 311개의 상호작용을 포함하고 있다. 두 데이터베이스 사이에는 총 9, 764개의 중복된 상호작용이 발견되어 최종 통합된 단백질 상호작용은 총 162, 877 쌍이다.
본 논문에서는 단백질 상호작용 데이터로 DIP과 IntAct를 사용하였다, 또한 도메인 정보는 Pfatn-A를 사용하였으며, 데이터의 통합을 위하여 UniProt의 정보를 이용하였다. 제안된 예측 방법의 검증을 위하여, 기존의 도메인 조합 기반 예측 방식과의 예측 정확도 비교를 수행하였으며, 학습집단의 크기 변화에 따른 예측정확도의 변화 추이를 측정하였다.
첫째, 학습 집단 자체에 포함되어 있는 오류이다. 본 연구에서 사용한 단백질 상호작용 데이터는 High-throughput 방식을 사용한 것이며, 일반적으로 많은 오류가 포함되어 있다고 알려져 있다. 둘째, 학습 집단 크기의 부족이다.
데이터처리
또한 상호작용하는 단백질 쌍의 검증 집단과 동일한 수의 무작위로 생성된 단백질 쌍의 집단을 상호작용하지 않는 집단의 검증을 위해 사용하였다. 검증 결과는 예측결과를 통계적으로 측정할 수 있는 대표적인 지표인 Sensitivity와 Specificity를 통해 나타낸다. Sensitivity는 실제로 상호작용하는 데이터를 사용해 예측하였을 경우 시스템이 얼마나 Positive의 결과를 보이는 지를 평가하며, 다음과 같은 식으로 나타낼 수 있다.
검증을 위해 단백질 상호작용 데이터는 DIP과 IntAct 를 사용하였으며 UniProt ID를 통하여 통합하였다. 각 단백질의 도메인 정보는 해당하는 UniProt ID를 통하여 Pfam-A에서 추출하였다.
이용하였다. 제안된 예측 방법의 검증을 위하여, 기존의 도메인 조합 기반 예측 방식과의 예측 정확도 비교를 수행하였으며, 학습집단의 크기 변화에 따른 예측정확도의 변화 추이를 측정하였다. 그 결과, 기존의 방식에 비해 개선된 예측 결과인, 평균 sensitivity 63%, specificity 94%의 예측 정확도를 나타내었으며, 약 9배의 학습 집단 크기 증가에 대하여 specificity의 감소 없이 sensitivity는 약 40% 정도 향상되는 것을 확인하였다.
성능/효과
현재 밝혀진 단백질 상호작용 쌍이 포함하고 있는 도메인이 충분하지 않을 수 있으며, 좀더 많은 수의 상호작용 집단이 추가 된다면 예측 정확도의 향상이 이루어 질 수 있다. 4장의 검증 결과를 통해 학습 집단의 크기가 증가할수록 예측 정확도는 향상됨을 보였으며, 이로 미루어 볼 때, 더 이상 sensitivity가 증가 하지 않는 정도의 학습 집단 크기가 가장 이상적이라고 할 수 있다. 마지막으로, feature의 부족을 들 수 있다.
73%, specificity 95%를 비교 대상으로 한다. hit하지 않은 59.52%의 예측 정확도를 50%의 랜덤 수준으로 가정하면, sensitivity와 spe- cificity는 각각 약 61%, 68%가 계산된다. 반면, 본 논문에서 제안하는 방법을 적용한 결과 sensitivity는 약 63%, specificity는 약 94%로 각각 2%, 26% 상승한 예측 정확도를 보여준다.
검증 결과에서는, 실험으로 밝혀진 단백질 상호작용 쌍들이 포함하는 도메인 조합은 보존된 일정한 패턴을가지고 있음을 알 수 있다. 테스트로 사용한 비 상호작용 쌍은, 단백질을 임의로 쌍을 만들어 사용한 것으로, 학습집단의 도메인 패턴과 거의 겹치지 않아 낮은 IP 값을 보여주게 된다.
공개된 단백질 상호작용 DB 에서 UniProt ID를 통하여 통합이 가능하며, 도메인 정보가 알려진 상호작용 쌍만을 추려낸 결과 약 30% 정도만이 사용 가능하였다. 최종 선별된 단백질 상호작용들이 제안하는 방법과 같은 도메인 기반의 예측 방식에서 어느 정도 유효성을 가지는지 알아보기 위하여, 최종 선별된 단백질 상호작용을 10%씩 추출하면서 새롭게 추가되는 도메인 패턴의 개수를 측정하였다.
최종 선별된 단백질 상호작용들이 제안하는 방법과 같은 도메인 기반의 예측 방식에서 어느 정도 유효성을 가지는지 알아보기 위하여, 최종 선별된 단백질 상호작용을 10%씩 추출하면서 새롭게 추가되는 도메인 패턴의 개수를 측정하였다. 그 결과 그림 4와 같이, 약 70% 정도(PPI 개수 32000여개)부터 새롭게 추가되는 도메인의 개수는 ■현저하게 감소하는 추세를 보였다. 이로 미루어 볼 때, 우리가 사용한 단백질 상호작용 데이터는 상호작용 도메인 패턴을 상당부분 포함하고 있는 것으로 판단된다.
제안된 예측 방법의 검증을 위하여, 기존의 도메인 조합 기반 예측 방식과의 예측 정확도 비교를 수행하였으며, 학습집단의 크기 변화에 따른 예측정확도의 변화 추이를 측정하였다. 그 결과, 기존의 방식에 비해 개선된 예측 결과인, 평균 sensitivity 63%, specificity 94%의 예측 정확도를 나타내었으며, 약 9배의 학습 집단 크기 증가에 대하여 specificity의 감소 없이 sensitivity는 약 40% 정도 향상되는 것을 확인하였다. 본 논문의 구성은 다음과 같다.
본 논문에 사용된 DIP의 데이터는 2008년 10월 14일 릴리즈 버전으로 총 단백질 수 20, 442개를 포함한 57, 330의 상호작용을 가지고 있으며, IntAct는 2008년 11월 17일 릴리즈 버전으로 55, 036 개의 단백질로 이루어진 115, 311개의 상호작용을 포함하고 있다. 두 데이터베이스 사이에는 총 9, 764개의 중복된 상호작용이 발견되어 최종 통합된 단백질 상호작용은 총 162, 877 쌍이다. 이 가운데, S.
새롭게 구성된 상호작용 중요도 행렬을 적용한 결과, 기존의 시스템과 비교하여 예측 정확도가 향상됨을 발견할 수 있었다. 또한, 학습집단의 축적에 따라 점차적으로 예측 정확도가 상승함을 보임으로써, 향후 실험데이터의 증가에 따른 예측 시스템의 꾸준한 성능향상 가능성을 확인하였다.
52%의 예측 정확도를 50%의 랜덤 수준으로 가정하면, sensitivity와 spe- cificity는 각각 약 61%, 68%가 계산된다. 반면, 본 논문에서 제안하는 방법을 적용한 결과 sensitivity는 약 63%, specificity는 약 94%로 각각 2%, 26% 상승한 예측 정확도를 보여준다. 이는, 단백질 각각이 포함하고 있는 도메인들 간의 협업 확률 고려와 단백질 쌍에 대하여 도메인 조합들이 상호작용에 미치는 영향을 차등하여 계산한 것이 주요한 것으로 보인다
기존 예측 시스템의 AP matrix[13, 14]는 각 원소들의 전체 합이 1로 두 개의 행렬(상호작용 하는 단백질 쌍과 상호작용하지 않는 단백질 쌍에 대한 행렬) 을 서로 비교하여 상호작용 확률을 예측하였다. 본 연구에서 새롭게 제안하는 상호작용 중요도 행렬의 각 원소값들은 해당 도메인 조합 쌍이 단백질 상호작용 사이에서 가질 수 있는 힘을 반영한 출현 확률을 가지고 있다. 앞선 과정을 통해 얻어진 상호작용 중요도 행렬을 기반으로 미지의 단백질 쌍 <p, q>에 대한 확률 예측 식은’
이를 위하여, 도메인들이 진화과정에서 서로 특정한 기능을 위하여 협업할 확률을 계산하고, 이를 바탕으로 하나의 단백질 쌍 내에서 생성할 수 있는 도메인 조합 쌍 각각의 중요도를 수치화 하여 상호작용 중요도 행렬을 완성하였다. 새롭게 구성된 상호작용 중요도 행렬을 적용한 결과, 기존의 시스템과 비교하여 예측 정확도가 향상됨을 발견할 수 있었다. 또한, 학습집단의 축적에 따라 점차적으로 예측 정확도가 상승함을 보임으로써, 향후 실험데이터의 증가에 따른 예측 시스템의 꾸준한 성능향상 가능성을 확인하였다.
예측 시스템에서는 0이 아닌 IP 값을 가지는 모든 단백질 쌍을 상호작용의 가능성이 있는 것으로 판별하고 있다. 그러나, IP 값의 차이가 실제 단백질 상호작용의 신뢰도를 가늠하는지에 대해서는 추가적인 검증이 필요하다.
두 데이터베이스 사이에는 총 9, 764개의 중복된 상호작용이 발견되어 최종 통합된 단백질 상호작용은 총 162, 877 쌍이다. 이 가운데, S. cerevisiae 종의 65, 902개의 상호작용을 대상으로 도메인 보유여부를 살펴본 결과 최종적으로 45, 385개의 사용 가능한 단백질 쌍을 추려내었다.
Jung[10]은 한 단백질 내의 이웃 도메인들이 서로 영향을 주고받는다는 연구[11, 12]를 바탕으로 도메인 간의 상호 의존성을 측정하고자 하였다. 이 연구에서는 진화상에서 특정 기능을 위한 도메인 보존 정도를 계산하기 위하여 연관성 규칙인 all-confidence를 적용하였고, 도메인의 기능 협업도 는 all-confidence와 상관관계가 있음을 밝혔다. Han[13] 그룹은 도메인 간의 상호 영향력을 확률 값에 포함하기 위해 도메인 조합(domain combination)-®- 제안하고, 이들 조합간의 상호작용 정보를 바탕으로 단백질 쌍의 상호작용을 예측하는 방법을 고안하였다.
학습 집단의 크기가 전체 단백질 쌍의 10%일 경우, sensitivity는 약 26%에서 학습집단의 크기가 늘어남에 따라 급격히 상승하였으며, 70%를 기점으로 점차 완만하게 증가하며 90% 크기의 학습집단에서 약 65%의 정확도를 보였다. 이에 반해 Specificity 는 학습 집단의 사이즈 변화에 크게 관계없이 약 94% 이상의 정확도가 전체 threshold 영역에서 나타남을 확인하였다.
표 1에서 sensitivity는 최고 63.42%에서 threshold의 증가에 따라 크게 하강하는 경향을 보였으며, specificity 는 threshold의 증가에 따라 다소 상승하기는 하였으나 전반적으로 94%에서 99% 사이의 안정된 정확성을 나타냈다. Threshold가 0.
이를 확인하기 위해 고정된 수의 테스트 집단(300개의 상호작용 및 비 상호작용 단백질 쌍)을 준비하고 학습 집단의 크기를 전체 상호작용 쌍의 10%에서 90%까지 변화시키며 예측 정확도의 추이를 검증한 결과 표 2와 같은 예측 정확도의 변화를 확인하였다. 학습 집단의 크기가 전체 단백질 쌍의 10%일 경우, sensitivity는 약 26%에서 학습집단의 크기가 늘어남에 따라 급격히 상승하였으며, 70%를 기점으로 점차 완만하게 증가하며 90% 크기의 학습집단에서 약 65%의 정확도를 보였다. 이에 반해 Specificity 는 학습 집단의 사이즈 변화에 크게 관계없이 약 94% 이상의 정확도가 전체 threshold 영역에서 나타남을 확인하였다.
후속연구
그러나, IP 값의 차이가 실제 단백질 상호작용의 신뢰도를 가늠하는지에 대해서는 추가적인 검증이 필요하다. 이는 PDB와 같은 단백질 상호작용 시의 실제 도메인 바인딩 정보와, IP 값에 따른 단백질 쌍 내부의 도메인 조합 쌍 중요도 순위를 비교함으로써 검증이 가능하며, 이는 향후 과제로 남긴다.
이로 미루어 볼 때, 우리가 사용한 단백질 상호작용 데이터는 상호작용 도메인 패턴을 상당부분 포함하고 있는 것으로 판단된다. 그러나, 실험에 사용하는 상호작용 데이터가 많아 진다면 상호작용 패턴의 출현 빈도 등에 있어 좀 더 명확한 차이를 찾을 수 있어 예측 결과의 향상을 기대할 수 있을 것이다. 좀더 많은 수의 데이터를 사용하는 것은 단백질의 유사성 비교 혹은 서열상의 유사 도메인 추출등과 같은 방법으로 개선할 수 있으나 본 논문에서는 이를 향후 과제로 남긴다.
있다. 따라서 본 논문에서 계산하고 있는 IP 값이 정확히 단백질 상호작용 확률을 나타내는 가에 대해서는 향후 추가적인 검증이 필요하다. 이는, 단백질 쌍에서, 높은 weight를 부여한 도메인 조합이 실제 단백질 쌍에서 상호작용 역할을 담당했는지를 확인하고 그 결과를 IP value의 크기에 따라 분석함으로써 가능하다.
이러한 접근 방식은 기존 방법론들과 달리 실제 단백질 상호작용을 좀더 충실하게 반영하는 강점을 가질 수 있으며, 상호작용에 있어 가장 크게 기여한 도메인 조합 쌍을 알아내는 등의 부가적 정보를 제공할 수 있는 효과가 있다. 또한 남녀간의 결혼, 여러 증상을 가지는 환자와 질병의 관계등과 같은 여러 feature들을 가지는 두 object의 일반적 상호작용 예측으로 확장하여 적용할 수 있다.
따라서, 한 도메인이 제대로 기능하기 위해서는 가장 가까운 주변 환경인 이웃 도메인의 영향을 직접 혹은 간접적으로 받을 수 밖에 없다. 또한 한 단백질 안에서 다수의 도메인이 서로 협력하여 상대 단백질 내의 도메인과 직접적인 상호작용을 할 수도 있을 것이다. 실제로 PDB에 실험적으로 3차 구조가 보고된 단백질 상호작용 쌍 중, 50여 개의 상호작용 쌍이 단일 도메인이 아닌 복수의 도메인이 협력하여 상호작용을 형성하였다는 것이 보고되었다[14丄
그러나, 정밀한 실험을 수행하는 데에는 많은 시간적, 비용적 노력이 필요하며, 프로그램 상에서 쉽게 수행할 수 있는 방식은 실제 실험의 대상을 크게 줄여 준다는 점에서 전처리 과정으로 의미를 가지게 된다. 또한, 제안하는 방식의 예측 결과를 살펴 보았을 때, 도메인 조합은 단백질 상호작용에서 의미 있는 역할을 하고 있음을 강하게 암시하고 있으며, 기타 다른 fea- ture들을 추가한 새로운 방식의 기초로 활용될 수 있다. 실제로 S.
그러나, IP 값의 차이가 실제 단백질 상호작용의 신뢰도를 가늠하는지에 대해서는 추가적인 검증이 필요하다. 이는 PDB와 같은 단백질 상호작용 시의 실제 도메인 바인딩 정보와, IP 값에 따른 단백질 쌍 내부의 도메인 조합 쌍 중요도 순위를 비교함으로써 검증이 가능하며, 이는 향후 과제로 남긴다.
그러나, 실험에 사용하는 상호작용 데이터가 많아 진다면 상호작용 패턴의 출현 빈도 등에 있어 좀 더 명확한 차이를 찾을 수 있어 예측 결과의 향상을 기대할 수 있을 것이다. 좀더 많은 수의 데이터를 사용하는 것은 단백질의 유사성 비교 혹은 서열상의 유사 도메인 추출등과 같은 방법으로 개선할 수 있으나 본 논문에서는 이를 향후 과제로 남긴다.
둘째, 학습 집단 크기의 부족이다. 현재 밝혀진 단백질 상호작용 쌍이 포함하고 있는 도메인이 충분하지 않을 수 있으며, 좀더 많은 수의 상호작용 집단이 추가 된다면 예측 정확도의 향상이 이루어 질 수 있다. 4장의 검증 결과를 통해 학습 집단의 크기가 증가할수록 예측 정확도는 향상됨을 보였으며, 이로 미루어 볼 때, 더 이상 sensitivity가 증가 하지 않는 정도의 학습 집단 크기가 가장 이상적이라고 할 수 있다.
참고문헌 (14)
Marcotte, E., Pellegrini, M., Ng, H., Rice, D., Yeates, T., Eisenberg, D., 'Detecting protein function and protein-protein interactions from genome sequences,' Science, 285, pp.751-753, 1999
Szilagyi A, Grimm V, Arakaki A, Skolnick J, 'Prediction of physical protein-protein interactions,' Phys Biol., 2, S1-S16, 2005
Chen, L., Wu, L., Y. W., Zhang, X., 'Inferring protein interactions from experimental data by association probabilistic method,' Proteins, 62, pp.833-837,
Liu, Y., Liu, N., Zhao, H., 'Inferring proteinprotein interactions through high-throughput interaction data from diverse organisms,' Bioinformatics, 21, pp.3279-3285, 2005
Dohkan, S., Koike, A., Takagi, T., 'Support vector machines for predicting protein-protein interactions,' Genome Inform, 14, pp.502-503, 2003
Riley, R., Lee, C., Sabatti, C., Eisenberg, D., 'Inferring protein domain interactions from databases of interacting proteins,' Genome Biology, 6,R89, 2005
Moza, B., Buonpane, R., Zhu, P., Herfst, C., Rahman, A., McCormick, J., Kranz, D., Sundberg, E., 'Long-range cooperative binding effects in a T cell receptor variable domain,' Proc Natl Acad Sci, 103, pp.9867-9872, 2006
S.H. Jung, H.Y. Hur, D. Kim, D.S. Han, 'Identification of Conserved Domain Combinations in S. cerevisiae Proteins,' Bioinformatics and Bioengineering, pp.14-20, 2007
J. Brodie and I. J. McEwan, 'Intra-domain communication between the nterminal and DNAbinding domains of the androgen receptor: modulation of androgen response element DNA binding,' Journal of Molecular Endocrinology, 34, pp.603-615, 2005
Han, D., Kim, H., Jang, W., Lee, S., Jung, S., 'PreSPI: a domain combination based prediction system for protein-protein interaction,' Nucl Acids Res, 32,
※ AI-Helper는 부적절한 답변을 할 수 있습니다.