구조적 생물 정보학 분야는 단백질의 3차원 구조를 대상으로 단백질을 연구하는 분야이며, 본 논문에서는 구조적 생물 정보학 분야의 핵심 연구 주제중의 하나인 Flexible 단백질 구조 정렬에 관한 새로운 알고리즘을 제시한다. Flexible 단백질 구조 정렬을 위하여, 단백질의 3차원 구조의 지역적인 유사성을 이용하여 두 단백질의 유사한 부분 구조를 추출해 내고, 이 추출된 유사 구조간에 연결 가능성을 검색하여 정렬이 가능한 모든 유사 구조를 찾고, 이 유사 구조에 꺽임점을 도입하여 Flexible 단백질 구조 정렬을 수행하였다. 이 과정에서 단백질의 지역적 유사성을 정확히 비교하기 위하여 RDA를 이용한 방법을 제안하였고, Flexible 단백질 구조 정렬시 신뢰성 있는 꺽임점 위치 선정 방법과 그래프를 이용한 최적화 방법을 제안하였다. 성능 평가를 위하여 다양한 방법으로 Flexible 단백질 구조 정렬의 성능 평가를 수행하였고, 기존의 방법인 DALI, CE, FATCAT 보다 성능의 우수함을 나타내었다.
구조적 생물 정보학 분야는 단백질의 3차원 구조를 대상으로 단백질을 연구하는 분야이며, 본 논문에서는 구조적 생물 정보학 분야의 핵심 연구 주제중의 하나인 Flexible 단백질 구조 정렬에 관한 새로운 알고리즘을 제시한다. Flexible 단백질 구조 정렬을 위하여, 단백질의 3차원 구조의 지역적인 유사성을 이용하여 두 단백질의 유사한 부분 구조를 추출해 내고, 이 추출된 유사 구조간에 연결 가능성을 검색하여 정렬이 가능한 모든 유사 구조를 찾고, 이 유사 구조에 꺽임점을 도입하여 Flexible 단백질 구조 정렬을 수행하였다. 이 과정에서 단백질의 지역적 유사성을 정확히 비교하기 위하여 RDA를 이용한 방법을 제안하였고, Flexible 단백질 구조 정렬시 신뢰성 있는 꺽임점 위치 선정 방법과 그래프를 이용한 최적화 방법을 제안하였다. 성능 평가를 위하여 다양한 방법으로 Flexible 단백질 구조 정렬의 성능 평가를 수행하였고, 기존의 방법인 DALI, CE, FATCAT 보다 성능의 우수함을 나타내었다.
Analysis of 3-dimensional (3D) protein structure plays an important role of structural bioinformatics. The protein structure alignment is the main subjects of the structural bioinformatics and the most fundamental problem. Protein Structures are flexible and undergo structural changes as part of the...
Analysis of 3-dimensional (3D) protein structure plays an important role of structural bioinformatics. The protein structure alignment is the main subjects of the structural bioinformatics and the most fundamental problem. Protein Structures are flexible and undergo structural changes as part of their function, and most existing protein structure comparison methods treat them as rigid bodies, which may lead to incorrect alignment. We present a new method that carries out the flexible structure alignment by means of finding SSPs(Similar Substructure Pairs) and flexible points of the protein. In order to find SSPs, we encode the coordinates of atoms in the backbone of protein into RDA(Relative Direction Angle) using local similarity of protein structure. We connect the SSPs with Floyd-Warshall algorithm and make compatible SSPs. We compare the two compatible SSPs and find optimal flexible point in the protein. On our well defined performance experiment, 68 benchmark data set is used and our method is better than three widely used methods (DALI, CE, FATCAT) in terms of alignment accuracy.
Analysis of 3-dimensional (3D) protein structure plays an important role of structural bioinformatics. The protein structure alignment is the main subjects of the structural bioinformatics and the most fundamental problem. Protein Structures are flexible and undergo structural changes as part of their function, and most existing protein structure comparison methods treat them as rigid bodies, which may lead to incorrect alignment. We present a new method that carries out the flexible structure alignment by means of finding SSPs(Similar Substructure Pairs) and flexible points of the protein. In order to find SSPs, we encode the coordinates of atoms in the backbone of protein into RDA(Relative Direction Angle) using local similarity of protein structure. We connect the SSPs with Floyd-Warshall algorithm and make compatible SSPs. We compare the two compatible SSPs and find optimal flexible point in the protein. On our well defined performance experiment, 68 benchmark data set is used and our method is better than three widely used methods (DALI, CE, FATCAT) in terms of alignment accuracy.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 논문에서는 꺽임이 허용되는 단백질 구조 정렬 방법을 제안한다. Flexible 단백질 구조 정렬 방법은 단백질의 3차원 구조의 지역적인 유사성을 이용하여 두 단백질의 유사한 부분 구조를 추출해 내고, 이 추출된 유사 구조들의 연결 가능함을 검색하여 정렬이 가능한 모든 유사 구조를 찾는다.
가설 설정
이 장에서는 제안하는 단백질 구조 정렬 방법의 전체적인 개요를 설명하고, 제안하는 단백질 구조 정렬 방법을 자세하게 기술한다. 제안하는 단백질 구조 정렬 방법은 단백질 구조를 강체가 아닌 꺽임이 허용되는 구조라고 가정하고 정렬을 수행하는 flexible 단백질 구조 정렬(Flexible protein structure alignment)이다.
단백질 구조 정렬을 위하여 DALI(Distance alignment matrix)[5], CE(Combinatorial Extension)[6], VAST(Vector Alignment Search Tool)[7], 3dSearch[8] 등과 같은 많은 단백질 구조 정렬 방법들이 제안되어 왔다. 지금까지 제안된 많은 방법들은 단백질을 강체(Rigid body)로 가정하고 단백질 구조 정렬 알고리즘을 수행하였다. 그러나, 일반적으로 단백질은 생체 내에서 3차원 구조가 고정된 강체라기보다 꺽임이 가능한 부분과 강체인 부분이 혼용된 상태라고 알려져 있다[9].
제안 방법
RDA 코딩을 단백질 A와 단백질 B의 모든 Cα에 대해 4개의 원자단위로 겹치게 적용하여, 단백질 A의 RDA 코드인 RDAA 와 단백질 B의 RDA 코드인 RDAB를 구한다.
RDA를 이용하여 두 단백질의 지역적 유사성을 검색하기 위하여, 유사성 맵(Similarity map)을 구한 후, 연결성 정보를 이용한다. 유사성 맵은 두 단백질이 지역적으로 어느 부분이 유사한가를 나타내는 맵이다.
정렬 방법은 CE에서 제안한 두 단백질에서 지역적으로 유사한 구조를 가진 AFP를 구한 후, 두 AFP의 연결 가능 점수를 모든 AFP 에 대해서 계산한다. 계산된 AFP와 AFP의 연결 가능 점수에 동적 프로그래밍 알고리즘을 적용하여 꺽임이 가능한 단백질 구조 정렬을 수행한다. FlexProt과 같이 동적 프로그래밍 알고리즘의 재귀식에 꺽임 요소에 대한 가중치가 포함되어 있다.
기존의 연구에서는 좀더 의미 있는 정렬결과를 제시하기 위하여 RMSD 값과 대응되는 정렬쌍의 개수를 다양한 방법으로 조합하여 하나의 수치로 유사성 결과를 나타낸다[18-20]. 그러나 현재까지 어떤 하나의 값으로 단백질 구조 정렬의 성능을 나타내는 일반화된 방법은 존재하지 않으므로, 본 논문에서는 기존 연구에서 사용되었던 4개의 단백질 구조 정렬 성능 측정법을 사용한다.
단백질 구조 정렬의 첫 단계로써 두 단백질의 유사한 부분 구조를 찾기 위하여 RDA(Relative Direction Angle) 코딩을 수행한다. 단백질의 Cα 원자로 구성된 단백질 백본(Backbone)은 순서가 있는 3차원 좌표를 가지고 있는 하나의 실과 같은 구조를 가지고 있다.
두 번째 실험으로, Fisher[21]가 제안한 데이터 셋을 가지고 제안된 방법과 DALI, CE, FATCAT과의 성능비교를 수행한다. 실험에 사용한 데이터 셋은 68개의 PDB쌍 데이터로, 평균 서열 유사성이 18.
먼저, 연속적인 4개의 Cα 원자에 대해 처음 3개의 Cα 원자로 새로운 직교 좌표계(Cartesian coordinate)를 구성한 후, 4번째 Cα 원자를 새로운 직교 좌표계로 변환한다.
하나의 구조 정렬에 포함된 하나 이상의 SSP를 CSSP(Compatible SSP)로 정의한다. 모든 CSSP를 구하기 위하여, 하나의 SSP를 그래프의 노드로 가정하고, 노드 간의 연결 강도(Weight)를 두 SSP의 연결 가능 스코어로 계산하여 DAG(Directed Acyclic Graph) 그래프를 생성한다. 이 DAG 그래프를 이용하여 하나의 정렬을 구성하는 최적의 SSP들을 찾는 문제를 그래프에서 최단 경로 검색 문제(Shortest path problem)로 전환하였다.
모든 flexible 단백질 구조 정렬 후보들에 대하여 최종 정렬 스코어를 계산하여 가장 큰 값을 가지는 flexible 단백질 구조 정렬 후보를 최종 결과로 사용한다.
본 연구는 Flexible 단백질 구조 정렬을 위하여, 단백질의 3차원 구조의 지역적인 유사성을 이용하여 두 단백질의 유사한 부분 구조를 추출해 내고, 이 추출된 유사 구조간에 연결 가능성을 검색하여 정렬이 가능한 모든 유사 구조를 찾고, 이 유사 구조에 꺽임점을 도입하여 flexible 단백질 구조 정렬을 수행하였다. 이 과정에서 단백질의 지역적 유사성을 정확히 비교하기 위하여 RDA를 이용한 방법을 제안하였고, flexible 단백질 구조 정렬시 신뢰성 있는 꺽임점 위치 선정 방법과 그래프를 이용한 최적화 방법을 제안하였다.
성능 비교를 위한 첫 번째 실험에서는, NMR 모델인 1MFN을 실험 대상 데이터로 정렬 실험을 하였고, 두 번째 실험에서는, 성능 평가 대상 데이터를 [21]에서 제안한 68개를 대상으로 실험을 수행하여 DALI[5], CE[6], FATCAT[11]과 성능 비교를 한다. 실험에 사용된 알고리즘인 DALI와 CE는 꺽임 없는 단백질 구조 정렬 방법으로, 꺽임 없는 단백질 구조 정렬 방법 중 가장 정확하고 가장 널리 사용되는 구조 정렬 방법으로 알려져 있다[22-23].
(그림 3)과 같이 각각의 모델들이 같은 단백질이지만, 다양한 형태를 가지고 있다. 실험 방법은 1번째 모델에 대해 2번부터 20번까지의 19개 모델과 구조 정렬을 수행한다. 결과는 <표 1>에 보여진다.
모든 CSSP를 구하기 위하여, 하나의 SSP를 그래프의 노드로 가정하고, 노드 간의 연결 강도(Weight)를 두 SSP의 연결 가능 스코어로 계산하여 DAG(Directed Acyclic Graph) 그래프를 생성한다. 이 DAG 그래프를 이용하여 하나의 정렬을 구성하는 최적의 SSP들을 찾는 문제를 그래프에서 최단 경로 검색 문제(Shortest path problem)로 전환하였다.
본 연구는 Flexible 단백질 구조 정렬을 위하여, 단백질의 3차원 구조의 지역적인 유사성을 이용하여 두 단백질의 유사한 부분 구조를 추출해 내고, 이 추출된 유사 구조간에 연결 가능성을 검색하여 정렬이 가능한 모든 유사 구조를 찾고, 이 유사 구조에 꺽임점을 도입하여 flexible 단백질 구조 정렬을 수행하였다. 이 과정에서 단백질의 지역적 유사성을 정확히 비교하기 위하여 RDA를 이용한 방법을 제안하였고, flexible 단백질 구조 정렬시 신뢰성 있는 꺽임점 위치 선정 방법과 그래프를 이용한 최적화 방법을 제안하였다. 성능 평가를 위하여 다양한 방법으로 flexible 단백질 구조 정렬의 성능 평가를 수행하였고, 기존의 방법인 DALI, CE, FATCAT 보다 성능의 우수함을 나타내었다.
생체 내에서 하나의 단백질에 대해 여러 형태의 변형이 된 3차원 구조는 구조 규명 시 NMR 방법을 사용하면, 여러 형태의 3차원 구조를 얻어낼 수 있다. 이 실험에서는 NMR 방식으로 규명된 단백질의 각각의 MODEL에 대해서 꺽임 없는 단백질 구조 정렬인 DALI, CE와 성능 비교를 수행하고, flexible 단백질 구조 정렬인 FATCAT과의 성능 비교를 수행한다.
이 방법은 꺽임에 관련된 내용을 제외하면 CE의 방법과 거의 유사하다. 정렬 방법은 CE에서 제안한 두 단백질에서 지역적으로 유사한 구조를 가진 AFP를 구한 후, 두 AFP의 연결 가능 점수를 모든 AFP 에 대해서 계산한다. 계산된 AFP와 AFP의 연결 가능 점수에 동적 프로그래밍 알고리즘을 적용하여 꺽임이 가능한 단백질 구조 정렬을 수행한다.
대상 데이터
두 번째 실험으로, Fisher[21]가 제안한 데이터 셋을 가지고 제안된 방법과 DALI, CE, FATCAT과의 성능비교를 수행한다. 실험에 사용한 데이터 셋은 68개의 PDB쌍 데이터로, 평균 서열 유사성이 18.6%이고, 표준 편차는 4.4%이다. 최소 서열 유사성은 8%이고, 최대 서열 유사성은 31%이다.
데이터처리
이 실험에서 정렬수치는 S, SI, MI, SAS 로 계산되어 68개 실험 데이터에 대해서 제안된 알고리즘과 기존의 3가지 방법과의 비교를 한다.
이론/모형
플로이드 알고리즘은 DAG 그래프에서 모든 최단 경로 검색을 하기 위하여 특정한 시작 노드와 종점 노드를 정의하지 않고, N개의 노드로부터 다른 (N-1)개의 노드까지 N(N-1)개의 최단경로를 구하는 알고리즘이다. DAG 그래프의 시작점과 끝점을 정의 하지 않고 모든 최단 경로를 찾기 위하여 Floyd-Warshall 알고리즘을 적용하고, 찾아진 최단경로는 하나 이상의 노드로 구성된 CSSP로 생성된다.
DALI 는 3차원 단백질 구조를 2차원 거리행렬(Distance matrix) 로 표현하고, 이 거리 행렬을 6x6 크기의 겹쳐지는 submatrix로 분리한다. 이 submtrix를 기반으로 유사도 값을 계산하기 위하여 몬테카를로 최적화(Monte-carlo optimization)를 사용하여 최종 정렬을 수행한다. 수학적 최적화 방법인 몬테카를로 최적화는 느리고, 때때로 전역 최소점(Global minimum) 을 찾지 못하는 경우가 발생하여 정렬에 실패하게 된다.
Flexible 단백질 구조 정렬 방법은 단백질의 3차원 구조의 지역적인 유사성을 이용하여 두 단백질의 유사한 부분 구조를 추출해 내고, 이 추출된 유사 구조들의 연결 가능함을 검색하여 정렬이 가능한 모든 유사 구조를 찾는다. 정렬이 가능한 모든 유사 구조를 그래프(Graph)로 맵핑하고, Floyd-Warshall 알고리즘을 적용하여 최종적인 flexible 단백질 구조 정렬을 수행한다.
성능/효과
제안된 방법과 FATCAT의 꺽임점의 수는 제안된 방법이 약간 많고, 정렬쌍의 개수는 FATCAT이 조금 더 많다. 그러나, 정렬 RMSD는 제안된 방법이 우수함을 보여준다. 또한 제안된 방법의 RMSD 값의 표준편차는 0.
그러나, 정렬 RMSD는 제안된 방법이 우수함을 보여준다. 또한 제안된 방법의 RMSD 값의 표준편차는 0.14 정도인 것에 비해 FATCAT의 RMSD의 표준편차는 0.70으로 제안된 방법이 더 우수함을 알 수 있다.
이 과정에서 단백질의 지역적 유사성을 정확히 비교하기 위하여 RDA를 이용한 방법을 제안하였고, flexible 단백질 구조 정렬시 신뢰성 있는 꺽임점 위치 선정 방법과 그래프를 이용한 최적화 방법을 제안하였다. 성능 평가를 위하여 다양한 방법으로 flexible 단백질 구조 정렬의 성능 평가를 수행하였고, 기존의 방법인 DALI, CE, FATCAT 보다 성능의 우수함을 나타내었다.
기존방법이 우수한 개수(B)는 기존방법이 우수한 것으로 나온 개수다. 우수한 것의 비율은 68개의 데이터 중에서 제안방법이 우수한 것의 비율로, 약 89% 에 대해 제안방법이 우수한 것으로 나타났다. 이는 제안한 방법이 DALI나 CE 와 같은 꺽임점이 없는 단백질 구조 정렬을 포함하여, FATCAT 과 같은 Flexible 단백질 구조 정렬보다 우수한 결과를 보인다고 할 수 있다.
우수한 것의 비율은 68개의 데이터 중에서 제안방법이 우수한 것의 비율로, 약 89% 에 대해 제안방법이 우수한 것으로 나타났다. 이는 제안한 방법이 DALI나 CE 와 같은 꺽임점이 없는 단백질 구조 정렬을 포함하여, FATCAT 과 같은 Flexible 단백질 구조 정렬보다 우수한 결과를 보인다고 할 수 있다.
23으로 두 단백질이 유사성이 있다고 판단하기 어려운 결과를 보여준다. 제안된 방법과 FATCAT의 꺽임점의 수는 제안된 방법이 약간 많고, 정렬쌍의 개수는 FATCAT이 조금 더 많다. 그러나, 정렬 RMSD는 제안된 방법이 우수함을 보여준다.
각각의 평가방법에 대해 제안된 방법과 기존의 방법을 비교하여 우수한 것의 개수를 종합한 것은 <표 2>와 같다. 제안방법이 우수한 개수(A)는 68개의 데이터 셋에 대하여 제안된 방법이 우수한 것으로 나온 개수이다. 기존방법이 우수한 개수(B)는 기존방법이 우수한 것으로 나온 개수다.
후속연구
향후 연구로서, 단백질 구조를 이용한 단백질 분류 시스템에 관한 연구를 수행할 예정이다. 단백질 구조 분류 시스템은 구조가 밝혀진 단백질을 대상으로 유사한 구조를 분류해 내는 시스템이다.
질의응답
핵심어
질문
논문에서 추출한 답변
단백질 구조 정렬을 보다 신뢰성 있게 측정하기 위해서, 생체 내에서 단백질의 상태에 적응력이 있는 꺽임을 허용하는 단백질 구조 정렬 방법이 필요한 이유는 무엇인가?
단백질 구조 정렬을 위하여 DALI(Distance alignment matrix)[5], CE(Combinatorial Extension)[6], VAST(Vector Alignment Search Tool)[7], 3dSearch[8] 등과 같은 많은 단백질 구조 정렬 방법들이 제안되어 왔다. 지금까지 제안된 많은 방법들은 단백질을 강체(Rigid body)로 가정하고 단백질 구조 정렬 알고리즘을 수행하였다. 그러나, 일반적으로 단백질은 생체 내에서 3차원 구조가 고정된 강체라기보다 꺽임이 가능한 부분과 강체인 부분이 혼용된 상태라고 알려져 있다[9]. 그러므로, 이러한 꺽임이 있을 수 있는 부분에서 단백질의 3차원 구조가 변형이 발생하였을 경우, 단백질을 강체로 가정한 알고리즘으로는 두 단백질의 유사도를 정확하게 측정할 수 없다. 그러므로, 단백질 구조 정렬을 보다 신뢰성 있게 측정하기 위해서는, 생체 내에서 단백질의 상태에 적응력이 있는 꺽임을 허용하는(flexible) 단백질 구조 정렬 방법이 필요하다.
단백질이 무엇에 의해 생체 내에서 특정한 형태의 3차원 구조를 형성할 수 있는가?
대표적인 기능으로 생체내의 화학반응을 촉매 하는 여러 가지 효소, 정보전달에 관여하는 세포막 수용체, 생체를 방어하는 항체, 근육 수축, 이완 단백질, 혈액 응고인자, 산소, 탄소가스의 운반체, 영양소의 운반체, 뼈와 연골 등을 구성하는 콜라겐 등이다. 단백질들은 생체 내에서 공유 결합이나, 수소 결합 등 자연계에 존재하는 힘에 의해 특정한 형태의 3차원 구조를 형성하고 있다. 단백질의 3차원 구조는 단백질의 기능과 밀접한 관련이 있기 때문에, 단백질의 기능을 규명하기 위하여 단백질의 3차원 구조 연구는 필수적이다.
단백질이 생체 내애서 생명현상 유지를 위해 하는 대표적인 기능에는 무엇이 있는가?
단백질은 생체 내에서 생명현상 유지를 위한 다양한 기능과 역할을 한다[1]. 대표적인 기능으로 생체내의 화학반응을 촉매 하는 여러 가지 효소, 정보전달에 관여하는 세포막 수용체, 생체를 방어하는 항체, 근육 수축, 이완 단백질, 혈액 응고인자, 산소, 탄소가스의 운반체, 영양소의 운반체, 뼈와 연골 등을 구성하는 콜라겐 등이다. 단백질들은 생체 내에서 공유 결합이나, 수소 결합 등 자연계에 존재하는 힘에 의해 특정한 형태의 3차원 구조를 형성하고 있다.
참고문헌 (23)
J. W. Kimball. Biology. Wm. C. Brown Publishers, 6th edition, 1994.
박찬용, 황치정. "기하인스턴싱 기법을 이용한 단백질 구조 가 시 및 속도 향상에 관한 연구," 정보처리논문지, 제16-A권 제3 호, pp.153-158, 2009.
K. Arun, T. Huang, and S. Blostein, "Least-squares fitting of two 3-D point sets," IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol.9, No.5, pp.698-700, 1987.
L. Holm and C. Sander, "3-D lookup: fast protein structure database searches at 90% reliability," In Proceedings of 3rd International Conference on Intelligent Systems for Molecular Biology (ISMB'95), pp.179-187, 1995.
L. Holm and C. Sander, "Protein structure comparison by alignment of distance matrices," Journal of Molecular Biology, Vol.233, pp.123-138, 1993.
I. N. Shindyalov and P. E. Bourne, "Protein structure alignment by incremental combinatorial extension (CE) of the optimal path," Protein Engineering, Vol.11, No.9, pp.739-747, 1998.
J. F. Gibrat, T. Madej, and H. Bryant, "Surprising similarities in structure comparison," Current Opinion in Structural Biology, Vol.6, pp.377-385, 1996.
M. Shatsky, H.J. Wolfson, and R. Nussinov, "Flexible protein alignment and hinge detection," Proteins: Structure, Function, and Genetics Vol.48, pp.242-256, 2002.
Ye Yuzhen and Adam Godzik, "Flexible structure alignment by chaining aligned fragment pairs allowing twists," Bioinformatics Vol.19, suppl.2, pp.246-255, 2003.
M. L. Sierk and W. R. Pearson, "Sensitivity and selectivity in protein structure comparison," Protein Science, 13, pp. 773-785, 2004.
T. Holton, T. R. Ioerger, J. A. Christopher and J. C. Sacchettini, "Determining protein structure from electron-density maps using pattern matching," Acta Cryst. D56, pp.722-734, 2000.
N. N. Alexandrov and D. Fischer, "Analysis of topological and nontopological structural similarities in the PDB: new examples with old structures," Proteins: Structure, Function, and Genetics, Vol.25, No.3, pp.354-365, 1996.
G. J. Kleywegt and A. Jones, "Superposition," CCP4/ESFEACBM Newsletter on Protein Crystallography, Vol.31, pp. 9-14, 1994.
S. Subbiah, D. V. Laurents and M. Levitt, "Structural similarity of DNA-binding domains of bacteriophage repressors and the globin core," Current Biology, Vol.3, pp.141-148, 1993.
D. Fischer, A. Elofsson, D. Rice, and D. Eisenberg, "Assessing the performance of fold recognition methods by means of a comprehensive benchmark," In Proceedings of 1996 Pacific Symposium on Biocomputing (PSB'96), pp.300-318, 1996.
M. Novotny, D. Madsen, and G. J. Kleywegt, "Evaluation of protein fold comparison servers," Proteins: Structure, Function and Bioinformatics, Vol.54, pp.260-270, 2004.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.