$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

[국내논문] 단백질 서열의 상동 관계를 가중 조합한 단백질 이차 구조 예측
Prediction of Protein Secondary Structure Using the Weighted Combination of Homology Information of Protein Sequences 원문보기

한국정보통신학회논문지 = Journal of the Korea Institute of Information and Communication Engineering, v.20 no.9, 2016년, pp.1816 - 1821  

지상문 (Department of Computer Science and Engineering, Kyungsung University)

초록
AI-Helper 아이콘AI-Helper

단백질은 대부분의 생물학적 과정에서 중대한 역할을 수행하고 있으므로, 단백질 진화, 구조와 기능을 알아내기 위하여 많은 연구가 수행되고 있는데, 단백질의 이차 구조는 이러한 연구의 중요한 기본적 정보이다. 본 연구는 대규모 단백질 구조 자료로부터 단백질 이차 구조 정보를 효과적으로 추출하여 미지의 단백질 서열이 가지는 이차 구조를 예측하려 한다. 질의 서열과 상동관계에 있는 단백질 구조자료내의 서열들을 광범위하게 찾아내기 위하여, 탐색에 사용하는 프로파일의 구성에 질의 서열과 유사한 서열들을 사용하고 갭을 허용하여 반복적인 탐색이 가능한 PSI-BLAST를 사용하였다. 상동 단백질들의 이차구조는 질의 서열과의 상동 관계의 강도에 따라 가중되어 이차 구조 예측에 기여되었다. 이차 구조를 각각 세 개와 여덟 개로 분류하는 예측 실험에서 상동 서열들과 신경망을 동시에 사용하여 93.28%와 88.79%의 정확도를 얻어서 기존 방법보다 성능이 향상되었다.

Abstract AI-Helper 아이콘AI-Helper

Protein secondary structure is important for the study of protein evolution, structure and function of proteins which play crucial roles in most of biological processes. This paper try to effectively extract protein secondary structure information from the large protein structure database in order t...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 1996년부터 2013년까지 PDB(Protein Data Bank)에 추가되는 단백질 자료를 조사해보면, 새롭게 추가되는 단백질 서열은 서열 유사성이 30%이상인 것이 기존의 자료에 이미 존재하는 비율이 증가하고 있으며, 2013년에는 94%이상이었다[3]. 본 논문에서는 단백질 구조 자료에 존재하는 질의 서열과 유사한 단백질의 이차 구조를 사용하여 이차구조를 예측한다. 이는 모든 단백질이 가질 수 있는 구조의 형태가 대부분 알려지고 있으므로, 이차 구조를 예측하고자 하는 단백질 서열과 부분적으로 매우 유사한 영역들이 존재할 가능성이 점점 커지고 있기 때문이다.
  • 하지만, 반복적으로 프로파일을 만드는 과정 중에 질의 서열과 일치하지 않는 자료들이 추가됨으로서, 초기 질의 서열과는 특성이 다른 프로파일로 표류하는 단점이 있다. 본 논문에서는 옵션 h를 조절하여 이차 구조 예측에 최적인 값을 조사한다.
  • 이는 모든 단백질이 가질 수 있는 구조의 형태가 대부분 알려지고 있으므로, 이차 구조를 예측하고자 하는 단백질 서열과 부분적으로 매우 유사한 영역들이 존재할 가능성이 점점 커지고 있기 때문이다. 본 논문에서는 이들 유사한 부분 영역들을 단백질 구조 자료에서 탐색하고, 이들 각 영역과 질의 서열과의 상동 관계의 정도를 효과적으로 최종 분류에 반영하여 이차 구조를 예측하려 한다.
  • 따라서 질의 서열의 하나의 위치에 대응되는 여러 개의 서열이 나타나고, 이들의 이차 구조를 조합하여 예측을 수행하였다. 본 논문에서는 질의 서열과 정합된 서열에서 양의 값으로 치환된 개수가 클수록 큰 가중치를 가지도록 조합하였다. 그림 1의 경우에 두 번째 행에서 공백이 아닌 위치의 개수가 양의 값으로 치환된 개수이다.
  • 본 논문은 대규모의 단백질 구조 자료에서 정보를 효과적으로 추출하여 단백질 이차 구조를 예측하였다. 갭이 있는 서열 탐색과 질의 단백질과 상동 관계에 있는 단백질 자료내의 단백질들을 기반으로 질의 서열을 재구성하고 이를 이용하여 보다 먼 상동 관계의 서열들을 탐색하였다.
  • 본 연구에서는 대규모 단백질 삼차원 구조 자료인 PDB[12]를 보다 효과적으로 이용하여 이차 구조를 예측하려 한다. PDB에 존재하는 유사서열의 삼차원 구조에서 이차 구조를 추출하는 과정에서, 기존 방법은 갭을 허용하지 않고 정확히 일치하는 부분 서열의 정보만을 이용하였지만, 본 연구에서는 질의 서열과 유사한 서열을 보다 광범위하게 탐색한다.
  • 갭이 있는 서열 탐색과 질의 단백질과 상동 관계에 있는 단백질 자료내의 단백질들을 기반으로 질의 서열을 재구성하고 이를 이용하여 보다 먼 상동 관계의 서열들을 탐색하였다. 이러한 탐색과정에서 나타나는 서열의 유사성을 기준으로 최종 예측 결과에 기여하는 정도를 조절하였다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
단백질 서열의 진화적인 정보를 이용하는 방법 중 SSpro는 어떤 단계로 구성되어 있는가? 단백질 서열의 진화적인 정보를 이용하는 또 다른 방법인 SSpro[3]의 경우에는 세단계로 구성되어 있다. 첫단계는 PSI-BLAST를 UNIREF50 단백질 자료[11]를 대상으로 세 번 반복하여 다중 서열 정렬을 수행하고, 이 결과를 이용하여 단백질 서열의 각 위치에서 나타나는 아미노산의 빈도를 구한다. 두 번째 단계에서는 첫단계에서 얻은 단백질 프로파일을 신경망의 입력으로 사용하여 단백질 이차구조를 예측한다. 세 번째 단계에서는 대규모 단백질 구조 자료인 PDB[12]에서 이차 구조를 예측하고자 하는 질의 단백질 서열의 부분서열들과 유사한 부분 서열을 찾는다. 유사한 부분 서열은 최소한 10개 이상의 연속된 아미노산이 갭이 없이 질의 서열과 일치하고, 10-9이하의 BLAST 기댓값을 갖고, 45%이상의 아미노산이 일치하고, 55%이상의 양의 치환값을 가져야 유사한 서열로 판정하는 조건을 가진다. 질의 서열의 각 위치에 대응하는 유사 부분 서열의 이차 구조를 수집하여, 가장 빈도가 높은 이차 구조로 그 위치의 이차 구조로 예측한다. 두 번째 단계에서 얻은 예측 결과는 세 번째 단계에서 예측되는 결과가 없는 위치에 사용한다.
단백질의 일차 구조란 무엇을 의미하는가? 이러한 예측 방법들을 뒷받침하는 중요한 구성 요소 기술로서 단백질의 이차 구조 예측이 사용된다. 단백질의 일차 구조는 단백질을 구성하는 아미노산 서열을 의미하고, 이차 구조는 이들 아미노산의 카보닐기 산소 원자와 아민기 수소 원자 사이에 수소 결합이 형성되어 열역학적으로 안정하기 때문에 나타나는 국소적으로 규칙적 구조인 나선이나 병풍 등의 구조적 형태를 의미한다[1].
단백질 이차 구조 예측에서 입력으로 단백질 서열을 직접적으로 사용하지 않고 유사한 서열들의 평균적인 단백질 서열을 사용하는 이유는 무엇 때문인가? 현재의 단백질 이차 구조 예측과 단백질 구조 예측 방법들은 입력으로 단백질 서열을 직접적으로 사용하지 않고, 입력 서열과 유사한 서열들을 단백질 자료에서 찾아내어 이들의 평균적인 단백질 서열을 사용한다[2-5]. 이것은 질의 서열만을 사용하는 것보다 유사 서열들로 이루어지는 단백질 패밀리에서 이차 구조 등의 단백질 구조가 더 잘 보존되므로, 단백질 프로파일을 사용하는 것이 서열을 직접 사용하는 것보다 예측 성능이 높기 때문이다. 이밖에도 단백질 이차 구조 예측에 진화 정보를 이용하는 방법은 입력 서열과 유사한 서열 들의 예측 결과를 각각 구하여 이들 결과의 투표로서 최종 예측을 결정하는 방법이 있다[3].
질의응답 정보가 도움이 되었나요?

참고문헌 (13)

  1. H. Lodish, A. Berk, C.A. Kaiser, et al., Molecular Cell Biology, 6th Ed. New York, NY: W. H. Freeman and Company, 2007. 

  2. H. W. Buchan, et al., "Scalable web services for the PSIPRED protein analysis workbench," Nucleic Acids Res., vol. 41, W72-W76, Jul. 2013. 

  3. C. N. Magnan and P. Baldi, "SSpro/ACCpro 5: almost perfect prediction of protein secondary structure and relative solvent accessibility using profiles, machine learning and structural similarity," Bioinformatics, vol. 30, no. 18, pp, 2592-2597, Sep. 2014. 

  4. C. Mirabello and G. Pollastri, "Porter, PaleAle 4.0: high-accuracy prediction of protein secondary structure and relative solvent accessibility," Bioinformatics, vol. 29, no. 16, pp. 2056-2058, Aug. 2013. 

  5. R. Yan, et al, "A comparative assessment and analysis of 20 representative sequence alignment methods for protein structure prediction," Scientific Reports 3, Article number: 2619, Sep. 2013. 

  6. J. Zhou and O. Troyanskaya, "Deep supervised convolutional generative stochastic network for protein secondary structure prediction," in JMLR Proceedings, 32, pp. 745-753, Beijing, China, 2014. 

  7. M. Spencer, J. Eickholt and J. Cheng, "A deep learning network approach to ab initio protein secondary structure prediction," IEEE/ACM Trans. Comput. Biol. Bioinform., vol. 12, no. 1, pp. 103-112, Jan.-Feb. 2015. 

  8. R. Heffernan, et al, "Improving prediction of secondary structure, local backbone angles, and solvent accessible surface area of proteins by iterative deep learning," Scientific Reports 5, Article number: 11476, June 2015. 

  9. S. Wang, J. Peng, J. Ma, and J. Xu, "Protein secondary structure prediction using deep convolutional neural fields," Scientific Reports 6, Article number: 18962, Jan. 2016. 

  10. S. F. Altschul, et al, "Gapped blast and PSI-BLAST: a new generation of protein database search programs," Nucleic Acids Res., vol. 25, no. 17, pp. 3389-3402, Sep. 1997. 

  11. B. E. Suzek, et al, "Uniref: comprehensive and nonreduncant uniprot reference clusters," Bioinformatics, vol. 23, no. 10, pp. 1282-1288, May 2007. 

  12. H. M. Berman, et al, "The protein data bank," Nucleic Acids Res. vol. 28, no. 1, pp. 235-242, Jan. 2000. 

  13. W. Kabsch and C. Sander, "Dictionary of protein secondary structure: pattern recognition of hydrohen-bonded and geometrical features," Biopolymers, vol. 22, no. 12, pp. 2577-2637, Dec. 1983. 

저자의 다른 논문 :

관련 콘텐츠

오픈액세스(OA) 유형

GOLD

오픈액세스 학술지에 출판된 논문

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로