$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

[국내논문] 인간 단백질 분석을 위한 빅 데이타 기반 RMF 방법
A Big Data Based Random Motif Frequency Method for Analyzing Human Proteins 원문보기

한국전자통신학회 논문지 = The Journal of the Korea Institute of Electronic Communication Sciences, v.13 no.6, 2018년, pp.1397 - 1404  

김은미 (전남대학교 전자컴퓨터공학과) ,  정종철 (전남대학교 전자컴퓨터공학과) ,  이배호 (전남대학교 전자컴퓨터공학부)

초록
AI-Helper 아이콘AI-Helper

입체적 단백질 구조를 이용한 단백질의 분석은 3차원 데이타를 생성하기 위한 기술적인 어려움과 요구되는 높은 비용으로 인해 크게 발전하지 못하였다. 모티프(motif)는 단백질이나 유전자 염기서열의 단편(segment) 정보로 정의된다. 단순성 때문에 모티프는 다양한 분야에서 활발하고 폭넓게 응용되고 있다. 그러나 모티프 자체에 대한 포괄적인 이해와 연구는 미미하다. 이 논문이 가지는 중요성은 인공지능 기법을 활용하여 인간 단백질을 분석하는 방법으로 3가지 측면에서 찾아볼 수 있다. (1) 현재 단백질 데이타 뱅크 (PDB)에 저장된 모든 인간의 단백질 구조를, 이에 상응하는 효소위원회 (EC)의 데이타베이스와 단백질의 구조적 특성에 따른 분류 데이타베이스 (SCOP)를 연동하여, 단백질이 가지는 고유의 특성을 모티프를 응용한 새로운 방법으로 컴퓨터를 이용하여, 분석한 최초의 종합적이고 심층적인 인간 단백질의 분석법이다. (2) 본 연구는 모티프에 의해 생성된 새로운 단백질의 특성을 계층적 클러스터링을 이용하여 단백질이 가지는 고유한 특징을 패턴 분석법과 통계 그리고 단백질 기능 분석의 세 가지 범주로 단백질의 특성을 분석한다. (3) 임의로 생성된 모티프가 단백질 내에서 가지는 빈도에 대해 빅 데이타를 활용하여 모티프의 길이를 다양화시킴과 동시에 접촉 염기와 단백질의 기능을 다각도로 분석할 수 있는 임의 모티프 빈도 (RMF)를 이용한 단백질 분석 방법론을 제안한다.

Abstract AI-Helper 아이콘AI-Helper

Due to the technical difficulties and high cost for obtaining 3-dimensional structure data, sequence-based approaches in proteins have not been widely acknowledged. A motif can be defined as any segments in protein or gene sequences. With this simplicity, motifs have been actively and widely used in...

Keyword

표/그림 (3)

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

제안 방법

  • 따라서 본 논문에서는 임의 모티프 검색을 통해 고유한 패턴 분석법과 통계, 그리고 단백질 기능 분석의 세 가지 범주로 단백질의 특성을 분석한다.
  • 1. PDB에서 다운로드 된 단백질 구조는 BioPython2) 과 PDB 체인 정보를 이용하여 접촉 염기를 특징한다.
  • 논문에 사용된 데이타는 PDB, EC, 그리고 SCOP 데이타베이스를 다음과 같은 방법으로 연동하며 생성하였으며 전체적인 빅 데이타의 가공방법과 분석은 다음과 같다.
  • 2. PDB에 존재하는 전체 인간 단백질 데이타를 얻기 위해 생물분류학 (Taxonomy) 파일에서 인간 분류학 번호 9606과 연계된 PDB 고유번호를 추출하고 이에 상응하는 PDB번호를 가진 단백질이 EC와 SCOP 데이타 양쪽 모두에 존재할 경우 연구 데이타에 첨부하여 관련 파일을 PDB에서 다운로드한다. 주의할 점은 최근 업데이트로 인해 PDB에서 다운로드 하는 파일들의 확장자가 ‘cif’로 변경되었다.
  • 이러한 가정으로 인해, PRMF는 SRMF와 달리 각각의 접촉 염기가 가질 수 있는 모들의 수를 검색하는 대신, 접촉 염기들이 서로 붙어 있는 가상의 염기 서열을 기반으로 모티프 빈도를 측정하는 방법이다. 이러한 방법으로 본 논문에서는 빅 데이타베이스로서 SCOP 데이타베이스 4,180개 그리고 EC 데이타베이스 3,796개, 전제 7,976개의 단백질복합구조를 생성하였다.
  • 이 실험에서는 EC와 SCOP으로부터 얻은 단백질 구조로부터 접촉염기와 비접촉 염기의 패턴을 비교 분석한다.
  • 이를 비교 분석하기 위해 유클리디안 거리측정을 통해 RMF 벡터를 클러스터링하고 이를 히트맵을 통해 도식화하였다. 적용된 유클리디안 거리는 식 (3)에 의해 정의된다.
  • 클러스터의 통계적 유의성 및 경향을 확인하기 위해 RMF 벡터 간의 상관관계를 계산하였다. 그림 2는 모티프 길이가 2 (k = 2)인 개별 RMF 벡터 간의 상관관계를 색상 강도 그래프로 표시한 것이다.
  • 모티프에 의해 수집된 정보를 보다 잘 이해하기 위해 서로 다른 길이의 모티프를 가진 RMF 벡터로부터 생성된 클러스터를 분석한다. 그림 3 에서 좌측 상단의 그림은 EC 데이타에서 모티프의 길이가 2인 (k = 2) RMF로부터 형성된 클러스터 중 가수분해에 의해 생성된 펩티다아제를 나타내는 EC 번호 ’3.
  • 이 논문에서는 빅 데이터 기반의 심층적 분석이 전무한 모티프를 패턴, 통계, 단백질 기능 분석에 인공지능 기법을 통해 모티프의 특성에 관해 심도 있게 살펴보았으며, RMF기반의 새로운 단백질 분석법을 제안하였다.
  • RMF로부터 생성되는 클러스터들을 이해하기 위해 Gene Set Enrichment Analysis (GSEA)를 이용하여 분석하였다. GSEA는 단백질이 아닌 유전자 목록을 분석하기 위해 설계되었기 때문에 각 PDB ID는 UniProt ID에 매핑 된 다음 다시 유전자 이름으로 매핑하여 GSEA에 적용하였다.

대상 데이터

  • 모티프의 길이가 2 (k = 2)인 SRMF로부터 생성된 EC 클러스터에서 통계학적으로 매우 의미가 깊은 (p-value=1.38e-10) 유전자 그룹 (GSTP1, SOD1, F7, GSTA1, WARS, HMOX1, HNMT, SULT1E)을 발견하였으며 이들은 모두 GO: 1901564 에 속한 유전체들이다.
  • 다른 예로 모티프의 길이가 3 (k = 3)인 SRMF로부터 생성된 SCOP 클러스터에서 통계학적으로 매우 신빙성있는 (p-value=3.81e-10) 유전자 그룹 (GSTP1, GSTM1, GSTM2, GSTA1)을 발견하였다.

이론/모형

  • 이는 단백질 구조에 기반한 SCOP보다는 화학 반응상태에 기반한 EC 데이타의 특성을 잘 반영하여 특정 단백질의 구조보다는 단백질의 생화학적인 역할을 보다 잘 특징화하는 경향이 있음을 보인다. RMF로부터 생성되는 클러스터들을 이해하기 위해 Gene Set Enrichment Analysis (GSEA)를 이용하여 분석하였다. GSEA는 단백질이 아닌 유전자 목록을 분석하기 위해 설계되었기 때문에 각 PDB ID는 UniProt ID에 매핑 된 다음 다시 유전자 이름으로 매핑하여 GSEA에 적용하였다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
단백질의 특성을 분석하는 방법은 크게 네 가지로 분류할 수 있는데, 어떤 방법들이 있는가? 이러한 단백질의 특성을 분석하는 방법은 크게 네 가지로 분류할 수 있다. 우선, in-vitro 방식은 생활 반응이 있는 유기체를 제외한 통제된 환경에서 수행하는 방법으로 단순화한 조건에서 빠른 정화과정을 허용하는 Tandem Affinity Purification(: TAP)방법이 대표적이다[1-3]. 다음으로는 임상 실험을 포함한 in-vivo가 있으며, yeast two-hybrid 방법을 이용하여 이전보다 비용 절감 효과를 가져왔다. 너무 단순화된 조건과 현실의 조건 절대 보존해야 하는 in-vitro와 in-vivo의 단점을 보완하기 위해 이들의 중간단계라 할 수 있는 in-situ 방법이 사용된다[4-5]. 대표적인 방법으로는 형광 물질을 이용하여 유기체의 물리적인 위치를 식별하는 Fluorescence in situ hybridization (:FISH) 방법이다[5].
모티프는 어떻게 정의되는가? 입체적 단백질 구조를 이용한 단백질의 분석은 3차원 데이타를 생성하기 위한 기술적인 어려움과 요구되는 높은 비용으로 인해 크게 발전하지 못하였다. 모티프(motif)는 단백질이나 유전자 염기서열의 단편(segment) 정보로 정의된다. 단순성 때문에 모티프는 다양한 분야에서 활발하고 폭넓게 응용되고 있다.
입체적 단백질 구조를 이용한 단백질의 분석이 크게 발전하지 못한 이유는 무엇 때문인가? 입체적 단백질 구조를 이용한 단백질의 분석은 3차원 데이타를 생성하기 위한 기술적인 어려움과 요구되는 높은 비용으로 인해 크게 발전하지 못하였다. 모티프(motif)는 단백질이나 유전자 염기서열의 단편(segment) 정보로 정의된다.
질의응답 정보가 도움이 되었나요?

참고문헌 (10)

  1. V. S. Rao, K. Srinivas, G. N. Sujini, and G. N. Kumar, "Protein-Protein Interaction Detection: Methods and Analysis," Int. J. of Proteomics , vol. 2014, Feb. 2014, pp. 147648. 

  2. S. Xing, N. Wallmeroth, K. W. Berendzen, and C. Grefen, "Techniques for the Analysis of Protein-Protein Interactions in Vivo," Plant Physicology, vol. 171, issue 2, 2016, pp. 727-58. 

  3. O. Puig, F. Caspary, G. Rigaut, B. Rutz, E. Bouveret, E. Bragado-Nilsson, M. Wilm, and B. Seraphin, "The Tandem Affinity Purification (TAP) Method : A General Procedure of Protein Complex Purification," Methods, vol. 24, issue 3, July 2001, pp. 218-229. 

  4. A. Bruckner, C. Polge, N. Lentze, D. Auerbach, and U. Schlattner, "Yeast Two-Hybrid, a Powerful Tool for Systems Biology," Int. J. Mol. Sci., vol. 10, issue 6, June 2009, pp. 2763-2788. 

  5. M. Werner, L. Wilkens, M. Aubele, M. Nolte, H. Zitzelsberger, and P. Komminoth, "Interphase cytogenetics in pathology: principles, methods, and applications of fluorescence in situ hybridization (FISH)," Histochem. Cell Biol., vol. 108, issue 4-5, 1997, pp. 381-90. 

  6. X. W. Chen and J. C. Jeong, "Sequence-based prediction of protein interaction sites with an integrative method," Bioinformatics, vol. 25, issue 5, Mar. 2009, pp. 585-591. 

  7. T. Sun, B. Zhou, L. Lai, and J. Pei, "Sequence-based prediction of proteinprotein interaction using a deep-learning algorithm," BMC Bioinformatics, vol. 18, issue 1, May 2017, pp. 277. 

  8. H. M. Berman, J. Westbrook, Z. Feng, G. Gilliland, T. N. Bhat, H. Weissig, I. N. Shindyalov, and P. E. Bourne, "The Protein Data Bank," Nucleic Acids Res., vol. 28, issue 1, Jan. 2000, pp. 235-42. 

  9. J. Jeong, "A New Methodology For Identifying Interface Residues Involved In Binding Protein Complexes," Master's Thesis, University of Kentucky, 2011. 

  10. H. Ceong and C. Park, "Enzyme Metabolite Analysis Using Data Mining," J. of the Korea Institute of Electronic Communication Sciences, vol. 11, no. 10, Oct. 2016, pp. 969-982. 

저자의 다른 논문 :

활용도 분석정보

상세보기
다운로드
내보내기

활용도 Top5 논문

해당 논문의 주제분야에서 활용도가 높은 상위 5개 콘텐츠를 보여줍니다.
더보기 버튼을 클릭하시면 더 많은 관련자료를 살펴볼 수 있습니다.

관련 콘텐츠

오픈액세스(OA) 유형

FREE

Free Access. 출판사/학술단체 등이 허락한 무료 공개 사이트를 통해 자유로운 이용이 가능한 논문

이 논문과 함께 이용한 콘텐츠

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로