[논문]One-leaf One-node 트리를 이용한 선택 스플라이싱 탐지 및 예측

박민서

doi:10.5392/jkca.10.10.102

One-leaf One-node 트리를 이용한 선택 스플라이싱 탐지 및 예측
Detection and Prediction of Alternative Splicing with One-leaf One-node Tree 원문보기

한국콘텐츠학회논문지 = The Journal of the Korea Contents Association, v.10 no.10, 2010년, pp.102 - 110

박민서 (메사추세츠 대학교 컴퓨터과학과)

초록
AI-Helper

선택 스플라이싱은 유전자 발현의 중요한 과정 중 하나이다. 선택 스플라이싱이 발생함에 따라, 돌연변가 발생하여, 질병을 일으킬 수 있다. 대부분의 선택 스플라이싱 연구는 EST(Expressed Sequence Tag)를 이용한다. 그러나, EST를 이용하여 선택 스플라싱을 예측하는 데는 몇 가지 단점이 있다. EST가 저장되어 있는 라이브러리가 잘 정돈되어 있지 않거나, 잘못 열거되어 있을 경우, 실험 시 EST를 잘못 선택할 수 있다. 또한, EST가 아직 발견되지 않은 유전 서열에서는 선택 스플라이싱을 찾을 방법이 없다. 이 논문에서는 이러한 EST 기반 연구의 약점을 개선하고, 선택 스플라이싱의 탐지 및 예측의 질을 높이기 위해서, pre-mRNA에서 One-leaf One-node Tree 알고리즘을 제안한다. 이 트리는 Arabidopsis thaliana의 각 염색체에 대해서 실험되었다. 실험 결과, 모든 염색체에서 codons에 따라 일반 스플라싱과 선택 스플라싱이 다른 패턴을 가지는 것으로 나타났다. 트리 알고리즘에서 도출된 패턴으로 부터, 아직 발견되지 않은 선택 스플라싱도 예측할 수 있다.

Abstract ▼ AI-Helper

Alternative splicing is an important process in gene expression. Alternative Splicing can lead to mutations and diseases. Most studies detect alternatively spliced genes with ESTs (Expressed Sequence Tags). However, reliance on ESTs might have some weaknesses in predicting alternative splicing. ESTs have been stored in the libraries. The EST libraries are often not clearly organized and annotated. We can pick erroneous ESTs. It is also difficult to predict whether or not alternative splicing exists for those genes where ESTs are not available. To address these issues and to improve the quality of detection and prediction for alternative splicing, we propose the One-leaf One-node Tree Algorithm that uses pre-mRNAs. It is achieved by codons, three nucleotides, as attributes for each chromosome in Arabidopsis thaliana. The proposed decision tree shows that alternative and normal splicing have different splicing patterns according to triplet nucleotides in each chromosome. Based on the patterns, alternative splicing of unlabeled genes can also be predicted.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

One-leaf One-node Tree를 만들기 위해서는 속성(Attribute)과 기준(Criterion)이 필요 하다. 이 논문은 pre-mRNA의 스플라이싱을 선택 스플라이싱과 일반 스플라이싱으로 분리 하기 위해 codon (triplet nucleotide)을 속성으로 하는 두 가지 기준을 제안한다.
이 논문은 이러한 EST사용에 따른 문제점을 개선하기 위해, EST를 직접적으로 사용하지 않는 방법을 제안 한다. EST의 실험데이터 대신 유전 서열인 pre-mRNA에 기반하여 선택 스플라이싱을 찾는 방법을 제안한다.

가설 설정

기준 1: 해당 유전 서열에 일반 스플라이싱 에만 존재하는 codons이 존재하는가?
기준 2: 해당 유전 서열에 선택 스플라이싱 에만 존재하는 codons이 존재하는가?

제안 방법

3. 비교(Comparison): 일반 스플라이싱과 선택 스플라이싱을 특정 지점 K0에 나타나는 codons에 따라 비교 분석한다.
EST의 실험데이터 대신 유전 서열인 pre-mRNA에 기반하여 선택 스플라이싱을 찾는 방법을 제안한다. 3개의 nucleotides(A,T,C,G) 의 묶음(Codon)을 속성으로 하는 One-leaf One-node Tree Algorithm을 제안한다. 이 알고리즘을 검증하기 위해서, TAIR(The Arabidopsis Information Resource)[8] 와 TIGR (The Institute for Genomic Research)[9]에 저장 되어 있는 유전 정보와 선택 스플라이싱 정보가 이용된다.
이 논문은 이러한 EST사용에 따른 문제점을 개선하기 위해, EST를 직접적으로 사용하지 않는 방법을 제안 한다. EST의 실험데이터 대신 유전 서열인 pre-mRNA에 기반하여 선택 스플라이싱을 찾는 방법을 제안한다. 3개의 nucleotides(A,T,C,G) 의 묶음(Codon)을 속성으로 하는 One-leaf One-node Tree Algorithm을 제안한다.
One-leaf One-node Tree로부터 만들어진 패턴을 평가하기 위해, TIGR 데이터베이스[9]의 선택 스플라이싱 결과들과 비교 한다. TIGR 데이타베이스는 여러 시스템들과 비교하여 정확성이 검증된 데이타베이스이다[12].
선택 스플라이싱 연구는 Non-geometric 데이터를 기반으로 하며, 스플라이싱의 패턴을 알기 위한 연구로, 데이터의 분류 결과 뿐만 아니라 과정이 중요한 연구이다. 따라서, 분류하는 과정을 보기에 효과적인 의사 결정트리를 응용 하여 새로운 트리(One-leaf One-node Tree)를 제안한다. 의사결정트리는 두 가지 과정으로 구성된다: 분리와 가지치기.
서론에서 언급했듯이, 이 논문에서는 Arabidopsis thaliana의 두 선택스플라이싱 영역인 Acceptor/Donor Sites를 다룬다. One-leaf One-node Tree는 각 염색체에서 Acceptor/donor site가 선택 스플라이싱과 일반 스플라이싱으로 분류되거나 더 이상 분리가 일어나지 않을 때까지 트리를 만든다.
2에서 언급했던 EST와 Microarray에 기반한 연구의 제약점을 피하기 위해, EST나 Microarray의 실험 데이타 대신 pre-mRNA의 서열을 기반으로 한다. 셋째, Computational 기법으로 One-leaf One-node Tree를 제안한다. 트리의 분리과정을 시각적으로 제공할 수 있는 장점(II-3 절 참조)을 응용 발전한 One-leaf One-node Tree를 제안한다.
그 이유는 세번째와 여섯 번째 레벨에서 기준 1과 기준 2의 적용만으로는 일반스플라싱과 선택 스플라이싱을 구별할 수 없었기 때문이다. 염색체 5에서 두 스플라이싱에 대한 패턴을 찾기 위해, 좀 더 보완된 기준을 제안한다. 이 기준은 염색체 5의 세번째와 여섯번째 레벨에서만 적용된다.
이 논문에서 제안하는 기법은 EST와 같은 실험 데이타의 의존도는 낮추면서, 유전 서열 정보를 이용하여, 선택 스플라이싱를 탐지 및 예측하기 위함이다. 이 목적을 달성하기 위해,
이 장에서는 실험적 데이타를 직접적으로 사용하지 않고, pre-mRNA에서 유전 서열을 분석해서, 선택 스 플라이싱을 탐지 및 예측하는 기법을 제안 한다. 1절은 이 논문에서 제안하는 기법의 특징에 대해서 간략히 소개 하고, 2절은 제안하고 있는 알고리즘(One-leaf One-node Tree)에 대해서 자세히 다룬다.
셋째, Computational 기법으로 One-leaf One-node Tree를 제안한다. 트리의 분리과정을 시각적으로 제공할 수 있는 장점(II-3 절 참조)을 응용 발전한 One-leaf One-node Tree를 제안한다.
그러나 단백질로 변형되지 않는 인트론(Intron)에서의 속성을 찾기 위해서는 여러 가지 조합을 테스트 해봐야 한다. 한개, 두개, 세개, 네개 nucleotides를 속성으로 하여 트리를 만들어 보았다. 그 결과, 하나 또는 두개 nucleotides을 가지고 만든 트리는 선택 스플라이싱과 일반 스플 라이싱간의 차이점을 발견할 수 없었다.

대상 데이터

[표 1]은 One-lead One-node Tree를 테스트하기 위해 사용 되어진 데이타 집합을 보여 준다. 3485개의 Donor Sites와 3471개의 Acceptor Sites가 테스트 되어 진다.
이 알고리즘을 검증하기 위해서, TAIR(The Arabidopsis Information Resource)[8] 와 TIGR (The Institute for Genomic Research)[9]에 저장 되어 있는 유전 정보와 선택 스플라이싱 정보가 이용된다. 또한 검증을 위해 메사추세츠 대학교 생물학과 실험데이터가 함께 사용된다. 검증 결과, 모든 염색체 에서 선택 스플라이싱과 일반 스플라이싱이 서로 다른 패턴을 가지는 것으로 나타났다
더 나아가, One-leaf One-node Tree로 부터 도출된 패턴으로부터 선택 스플라이싱의 원인이 되는 지점과 codons도 함께 예측할 수 있다. 메사추세츠 대학교 생물학과 실험실의 데이타(유전자 At1g27450와 At1g30460)를 사용해서 예측에 관한 검증을 한다([그림 5] 참조).
첫째, 식물 중 Arabidopsis thaliana를 실험 종으로 선택 한다. Arabidopsis의 유전 서열은 TAIR 웹 사이트 공개 되어 있으며, 주석도 함께 제공하기 때문에 쉽게 데이타에 접근할 수 있다.

성능/효과

1. 선택(Selection): pre-mRNA에서 기준 1과 기준 2를 적용한 결과, 현재까지 속성으로 사용된 codons 수가 가장 많이 발견된 지점(K0)을 선택한다. 이 접근은 consensus를 이용하는 연구에서 착안하였다[12].
One-leaf One-node Tree로부터 만들어진 패턴을 통해 테스트한 결과, 유전자 At1g27450 의 acceptor sites(엑손과 인트론의 경계에서 양쪽으로 30 nucleotides까지) 중 네번째 엑손 에서 선택 스플라이싱이 탐지되었다. 엑손과 인트론의 경계로 부터 왼쪽으로 10～12 떨어진 지점의 ‘tgg’ 가 선택 스플라이싱의 발생 요인이 된다.
TIGR 데이타베이스의 연구 결과와 실제 실험데이터와의 비교로 부터 이 논문에서 제안된 One-leaf One -node Tree가 Arabidopsis thaliana에서 선택 스플라이싱을 탐지 및 예측 하는데 효과적임을 보여 주었다. 기존의 다른 시스템과 비교하여 볼때, 이 트리의 장점은 EST 등과 같은 실험 데이타를 직접 이용하지 않고, pre-mRNA에서 유전 서열을 직접 이용하여 선택 스플라이싱을 탐지 및 예측 할 수 있다는 것이다.
또한 검증을 위해 메사추세츠 대학교 생물학과 실험데이터가 함께 사용된다. 검증 결과, 모든 염색체 에서 선택 스플라이싱과 일반 스플라이싱이 서로 다른 패턴을 가지는 것으로 나타났다
한개, 두개, 세개, 네개 nucleotides를 속성으로 하여 트리를 만들어 보았다. 그 결과, 하나 또는 두개 nucleotides을 가지고 만든 트리는 선택 스플라이싱과 일반 스플 라이싱간의 차이점을 발견할 수 없었다. 두 스플라이싱을 분류해 낼 수 있는 서열을 발견할 수 없었다.
또한, One-leaf One-node Tree 알고리즘을 이용함으로써, pre-mRNA에서 선택 스플라이싱과 일반 스플라이싱을 복잡한 계산 과정 없이 쉽게 분리할 수 있다. 마지막으로, 가장 큰 장점은 아직 다른 시스템들에서 레이블 되지 않았거나 발견되지 않은 유전자 서열에서도 선택 스플라이싱을 발견할 수 있다는 것이다.
나머지 acceptor /donor sites들에서의 테스트는 실험과 같은 결과를 보였다. 유전자 At1g30460의 acceptor sites들은 트리를 이용한 예측과 물리적 실험 결과 모두에서 선택 스플라이싱을 발생시키지 않았으며, Donor sites 에서는 트리를 이용한 예측과 실험 결과가 일치했다.
이 논문에서 제안된 One-leaf One-node Tree를 이용하면, EST가 발견되지 않은 유전자나, 다른 데이타베이스에서 아직 발견되지 않은 선택 스플라이싱도 예측할 수 있다. 더 나아가, One-leaf One-node Tree로 부터 도출된 패턴으로부터 선택 스플라이싱의 원인이 되는 지점과 codons도 함께 예측할 수 있다.
이 발전된 기준을 적용한 결과, 염색체 5에서도 acceptor sites가 완벽하게 선택 스플라이싱과 일반 스플라이싱으로 분리되었다. 다음 절에서 자세히 서술한다.

후속연구

각 종마다 그들 나름의 고유의 특징을 갖고 있지만, 많은 공통된 서열이 존재한다. 따라서, 식물뿐만 아니라 동물, 휴먼 유전자 분석에서이 기법이 적용될 수 있을 것으로 기대 된다. 특히, 이 기법은 질병을 다루고 예측하는데 적용될 수 있을 것으로 본다.
또 다른 이유는 포유류나 다른 동물들에 비해 식물에 관한 연구가 덜 진행되어 있는 편이기 때문 이다[13]. 종은 다르지만, 식물의 유전 서열 연구가 포유류나 더 나아가 사람의 유전 서열 연구에도 도움을 줄 것이라 기대한다. 둘째, 2.
향후, 이 기법은 acceptor/donor sites뿐만 아니라 다른 선택 스플라이싱 패턴의 탐지 및 예측에도 적용될 수 있을 것으로 기대된다. 각 종마다 그들 나름의 고유의 특징을 갖고 있지만, 많은 공통된 서열이 존재한다.
특히, 이 기법은 질병을 다루고 예측하는데 적용될 수 있을 것으로 본다. 환자와 일반인의 유전 서열을 비교함으로써, 침해, 당뇨병, 암등 유전적 요인에 의해서 발생할 수 있는 질병의 패턴을 밝힐 수 있을 것으로 기대된다.

질의응답

핵심어	질문	논문에서 추출한 답변
	스플라이싱은 언제 발생하는가?	유전자 서열 중에서 단백질로 코딩되지 않는 인트론(Intron) 을 잘라 내는 과정을 스플라이싱이라고 한다. 이 스플라이싱은 Gene Expression 과정 중 pre-mRNA에서 mRNA (mature RNA)로 변형될 때 발생된다. 따라서, mRNA는 단백질 기능을 제공하지 못하는 Intron을 제외한 exon으로만 구성된 RNA 이다.
	EST를 이용하여 선택 스플라싱을 예측하는 것의 단점은?	그러나, EST를 이용하여 선택 스플라싱을 예측하는 데는 몇 가지 단점이 있다. EST가 저장되어 있는 라이브러리가 잘 정돈되어 있지 않거나, 잘못 열거되어 있을 경우, 실험 시 EST를 잘못 선택할 수 있다. 또한, EST가 아직 발견되지 않은 유전 서열에서는 선택 스플라이싱을 찾을 방법이 없다. 이 논문에서는 이러한 EST 기반 연구의 약점을 개선하고, 선택 스플라이싱의 탐지 및 예측의 질을 높이기 위해서, pre-mRNA에서 One-leaf One-node Tree 알고리즘을 제안한다.
	스플라이싱이란?	유전자 서열 중에서 단백질로 코딩되지 않는 인트론(Intron) 을 잘라 내는 과정을 스플라이싱이라고 한다. 이 스플라이싱은 Gene Expression 과정 중 pre-mRNA에서 mRNA (mature RNA)로 변형될 때 발생된다.

참고문헌 (31)

T. Chuang, F. Chen, and M. Chou, "A compareative method for identification of gene structures and alternatively spliced variant," Bioinformatics, Vol.20, pp.3064-3079, 2004.

상세보기
R. Sorek, R. Shemesh, Y. Cohen, O. Basechess, G. Ast, and R. Shamir, "A Non-EST-Based Method for Exon-Skipping Prediction," Genome Research, Vol.14, pp.1617-1623, 2004.

상세보기
S. Stamm, J. Riethoven, V. Le Texier, C. Gopalakrishnan, V. Kumanduri, Y. Tang, N. Barbosa-Morais, and T. Thanaraj, "ASD: a bioinformatics resource on alternative splicing," Nucleic Acids Research, Vol.34, pp.D46？D55, 2006.

상세보기
http://www.ncbi.nlm.nih.gov.
B. Haas, A. Delcher, S. Mount, J. Wortman, R. Smith Jr, L. Hannick, R. Maiti, C. Ronning, D. Rusch, C. Town, S. Salzberg, and O. White, "Improving the Arabidopsis genome annotation using maximal transcript alignment assemblies," Nucleic Acids Research, Vol.31, pp.5654-5666, 2003.

상세보기
M. Campbell, B. Haas, J. Hamilton, S. Mount, and C. Buell, "Comprehensive analysis of alternative splicing in rice and comparative analyses with Arabidopsis," BMC Genomics, Vol.7, p.327, 2006.

상세보기
R. Nurtdinov, I. Artamonova, A. Mironov, and M. Gelfand, "Low conservation of alternative splicing patterns in the human and mouse genomes," Human Molecular Genetic, Vol.12, pp.1313-1320, 2003.

상세보기
http://www.arabidopsis.org.
http://www.tigr.org
D. Black, "Mechanisms of alternative pre-messenger RNA splicing," Annual Review of Biochemistry, Vol.72, pp.291-336, 2003.

상세보기
K. Iida, M. Seki, T. Sakurai, M. Satou, K. Akiyama, T. Toyoda, A. Konagaya, and K. Shinozaki, "Genome-wide analysis of alternative pre-mRNA splicing in Arabidopsis Thaliana based on full-length cDNA sequences," Nucleic Acids Re-search, Vol.32, pp.5096-5103, 2004.

상세보기
M. Pertea, X. Lin, and S. Salzberg, "GeneSplicer: a new computational method for splice site prediction," Nucleic Acids Research, Vol.29, pp.1185-1190, 2001.

상세보기
B. Wang and V. Brendel, "Genomewide comparative analysis of alternative splicing in plants," in Proceedings of the National Academy of Science of the United States of America, pp.7175-7180, 2006.

상세보기
W. Zhu, S. Schlueter, and V. Brendel, "Refined annotation of the Arabidopsis Thaliana genome by complete EST mapping," Plant Physiology, Vol.132, pp.469-484, 2003.

상세보기
C. Iseli, V. Jongeneel, and P. Bucher, "ESTScan: A program for detecting, evaluating, and reconstructing potential coding regions in EST sequences," in Proceedings of the Seventh ISMB, pp.138-148, 1999.
C. Jongeneel, "Searching the expressed sequence tag (EST) databases: panning for genes," Briefings in Bioinformatics, Vol.1, pp.76-92, 2000.

상세보기
J. Collins, M. Goward, C. Cole, L. Smink, E. Huckle, S. Knowles, J. M. Bye, D. Beare, and I. Dunham, "Reevaluating human gene annotation: a second-generation analysis of chromosome 22," Genome Research, Vol.13, pp.27-36, 2003.

상세보기
D. Raghunandan, L. Guglielmo, D. K., and A. Animesh, "Clinical applications of DNA microarray analysis," Journal of Experimental Therapeutics and Oncology, Vol.3, pp.297-304, 2003.

상세보기
S. Mehta, "DNA Microarrays in Health Care & Drug Discovery," http://plasticdog.cheme.colum bia.edu/.
G. Hu, S. Madore, B. Moldever, T. Jatkoe, D. Balaban, J. Thomas, and Y. Want, "Predicting Splice Variant from DNA Chip Expression Data," Genome Research, Vol.11, pp.1237-1245, 2001.

상세보기
E. Garrett-Mayer and G. Parmigiani, "Clustering and Classification Methods for Gene Expression Data Analysis," Johns Hopkins University, Dept. of Biostatistics Working Papers, Vol.70, 2004.
T. Cover and P. Hart, "Nearest Neighbor Pattern Classification," in Proceedings of IEEE Transaction on Information Theory, pp.21-27, 1967.

상세보기
R. Fisher, "The use of multiple measurements in taxonomic problems," Annals of Eugenics, Vol.7, pp.178-188, 1936.
V. Vapnik, Statistical Learning Theory. New York, NY: John Wiley & Sons, 1998.
L. Breiman, J. H. Friedman, R. A. Olshen, and C. J. Stone, Classification and Regression Trees. Wadsworth International Group, 1984.
I. Witten and E. Frank, Data Mining: Practical Machine Learning Tools and Techniques with JAVA Implementations. Academic Press, 2000.
A. Nabhan and A. Rafea, "Tuning statistical machine translation parameters using perplexity," in Proceedings of the 2005 IEEE International Conference on Information Reuse and Integration, pp.338-343, 2005.
E. Brand and R. Gerritsen, "Decision Trees," DBMS Online, 1988, http://www.dbmsmag. com/-9807m05.html.
K. Delisle, "Decision Trees and Evolutionary Programming," Artificial Intelligence Depot., Tech. Report, http://aidepot.com/Tutorial/ DecisionTrees .html.
C. Burge and S. Karlin, "Prediction of complete gene structures in human genomic DNA," Journal of Molecular Biology, Vol.268, pp.78-94, 1997.

상세보기
H. Zhang and C. Yu, "Tree-based analysis of microarray data for classifying breast cancer," Frontiers in Bioscience, Vol.7, pp.C63-C67, 2002.

상세보기

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증