[논문]Genome 서열의 부호 엔트로피 분석

최지영

Genome 서열의 부호 엔트로피 분석
Symbol entropy analysis of genome sequence 원문보기

최지영 (仁濟大學校大學院 의생명정보학과 의생명정보학전공 국내석사)

초록 ▼
AI-Helper

유전자 조작 기술과 서열 결정기술의 발전으로 DNA서열의 데이터베이스는 급속도록 거대해지고 있다. 이렇게 거대해진 서열정보에서 고전적으로 실험적인 방법만으로는 유용한 정보를 이끌어 내는 것은 힘든 일이다. 좀더 이론적인 분석 방법의 개발이 더욱 중요하게 되었다. 본 연구에서는 매트랩을 사용하여 NCBI (National Center for Biotechnology Information, http://www.ncbi.nlm.nih.gov/)에서 제공하는 전체 게놈이 밝혀진 박테리아 20종의 DNA서열의 정보와 진핵세포의 유전자 DNA서열 정보를 얻었다. DNA 서열은 Adenine(A), Cytosine(C), Guanine(G), Thymine(T)로 불리는 4개의 염기로 구성되어 있다. DNA서열의 특징적인 서열들은 4개의 염기의 분류화 부호화 서열을 정의할 수 있다. 첫 번째 분류는 4개의 염기 A, C, G, T를 화학적 구조에 따라 purine "1"={A, G}, pyrimidine "0"= {C, T}으로 나눌 수 있다. 게다가 수소결합의 강도에 따라 약한 수소결합 "1"= {A, T}, 그리고 강한 수소 결합 "0"= {G, C}로 분류 할 수 있다. 화학적 구조와 수소곁합의 강도를 조합하여 4개의 염기를 A=[1 1]="3", G=[1 0]="2", T=[0 1]="1" C= [0 0]="0"로 부호화 값을 주었다. 이런 방법으로 부호화 서열을 만들고, 세 개의 연속된 부호를 사용하여 하나의 워드를 구성하였다. 우리는 게놈이 완전히 밝혀진 박테리아 DNA 서열에서 보정된 정보 엔트로피, 워드의 엔트로피 분포율, 복잡도를 계산하였다. DNA서열은 무작위적으로 보이지만, 박테리아에서 단백질 코딩 서열이 논 코딩 서열보다 높은 엔트로피 값을 가진다. 또한 단백질 논 코딩 지역의 엔트로피 값을 사용하여 박테리아의 카테고리를 통계적으로 유의하게 구분 할 수 있다. 진핵 세포의 유전자와 인트론 DNA서열에서 유전자의 DNA서열이 인트론의 DNA서열보다 높은 엔트로피 값을 가진다. DNA염기 서열의 질서 상태와 상관율을 정량화 시킨 정보 엔트로피의 양으로 DNA서열에서 생물학적 기능과 관계있는 정보를 구분하는 역할을 할 수 있다.

Abstract ▼ AI-Helper

With development of the techniques in gene cloning and sequences manipulation, the DNA sequence database becomes rapidly huge. Doing DNA sequence analysis only using the conventional experimental method does not sufficiently access and fully utilize the huge genome database. Hence it becomes very important to improve new theoretical and computational methods. In this study we obtained 20 species DNA sequences of complete genomes of bacteria and gene DNA sequences of eukaryote from NCBI(National Center for Biotechnology Information http://www.ncbi.nlm.nih.gov/) using Matlab. A DNA sequence can be identified with a word over the four nucleic acid bases: adenine, guanine, cytosine, and thymine. Characteristic sequences of a DNA sequence are defined as symbolic sequences in term of classifications of bases. In primary classification, the four bases A, C, G, T can be divided into two classes according to their chemical structures, i.e., purine "1" = {A, G}, and pyrimidine "0" = {C,T}. Further classification can be also made according to the strength of the hydrogen bond, i.e., weak H-bonds "1" = {A, T}, and strong H-bonds "0" = {G, C} Combination of chemical structure and Hydrogen bond strength leads to symbol values for four bases; A=[1 1]="3" , G=[1 0]="2", T=[0 1]="1", C=[0 0]="0". In this way we made a symbol sequence, and constructed a word using consecutive three symbols. We calculated the corrected information entropy, entropy rate and complexity of a distribution of words in complete genome of bacteria. Although all the DNA sequences look like random sequences, we found that coding sequences have higher entropy value than non-coding sequences in bacteria. It is also statistically significantly possible to classify categories of bacteria using values of entropies in non-coding region. In the case of DNA sequences of genes and introns in eukaryote, gene DNA sequences have higher entropy value than intron DNA sequences. Since information entropy quantifies the order state and the rate of correlations in base sequences of DNA, the correct estimation of entropy might play a role in revealing information contents of biological functioning in DNA sequences.

주제어

학위논문 정보

저자	최지영
학위수여기관	仁濟大學校大學院
학위구분	국내석사
학과	의생명정보학과 의생명정보학전공
발행연도	2003
총페이지	iv, 56p.
키워드	Genome 게놈 엔트로피 DNA 서열
언어	kor
원문 URL	http://www.riss.kr/link?id=T9416465&outLink=K
정보원	한국교육학술정보원

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명(한글), 저자명(한글), 학위수여기관, 학위연도, 학위구분, 학과, 총페이지, 키워드, 초록(한글), 초록(영문) 관리번호, 논문명(한글), 논문명(영문), 저자명(한글), 저자명(영문), 학위수여기관, 학위연도, 학위구분, 학과, 총페이지, 키워드, 초록(한글), 초록(영문)
저장형식	Text(ASCII format) Excel format
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

Genome 서열의 부호 엔트로피 분석
Symbol entropy analysis of genome sequence 원문보기

초록 ▼
AI-Helper

Abstract ▼ AI-Helper

주제어

학위논문 정보

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

Genome 서열의 부호 엔트로피 분석 Symbol entropy analysis of genome sequence 원문보기

초록 ▼ 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

학위논문 정보

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

Genome 서열의 부호 엔트로피 분석
Symbol entropy analysis of genome sequence 원문보기

초록 ▼
AI-Helper