유전자 조작 기술과 서열 결정기술의 발전으로 DNA서열의 데이터베이스는 급속도록 거대해지고 있다. 이렇게 거대해진 서열정보에서 고전적으로 실험적인 방법만으로는 유용한 정보를 이끌어 내는 것은 힘든 일이다. 좀더 이론적인 분석 방법의 개발이 더욱 중요하게 되었다. 본 연구에서는 매트랩을 사용하여 NCBI (National Center for Biotechnology ...
유전자 조작 기술과 서열 결정기술의 발전으로 DNA서열의 데이터베이스는 급속도록 거대해지고 있다. 이렇게 거대해진 서열정보에서 고전적으로 실험적인 방법만으로는 유용한 정보를 이끌어 내는 것은 힘든 일이다. 좀더 이론적인 분석 방법의 개발이 더욱 중요하게 되었다. 본 연구에서는 매트랩을 사용하여 NCBI (National Center for Biotechnology Information, http://www.ncbi.nlm.nih.gov/)에서 제공하는 전체 게놈이 밝혀진 박테리아 20종의 DNA서열의 정보와 진핵세포의 유전자 DNA서열 정보를 얻었다. DNA 서열은 Adenine(A), Cytosine(C), Guanine(G), Thymine(T)로 불리는 4개의 염기로 구성되어 있다. DNA서열의 특징적인 서열들은 4개의 염기의 분류화 부호화 서열을 정의할 수 있다. 첫 번째 분류는 4개의 염기 A, C, G, T를 화학적 구조에 따라 purine "1"={A, G}, pyrimidine "0"= {C, T}으로 나눌 수 있다. 게다가 수소결합의 강도에 따라 약한 수소결합 "1"= {A, T}, 그리고 강한 수소 결합 "0"= {G, C}로 분류 할 수 있다. 화학적 구조와 수소곁합의 강도를 조합하여 4개의 염기를 A=[1 1]="3", G=[1 0]="2", T=[0 1]="1" C= [0 0]="0"로 부호화 값을 주었다. 이런 방법으로 부호화 서열을 만들고, 세 개의 연속된 부호를 사용하여 하나의 워드를 구성하였다. 우리는 게놈이 완전히 밝혀진 박테리아 DNA 서열에서 보정된 정보 엔트로피, 워드의 엔트로피 분포율, 복잡도를 계산하였다. DNA서열은 무작위적으로 보이지만, 박테리아에서 단백질 코딩 서열이 논 코딩 서열보다 높은 엔트로피 값을 가진다. 또한 단백질 논 코딩 지역의 엔트로피 값을 사용하여 박테리아의 카테고리를 통계적으로 유의하게 구분 할 수 있다. 진핵 세포의 유전자와 인트론 DNA서열에서 유전자의 DNA서열이 인트론의 DNA서열보다 높은 엔트로피 값을 가진다. DNA염기 서열의 질서 상태와 상관율을 정량화 시킨 정보 엔트로피의 양으로 DNA서열에서 생물학적 기능과 관계있는 정보를 구분하는 역할을 할 수 있다.
유전자 조작 기술과 서열 결정기술의 발전으로 DNA서열의 데이터베이스는 급속도록 거대해지고 있다. 이렇게 거대해진 서열정보에서 고전적으로 실험적인 방법만으로는 유용한 정보를 이끌어 내는 것은 힘든 일이다. 좀더 이론적인 분석 방법의 개발이 더욱 중요하게 되었다. 본 연구에서는 매트랩을 사용하여 NCBI (National Center for Biotechnology Information, http://www.ncbi.nlm.nih.gov/)에서 제공하는 전체 게놈이 밝혀진 박테리아 20종의 DNA서열의 정보와 진핵세포의 유전자 DNA서열 정보를 얻었다. DNA 서열은 Adenine(A), Cytosine(C), Guanine(G), Thymine(T)로 불리는 4개의 염기로 구성되어 있다. DNA서열의 특징적인 서열들은 4개의 염기의 분류화 부호화 서열을 정의할 수 있다. 첫 번째 분류는 4개의 염기 A, C, G, T를 화학적 구조에 따라 purine "1"={A, G}, pyrimidine "0"= {C, T}으로 나눌 수 있다. 게다가 수소결합의 강도에 따라 약한 수소결합 "1"= {A, T}, 그리고 강한 수소 결합 "0"= {G, C}로 분류 할 수 있다. 화학적 구조와 수소곁합의 강도를 조합하여 4개의 염기를 A=[1 1]="3", G=[1 0]="2", T=[0 1]="1" C= [0 0]="0"로 부호화 값을 주었다. 이런 방법으로 부호화 서열을 만들고, 세 개의 연속된 부호를 사용하여 하나의 워드를 구성하였다. 우리는 게놈이 완전히 밝혀진 박테리아 DNA 서열에서 보정된 정보 엔트로피, 워드의 엔트로피 분포율, 복잡도를 계산하였다. DNA서열은 무작위적으로 보이지만, 박테리아에서 단백질 코딩 서열이 논 코딩 서열보다 높은 엔트로피 값을 가진다. 또한 단백질 논 코딩 지역의 엔트로피 값을 사용하여 박테리아의 카테고리를 통계적으로 유의하게 구분 할 수 있다. 진핵 세포의 유전자와 인트론 DNA서열에서 유전자의 DNA서열이 인트론의 DNA서열보다 높은 엔트로피 값을 가진다. DNA염기 서열의 질서 상태와 상관율을 정량화 시킨 정보 엔트로피의 양으로 DNA서열에서 생물학적 기능과 관계있는 정보를 구분하는 역할을 할 수 있다.
With development of the techniques in gene cloning and sequences manipulation, the DNA sequence database becomes rapidly huge. Doing DNA sequence analysis only using the conventional experimental method does not sufficiently access and fully utilize the huge genome database. Hence it becomes very im...
With development of the techniques in gene cloning and sequences manipulation, the DNA sequence database becomes rapidly huge. Doing DNA sequence analysis only using the conventional experimental method does not sufficiently access and fully utilize the huge genome database. Hence it becomes very important to improve new theoretical and computational methods. In this study we obtained 20 species DNA sequences of complete genomes of bacteria and gene DNA sequences of eukaryote from NCBI(National Center for Biotechnology Information http://www.ncbi.nlm.nih.gov/) using Matlab. A DNA sequence can be identified with a word over the four nucleic acid bases: adenine, guanine, cytosine, and thymine. Characteristic sequences of a DNA sequence are defined as symbolic sequences in term of classifications of bases. In primary classification, the four bases A, C, G, T can be divided into two classes according to their chemical structures, i.e., purine "1" = {A, G}, and pyrimidine "0" = {C,T}. Further classification can be also made according to the strength of the hydrogen bond, i.e., weak H-bonds "1" = {A, T}, and strong H-bonds "0" = {G, C} Combination of chemical structure and Hydrogen bond strength leads to symbol values for four bases; A=[1 1]="3" , G=[1 0]="2", T=[0 1]="1", C=[0 0]="0". In this way we made a symbol sequence, and constructed a word using consecutive three symbols. We calculated the corrected information entropy, entropy rate and complexity of a distribution of words in complete genome of bacteria. Although all the DNA sequences look like random sequences, we found that coding sequences have higher entropy value than non-coding sequences in bacteria. It is also statistically significantly possible to classify categories of bacteria using values of entropies in non-coding region. In the case of DNA sequences of genes and introns in eukaryote, gene DNA sequences have higher entropy value than intron DNA sequences. Since information entropy quantifies the order state and the rate of correlations in base sequences of DNA, the correct estimation of entropy might play a role in revealing information contents of biological functioning in DNA sequences.
With development of the techniques in gene cloning and sequences manipulation, the DNA sequence database becomes rapidly huge. Doing DNA sequence analysis only using the conventional experimental method does not sufficiently access and fully utilize the huge genome database. Hence it becomes very important to improve new theoretical and computational methods. In this study we obtained 20 species DNA sequences of complete genomes of bacteria and gene DNA sequences of eukaryote from NCBI(National Center for Biotechnology Information http://www.ncbi.nlm.nih.gov/) using Matlab. A DNA sequence can be identified with a word over the four nucleic acid bases: adenine, guanine, cytosine, and thymine. Characteristic sequences of a DNA sequence are defined as symbolic sequences in term of classifications of bases. In primary classification, the four bases A, C, G, T can be divided into two classes according to their chemical structures, i.e., purine "1" = {A, G}, and pyrimidine "0" = {C,T}. Further classification can be also made according to the strength of the hydrogen bond, i.e., weak H-bonds "1" = {A, T}, and strong H-bonds "0" = {G, C} Combination of chemical structure and Hydrogen bond strength leads to symbol values for four bases; A=[1 1]="3" , G=[1 0]="2", T=[0 1]="1", C=[0 0]="0". In this way we made a symbol sequence, and constructed a word using consecutive three symbols. We calculated the corrected information entropy, entropy rate and complexity of a distribution of words in complete genome of bacteria. Although all the DNA sequences look like random sequences, we found that coding sequences have higher entropy value than non-coding sequences in bacteria. It is also statistically significantly possible to classify categories of bacteria using values of entropies in non-coding region. In the case of DNA sequences of genes and introns in eukaryote, gene DNA sequences have higher entropy value than intron DNA sequences. Since information entropy quantifies the order state and the rate of correlations in base sequences of DNA, the correct estimation of entropy might play a role in revealing information contents of biological functioning in DNA sequences.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.