원핵생물체의 생명유지에 중요한 역할을 담당하는 유전자들을 밝히기 위해 미생물 유전체들 사이의 공통적 유전자를 파악하는 COG알고리즘을 이용하였다. 원핵생물 711종 모두에 보존적인 것은 COG0080 (Ribosomal protein L11) 1개였다. 708종 이상의 원핵생물에 보존적인 22개의 ortholog 중 전사관련 2개, tRNA synthetase 관련4개, ribosamal large subunit 8개, ribosomal small subunit 7개였다. 700종 이상의 원핵생물에 보존적인 COG는 58개였다. 이중 리보좀을 구성하는 소단위체 등 번역 관련 COG가 50개(86.2%), 전사관련 COG가 4개(6.9%)로 나타나 생명현상에서의 단백질의 중요성을 알 수 있었다. 58개의 COG 중 보존성은 COG0060 (Isoleucyl tRNA synthetase)이 가장 높았고 COG0143 (Methionyl tRNA synthetase)이 가장 낮았다. 문(phylum)과 강(class) 수준에서 보존적 유전자들의 평균과 분산으로 유전체 분석을 수행한 결과 변이가 큰 고세균은 진정세균과 구분되었으며 편차는 일부 진정세균이 고세균보다 컸다. 보존적 유전자를 탐색하는 본 연구의 기법은 기초과학 연구와 함께 항균제 개발과 항암요법 개발 등에도 유용할 것이다.
원핵생물체의 생명유지에 중요한 역할을 담당하는 유전자들을 밝히기 위해 미생물 유전체들 사이의 공통적 유전자를 파악하는 COG 알고리즘을 이용하였다. 원핵생물 711종 모두에 보존적인 것은 COG0080 (Ribosomal protein L11) 1개였다. 708종 이상의 원핵생물에 보존적인 22개의 ortholog 중 전사관련 2개, tRNA synthetase 관련4개, ribosamal large subunit 8개, ribosomal small subunit 7개였다. 700종 이상의 원핵생물에 보존적인 COG는 58개였다. 이중 리보좀을 구성하는 소단위체 등 번역 관련 COG가 50개(86.2%), 전사관련 COG가 4개(6.9%)로 나타나 생명현상에서의 단백질의 중요성을 알 수 있었다. 58개의 COG 중 보존성은 COG0060 (Isoleucyl tRNA synthetase)이 가장 높았고 COG0143 (Methionyl tRNA synthetase)이 가장 낮았다. 문(phylum)과 강(class) 수준에서 보존적 유전자들의 평균과 분산으로 유전체 분석을 수행한 결과 변이가 큰 고세균은 진정세균과 구분되었으며 편차는 일부 진정세균이 고세균보다 컸다. 보존적 유전자를 탐색하는 본 연구의 기법은 기초과학 연구와 함께 항균제 개발과 항암요법 개발 등에도 유용할 것이다.
A COG (Cluster of Orthologous Groups of proteins) algorithm was applied to detect conserved genes in 711 prokaryotes. Only COG0080 (ribosomal protein L11) was common among all the 711 prokaryotes analyzed and 58 COGs were common in more than 700 prokaryotes. Nine COGs among 58, including COG0197 (en...
A COG (Cluster of Orthologous Groups of proteins) algorithm was applied to detect conserved genes in 711 prokaryotes. Only COG0080 (ribosomal protein L11) was common among all the 711 prokaryotes analyzed and 58 COGs were common in more than 700 prokaryotes. Nine COGs among 58, including COG0197 (endonuclease III) and COG0088 (ribosomal protein L4), were conserved in a form of one gene per one organism. COG0008 represented 1356 genes in 709 of the prokaryotes and this was the highest number of genes among 58 COGs. Twenty-two COGs were conserved in more than 708 prokaryotes. Of these, two were transcription related, four were tRNA synthetases, eight were large ribosomal subunits, seven were small ribosomal subunits, and one was translation elongation factor. Among 58 conserved COGs in more than 700 prokaryotes, 50 (86.2%) were translation related, and four (6.9%) were transcription related, pointing to the importance of protein-synthesis in prokaryotes. Among these 58 COGs, the most conserved COG was COG0060 (isoleucyl tRNA synthetase), and the least conserved was COG0143 (methionyl tRNA synthetase). Archaea and eubacteria were discriminated in the genomic analysis by the average distance and variation in distance of common COGs. The identification of these conserved genes could be useful in basic and applied research, such as antibiotic development and cancer therapeutics.
A COG (Cluster of Orthologous Groups of proteins) algorithm was applied to detect conserved genes in 711 prokaryotes. Only COG0080 (ribosomal protein L11) was common among all the 711 prokaryotes analyzed and 58 COGs were common in more than 700 prokaryotes. Nine COGs among 58, including COG0197 (endonuclease III) and COG0088 (ribosomal protein L4), were conserved in a form of one gene per one organism. COG0008 represented 1356 genes in 709 of the prokaryotes and this was the highest number of genes among 58 COGs. Twenty-two COGs were conserved in more than 708 prokaryotes. Of these, two were transcription related, four were tRNA synthetases, eight were large ribosomal subunits, seven were small ribosomal subunits, and one was translation elongation factor. Among 58 conserved COGs in more than 700 prokaryotes, 50 (86.2%) were translation related, and four (6.9%) were transcription related, pointing to the importance of protein-synthesis in prokaryotes. Among these 58 COGs, the most conserved COG was COG0060 (isoleucyl tRNA synthetase), and the least conserved was COG0143 (methionyl tRNA synthetase). Archaea and eubacteria were discriminated in the genomic analysis by the average distance and variation in distance of common COGs. The identification of these conserved genes could be useful in basic and applied research, such as antibiotic development and cancer therapeutics.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
보존적 유전자(conservative gene)를 강 등[7]과 이 등[10]이 보고하였지만 유전체 개수가 각각 43개와 66개로 현재의 711 개와 큰 차이가 있으며, 효모 등의 진핵미생물이 본 연구에서는 빠졌으며, COG 개수도 현재와 차이를 보여 보존적 유전자 에 대한 재정립이 필요하다 할 수 있다. 따라서 본 논문에서는 2015년 현재 711종의 원핵생물 유전체에서 유지되고 있는 보 존적 유전자들의 종류와 기능[11] 그리고 보존성의 정도를 파 악하고자 하였다.
제안 방법
711종의 원핵생물 사이에 공통적으로 함유하는 보존적 COG에 속하는 단백질들의 서열을 NCBI 공개 데이터베이스 에서 추출하고, 각 보존적 COG에 속하는 단백질들은 ClustalX (ver. 2.1) 프로그램을 이용한 다중서열비교를 수행한 후 boot- strap NJ method (n=200)를 통해 distance value를 담고 있는 ‘*.phb’ 파일을 작성하였다[8].
분석대상 711종 원핵생물 사이에서 공통적으로 발견되는 4, 631개의 COG 중에서 700개 이상의 원핵생물이 공통적으로 보유하는 58개의 COG (Table 2)가 나타내는 distance value의 평균과 편차를 각 원핵생물에 대하여 구하였다. 각 원핵생물 이 나타내는 평균과 분산을 Creanarchaeota, Acidobcteria 등의 문(phylum) 혹은 Bacilli, alpha-Proteobacteria 등 강(class) 수준으로(Table 1) 처리하여 표시하였다.
원핵생물 유전체의 유전자 유사성에 관한 자료는 COGs에서 정리된 자료를 이용하였다[3]. 각 원핵생물이 함유하고 있는 COG 자료를 확보하였고, 711개의 원핵생물 전체가 공통적 으로 보유하고 있는 COG 종류 등도 파악하였다. 이들은 2015 년 1월 현재 711종의 원핵생물 유전체에 포함된 총 1, 962, 317 개의 유전자들을 4, 631개의 COG 그룹으로 분류해 놓았다[4].
유전체의 보존성 분석
분석대상 711종 원핵생물 사이에서 공통적으로 발견되는 4, 631개의 COG 중에서 700개 이상의 원핵생물이 공통적으로 보유하는 58개의 COG (Table 2)가 나타내는 distance value의 평균과 편차를 각 원핵생물에 대하여 구하였다. 각 원핵생물 이 나타내는 평균과 분산을 Creanarchaeota, Acidobcteria 등의 문(phylum) 혹은 Bacilli, alpha-Proteobacteria 등 강(class) 수준으로(Table 1) 처리하여 표시하였다.
대상 데이터
원핵생물 유전체의 유전자 유사성에 관한 자료는 COGs에서 정리된 자료를 이용하였다[3]. 각 원핵생물이 함유하고 있는 COG 자료를 확보하였고, 711개의 원핵생물 전체가 공통적 으로 보유하고 있는 COG 종류 등도 파악하였다.
데이터처리
phb’ 파일을 작성하였다[8]. Phylodraw 프로그램(ver 0.8)을 이용하여 각 단백질의 distance value를 구하였고, distance value를 포함한 자료의 분석과 정리에는 엑셀 프로그램을 이용하였다.
성능/효과
66종의 미생물 모두에서 발견된 COG와 711종 중 700개 이상의 원핵생물 종에서 파악한 본 연구결과를 비교하면 기존의 COG번호를 유지하면서 기능만 재분류된 것은 4개였다. COG0037이 cell cycle control 등의 기능에서 tRNA synthe- tase로, COG0361이 translation elongation factor에서 trans- lation initiation factor로, COG0480이 translation initiation factor에서 translation elongation factor로, 그리고 COG0533 이 chaperon 활성을 보이는 protease에서 번역(translation)관 련하여 ANN 코돈의 인식을 돕는 tRNA A37 threonylcarba- moyltransferase TsaD로 재분류되었다.
709종 이상의 원핵생물에서 발견되는 13개의 ortholog 중 COG0085와 COG0086은 RNA polymerase의 구성성분이며 COG0525와 COG0008은 tRNA synthetase이고 나머지 9개는 ribosomal large subunit들이었다. 708종에 보존적인 9종류의 ortholog들을 보면 COG0013과 COG0495는 tRNA synthetase 이고 COG0094와 COG0093은 ribosomal large subunit들이고 나머지 5개는 ribosomal small subunit들이었다. 즉 708종 이상의 원핵생물에 보존적인 22개의 ortholog 중에 전사에 관련 하여 2개, tRNA synthetase 관련 4개, ribosamal large subunit 가 8개, ribosomal small subunit가 7개로 단백질합성에 관련된 ortholog 들이 분석대상 대부분의 원핵생물에서 보존적인 것을 알 수 있었다.
709종 이상의 원핵생물에서 발견되는 13개의 ortholog 중 COG0085와 COG0086은 RNA polymerase의 구성성분이며 COG0525와 COG0008은 tRNA synthetase이고 나머지 9개는 ribosomal large subunit들이었다. 708종에 보존적인 9종류의 ortholog들을 보면 COG0013과 COG0495는 tRNA synthetase 이고 COG0094와 COG0093은 ribosomal large subunit들이고 나머지 5개는 ribosomal small subunit들이었다.
711종 중에서 해당 COG를 보유하지 않은 원 핵생물은 COG0525의 경우 beta-Proteobacteria 강(class)의 Candidatus Nasuia deltocephalinicola str. NAS-ALF, COG0197 은 Acidobacteria 문(phylum)의 Chloracidobacterium thermo- philum B, COG0480은 Synergistetes 문의 Fretibacterium fastid- iosum, COG0085는 beta-Proteobacteria 강의 Advenella kash- mirensis WT001 균주였다.
전체 분석 대상 711종의 원핵생물 모두에 보존적인 COG는 COG0080 (Ribosomal protein L11) 뿐이었고, 이는 리보솜의 구성성분일 뿐만 아니라 원핵생물의 스트레스 환경에서 발현되는 sigma factor의 활성화에 관여하는 등[17] 다양한 기능을 수행한다. 그리고 분석대상 원핵생물 모두에서 발견되어 이들의 생존에 필수적인 것을 알 수 있었다. 분석대상 모두에 보존적인 유전 자의 수는 43종의 미생물에서 72개[7], 66종의 미생물에서 62 개였는데[10] 본 연구에서는 711종의 원핵생물에서 1개로 나타났다.
Creanar- chaeota 등 각 문(phylum)을 구성하는 생물종들의 평균이 나타내는 표준편차를 감안하면 고세균 사이에서는 차이가 크지 않아 어느 문(phylum)의 변이가 적은 지 즉 보존적인지 확실 하지 않은데 이 등[10]은 수평적 유전자 전달(horizontal gene transfer) 등 진화의 부정확한 bifurcating에 의한 것으로 토의 하였다. 두 번째 특징은 편차의 범위가 고세균에 비해 진정세 균이 크며 둘 사이에 편차의 평균은 큰 차이가 없었다. 수평적 유전자 전달에 의해 하나의 유전체에 존재하는 각 유전자들이 큰 편차를 보일 수 있다[1, 10].
한편, Mollicutes 강은 COGs에서는 Firmicutes 문 에 속하게 분류하였지만 NCBI의 taxanomy browser에서는 Tenericutes 문에 속하는 것으로 분류되어 있는데[6] 서로 다른 문이라면 평균과 편차의 차이는 특이적 사항이 아닐 수도 있을 것이다. 마지막 특징은 각 분류 단위를 구성하는 유전체 의 수와 유전체 변이의 정도는 비례하지 않는 것으로 나타났다. 즉 각각 7개와 10개의 유전체로 구성된 Spirochetes (Fig.
본 연구에서 파악된 58개의 보존적 유전자는 원핵생물의 생명을 유지하는데 중요한 역할을 담당하는 것으로, 이들이 원시 생명체의 종분화(speciation) 이전부터 유지된 것인지 환 경 변화에 따라 유전자 추가 등으로 적응한 것인지 혹은 or- tholog가 아닌 유전자에 의해 기능이 대체되는 유전자의 기능 대체현상(gene displacement)에 의한 것인지 알 수 없지만 현재 지구의 환경에서는 필요한 유전자라고 할 수 있을 것이다. 추후 원핵생물 등 생명체의 진화 과정에서 이 유전자들이 보 존된 이유와 기능적 연계에 대한 생물학적 연구에 기초 자료를 제공할 수 있을 것이며 항균제 개발[12] 및 항암치료제 개발 과 면역조절 분야에서도 이용할 수 있을 것이다[2, 18].
각 COG의 구성원들의 변이로 나타나는 distance value의 합이 낮다는 것은 각 종들 간의 아미노산 서열 차이가 작다는 것으로 보존성이 높다는 것을 의미한다[7, 10]. 분석대상 58개의 COG 중 변이가 가장 적은 즉 보존성이 가장 높은 COG는 Isoleucyl-tRNA synthetase (COG0060) 였고 보존성이 가장 낮은 COG는 Methionyl-tRNA synthetase (COG0143)였다.
2%)로 나타났다. 분석대상 모두에 보존적인 COG는 COG0080 하나뿐이지만, 진핵미생물 3종 등 총 66종의 미생물 모두에서 공통적인 COG 62개 중 52개(82.5%)가 번역에 관련된 것과 본 연구의 700개 이상의 원핵생물에 보존적인 COG들 을 비교하면 번역에 관련된 유전자의 비율이 높아진 것으로 나타났다. 이 등[10]은 물질대사와 자기복제 등 생명체의 가장 큰 특징을 유지하기 위한 유전자들이 미생물들 사이에 보존적 인 것으로 보고하였고 특히 물질대사를 담당하는 단백질들의 합성관련 유전자들의 보존비율이 아주 높아 원시생명체부터 생명체들은 물질대사를 주로 수행하는 것으로 유추하였다.
생물종의 수와 단백질의 수가 일치하는 즉 하나의 생물종에 하나의 유전자가 있는 COG는 COG0197, COG0088 등 9개였 고 COG0008은 709개의 생물종에 1, 356개의 유전자로 가장 많았다. 10, 000개 이상의 유전자로 구성된 COG가 5개이고 3, 000~9, 000개 정도의 유전자를 갖는 COG가 55개 이상인 것 [4]과 비교하면 보존적 유전자들의 COG는 개수가 적은 편이 었다(Table 2).
Chlorobi 문(phylum)은 절대혐기성세균으로 광독립영양을 하는 반면 Spirochaeres 문(phylum)은 종속영양을 하며 대부분 혐기성 세균으로 구성되어 있다[5]. 세번째 특징은 Firmicutes와 Proteobacteria 문(phylum)에 속하는 여러 개의 강(class)이 존 재하는데 분포에서 서로 인접하지 않고 차이를 보였다. 이러한 양상은 Proteobacteria에 속하는 alpha-Proteobacteria 등 5개의 강(class)이 나타내는 분포에 비해 Firmicutes가 더 크게 나타났다.
세번째 특징은 Firmicutes와 Proteobacteria 문(phylum)에 속하는 여러 개의 강(class)이 존 재하는데 분포에서 서로 인접하지 않고 차이를 보였다. 이러한 양상은 Proteobacteria에 속하는 alpha-Proteobacteria 등 5개의 강(class)이 나타내는 분포에 비해 Firmicutes가 더 크게 나타났다. 즉 Bacilli 강(Fig.
Table 2는 711종 원핵생물 중 700종 이상의 원핵생물에서 보존적인 것으로 나타난 총 58개의 COG들을 보유 생물수, COG 번호, 구성하는 유전자 개수로 정리한 것이다. 전체 분석 대상 711종의 원핵생물 모두에 보존적인 COG는 COG0080 (Ribosomal protein L11) 뿐이었고, 이는 리보솜의 구성성분일 뿐만 아니라 원핵생물의 스트레스 환경에서 발현되는 sigma factor의 활성화에 관여하는 등[17] 다양한 기능을 수행한다. 그리고 분석대상 원핵생물 모두에서 발견되어 이들의 생존에 필수적인 것을 알 수 있었다.
708종에 보존적인 9종류의 ortholog들을 보면 COG0013과 COG0495는 tRNA synthetase 이고 COG0094와 COG0093은 ribosomal large subunit들이고 나머지 5개는 ribosomal small subunit들이었다. 즉 708종 이상의 원핵생물에 보존적인 22개의 ortholog 중에 전사에 관련 하여 2개, tRNA synthetase 관련 4개, ribosamal large subunit 가 8개, ribosomal small subunit가 7개로 단백질합성에 관련된 ortholog 들이 분석대상 대부분의 원핵생물에서 보존적인 것을 알 수 있었다.
마지막 특징은 각 분류 단위를 구성하는 유전체 의 수와 유전체 변이의 정도는 비례하지 않는 것으로 나타났다. 즉 각각 7개와 10개의 유전체로 구성된 Spirochetes (Fig. 1의 W)와 epsilon-Proteobacteria (U)가 49개 유전체인 Clostri- dia (K), 33개 유전체인 Bacilli (I), 55개 유전체인 Bacteroidetes 에 비해 변이의 평균과 편차가 모두 높게 나타났다.
후속연구
문(phylum)이나 강(class) 수준이 아닌 개별 생물종(species) 수준에서는 고세균의 Thaumarchaeota에 속하는 Candidatus Nitrosopumilus koreensis AR1이 최대의 변이 평균을 보였으며 Clostridia 강의 Thermincola potens JR가 최저의 변이 평균을 보였는데 개별 생물체에 대한 연구가 추가로 필요할 것으로 판단되었다.
보존적 유전자(conservative gene)를 강 등[7]과 이 등[10]이 보고하였지만 유전체 개수가 각각 43개와 66개로 현재의 711 개와 큰 차이가 있으며, 효모 등의 진핵미생물이 본 연구에서는 빠졌으며, COG 개수도 현재와 차이를 보여 보존적 유전자 에 대한 재정립이 필요하다 할 수 있다. 따라서 본 논문에서는 2015년 현재 711종의 원핵생물 유전체에서 유지되고 있는 보 존적 유전자들의 종류와 기능[11] 그리고 보존성의 정도를 파 악하고자 하였다.
본 연구에서 파악된 58개의 보존적 유전자는 원핵생물의 생명을 유지하는데 중요한 역할을 담당하는 것으로, 이들이 원시 생명체의 종분화(speciation) 이전부터 유지된 것인지 환 경 변화에 따라 유전자 추가 등으로 적응한 것인지 혹은 or- tholog가 아닌 유전자에 의해 기능이 대체되는 유전자의 기능 대체현상(gene displacement)에 의한 것인지 알 수 없지만 현재 지구의 환경에서는 필요한 유전자라고 할 수 있을 것이다. 추후 원핵생물 등 생명체의 진화 과정에서 이 유전자들이 보 존된 이유와 기능적 연계에 대한 생물학적 연구에 기초 자료를 제공할 수 있을 것이며 항균제 개발[12] 및 항암치료제 개발 과 면역조절 분야에서도 이용할 수 있을 것이다[2, 18].
참고문헌 (18)
Bapteste, E., Boucher, Y., Leigh, J. and Doolittle, W. F. 2004. Phylogenetic reconstruction and lateral gene transfer. Trends Microbiol. 12, 406-411.
Bhat, K. P., Itahana, K., Jin, A. and Zhang, Y. 2004. Essential role of ribosomal protein L11 in mediating growth inhibition-induced p53 activation. EMBO J. 23, 2402-2412.
Galperin, M. Y., Makarova, K. S., Wolf, Y. I. and Koonin, E. V. 2015. Expanded microbial genome coverage and improved protein family annotation in the COG database. Nucleic Acids Res. 43, D261-D269.
Kang, H. Y., Shin, C. J., Kang, B. C., Park, J. H., Shin, D. H., Choi, J. H., Cho, H. G., Cha, J. H., Lee, D. G., Lee, J. H., Park, H. K. and Kim, C. M. 2002. Investigation of conserved gene in microbial genomes using in silico analysis. J. Life Sci. 5, 610-621.
Kimura, M. 1983. The neutral theory of molecular evolution. Cambridge University Press.
Kristensen, D. M., Waller, A. S., Yamada, T, Bork, P., Mushegian, A. R. and Koonin, E. V. 2013. Orthologous gene clusters and taxon signature genes for viruses of prokaryotes. J. Bacteriol. 195, 941-950.
Lee, D. G., Lee, J. H., Lee, S. H., Ha, B. J., Kim, C. M., Shim, D. H., Park, E. K., Kim, J. W., Li, H. Y., Nam, C. S., Kim, N. Y., Lee, E. J., Back, J. W. and Ha, J. M. 2005. Investigation of conserved genes in microorganism. J. Life Sci. 15, 261-266.
Lee, D. G., Kang, H. Y., Lee, J. H. and Kim, C. M. 2003.Detection of conserved genes in proteobacteria by using a COG algorithm. Kor. J. Biotechnol. Bioeng. 17, 560-565.
Reddy, P. J., Ray, S., Sathe, G. J., Gajbhiye, A., Prasad, T. S., Rapole, S., Panda, D. and Srivastava, S. 2015. A comprehensive proteomic analysis of totarol induced alterations in Bacillus subtilis by multipronged quantitative proteomics. J. Proteomics. 30, 247-262.
Tatusov, R. L., Koonin, E. V. and Lipman, D. L. 1997. A genomic perspective on protein families. Science 278, 631-637.
Tatusov, R. L., Fedorova, N. D., Jackson, J. D., Jacobs, A. R., Kiryutin, B., Koonin, E. V., Krylov, D. M., Mazumder, R., Mekhedov, S. L., Nikolskaya, A. N., Rao, B. S., Smirnov, S., Sverdlov, A. V., Vasudevan, S., Wolf, Y. I., Yin, J. J. and Natale, D. A. 2003. The COG database: an updated version includes eukaryotes. BMC Bioinf. 4, 41.
Vishwanath, P., Favaretto, P., Hartman, H., Mohr, S. C. and Smith, T. F. 2004. Ribosomal protein-sequence block structure suggests complex prokaryotic evolution with implications for the origin of eukaryotes. Mol. Phylogenet. Evol. 33, 615-625.
Wolf, Y. I., Makarova, K. S., Yutin, N. and Koonin, E. V. 2012. Updated clusters of orthologous genes for Archaea: a complex ancestor of the Archaea and the byways of horizontal gene transfer. Biol. Direct. 7, 46.
Zhang, S., Scott, J. M. and Haldenwang, W. G. 2001. Loss of ribosomal protein L11 blocks stress activation of the Bacillus subtilis transcription factor sigma(B). J. Bacteriol. 183, 2316-2321.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.