게놈분석이 완료된 680개의 세균의 공통 유전자 보유 정도와 유연관계를 파악하기 위해 4,631개의 COG (Clusters of Orthologous Groups of protein) 보유 유사도와 COG 보유 계통수를 작성하여 다음과 같은 결과를 얻었다. 균주별 COG 보유개수는 103~2,199개 사이였고 평균 1377.1개 였다. 곤충과 절대공생성인 Candidatus Nasuia deltocephalinicola str. NAS-ALF가 최저였고 기회성병원균인 Pseudomonas aeruginosa PAO1가 최대였다. 2개의 세균들 사이에 나타내는 COG 보유 유무의 유사도는 49.30~99.78% 사이였고 평균 72.65%였다. 초고온성이며 자가영양생활을 하는 Methanocaldococcus jannaschii DSM 2661과 중온성이며 공생생활을 하는 Mesorhizobium loti MAFF303099 사이가 최소였다. 유전자 보유 정도가 생물이 각 서식지에 적응하는 정도를 나타내므로 이 결과는 원핵생물 진화의 역사 혹은 현재 지구의 원핵생물 서식지 범위를 나타내는 것일 수도 있다. COG 보유계통수를 통하여 첫째 진정세균인 Chloroflexi문의 일부는 진정세균보다 고세균과 유연관계가 높았고, 둘째 16S rRNA유전자에서 동일한 문(phylum)이나 강(class)으로 분류되지만 COG 보유 계통수에서는 일치하지 않는 경우가 많았으며, 셋째 delta-와 epsilon-Proteobacteria는 다른 Proteobacteria와 다른 분계(lineage)를 이루었다. 본 연구결과는 생물의 기원 파악과 기능적 연관성 파악 그리고 유용유전자 탐색 등에 이용할 수 있을 것이다.
게놈분석이 완료된 680개의 세균의 공통 유전자 보유 정도와 유연관계를 파악하기 위해 4,631개의 COG (Clusters of Orthologous Groups of protein) 보유 유사도와 COG 보유 계통수를 작성하여 다음과 같은 결과를 얻었다. 균주별 COG 보유개수는 103~2,199개 사이였고 평균 1377.1개 였다. 곤충과 절대공생성인 Candidatus Nasuia deltocephalinicola str. NAS-ALF가 최저였고 기회성병원균인 Pseudomonas aeruginosa PAO1가 최대였다. 2개의 세균들 사이에 나타내는 COG 보유 유무의 유사도는 49.30~99.78% 사이였고 평균 72.65%였다. 초고온성이며 자가영양생활을 하는 Methanocaldococcus jannaschii DSM 2661과 중온성이며 공생생활을 하는 Mesorhizobium loti MAFF303099 사이가 최소였다. 유전자 보유 정도가 생물이 각 서식지에 적응하는 정도를 나타내므로 이 결과는 원핵생물 진화의 역사 혹은 현재 지구의 원핵생물 서식지 범위를 나타내는 것일 수도 있다. COG 보유계통수를 통하여 첫째 진정세균인 Chloroflexi문의 일부는 진정세균보다 고세균과 유연관계가 높았고, 둘째 16S rRNA유전자에서 동일한 문(phylum)이나 강(class)으로 분류되지만 COG 보유 계통수에서는 일치하지 않는 경우가 많았으며, 셋째 delta-와 epsilon-Proteobacteria는 다른 Proteobacteria와 다른 분계(lineage)를 이루었다. 본 연구결과는 생물의 기원 파악과 기능적 연관성 파악 그리고 유용유전자 탐색 등에 이용할 수 있을 것이다.
To determine the degree of common genes and the phylogenetic relationships among genome-sequenced 680 prokaryotes, the similarities among 4,631 clusters of orthologous groups of protein (COGs)’ presence/ absence and gene content trees were analyzed. The number of COGs was in the range of 103&...
To determine the degree of common genes and the phylogenetic relationships among genome-sequenced 680 prokaryotes, the similarities among 4,631 clusters of orthologous groups of protein (COGs)’ presence/ absence and gene content trees were analyzed. The number of COGs was in the range of 103–2,199 (mean 1377.1) among 680 prokaryotes. Candidatus Nasuia deltocephalinicola str. NAS-ALF, an obligate symbiont with insects, showed the minimum COG, while Pseudomonas aeruginosa PAO1, an opportunistic pathogen, represented the maximum COG. The similarities between two prokaryotes were 49.30–99.78 % (mean 72.65%). Methanocaldococcus jannaschii DSM 2661 (hyperthermophilic and autotrophic, Euryarchaeota phylum) and Mesorhizobium loti MAFF303099 (mesophilic and symbiotic, alpha-Proteobacteria class) had the minimum amount of similarities. As gene content may represent the potential for an organism to adapt to each habitat, this may represent the history of prokaryotic evolution or the range of prokaryotic habitats at present on earth. COG content trees represented the following. First, two members of Chloroflexi phylum (Dehalogenimonas lykanthroporepellens BL-DC-9 and Dehalococcoides mccartyi 195) showed a greater relationship with Archaea than other Eubacteria. Second, members of the same phylum or class in the 16S rRNA gene were separated in the COG content tree. Finally, delta- and epsilon-Proteobacteria were in different lineages with other Proteobacteria classes in neighbor-joining (NJ) and maximum likelihood (ML) trees. The results of this study would be valuable to identifying the origins of organisms, functional relationships, and useful genes.
To determine the degree of common genes and the phylogenetic relationships among genome-sequenced 680 prokaryotes, the similarities among 4,631 clusters of orthologous groups of protein (COGs)’ presence/ absence and gene content trees were analyzed. The number of COGs was in the range of 103–2,199 (mean 1377.1) among 680 prokaryotes. Candidatus Nasuia deltocephalinicola str. NAS-ALF, an obligate symbiont with insects, showed the minimum COG, while Pseudomonas aeruginosa PAO1, an opportunistic pathogen, represented the maximum COG. The similarities between two prokaryotes were 49.30–99.78 % (mean 72.65%). Methanocaldococcus jannaschii DSM 2661 (hyperthermophilic and autotrophic, Euryarchaeota phylum) and Mesorhizobium loti MAFF303099 (mesophilic and symbiotic, alpha-Proteobacteria class) had the minimum amount of similarities. As gene content may represent the potential for an organism to adapt to each habitat, this may represent the history of prokaryotic evolution or the range of prokaryotic habitats at present on earth. COG content trees represented the following. First, two members of Chloroflexi phylum (Dehalogenimonas lykanthroporepellens BL-DC-9 and Dehalococcoides mccartyi 195) showed a greater relationship with Archaea than other Eubacteria. Second, members of the same phylum or class in the 16S rRNA gene were separated in the COG content tree. Finally, delta- and epsilon-Proteobacteria were in different lineages with other Proteobacteria classes in neighbor-joining (NJ) and maximum likelihood (ML) trees. The results of this study would be valuable to identifying the origins of organisms, functional relationships, and useful genes.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
이 연구에서는 Lee 등[19]의 43개보다 훨씬 많은 680여개의 세균을 문(phylum)이나 강(class) 단위로 나누어 분석하지 않고 전체 생물종을 함께 분석하여 계통수를 작성하고 유전자보유계통수(gene content tree)의 양상을 분석하고자 하였다.
가설 설정
첫째, 보유 COG의 유사도가 나타내는 범위가 넓은 것을 서식환경으로 파악하여 서식환경이 완전히 다른 곳에 분포하는 3종 이상의 세균이 존재하면 서로간의 COG 유사도의 범위 (최대와 최소의 차이)가 넓어질 것이다. 이러한 경우 중 하나는 진화의 초기에 발생하여 초기 지구의 환경이 현재도 유사하게 유지되는 곳에서 계속 서식하는 세균과 초기 지구와 많이 달라진 환경에 적응하면서 생존한 세균까지 포함하여 3종 이상 이라면 서로간의 COG 유사도의 범위가 넓어질 것이다.
둘째, 반대로 보유 COG 유사도의 범위가 좁은 세균은 분석 대상 세균들이 검출된 여러 서식지들의 평균적인 곳에 서식하는 세균일 것으로 판단할 수 있다. 한가지 예로 원시부터 현재 까지 서식환경 변화의 평균적인 곳에 서식하는 세균은 원시지구의 형태를 유지하는 서식지와 가장 많이 변화한 서식지에서 검출된 두 가지 세균들과의 COG 유사도를 구하면 그 차이가 크지 않을 것이다. COG 유사도의 범위가 작은 상위 10개 세균 의 분류학적 위치는 Fig.
제안 방법
Table 1에 분석대상 세균 680종을 문과 강의 분류단위로 구분한 후 각 분류단위를 구성하는 세균들이 보유한 COG 수의 최소, 최대, 평균을 나타내었다. COG database에서 다운받은 파일들 사이에 오류가 있어 검증 후 최소로 보유한 것을 기준으로 정리하였다. 전체적으로 각 생물이 보유한 COG 개 수의 평균은 1, 377.
Table 1은 실제로 분석한 자료인 680종의 세균들의 문이 나 강 등의 분류학적 위치와 구성하는 생물종의 개수를 나타내고 있다. Proteobacteria와 Firmicutes 문은 강으로 나누어 분석하였다.
구성원의 수는 Bacillus 속만 4개의 종(species)이 있었고 나머지는 모두 2개의 종이었다. 그리고 Escherichia 속은 종까지 동일한 E. coli 균주 2개를 비교하였다. 유사도의 범위는 88.
유전자보유계통수(gene content tree)는 다른 taxonomy와 불일치현상을 보이는데, 원인으로는 유전자의 수평전달(hor- izontal transfer) 같은 비수직적 현상(nonvertical gene events), 계통수 작성 때의 부적합한 기준, 다른 크기의 게놈을 비교할 때의 오류 등이 있다[6, 27, 29, 34]. 부정확한 계통수를 방지하는 첫걸음은 정확한 유전자 사이의 상동성(homology) 확립이 중요한데[22] 본 연구에서는 확립된 상동성 개념인 COG의 보유유무를 기반으로 NJ, ML 등으로 계통수를 작성하였다. Chaffron 등[6]은 유전자의 수평전달과 세포 내 기생/공 생하면서 게놈크기가 작은 세균 등의 두 경우를 제외하면 16S rRNA 유전자의 계통수와 유전자보유계통수가 대개 일치한다.
분석대상 680 종의 고세균과 진정세균 각 구성원이 보유하는 COG는 보존적 유전자 탐색에서 구하였으며[21], 각 COG 의 보유유무에 따라 분석하였다. 즉 각 생물종이 4, 631개의 각 COG를 보유하고 있는 지를 행렬로 작성하고 이를 Mega 프로그램(ver 5.
분석대상 680 종의 고세균과 진정세균 각 구성원이 보유하는 COG는 보존적 유전자 탐색에서 구하였으며[21], 각 COG 의 보유유무에 따라 분석하였다. 즉 각 생물종이 4, 631개의 각 COG를 보유하고 있는 지를 행렬로 작성하고 이를 Mega 프로그램(ver 5.1)의 phylogeny analysis를 이용하여 NJ (neighbor joining), ML (maximum likelihood), UPGMA, ME (minimum evolution), MP (maximum parsimony) tree를 작성하면서 bootstrap method (n=1,000)로 분석하였다[19, 20].
하나의 세균이 나머지 분석대상 세균 679개와의 보유한 COG 종류의 유사도 평균을 구하였다. 전체 평균은 72.
대상 데이터
세균 유전체의 유전자 유사성에 관한 자료는 COGs에서 정리된 자료를 이용하였다[9]. 각 세균이 함유하고 있는 COG 자료를 확보하였다. 이들은 2016년 1월 현재 711종의 세균 유 전체에 포함된 총 1, 962, 317개의 유전자들을 4, 631개의 COG 그룹으로 분류해 놓았다[10].
세균 유전체의 유전자 유사성에 관한 자료는 COGs에서 정리된 자료를 이용하였다[9]. 각 세균이 함유하고 있는 COG 자료를 확보하였다.
성능/효과
Tenericutes 문의 분석대상 세균은 모두 Mollicutes 강에 속하 는데 이들은 세포벽이 없으며 다양한 동식물에 기생하며, 숙 주 세포의 외부 또는 내부에 산다고 알려져 있다[24]. 2,000개 이상의 COG를 보유하는 세균 44개는 모두 Proteobacteria 문 에 속하였고 alpha-, beta-, delta-, gamma-Proteobacteria 강에 각각 11, 8, 4, 21개의 세균들이 분포하였다. 보유 COG가 많다 는 것은 다른 세균과 공통되는 유전자가 많다는 것이며, 다양한 환경에서 생존할 수 있는 잠재력이 높다고 혹은 생명현상 의 범위가 넓다고 할 수 있을 것이다.
67%는 보유 한 COG의 개수가 1, 001~2,000개 사이였다. 500개 이하인 세균 중 고세균은 Nanoarchaeum equitans Kin4-M 하나뿐이고 나머지는 모두 진정세균으로 Proteobacteria, Bacteroidetes, Tenericutes 문에 속하는 세균이 각각 9, 3, 8개였다. Tenericutes 문의 분석대상 세균은 모두 Mollicutes 강에 속하 는데 이들은 세포벽이 없으며 다양한 동식물에 기생하며, 숙 주 세포의 외부 또는 내부에 산다고 알려져 있다[24].
문이 다르지만 유사도가 가장 높은 세균들은 Bacteroidetes인 Candidatus Uzinura dia- spidicola str. ASNER가 beta-Proteobacteria인 Candidatus Tremblaya phenacola PAVE와 97.69%, gamma-Proteobacter- ia인 Candidatus Carsonella ruddii DC와 97.13%, gamma- Proteobacteria인 Candidatus Portiera aleyrodidarum BT- QVLC와 97.04%였다. 하지만 이들은 보유 COG 수가 500개 이하로 전체 4, 361개의 COG 중에 보유하지 않은 COG의 수가 3, 800개 이상이었다.
leprae TNe 각각 1142개와 917개의 COG를 보유하고 있었다. COG 수가 더 많은 M. jannaschii DSM 2661가 다른 세균들과 의 COG 보유 유사도 평균이 낮다는 것은 독특한 생명활동을 하는 것을 나타낸다고 판단되었다.
2%가 동일하였다(Table 2). E. coli 두 균주보다 높은 유사도를 보인 속은 Rickettsia, Wolbachia, Sulfolobus, Pyrococcus, Mycoplasma 등의 5개 속으로 이들은 동일한 종이 아님에도 불구하고 동일한 종에 속하는 E. coli의 두 균주 사이보다 유사 도가 높았다.강이 다르지만 동일한 속에 속하는 세균들보다 보유 COG유사도가 높은 세균들 중 최고의 유사도를 보인 것은 alpha- Proteobacteria인 Candidatus Hodgkinia cicadicola Dsem와 beta-Proteobacteria인 Candidatus Nasuia deltocephalinicola str.
65%로 나타났다. Eur- yarchaeota 문의 Methanocaldococcus jannaschii DSM 2661와 alpha-Proteobacteria 강의 Mesorhizobium loti MAFF303099 사이가 최저였고, M. jannaschii DSM 2661와 gamma-Proteobac- teria 강의 Pseudomonas aeruginosa PAO1 사이가 49.38%로 2번 째의 최저유사도를 나타내었다. Tenericutes 문의 Strawberry lethal yellows phytoplasma (CPA) str.
62% 였다. Euryarchaeota 문의 M. janna- schii DSM 2661가 최소였고 Actinobacteria 문의 Mycobacte- rium leprae TN이 최대였다. M.
고세균과 COG 보유 유연관계가 높은 Chloroflexi 문의 두 진정세균은 모두 혐기성이며 산소대신 유기할라이드(organohalide)를 이용하여 호흡하는 세균들로 각각 염소함유 물질로 오염된 지하 수와 오염환경처리 소화조의 슬러지에서 분리되어 환경정화 등에 사용될 수 있다[23, 25]. ML 계통수에서는 Actinobacteria, Chlamydiae 문의 일부가 다른 진정세균보다 고세균과 COG 보유의 유연관계가 높은 것으로 나타났다(Fig. 1A). Lee와 Lee [21]는 본 연구의 분석대상들을 포함하는 711개의 유전체들을 대상으로 보존적 유전자들의 평균과 분산으로 각 유전체를분석하여 변이가 큰 고세균과 상대적으로 변이가 작은 진정세 균으로 확연히 나누어진다고 하였는데 본 연구의 COG 보유 계통수는 조금 달랐다.
ML, NJ, ME 계통수에서는 고세균 모두가 하나의 분계에 속하였고, MP와 UPGMA 계통수는 Table 1에서 other Archaeo- ta로 분류되었지만 Nanoarchaeota 문에 속하는 Nanoarchaeum equitans Kin4-M이 다른 고세균보다 Tenericutes 문과 더 가까운 것으로 보였다. N.
Tenericutes 문의 Strawberry lethal yellows phytoplasma (CPA) str. NZSb11와 Candidatus Phytoplasma australiense 사이가 최대였다. 그리고 2개의 세균 사이에서 99% 이상의 보유 COG 유사도를 보이는 것은 총 7개였다(자료미제시).
이들은 43% 이상의 보 유 COG 유사도 범위를 보였다. ⇧ 표시에 중복을 표시하지 않았지만 고세균(Fig. 1A, Fig. 2A 분계)이 상위 10개 중 7개를 차지하였으며, 유사도가 나타내는 범위가 가장 큰 세균은 심 해의 열수구에 서식하는 초고온성이며 자가영양을 나타내는 Euryarchaeota 문의 M. jannaschii DSM 2661 [13]이었다. 이 세균은 초고온성이며 화학자가영양을 하는 Euryarchaeota 문의 Methanotorris igneus Kol 5와 최대인 95.
하지만 355개의 COG를 보유한 beta- Proteobacteria의 Candidatus Profftella armatura 가 316~327 개의 COG를 보유한 4개의 Tenericutes 목보다 235개 이하의 COG를 보유한 alpha-, beta-, gamma-Proteobacteria와 Bac- teroidetes 와 더 높은 유연관계를 보였으며, 346개의 COG를 보유하고 other Archaea에 속하는 Nanoarchaeum equitans Kin4-M이 NJ, ML 계통수 모두에서 900개 이상의 COG를 보유한 Euryarchaeota의 Aciduliprofundum boonei T469와 가장 가깝고 other Archaea로 분류된 Korarchaeota 문의 Candida- tus Korarchaeum cryptofilum OPF8와 그 다음으로 가까웠다. 그리고 다른 고세균들과 함께 계통수의 같은 영역에 존재하여 (Fig. 1A, Fig. 2A) COG 개수의 정량성 요인 외에 정성적 요인 도 계통수에서 이들의 위치에 영향을 미쳤다는 것을 알 수 있었다.
넷째, ML 계통수(Fig. 1B)와 NJ 계통수(Fig. 2C)의 분계를 보면 alpha-, beta-, gamma-Proteobacteria와 Bacteroidetes 그리고 Tenericutes 문의 4개의 구성원들이 높은 유연관계를 나 타냈다. 이들이 보유한 COG 개수는 모두 360개 이하로 보유한 COG 개수가 적어 계통수에서 유연관계가 높게 나타난 것으로 판단될 수 있었다.
다섯째, 계통수에서 bootstrap의 비율이 모든 가지에서 높지 않았다. Zheng 등[34]은 Lactobacillus 속의 세균 16종의 계 통수를 비교하여 1,240여개의 유전자로 구성된 core genome 계통수에서는 높은 bootstrap 비율을 보였지만 게놈의 전체 유전자보유 계통수에서는 낮은 bootstrap 비율을 보였다.
동일한 문 혹은 강에 속하는 구성원들 사이의 pairwise dis- tance 들의 평균으로 구한 진화거리(evolutionary distance)를 최소부터 정렬하면 Tenericutes, Aquificae, Chlorobi, Chla- mydiae, Crenarchaeota, Thermotagae, Thaumarchaeota, Cya- nobacteria, epsilon-Proteobacteria의 순서였고 최대부터 정렬 하면 gamma-Proteobacteria, delta-Proteobacteria, Spirochaetes, beta-Proteobacteria, Chloroflexi, Clostridia, Bacilli, Actino- bacteria, Bacteroidetes, other Firmicutes, Planktomycetes, Fusobacteria, Euryarchaeota의 순서로 Table 1에 표시된 구성 원들의 개수와 연관성은 낮았다. 구성원들의 진화거리가 작다는 것은 서로간의 변이 즉 다른 COG를 함유할 가능성이 낮다 는 것으로 구성원 서로 간의 생명현상이 유사할 것이라고 판단할 수 있을 것이다.
둘째 동일한 문이나 강의 구성원들 모두가 계통수에서 단계 통군(monophyletic taxon)처럼 묶이는 것은 모든 계통수에서 문 수준에서 Aquificae (구성원 수: 8개), Chlorobi (5개), Cyanobacteria (31개), Deinococcus-Thermus (6개), Thermo- togae (7개), 강 수준에서 epsilon-Proteobacteria (11개) 등의 6개였다(Fig. 3). 단계통군(monophyletic taxon)은 공통 조상 및 그 조상으로부터 진화한 모든 생물을 포함하는 분류군인 데[2] 본 연구에서는 16S rRNA 유전자 기반 분류에서 동일한 문이나 강에 속하는 분류군들 만으로 계통수에서 하나의 분류 군을 형성하였을 때 단계통군으로 간주하였다.
둘째, 반대로 보유 COG 유사도의 범위가 좁은 세균은 분석 대상 세균들이 검출된 여러 서식지들의 평균적인 곳에 서식하는 세균일 것으로 판단할 수 있다. 한가지 예로 원시부터 현재 까지 서식환경 변화의 평균적인 곳에 서식하는 세균은 원시지구의 형태를 유지하는 서식지와 가장 많이 변화한 서식지에서 검출된 두 가지 세균들과의 COG 유사도를 구하면 그 차이가 크지 않을 것이다.
1의 C 분계에 4개가 있었고 D, E, F 분계에 각각 2개씩 고루 분포하였다. 범위가 가장 작은 세균은 Cyanobacteria mat에서 분리된 50℃가 생육최적인 고온성 및 미호기성이며 광종속영양생물인 Acidobacteria 문의 Chloracidobacterium thermophilum B [30]로 Chlorobi 문의 Chloroherpeton thalassium ATCC 35110 와 최대인 81.82%, Euryarchaeota 문의 M. janna- schii DSM 2661와 최소인 64.95%의 유사도를 보여 16.87%의 범위를 보였다.
본 연구결과는 Fig. 3처럼 16S rRNA 유전자 기반의 계통수 와 일치하는 목이나 강도 있지만 불일치하는 경우도 있었다. Zheng 등[34]은 균주들 사이에 “translation, ribosomal struc- ture and biogenesis” 같은 핵심유전자(core gene)들로 구성된 core genomee 양성선택(positive selection)을 하고 나머지 유 전자들은 유전자 획득(gain)과 소실(loss)의 결과이며, 이것이 진화를 이끈다고 하였다.
Zheng 등[34]은 Lactobacillus 속의 세균 16종의 계 통수를 비교하여 1,240여개의 유전자로 구성된 core genome 계통수에서는 높은 bootstrap 비율을 보였지만 게놈의 전체 유전자보유 계통수에서는 낮은 bootstrap 비율을 보였다. 본 연구에서는 680개의 세균이 서로 다른 문(phylum)을 형성하며 분석대상 세균이 보유하지 않을 수도 있는 4,631개의 COG 로 계통수를 형성하여 bootstrap 비율이 40% 이하인 것이 많은 것은(Fig. 1, Fig. 2) Zheng 등[34]의 결과와 어느 정도 일치 한다고 할 수 있었다.
Zheng 등[34]은 균주들 사이에 “translation, ribosomal struc- ture and biogenesis” 같은 핵심유전자(core gene)들로 구성된 core genomee 양성선택(positive selection)을 하고 나머지 유 전자들은 유전자 획득(gain)과 소실(loss)의 결과이며, 이것이 진화를 이끈다고 하였다. 본 연구의 COG는 공통조상 유래의 유전자 유래라는 개념을 가지고 있지만[10] 16S rRNA 유전자 의 계통수와 달리 여러 목과 강의 균주들이 COG 보유 계통수 에서 단계통군이 아니므로 이들 COG들의 획득, 소실, 수평전 달이 비교적 광범위했던 것으로 판단할 수 있었다[7]. 이외에도 16S rRNA 유전자 계통수와 차이를 보이는 원인은 유전자 들의 진화비율의 차이, 파악 못한 paralog, 유전자의 수렴 (convergence) 등이 있다[17].
분석대상 680개의 세균에서 선택한 2개의 세균들 사이에 나타내는 전체 4, 631개 COG 보유 유무의 유사도를 파악하니 최소 49.30%, 최대 99.78%, 평균 72.65%로 나타났다. Eur- yarchaeota 문의 Methanocaldococcus jannaschii DSM 2661와 alpha-Proteobacteria 강의 Mesorhizobium loti MAFF303099 사이가 최저였고, M.
셋째 16S rRNA 유전자 기반의 계통수와 본 연구의 COG 기반의 계통수에서 차이를 보였다. 위 첫째의 고세균과 진정 세균의 사례 이외에도 Planktomycetes, Verrucomicrobia, Chlamydiae 문은 PVC group에 속하여[32] 16S rRNA 유전자를 이용한 계통수에서는 인접하지만 COG 보유 계통수에서는 Planktomycetes와 Chlamydiae 문이 Fig.
셋째 16S rRNA 유전자 기반의 계통수와 본 연구의 COG 기반의 계통수에서 차이를 보였다. 위 첫째의 고세균과 진정 세균의 사례 이외에도 Planktomycetes, Verrucomicrobia, Chlamydiae 문은 PVC group에 속하여[32] 16S rRNA 유전자를 이용한 계통수에서는 인접하지만 COG 보유 계통수에서는 Planktomycetes와 Chlamydiae 문이 Fig. 1의 A와 E 분계에, 그리고 Fig. 2의 E와 F 분계에 서로 떨어져 있다. 반면에 16S rRNA 유전자에서 Bacteroidetes/Chlorobi group에 속하는 구성원들은[14] COG 보유 계통수에서 함께 분포하는 것으로 나타났다(Fig.
jannaschii DSM 2661 [13]이었다. 이 세균은 초고온성이며 화학자가영양을 하는 Euryarchaeota 문의 Methanotorris igneus Kol 5와 최대인 95.57%, 중온성이며 뿌리에 공생하며 질소고정에 관여하는 alpha-Proteobacteria 강의 Mesorhizobium loti MAFF303099와 최소인 49.30%의 유 사도를 보여 46.27%의 COG 유사도 범위를 보였다. Fig.
2C)의 분계를 보면 alpha-, beta-, gamma-Proteobacteria와 Bacteroidetes 그리고 Tenericutes 문의 4개의 구성원들이 높은 유연관계를 나 타냈다. 이들이 보유한 COG 개수는 모두 360개 이하로 보유한 COG 개수가 적어 계통수에서 유연관계가 높게 나타난 것으로 판단될 수 있었다. 즉 비교대상 4,631개의 COG 중에서 보유하는 COG의 개수가 360개 이하이니 4,000개 이상의 COG들을 보유하지 않는 공통점이 높은 유사성을 보인 결과 로 판단될 수 있었다.
ML 계통수는 계산시간이 길지만 통계적 기법을 이용하여 가장 신뢰성이 높은 것으로 알려져 있다[17]. 전반적으로 보면 첫째 고세균과 진정세균들이 확연히 분리 되지 않았고 진정세균의 Chloroflexi 문에 속하는 Dehalogenimonas lykanthroporepellens BL-DC-9와 Dehalococcoides mccartyi 195 두 균주가 고세균과 가장 높은 COG 보유의 유사도를 보였다. 이러한 양상은 UPGMA 계통수를 제외한 ML (Fig.
COG database에서 다운받은 파일들 사이에 오류가 있어 검증 후 최소로 보유한 것을 기준으로 정리하였다. 전체적으로 각 생물이 보유한 COG 개 수의 평균은 1, 377.1개 였다. COG 보유개수를 보면 곤충과 절대공생성이며[3] beta-Proteobacteria 강에 속하는 Candidatus Nasuia deltocephalinicola str.
이들이 보유한 COG 개수는 모두 360개 이하로 보유한 COG 개수가 적어 계통수에서 유연관계가 높게 나타난 것으로 판단될 수 있었다. 즉 비교대상 4,631개의 COG 중에서 보유하는 COG의 개수가 360개 이하이니 4,000개 이상의 COG들을 보유하지 않는 공통점이 높은 유사성을 보인 결과 로 판단될 수 있었다. 하지만 355개의 COG를 보유한 beta- Proteobacteria의 Candidatus Profftella armatura 가 316~327 개의 COG를 보유한 4개의 Tenericutes 목보다 235개 이하의 COG를 보유한 alpha-, beta-, gamma-Proteobacteria와 Bac- teroidetes 와 더 높은 유연관계를 보였으며, 346개의 COG를 보유하고 other Archaea에 속하는 Nanoarchaeum equitans Kin4-M이 NJ, ML 계통수 모두에서 900개 이상의 COG를 보유한 Euryarchaeota의 Aciduliprofundum boonei T469와 가장 가깝고 other Archaea로 분류된 Korarchaeota 문의 Candida- tus Korarchaeum cryptofilum OPF8와 그 다음으로 가까웠다.
즉 비교대상 4,631개의 COG 중에서 보유하는 COG의 개수가 360개 이하이니 4,000개 이상의 COG들을 보유하지 않는 공통점이 높은 유사성을 보인 결과 로 판단될 수 있었다. 하지만 355개의 COG를 보유한 beta- Proteobacteria의 Candidatus Profftella armatura 가 316~327 개의 COG를 보유한 4개의 Tenericutes 목보다 235개 이하의 COG를 보유한 alpha-, beta-, gamma-Proteobacteria와 Bac- teroidetes 와 더 높은 유연관계를 보였으며, 346개의 COG를 보유하고 other Archaea에 속하는 Nanoarchaeum equitans Kin4-M이 NJ, ML 계통수 모두에서 900개 이상의 COG를 보유한 Euryarchaeota의 Aciduliprofundum boonei T469와 가장 가깝고 other Archaea로 분류된 Korarchaeota 문의 Candida- tus Korarchaeum cryptofilum OPF8와 그 다음으로 가까웠다. 그리고 다른 고세균들과 함께 계통수의 같은 영역에 존재하여 (Fig.
이들의 구성원 수를 보면 31개의 Cyanobacteria와 11개의 epsilon-Proteobac- teria를 제외하면 모두 8개 이하였다(Table 1). 하지만 8개 이하의 구성원이 있는 Acidobacteria는 5개와 1개로(Fig. 1E), Fusobacteria는 4개와 1개로(Fig. 1B, Fig. 1C), Chloroflexi는 7개와 2개로(Fig. 1A, Fig. C), Spirochaetes는 3개, 2개, 2개로 (Fig. 1A, Fig. 1C, Fig. 1E), Thaumarchaeota는 3개와 1개로 (Fig. 1A) 나뉘어지는 등 5개의 문을 구성하는 세균들은 동일 문보다 다른 문과 COG 보유의 유연관계가 높게 나타났다 (Fig. 1, Fig. 2). 따라서 구성원의 수가 적다고 해서 단계통군처 럼 위치하는 것이 아니라는 사실을 알 수 있었다.
후속연구
NAS- ALF도 유사도의 범위가 컸다. 이들은 보유 COG수가 적은데, 비교대상 4, 631개의 COG 중에서 보유하는 COG의 개수가 360개 이하여서 보유하지 않은 COG에 의해 유사성이 높아지 는 한계가 있어 서로간의 COG 유사성이 높다고 판단할 수 없어 추후 연구가 필요할 것으로 사료되었다.
구성원들의 진화거리가 작다는 것은 서로간의 변이 즉 다른 COG를 함유할 가능성이 낮다 는 것으로 구성원 서로 간의 생명현상이 유사할 것이라고 판단할 수 있을 것이다. 하지만 COG는 3종류 이상의 생물종에 존재하는 유전자에 기반하므로 2종류 이하의 생물종에 존재하는 유전자의 수를 많이 가진 종이 독특한 생명현상과 서식 지를 나타낼 가능성이 높을 수도 있을 것이다.
참고문헌 (34)
Baldauf, S. L., Roger, A. J., Wenk-Siefert, I. and Doolittle, W. F. 2000. A kingdom level phylogeny of eukaryotes based on combined protein data. Science 290, 972-977.
Baum, D. 2008. Reading a phylogenetic tree: The meaning of monophyletic groups. Nat. Edu. 1, 190.
Bennett, G. M. and Moran, N. A. 2013. Small, smaller, smallest: the origins and evolution of ancient dual symbioses in a Phloem-feeding insect. Genome Biol. Evol. 5, 1675-1688.
Boeckmann, B., Marcet-Houben, M., Rees, J. A., Forslund, K., Huerta-Cepas, J., Muffato, M., Yilmaz, P., Xenarios, I., Bork, P., Lewis, S. E. and Gabaldón, T. 2015. Quest for orthologs entails quest for tree of life: In search of the gene stream. Genome Biol. Evol. 7, 1988-1999.
Chaffron, S., Rehrauer, H., Pernthaler, J. and von Mering, C. 2010. A global network of coexisting microbes from environmental and whole-genome sequence data. Genome Res. 20, 947-959.
Chung, Y. and Ané, C. 2011. Comparing two Bayesian methods for gene tree/species tree reconstruction: simulations with incomplete lineage sorting and horizontal gene transfer. Syst. Biol. 60, 261-275.
Dutilh, B. E., Huynen, M. A., Bruno, W. J. and Snel, B. 2004. The consistent phylogenetic signal in genome trees revealed by reducing the impact of noise. J. Mol. Evol. 58, 527-539.
Galperin, M. Y., Makarova, K. S., Wolf, Y. I. and Koonin, E. V. 2015. Expanded microbial genome coverage and improved protein family annotation in the COG database. Nucleic Acids Res. 43, D261-D269.
Guo, J., Ran, H., Zeng, J., Liu, D. and Xin, Z. 2016. Tafuketide, a phylogeny-guided discovery of a new polyketide from Talaromyces funiculosus Salicorn 58. Appl. Microbiol. Biotechnol. in press.
Horz, H. P. and Conrads, G. 2010. The discussion goes on: What is the role of euryarchaeota in humans? Archaea 2010, 967271
Jahn, U., Huber, H., Eisenreich, W., Hugler, M. and Fuchs, G. 2007. Insights into the autotrophic CO 2 fixation pathway of the archaeon Ignicoccus hospitalis: comprehensive analysis of the central carbon metabolism. J. Bacteriol. 189, 4108-4119.
Klockgether, J., Munder, A., Neugebauer, J., Davenport, C. F., Stanke, F., Larbig, K. D., Heeb, S., Schöck, U., Pohl, T. M., Wiehlmann, L. and Tümmler, B. 2010. Genome diversity of Pseudomonas aeruginosa PAO1 laboratory strains. J. Bacteriol. 192, 1113-1121.
Lang, J. M., Darling, A. E. and Eisen, J. A. 2013. Phylogeny of bacterial and archaeal genomes using conserved genes: supertrees and supermatrices. PLoS One 8, e62510.
Langille, M. G., Zaneveld, J., Caporaso, J. G., McDonald, D., Knights, D., Reyes, J. A., Clemente, J. C., Burkepile, D. E., Vega Thurber, R. L., Knight, R., Beiko, R. G. and Huttenhower, C. 2013. Predictive functional profiling of microbial communities using 16S rRNA marker gene sequences. Nat. Biotechnol. 31, 814-821.
Lee, D. G., Kang, H. Y., Kim, S. H., Lee, S. H., Kim, C. M., Kim, S. J. and Lee, J. H. 2003. Classification of archaebacteria and bacteria using a gene content tree approach. KSBB J. 18, 39-44
Lee, D. G., Lee, J. H., Lee, S. H., Ha, B. J., Kim, C. M., Shim, D. H., Park, E. K., Kim, J. W., Li, H. Y., Nam, C. S., Kim, N. Y., Lee, E. J., Back, J. W. and Ha, J. M. 2005. Investigation of conserved genes in microorganism. J. Life Sci. 15, 261-266.
Lienau, E. K., DeSalle, R., Rosenfeld, J. A. and Planet, P. J. 2006. Reciprocal illumination in the gene content tree of life. Syst. Biol. 55, 441-453.
Löffler, F. E., Yan, J., Ritalahti, K. M., Adrian, L., Edwards, E. A., Konstantinidis, K. T., Müller, J. A., Fullerton, H., Zinder, S. H. and Spormann, A. M. 2013. Dehalococcoides mccartyi gen. nov., sp. nov., obligately organohalide-respiring anaerobic bacteria relevant to halogen cycling and bioremediation, belong to a novel bacterial class, Dehalococcoidia classis nov., order Dehalococcoidales ord. nov. and family Dehalococcoidaceae fam. nov., within the phylum Chloroflexi. Int. J. Syst. Evol. Microbiol. 63, 625-635.
Ludwig, W. and Klenk, H. P. 2000. Overview: A phylogenetic backbone and taxonomic framework for procaryotic systematics. pp. 49-65. In Boone, D. R., Castenholz, R. W. and Garrity, G. M. (eds.) Bergey's Manual of Systematic Bacteriology Volume 1. 2nd edition. Springer-Verlag , NY.
Mukherjee, K., Bowman, K. S., Rainey, F. A., Siddaramappa, S., Challacombe, J. F. and Moe, W. M. 2014. Dehalogenimonas lykanthroporepellens BL-DC-9T simultaneously transcribes many rdhA genes during organohalide respiration with 1,2-DCA, 1,2-DCP, and 1,2,3-TCP as electron acceptors. FEMS Microbiol. Lett. 354, 111-118.
Rajendhran, J. and Gunasekaran, P. 2011. Microbial phylogeny and diversity: Small subunit ribosomal RNA sequence analysis and beyond. Microbiol. Res. 166, 99-110.
Shi T. 2016. Impact of gene family evolutionary histories on phylogenetic species tree inference by gene tree parsimony. Mol. Phylogenet. Evol. 96, 9-16.
Tank, M. and Bryant, D. A. 2015. Chloracidobacterium thermophilum gen. nov., sp. nov.: an anoxygenic microaerophilic chlorophotoheterotrophic acidobacterium. Int. J. Syst. Evol. Microbiol. 65, 1426-1430.
Tian, J., Chen, H., Guo, Z., Liu, N., Li, J., Huang, Y., Xiang, W. and Chen, Y. 2016. Discovery of pentangular polyphenols hexaricins A-C from marine Streptosporangium sp. CGMCC 4.7309 by genome mining. Appl. Microbiol. Biotechnol. in press.
Wagner, M. and Horn, M. 2006. The Planctomycetes, Verrucomicrobia, Chlamydiae and sister phyla comprise a superphylum with biotechnological and medical relevance. Curr. Opin. Biotechnol. 17, 241-249.
Zheng, J., Zhao, X., Lin, X. B. and Gänzle, M. 2015. Comparative genomics Lactobacillus reuteri from sourdough reveals adaptation of an intestinal symbiont to food fermentations. Sci. Rep. 5, 18234.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.