[학위논문]NGS를 이용한 민챙이 (Bullacta exarata) 전사체 데이터의 생물정보학적 분석 Bioinformatic analysis of transcriptome of Bullacta exarata using Next Generation Sequencing (NGS)원문보기
민챙이(Bullacta exarata)는 동중국해 북부에서 한반도, 일본의 연안을 포함하여 분포하고, 조간대의 갯벌에 서식하는 저서생물로, 두순목(Cephalaspidea), 포도고둥과(Haminoeidae), 민챙이속(Bullacta)에 속하는 복족류이다. 우리나라에서는 민챙이를 식용하거나 경제적으로 사용하진 않지만, 중국에서는 경제적, 식용적, 약리학적으로 중요한 종으로 알려져 있으며, 해안오염 바이오마커로서의 가능성, ...
민챙이(Bullacta exarata)는 동중국해 북부에서 한반도, 일본의 연안을 포함하여 분포하고, 조간대의 갯벌에 서식하는 저서생물로, 두순목(Cephalaspidea), 포도고둥과(Haminoeidae), 민챙이속(Bullacta)에 속하는 복족류이다. 우리나라에서는 민챙이를 식용하거나 경제적으로 사용하진 않지만, 중국에서는 경제적, 식용적, 약리학적으로 중요한 종으로 알려져 있으며, 해안오염 바이오마커로서의 가능성, 항산화, 항균, 항암, 계통발생 등 다양한 연구가 보고 되어있는 상태이다. 하지만 현재 NCBI에 등록된 유전자원은 nucleotide 서열 554 개, protein 서열 512 개 (2019년 6월 기준)로 유전적 데이터가 매우 부족한 상황이고, nucleotide와 protein 두 서열 모두 계통분류학적 기초연구밖에 되어있지 않은 상태이며, 미토콘드리아 유전자 서열을 제외하면 미비한 수준인 것을 알 수가 있다. 또한 아직까지 유전체 및 전사체에 대한 연구가 수행되어진 바가 없다. 이에 본 연구는 생물정보학적 분석을 이용한 전사체 분석을 통하여 민챙이의 기초 데이터 확립과 극한 환경변화에서도 적응할 수 있는 민챙이의 환경적응, 면역작용 및 바이오마커로서의 가능성을 확인하기 위해 관련 유전자를 탐색하고자 하였다.
민챙이의 전사체 분석을 위해 충청남도 태안군 근흥면 정죽리 일대에서 채집하였고, 채집한 민챙이의 내장낭 조직을 잘게 분쇄하여 total RNA를 추출하였다. 추출된 total RNA에서 mRNA를 정제한 후, cDNA로 합성하였고, Next Generation Sequencing (NGS) 장비인 Illumina Hiseq 4000 platform을 사용하여 sequencing을 진행하였다. Sequencing 후 de novo assembly와 coding region 탐색 및 clustering을 진행하기 위해 Trinity, Transdecoder, TGICL program을 통하여 assembly와 clustering 과정을 진행하였다. 민챙이의 assembly 최적 조건 값을 찾기 위해 RNA-seq데이터 세트 사이에서 차별적으로 발현 유전자를 확인하는데 쓰이는 k-mer 값을 21, 23, 25, 27, 29 총 5개의 후보군으로 두었으며, 그 중에서 k-mer 25 조건 값을 최종 선별하였고, 그로부터 확보된 unigenes을 이용하여 생물정보학적 분석을 통해 annotation을 진행하였다. Annotation은 PANM DB, KOG DB, Swissprot DB, NCBI UniGene DB와 BLAST program을 통하여 진행하였고, Blast2GO software를 활용하여 GO terms, KEGG pathway, InterProScan DB를 통해 단백질 domain 분석 및 유전자 기능과 발현유전자 특징 분석을 하였다. 더불어 보전유전학 및 종간 분석 등에 있어 중요한 데이터로써 활용될 수 있는 SSR 분석을 수행하였다.
Sequencing 결과 raw data는 총 72,557,326 개 (10,956,156,226 bp)의 reads가 확보되었고, assembly와 clustering 결과로는 34,177 (91,748,461 bp) 개의 unigenes을 확보하였다. 확보된 unigenes 서열은 PANM DB 와 BLASTx program을 통해 분석을 진행하였고, 그 결과 31,392 개의 unigenes이 매치되었으며, 군소 (Aplysia californica)가 전체의 72.7 %로 가장 많이 검색되었다. KOG DB에 분석을 실시한 결과 25,770 개의 unigenes이 매치되었으며, general function prediction only (14.9 %), signal transduction mechanisms (12.1 %), transcription (4 %)과 관련된 발현유전자들이 많이 포함되어 있는 것을 확인하였다. Blast2GO software를 활용한 GO terms 분석으로는 18,306 개의 unigenes 서열에서 중복 결과를 포함하여 총 65,570 개의 결과를 얻었으며, binding (GO:0005488), cellular process (GO:0009987), catalytic activity (GO:0003824) terms 순으로 많은 결과를 보였다. KEGG pathway 분석을 통한 mapping 결과로는 6,028 개의 unigenes이 KEGG pathway에 mapping 되었으며, Nucleotide metabolism (25.9 %), Metabolism of cofactors and vitamins (19.6 %) 순으로 많이 mapping된 것을 확인하였다. InterProScan을 통한 protein domain 분석 결과 17,755 개의 unigenes이 검색되었고, 질병의 발병과 관련이 있는 단백질들 간의 상호 작용을 매개하는 역할을 하는 Ankyrin repeat-containing domain이 668 개로 가장 많이 검색되었다. 발굴된 유용유전자로는 AMPK, IRS1, HSP70 등의 환경적응유전자와 TLR, MT, SOD, GST, CAT 등의 면역 및 바이오마커 관련 유전자들이 발굴되었다.
본 연구에서는 NGS를 이용한 민챙이의 전사체 분석을 통해 민챙이의 유전자원을 대량으로 발굴하였으며, 발굴되어진 유전자원을 가지고 생물정보학적 분석을 통하여 민챙이의 기초 데이터와 환경적응, 면역 및 바이오마커 관련 발현유전자들을 탐색하였다. 본 연구를 통해 얻어진 민챙이의 유전자원과 발현유전자들은 기능유전체 연구, 환경생물학 연구 등의 후속 연구의 기초자료가 될 것으로 사료된다.
민챙이(Bullacta exarata)는 동중국해 북부에서 한반도, 일본의 연안을 포함하여 분포하고, 조간대의 갯벌에 서식하는 저서생물로, 두순목(Cephalaspidea), 포도고둥과(Haminoeidae), 민챙이속(Bullacta)에 속하는 복족류이다. 우리나라에서는 민챙이를 식용하거나 경제적으로 사용하진 않지만, 중국에서는 경제적, 식용적, 약리학적으로 중요한 종으로 알려져 있으며, 해안오염 바이오마커로서의 가능성, 항산화, 항균, 항암, 계통발생 등 다양한 연구가 보고 되어있는 상태이다. 하지만 현재 NCBI에 등록된 유전자원은 nucleotide 서열 554 개, protein 서열 512 개 (2019년 6월 기준)로 유전적 데이터가 매우 부족한 상황이고, nucleotide와 protein 두 서열 모두 계통분류학적 기초연구밖에 되어있지 않은 상태이며, 미토콘드리아 유전자 서열을 제외하면 미비한 수준인 것을 알 수가 있다. 또한 아직까지 유전체 및 전사체에 대한 연구가 수행되어진 바가 없다. 이에 본 연구는 생물정보학적 분석을 이용한 전사체 분석을 통하여 민챙이의 기초 데이터 확립과 극한 환경변화에서도 적응할 수 있는 민챙이의 환경적응, 면역작용 및 바이오마커로서의 가능성을 확인하기 위해 관련 유전자를 탐색하고자 하였다.
민챙이의 전사체 분석을 위해 충청남도 태안군 근흥면 정죽리 일대에서 채집하였고, 채집한 민챙이의 내장낭 조직을 잘게 분쇄하여 total RNA를 추출하였다. 추출된 total RNA에서 mRNA를 정제한 후, cDNA로 합성하였고, Next Generation Sequencing (NGS) 장비인 Illumina Hiseq 4000 platform을 사용하여 sequencing을 진행하였다. Sequencing 후 de novo assembly와 coding region 탐색 및 clustering을 진행하기 위해 Trinity, Transdecoder, TGICL program을 통하여 assembly와 clustering 과정을 진행하였다. 민챙이의 assembly 최적 조건 값을 찾기 위해 RNA-seq 데이터 세트 사이에서 차별적으로 발현 유전자를 확인하는데 쓰이는 k-mer 값을 21, 23, 25, 27, 29 총 5개의 후보군으로 두었으며, 그 중에서 k-mer 25 조건 값을 최종 선별하였고, 그로부터 확보된 unigenes을 이용하여 생물정보학적 분석을 통해 annotation을 진행하였다. Annotation은 PANM DB, KOG DB, Swissprot DB, NCBI UniGene DB와 BLAST program을 통하여 진행하였고, Blast2GO software를 활용하여 GO terms, KEGG pathway, InterProScan DB를 통해 단백질 domain 분석 및 유전자 기능과 발현유전자 특징 분석을 하였다. 더불어 보전유전학 및 종간 분석 등에 있어 중요한 데이터로써 활용될 수 있는 SSR 분석을 수행하였다.
Sequencing 결과 raw data는 총 72,557,326 개 (10,956,156,226 bp)의 reads가 확보되었고, assembly와 clustering 결과로는 34,177 (91,748,461 bp) 개의 unigenes을 확보하였다. 확보된 unigenes 서열은 PANM DB 와 BLASTx program을 통해 분석을 진행하였고, 그 결과 31,392 개의 unigenes이 매치되었으며, 군소 (Aplysia californica)가 전체의 72.7 %로 가장 많이 검색되었다. KOG DB에 분석을 실시한 결과 25,770 개의 unigenes이 매치되었으며, general function prediction only (14.9 %), signal transduction mechanisms (12.1 %), transcription (4 %)과 관련된 발현유전자들이 많이 포함되어 있는 것을 확인하였다. Blast2GO software를 활용한 GO terms 분석으로는 18,306 개의 unigenes 서열에서 중복 결과를 포함하여 총 65,570 개의 결과를 얻었으며, binding (GO:0005488), cellular process (GO:0009987), catalytic activity (GO:0003824) terms 순으로 많은 결과를 보였다. KEGG pathway 분석을 통한 mapping 결과로는 6,028 개의 unigenes이 KEGG pathway에 mapping 되었으며, Nucleotide metabolism (25.9 %), Metabolism of cofactors and vitamins (19.6 %) 순으로 많이 mapping된 것을 확인하였다. InterProScan을 통한 protein domain 분석 결과 17,755 개의 unigenes이 검색되었고, 질병의 발병과 관련이 있는 단백질들 간의 상호 작용을 매개하는 역할을 하는 Ankyrin repeat-containing domain이 668 개로 가장 많이 검색되었다. 발굴된 유용유전자로는 AMPK, IRS1, HSP70 등의 환경적응유전자와 TLR, MT, SOD, GST, CAT 등의 면역 및 바이오마커 관련 유전자들이 발굴되었다.
본 연구에서는 NGS를 이용한 민챙이의 전사체 분석을 통해 민챙이의 유전자원을 대량으로 발굴하였으며, 발굴되어진 유전자원을 가지고 생물정보학적 분석을 통하여 민챙이의 기초 데이터와 환경적응, 면역 및 바이오마커 관련 발현유전자들을 탐색하였다. 본 연구를 통해 얻어진 민챙이의 유전자원과 발현유전자들은 기능유전체 연구, 환경생물학 연구 등의 후속 연구의 기초자료가 될 것으로 사료된다.
Bullacta exarata (Phlippi, 1849) is an endemic cephalaspidean gastropod from the China Sea (distributed in the western and south coast of Korea and Japan). It is a benthic organism that inhabits tidal flats in the intertidal zone, and is placed under the family Bullactidae (taxonomy of the Gastropod...
Bullacta exarata (Phlippi, 1849) is an endemic cephalaspidean gastropod from the China Sea (distributed in the western and south coast of Korea and Japan). It is a benthic organism that inhabits tidal flats in the intertidal zone, and is placed under the family Bullactidae (taxonomy of the Gastropoda) and Haminoeidae (based on phylogenetic analysis). In Korea, B. exarata is neither eaten nor exploited commercially, but in China it is known as an edible or pharmacologically important species. In addition, various studies have reported the, possibility of utilization of B. exarata as a biomarker of coastal pollution, and source of antioxidants, antibacterials, anticancer drugs etc. The information on the available genetic and genomic resources for B. exarata is limited with only 554 nucleotide, 512 protein sequences and the mitochondrial genome sequences (as of June 2019) registered with National Center for Biotechnology Information (NCBI). In this study, we analyzed for the first time the detailed transcriptome of B. exarata and using bioinformatics analysis searched for physiological adaptation, immunity and biomarker genes. For the transcriptome analysis of B. exarata, total RNA was used as the starting material. Total RNA was extracted the visceral mass tissue of B. exarata collected from Jeongju-ri, Taean-gun, Chungcheongnam–do province, South Korea. After mRNA purification, cDNA was synthesized and sequenced using the Illumina HiSeq 4000 platform. After pre-processing of raw sequencing reads, de novo assembly and clustering were conducted through Trinity and TGICL programs, respectively. The transcripts with the coding sequence were screened using the Transdecoder program. In order to find optimal assembly values of B. exarata, the k-mer values (used to identify the differentially expressed genes among the RNA-seq data sets) were taken as 5 candidate groups totaling 21, 23, 25, 27 and 29. Among them, the ‘k-mer 25’ condition values were finally selected and the sequence and functional annotation was performed through bioinformatics analysis using unigenes obtained from them. The annotation was performed using PANM DB, KOG DB, Swiss-Prot DB, NCBI UniGene DB and BLAST program. Furthermore, using the Blast2GO software and InterProScan DB feature, protein domain analysis was performed. Additionally, we screened Simple Sequence Repeats (SSRs) from the transcriptome of B. exarata that can be used as important genetic resources for conservation genetics and interspecies analysis. The transcriptome sequencing of B. exarata yielded a total of 72,557,326 reads (10,956,156,226 bp) of raw data out of which 34,177 (91,748,461 bp) unigenes were obtained as a result of assembly and clustering. The sequence of unigenes was analyzed by PANM DB and BLASTx program. Out of 34,177 unigenes, 31,392 unigenes were matched to homologous sequences in the database; with the maximum match with Aplysia californica (72.7%). The KOG DB analysis, resulted in a match of 25,770 unigenes that were related to general function prediction only (14.9%), signal transduction mechanisms (12.1%) and transcription (4%). In the GO terms analysis using the Blast2GO software, a total of 65,570 results were obtained, including 18,306 unigene sequences categorizing to more than on GO term. Most of the unigenes categorized to binding (GO: 0005488), cellular process (GO: 0009987) and catalytic activity (GO: 0003824) terms. The KEGG pathway analysis confirmed 6,028 unigenes mapped to Nucleotide metabolism (25.9%) and Metabolism of cofactors and vitamins (19.6%). The protein domain analysis using InterProScan found 17,755 unigenes out of which 668 unigenes showed ankyrin repeat-containing domain, which plays an important role in mediating the interaction between proteins associated with disease onset. Among the environmental adaptation genes the most significant were AMPK, IRS1 and HSP70, and among the immunity and biomarker related genes the most significant included the TLR, MT, SOD, GST and CAT. In summary, this study catalogued a large number of genetic resources of B. exarata using NGS and bioinformatics analysis of the extracted genetic resources. The environmental adaptation, immunity and biomarker expression genes were investigated. The genetic resources and expressed genes of B. exarata obtained through this study are considered to be the basic data for subsequent researches such as the functional genomics study and environmental biology.
Bullacta exarata (Phlippi, 1849) is an endemic cephalaspidean gastropod from the China Sea (distributed in the western and south coast of Korea and Japan). It is a benthic organism that inhabits tidal flats in the intertidal zone, and is placed under the family Bullactidae (taxonomy of the Gastropoda) and Haminoeidae (based on phylogenetic analysis). In Korea, B. exarata is neither eaten nor exploited commercially, but in China it is known as an edible or pharmacologically important species. In addition, various studies have reported the, possibility of utilization of B. exarata as a biomarker of coastal pollution, and source of antioxidants, antibacterials, anticancer drugs etc. The information on the available genetic and genomic resources for B. exarata is limited with only 554 nucleotide, 512 protein sequences and the mitochondrial genome sequences (as of June 2019) registered with National Center for Biotechnology Information (NCBI). In this study, we analyzed for the first time the detailed transcriptome of B. exarata and using bioinformatics analysis searched for physiological adaptation, immunity and biomarker genes. For the transcriptome analysis of B. exarata, total RNA was used as the starting material. Total RNA was extracted the visceral mass tissue of B. exarata collected from Jeongju-ri, Taean-gun, Chungcheongnam–do province, South Korea. After mRNA purification, cDNA was synthesized and sequenced using the Illumina HiSeq 4000 platform. After pre-processing of raw sequencing reads, de novo assembly and clustering were conducted through Trinity and TGICL programs, respectively. The transcripts with the coding sequence were screened using the Transdecoder program. In order to find optimal assembly values of B. exarata, the k-mer values (used to identify the differentially expressed genes among the RNA-seq data sets) were taken as 5 candidate groups totaling 21, 23, 25, 27 and 29. Among them, the ‘k-mer 25’ condition values were finally selected and the sequence and functional annotation was performed through bioinformatics analysis using unigenes obtained from them. The annotation was performed using PANM DB, KOG DB, Swiss-Prot DB, NCBI UniGene DB and BLAST program. Furthermore, using the Blast2GO software and InterProScan DB feature, protein domain analysis was performed. Additionally, we screened Simple Sequence Repeats (SSRs) from the transcriptome of B. exarata that can be used as important genetic resources for conservation genetics and interspecies analysis. The transcriptome sequencing of B. exarata yielded a total of 72,557,326 reads (10,956,156,226 bp) of raw data out of which 34,177 (91,748,461 bp) unigenes were obtained as a result of assembly and clustering. The sequence of unigenes was analyzed by PANM DB and BLASTx program. Out of 34,177 unigenes, 31,392 unigenes were matched to homologous sequences in the database; with the maximum match with Aplysia californica (72.7%). The KOG DB analysis, resulted in a match of 25,770 unigenes that were related to general function prediction only (14.9%), signal transduction mechanisms (12.1%) and transcription (4%). In the GO terms analysis using the Blast2GO software, a total of 65,570 results were obtained, including 18,306 unigene sequences categorizing to more than on GO term. Most of the unigenes categorized to binding (GO: 0005488), cellular process (GO: 0009987) and catalytic activity (GO: 0003824) terms. The KEGG pathway analysis confirmed 6,028 unigenes mapped to Nucleotide metabolism (25.9%) and Metabolism of cofactors and vitamins (19.6%). The protein domain analysis using InterProScan found 17,755 unigenes out of which 668 unigenes showed ankyrin repeat-containing domain, which plays an important role in mediating the interaction between proteins associated with disease onset. Among the environmental adaptation genes the most significant were AMPK, IRS1 and HSP70, and among the immunity and biomarker related genes the most significant included the TLR, MT, SOD, GST and CAT. In summary, this study catalogued a large number of genetic resources of B. exarata using NGS and bioinformatics analysis of the extracted genetic resources. The environmental adaptation, immunity and biomarker expression genes were investigated. The genetic resources and expressed genes of B. exarata obtained through this study are considered to be the basic data for subsequent researches such as the functional genomics study and environmental biology.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.