최근 급증하고 있는 ‘오믹스(omics) 빅 데이터’와 인공지능기술의 발전은 육종시스템의 패러다임을 변화시키고 있다. 과거의 관행 육종 방식이 표현형의 가시적 분석과 선발을 기반으로 했다면, 현대의 육종 방식은 유전체-표현형 관계의 종합적 분석을 기반으로 관행육종보다 빠르고 효율적인 ‘디지털육종(digital breeding)’으로 전환하고 있다. 디지털 정밀육종 기술의 혁신은 차세대 염기서열 분석(Next-Generation Sequencing; ...
최근 급증하고 있는 ‘오믹스(omics) 빅 데이터’와 인공지능기술의 발전은 육종시스템의 패러다임을 변화시키고 있다. 과거의 관행 육종 방식이 표현형의 가시적 분석과 선발을 기반으로 했다면, 현대의 육종 방식은 유전체-표현형 관계의 종합적 분석을 기반으로 관행육종보다 빠르고 효율적인 ‘디지털육종(digital breeding)’으로 전환하고 있다. 디지털 정밀육종 기술의 혁신은 차세대 염기서열 분석(Next-Generation Sequencing; NGS) 및 생물정보학 기술의 급속한 발달에 의한 전장유전체 서열 분석(Whole Genome Sequencing; WGS), 양적형질 위치 분석(Quantitative Trait Loci; QTL mapping), 전장유전체 연관분석(Genome-Wide Association Study; GWAS), 유전체 선발 (Genomic Selection; GS)등의 연구에 의해 가속화되고 있다. 그러나 기술의 혁신적인 발전에도 불구하고 농작물 육종 분야에서 유전체 정보를 활용하기 위한 사용자 친화적 디지털 육종 시스템의 개발 및 구축은 저조한 실정으로 파악되고 있다. 이러한 문제점을 극복하기 위해서는 ‘다중 오믹스(multi-omics)’ 개념 기반의 입체적이고 통합적인 분석이 가능하도록 빅데이터 기반의 종합적 생물학적 지식 구축 및 맞춤형 분석 프로그램의 개발이 보다 활성화 되어야 할 필요가 있다. 이러한 유종 분야의 변화와 필요에 부응하기 위하여, 본 연구는 두과작물을 중심으로 디지털 육종을 위한 오믹스정보 기반의 종합적 생물정보 분석 시스템을 개발하고자 하였으며 그 결과 다음의 3가지 플랫폼을 개발하였다: 1) LegExpress - 해석 유전체 정보 기반의 전사체 분석 플랫폼, 2) CPAS Maker - 형질연관 Cleaved Amplified Polymorphic Sequences (CAPS) 및 derived CAPS (dCAPS) 마커 디자인 시스템, 3) TGIL - 해석유전체 기반의 종합적 생물정보분석 플랫폼. 첫째, 해석유전체 원리를 응용한 전사체 분석 플랫폼인 ‘LegExpress’ 플랫폼을 개발하였다. 전사체 분석은 서로 다른 시공간적 및 환경 조건에 따라 생물체에서 발현되는 유전자들의 발현패턴을 비교 분석하는 방법으로, 해당 분석법을 통해서 육종 관련 형질 연관 유용 유전자를 발굴할 수 있다. 최근 전사체 연구를 위한 RNA-Seq 분석방법의 광범위한 사용으로 다양한 실험조건에서의 전사체 데이터가 축적되고 있으며, 이러한 공공의 RNA-Seq 데이터를 활용, 전사체 메타분석(meta-analysis)을 효과적으로 수행할 수 있는 전사체분석에 특화된 생물정보 플랫폼을 구축하고자 하였다. 우선, LegExpress 구축을 위하여 공공데이터베이스로부터 RNA-Seq 데이터를 수집하고 발현 온톨로지(expression ontology; EO)를 기반으로 유전자 및 실험 목적에 따른 기능 중심의 체계적 분류를 수행하였다. 또한 다각적인 시각에서 분석할 수 있도록 다양한 분석도구와 시각화 모듈을 개발하였다. 해당 분석 플랫폼은 전사체 데이터가 상대적으로 풍부한 Arabidopsis thaliana, Glycine max, Medicago truncatula, Phaseolus vulgaris 4종의 전사체 정보에 기반하여 데이터베이스를 구축하였으며, 전사체 발현 패턴 시각화를 위한 heatmap, metabolic pathway 분석, gene ontology 분석, 전사조절인자(transcription factor) 분석이 가능한 다양한 모듈을 제공한다. 동적 그래픽 및 신속한 응답을 위해 JavaScript 및 SVG (Scalable Vector Graphics)를 사용하여 사용자 인터페이스(User Interface; UI)를 구현하였다. 그 결과 서버의 데이터 처리 능력을 획기적으로 높일 수 있었으며, 인터페이스의 가시성과 반응성이 효과적으로 향상되었다. 본 프로그램은 기존의 전사체 패턴 분석을 위한 heatmap과 다르게 서로 다른 종간의 발현 패턴 분석을 위해 해석유전체 (Translational Genomics; TG) 개념을 도입, 서로 다른 종간의 유전자 발현양상의 비교 분석이 가능하도록 circular ortho-heatmap 모듈을 또한 제공한다. 둘째, 마커 디자인 자동화 시스템인 ‘CAPS Maker’를 개발하였다. 마커는 현대 정밀 육종의 궁극적이고 가장 필수적인 도구라 할 수 있다. 현재 차세대 염기서열 분석 기술의 발달로 마커 개발에 필수적인 SNP 정보는 넘쳐나고 있지만, DB연계 자동화 및 고효율 마커 디자인 시스템은 드문 실정이다. CAPS Maker는 기존에 생산된 전장유전체 재분석 정보를 수집 및 분석하여 획득한 전장유전체 SNP 정보를 기반으로 마커를 개발할 수 있는 환경을 제공한다. 콩의 전장유전체 유전변이를 발굴하기 위해 731개의 전장 유전체 재분석 데이터를 분석, 총 9,939,771개의 염기서열변이를 발굴하였다. 사용자로부터 염기서열 정보를 직접 입력받아 프라이머(primer)를 디자인하는 기존의 마커 디자인 프로그램과 달리 CAPS Maker는 사전에 분석된 전장유전체 변이 정보를 사용하여 시스템 내에서 유전체지역 혹은 특정 유전자를 발굴/선택하는 방식으로 마커를 디자인 할 수 있는 장점을 갖는다. 전장유전체 범위에서 변이정보 탐색 및 선택을 위하여 가시화 모듈인 'SNP Browser'를 개발하였다. SNP Browser 상에서 변이정보 선택 후 마커 디자인은 두 단계로 이뤄진다: (1) 유전체 영역과 품종을 선택한 후 마커 개발을 위한 유전변이를 탐색하여 프라이머를 디자인한다. (2) 생성된 프라이머 후보 중 제한 효소 패턴의 차이를 보이는 효소를 선택하여 분자마커를 디자인한다. 추가적으로 전기영동 시뮬레이션(virtual electrophoresis) 기능을 제공 함으로써 실험적인 과정 없이 각 샘플 별 제한효소 절단 양상을 사전에 확인할 수 있다. 콩은 높은 유전체 중복성(genome duplication)을 가지는 특성으로 인해 마커 개발시 비특이적 PCR 증폭의 우려가 존재한다. 이러한 문제를 해결하기 위하여 electronic high-through PCR (eHT-PCR) 모듈을 개발, 실험적 검증과정 없이 최종적으로 선택된 프라이머 쌍의 특이적 PCR 증폭이 가능하도록 시스템을 개선하여 마커 개발의 효율성을 높였다. 또한 CAPS Maker는 사전에 분석된 SNP 데이터베이스와 모듈이 직접 연결되어 사용자가 관심 분자 마커를 직관적이고 신속하게 설계할 수 있다는 장점이 있다. 마지막으로, 개발된 데이터베이스와 생물정보학 모듈을 상호연동하여 디지털 육종을 위한 종합적 생물정보 분석 플랫폼인 ‘Translational Genomics Interface for Legumes (TGIL)’을 구축하였다. TGIL은 플랫폼의 중심에 해석유전체적 원리를 기반으로 두과작물 내에서 유전체와 상동 유전자 정보를 분석 및 제공하기 위한 목적으로 개발된 디지털육종에 특화된 종합 플랫폼이라 할 수 있다. 해당 플랫폼을 개발하기 위해 7종의 콩과 식물(Cajanus cajan, Cicer arietinum, G. max, Lotus japonicus, M. truncatula, P. vulgaris, Vigna radiata)과 2종의 모델 시스템(A. thaliana, Oryza sativa) 총 9종의 유전체 정보를 활용하였다. TGIL은 9종 유전체 정보의 분석 결과 동정된 총 262,566개의 상동유전자 정보로 구성되는 ‘Tentative Orthologous Gene Database (TOGDB)’를 중심축으로 다른 데이터베이스(예를 들어, genome DB, annotation DB) 및 분석 모듈 (예를 들어, Comparative browser, LegExpress, CSGM Designer, Genene, MetaPath 등) 등이 상호 연동되어 실시간 분석 및 결과 도출이 가능하다. 따라서 TGIL 시스템은 유전체 정보 및 분석 도구의 통합으로 미래의 정밀 디지털 육종을 위한 효과적인 생물정보학 플랫폼 역할을 수행할 수 있을 것으로 기대된다. 본 연구는 미래의 작물 육종에서 예상되는 요구를 충족시키기 위해 실용적인 생물정보학 분석 플랫폼을 제공하여 디지털 육종을 위한 기반을 구축하는 것에 연구의 주안점을 두었다. 이를 위해 유전체와 관련 정보(예를 들어, genome browsers, TOGDB 등)의 수집 및 체계화 하였으며, 디지털육종에 필요한 다양한 생물정보학적 분석 도구(예를 들어, LegExpress, CAPS Maker 등)를 개발하였다. TGIL 플랫폼은 생물정보 데이터베이스와 분석도구의 상호 연동으로 사용자 친화적인 분석 인터페이스를 제공함으로써 디지털육종을 위한 유용하고 실용적인 플랫폼으로 발전해 나갈 것으로 기대한다. 또한 TGIL 시스템을 통해 육종가는 보다 정확하고 효율적인 방식으로 작물 육종 계획을 설계할 수 있을 것으로 전망한다.
최근 급증하고 있는 ‘오믹스(omics) 빅 데이터’와 인공지능기술의 발전은 육종시스템의 패러다임을 변화시키고 있다. 과거의 관행 육종 방식이 표현형의 가시적 분석과 선발을 기반으로 했다면, 현대의 육종 방식은 유전체-표현형 관계의 종합적 분석을 기반으로 관행육종보다 빠르고 효율적인 ‘디지털육종(digital breeding)’으로 전환하고 있다. 디지털 정밀육종 기술의 혁신은 차세대 염기서열 분석(Next-Generation Sequencing; NGS) 및 생물정보학 기술의 급속한 발달에 의한 전장유전체 서열 분석(Whole Genome Sequencing; WGS), 양적형질 위치 분석(Quantitative Trait Loci; QTL mapping), 전장유전체 연관분석(Genome-Wide Association Study; GWAS), 유전체 선발 (Genomic Selection; GS)등의 연구에 의해 가속화되고 있다. 그러나 기술의 혁신적인 발전에도 불구하고 농작물 육종 분야에서 유전체 정보를 활용하기 위한 사용자 친화적 디지털 육종 시스템의 개발 및 구축은 저조한 실정으로 파악되고 있다. 이러한 문제점을 극복하기 위해서는 ‘다중 오믹스(multi-omics)’ 개념 기반의 입체적이고 통합적인 분석이 가능하도록 빅데이터 기반의 종합적 생물학적 지식 구축 및 맞춤형 분석 프로그램의 개발이 보다 활성화 되어야 할 필요가 있다. 이러한 유종 분야의 변화와 필요에 부응하기 위하여, 본 연구는 두과작물을 중심으로 디지털 육종을 위한 오믹스정보 기반의 종합적 생물정보 분석 시스템을 개발하고자 하였으며 그 결과 다음의 3가지 플랫폼을 개발하였다: 1) LegExpress - 해석 유전체 정보 기반의 전사체 분석 플랫폼, 2) CPAS Maker - 형질연관 Cleaved Amplified Polymorphic Sequences (CAPS) 및 derived CAPS (dCAPS) 마커 디자인 시스템, 3) TGIL - 해석유전체 기반의 종합적 생물정보분석 플랫폼. 첫째, 해석유전체 원리를 응용한 전사체 분석 플랫폼인 ‘LegExpress’ 플랫폼을 개발하였다. 전사체 분석은 서로 다른 시공간적 및 환경 조건에 따라 생물체에서 발현되는 유전자들의 발현패턴을 비교 분석하는 방법으로, 해당 분석법을 통해서 육종 관련 형질 연관 유용 유전자를 발굴할 수 있다. 최근 전사체 연구를 위한 RNA-Seq 분석방법의 광범위한 사용으로 다양한 실험조건에서의 전사체 데이터가 축적되고 있으며, 이러한 공공의 RNA-Seq 데이터를 활용, 전사체 메타분석(meta-analysis)을 효과적으로 수행할 수 있는 전사체분석에 특화된 생물정보 플랫폼을 구축하고자 하였다. 우선, LegExpress 구축을 위하여 공공데이터베이스로부터 RNA-Seq 데이터를 수집하고 발현 온톨로지(expression ontology; EO)를 기반으로 유전자 및 실험 목적에 따른 기능 중심의 체계적 분류를 수행하였다. 또한 다각적인 시각에서 분석할 수 있도록 다양한 분석도구와 시각화 모듈을 개발하였다. 해당 분석 플랫폼은 전사체 데이터가 상대적으로 풍부한 Arabidopsis thaliana, Glycine max, Medicago truncatula, Phaseolus vulgaris 4종의 전사체 정보에 기반하여 데이터베이스를 구축하였으며, 전사체 발현 패턴 시각화를 위한 heatmap, metabolic pathway 분석, gene ontology 분석, 전사조절인자(transcription factor) 분석이 가능한 다양한 모듈을 제공한다. 동적 그래픽 및 신속한 응답을 위해 JavaScript 및 SVG (Scalable Vector Graphics)를 사용하여 사용자 인터페이스(User Interface; UI)를 구현하였다. 그 결과 서버의 데이터 처리 능력을 획기적으로 높일 수 있었으며, 인터페이스의 가시성과 반응성이 효과적으로 향상되었다. 본 프로그램은 기존의 전사체 패턴 분석을 위한 heatmap과 다르게 서로 다른 종간의 발현 패턴 분석을 위해 해석유전체 (Translational Genomics; TG) 개념을 도입, 서로 다른 종간의 유전자 발현양상의 비교 분석이 가능하도록 circular ortho-heatmap 모듈을 또한 제공한다. 둘째, 마커 디자인 자동화 시스템인 ‘CAPS Maker’를 개발하였다. 마커는 현대 정밀 육종의 궁극적이고 가장 필수적인 도구라 할 수 있다. 현재 차세대 염기서열 분석 기술의 발달로 마커 개발에 필수적인 SNP 정보는 넘쳐나고 있지만, DB연계 자동화 및 고효율 마커 디자인 시스템은 드문 실정이다. CAPS Maker는 기존에 생산된 전장유전체 재분석 정보를 수집 및 분석하여 획득한 전장유전체 SNP 정보를 기반으로 마커를 개발할 수 있는 환경을 제공한다. 콩의 전장유전체 유전변이를 발굴하기 위해 731개의 전장 유전체 재분석 데이터를 분석, 총 9,939,771개의 염기서열 변이를 발굴하였다. 사용자로부터 염기서열 정보를 직접 입력받아 프라이머(primer)를 디자인하는 기존의 마커 디자인 프로그램과 달리 CAPS Maker는 사전에 분석된 전장유전체 변이 정보를 사용하여 시스템 내에서 유전체지역 혹은 특정 유전자를 발굴/선택하는 방식으로 마커를 디자인 할 수 있는 장점을 갖는다. 전장유전체 범위에서 변이정보 탐색 및 선택을 위하여 가시화 모듈인 'SNP Browser'를 개발하였다. SNP Browser 상에서 변이정보 선택 후 마커 디자인은 두 단계로 이뤄진다: (1) 유전체 영역과 품종을 선택한 후 마커 개발을 위한 유전변이를 탐색하여 프라이머를 디자인한다. (2) 생성된 프라이머 후보 중 제한 효소 패턴의 차이를 보이는 효소를 선택하여 분자마커를 디자인한다. 추가적으로 전기영동 시뮬레이션(virtual electrophoresis) 기능을 제공 함으로써 실험적인 과정 없이 각 샘플 별 제한효소 절단 양상을 사전에 확인할 수 있다. 콩은 높은 유전체 중복성(genome duplication)을 가지는 특성으로 인해 마커 개발시 비특이적 PCR 증폭의 우려가 존재한다. 이러한 문제를 해결하기 위하여 electronic high-through PCR (eHT-PCR) 모듈을 개발, 실험적 검증과정 없이 최종적으로 선택된 프라이머 쌍의 특이적 PCR 증폭이 가능하도록 시스템을 개선하여 마커 개발의 효율성을 높였다. 또한 CAPS Maker는 사전에 분석된 SNP 데이터베이스와 모듈이 직접 연결되어 사용자가 관심 분자 마커를 직관적이고 신속하게 설계할 수 있다는 장점이 있다. 마지막으로, 개발된 데이터베이스와 생물정보학 모듈을 상호연동하여 디지털 육종을 위한 종합적 생물정보 분석 플랫폼인 ‘Translational Genomics Interface for Legumes (TGIL)’을 구축하였다. TGIL은 플랫폼의 중심에 해석유전체적 원리를 기반으로 두과작물 내에서 유전체와 상동 유전자 정보를 분석 및 제공하기 위한 목적으로 개발된 디지털육종에 특화된 종합 플랫폼이라 할 수 있다. 해당 플랫폼을 개발하기 위해 7종의 콩과 식물(Cajanus cajan, Cicer arietinum, G. max, Lotus japonicus, M. truncatula, P. vulgaris, Vigna radiata)과 2종의 모델 시스템(A. thaliana, Oryza sativa) 총 9종의 유전체 정보를 활용하였다. TGIL은 9종 유전체 정보의 분석 결과 동정된 총 262,566개의 상동유전자 정보로 구성되는 ‘Tentative Orthologous Gene Database (TOGDB)’를 중심축으로 다른 데이터베이스(예를 들어, genome DB, annotation DB) 및 분석 모듈 (예를 들어, Comparative browser, LegExpress, CSGM Designer, Genene, MetaPath 등) 등이 상호 연동되어 실시간 분석 및 결과 도출이 가능하다. 따라서 TGIL 시스템은 유전체 정보 및 분석 도구의 통합으로 미래의 정밀 디지털 육종을 위한 효과적인 생물정보학 플랫폼 역할을 수행할 수 있을 것으로 기대된다. 본 연구는 미래의 작물 육종에서 예상되는 요구를 충족시키기 위해 실용적인 생물정보학 분석 플랫폼을 제공하여 디지털 육종을 위한 기반을 구축하는 것에 연구의 주안점을 두었다. 이를 위해 유전체와 관련 정보(예를 들어, genome browsers, TOGDB 등)의 수집 및 체계화 하였으며, 디지털육종에 필요한 다양한 생물정보학적 분석 도구(예를 들어, LegExpress, CAPS Maker 등)를 개발하였다. TGIL 플랫폼은 생물정보 데이터베이스와 분석도구의 상호 연동으로 사용자 친화적인 분석 인터페이스를 제공함으로써 디지털육종을 위한 유용하고 실용적인 플랫폼으로 발전해 나갈 것으로 기대한다. 또한 TGIL 시스템을 통해 육종가는 보다 정확하고 효율적인 방식으로 작물 육종 계획을 설계할 수 있을 것으로 전망한다.
The modern breeding system is facing a paradigm shift by incorporating omics-derived big data and applying artificial intelligence technology. Traditional breeding methods were based on phenotype-first visual analysis and subsequent selection, while modern breeding methods are moving towards faster ...
The modern breeding system is facing a paradigm shift by incorporating omics-derived big data and applying artificial intelligence technology. Traditional breeding methods were based on phenotype-first visual analysis and subsequent selection, while modern breeding methods are moving towards faster and more efficient 'digital breeding' based on a comprehensive analysis of genome-phenotype relationships. All these innovations in precision breeding could be possible due to rapidly advancing next generation sequencing (NGS) technologies and bioinformatics capability in recent years. The majority of these movements have been accelerated mainly by the Whole-Genome Sequencing (WGS), Whole-Genome Resequencing (WGR), Quantitative Trait Loci (QTL) mapping, Genome-Wide Association Study (GWAS), and Genomic Selection (GS) in progress. However, availability in bioinformatic resources for the user-friendly digital breeding system are currently limited probably due to the lack of specialized purpose-driven development in the field of crop breeding. In order to reach such goals, biological knowledge and analysis programs should be more accumulated and developed to enable multifaceted and integrated analyses involving multi-omics big data related to molecular breeding. To cope with the seminal change in crop breeding, big data-based bioinformatic platform is becoming more and more important. Towards this direction, this study aimed to develop a new omics-driven bioinformatic systems for digital breeding mainly in legume crops, including three platforms; 1) LegExpress - transcriptome meta-analysis platform based on translational genomics, 2) ‘CAPS Maker’ – molecular marker design platform for the Cleaved Amplified Polymorphic Sequences (CAPS) and derived CAPS (dCAPS), 3) TGIL – an integrated translational genomics-based platform for the omic-assisted molecular breeding. Firstly, translational transcriptome analysis platform, called LegExpress, was developed. Transcriptome analysis is a useful tool for predicting trait-associated genes by investigating spatiotemporal gene expression profiles under various conditions. Currently, a large amount of transcriptome data is available in public databases, which have been produced using RNA-Seq technology. LegExpress was intended to be a transcriptome meta-analysis platform. To achieve such a goal, public RNA-seq data were broadly collected and systematically organized by classifying them according to ‘Expression Ontology (EO)’-based functional criteria. In addition, various analysis tools, in necessity, and visualization modules were developed. As a result, LegExpress now harbor transcriptome data for four species (Arabidopsis thaliana, Glycine max, Medicago truncatula, Phaseolus vulgaris) and provide a diverse array of analysis modules (e.g., heatmap for visualizing expression patterns, metabolic pathway analysis, gene ontology analysis, transcription factor analysis). The web interface was implemented using JavaScript and Scalable Vector Graphics (SVG) for dynamic graphic visibilities and rapid response to the user’s requests. Consequently, data processing capability of the server was dramatically increased, and the user interface (UI) could be enhanced effectively in visibility and responsibility. This platform also can provide circular ortho-heatmap module by which can analyze gene expression patterns between different species by introducing the concept of ‘Translational Genomics (TG)’, unlike other pre-existing heatmap styles used for the gene expression profiles. Secondly, automated molecular marker design system, called 'CAPS Maker', was developed. Molecular markers are one of the ultimate and the most essential tools in the modern precision breeding. Even if SNP information, which is the essential for marker development, is currently overflowing due to the NGS technologies, DB-linked automated or highly efficient marker design systems are currently rare. In order to develop CAPS Maker, SNP data were collected from public WGR information of 731 soybean accessions and organized into database, which harbored a total of 9,939,771 genetic variants. For purposes of intuitively browsing and promptly selecting target variants for marker design, genome-wide SNP visualizing tool, which was called ‘SNP Browser’, was developed. Marker design can be accomplished by two steps: (1) selection of genomic region and cultivars/landraces/accessions, and target variants for marker development, (2) production of primer candidates and selection of restriction enzymes. In addition, we developed a virtual electrophoresis module by which can visualize the corresponding cleavage pattern of selected markers on the agarose gel. Due to highly duplicated genomic nature of the soybean, electronic high-through PCR (eHT-PCR) module was also developed and equipped with the marker design system to reconfirm specific PCR amplification by finally selected primer pairs. It is noteworthy that CAPS Maker has advantageous features in that the module is directly linked with pre-analyzed SNP database and it is possible for users to intuitively and promptly design molecular markers of interest. Taken together with other developed DBs and functional bioinformatic modules, ‘Translational Genomics Interface for Legumes (TGIL)’, which is an integrated bioinformatic system for digital breeding, was finally developed. To build TGIL system, the whole genome information for nine species was employed, including seven legumes (Cajanus cajan, Cicer arietinum, G. max, Lotus japonicus, M. truncatula, P. vulgaris, Vigna radiata) as well as two non-legume model plants (A. thaliana, Oryza sativa). Within the entire architecture of the TGIL system, ‘Tentative Orthologous Gene Database (TOGDB)’, in which contains a total of 262,566 orthologous genes, plays a central role in combining other related DBs (i.e., genome DBs, annotation DBs) and functional analysis modules (i.e., Comparative browser, LegExpress, CSGM Designer, GeneNet, MetaPath, etc). Due to the comprehensiveness in genomic information and functionally well integrated architecture, TGIL will be able to serve as an effective bioinformatic platform for the precision digital breeding in the future. In summary, this study aimed to provide a practical bioinformatic platform for the digital breeding to meet expected needs in the crop improvement of the future. To achieve this goal, we have focused mainly on developing a diverse array of bioinformatic resources, including collection and systematization of genomic and related information (e.g., genome browsers, TOGDB), and development of analysis programs and specialized bioinformatic modules (e.g., LegExpress, CAPS Maker). This integrated TGIL bioinformatic system should be a useful and practical tool for digital breeding because all of DBs and analysis modules are interconnected and interactive with other components, thereby rendering dynamic and real-time responsive outcomes. Finally, it is strongly anticipated that the TGIL system will enable for breeder to design and achieve the crop breeding plan in more precise and efficient way.
The modern breeding system is facing a paradigm shift by incorporating omics-derived big data and applying artificial intelligence technology. Traditional breeding methods were based on phenotype-first visual analysis and subsequent selection, while modern breeding methods are moving towards faster and more efficient 'digital breeding' based on a comprehensive analysis of genome-phenotype relationships. All these innovations in precision breeding could be possible due to rapidly advancing next generation sequencing (NGS) technologies and bioinformatics capability in recent years. The majority of these movements have been accelerated mainly by the Whole-Genome Sequencing (WGS), Whole-Genome Resequencing (WGR), Quantitative Trait Loci (QTL) mapping, Genome-Wide Association Study (GWAS), and Genomic Selection (GS) in progress. However, availability in bioinformatic resources for the user-friendly digital breeding system are currently limited probably due to the lack of specialized purpose-driven development in the field of crop breeding. In order to reach such goals, biological knowledge and analysis programs should be more accumulated and developed to enable multifaceted and integrated analyses involving multi-omics big data related to molecular breeding. To cope with the seminal change in crop breeding, big data-based bioinformatic platform is becoming more and more important. Towards this direction, this study aimed to develop a new omics-driven bioinformatic systems for digital breeding mainly in legume crops, including three platforms; 1) LegExpress - transcriptome meta-analysis platform based on translational genomics, 2) ‘CAPS Maker’ – molecular marker design platform for the Cleaved Amplified Polymorphic Sequences (CAPS) and derived CAPS (dCAPS), 3) TGIL – an integrated translational genomics-based platform for the omic-assisted molecular breeding. Firstly, translational transcriptome analysis platform, called LegExpress, was developed. Transcriptome analysis is a useful tool for predicting trait-associated genes by investigating spatiotemporal gene expression profiles under various conditions. Currently, a large amount of transcriptome data is available in public databases, which have been produced using RNA-Seq technology. LegExpress was intended to be a transcriptome meta-analysis platform. To achieve such a goal, public RNA-seq data were broadly collected and systematically organized by classifying them according to ‘Expression Ontology (EO)’-based functional criteria. In addition, various analysis tools, in necessity, and visualization modules were developed. As a result, LegExpress now harbor transcriptome data for four species (Arabidopsis thaliana, Glycine max, Medicago truncatula, Phaseolus vulgaris) and provide a diverse array of analysis modules (e.g., heatmap for visualizing expression patterns, metabolic pathway analysis, gene ontology analysis, transcription factor analysis). The web interface was implemented using JavaScript and Scalable Vector Graphics (SVG) for dynamic graphic visibilities and rapid response to the user’s requests. Consequently, data processing capability of the server was dramatically increased, and the user interface (UI) could be enhanced effectively in visibility and responsibility. This platform also can provide circular ortho-heatmap module by which can analyze gene expression patterns between different species by introducing the concept of ‘Translational Genomics (TG)’, unlike other pre-existing heatmap styles used for the gene expression profiles. Secondly, automated molecular marker design system, called 'CAPS Maker', was developed. Molecular markers are one of the ultimate and the most essential tools in the modern precision breeding. Even if SNP information, which is the essential for marker development, is currently overflowing due to the NGS technologies, DB-linked automated or highly efficient marker design systems are currently rare. In order to develop CAPS Maker, SNP data were collected from public WGR information of 731 soybean accessions and organized into database, which harbored a total of 9,939,771 genetic variants. For purposes of intuitively browsing and promptly selecting target variants for marker design, genome-wide SNP visualizing tool, which was called ‘SNP Browser’, was developed. Marker design can be accomplished by two steps: (1) selection of genomic region and cultivars/landraces/accessions, and target variants for marker development, (2) production of primer candidates and selection of restriction enzymes. In addition, we developed a virtual electrophoresis module by which can visualize the corresponding cleavage pattern of selected markers on the agarose gel. Due to highly duplicated genomic nature of the soybean, electronic high-through PCR (eHT-PCR) module was also developed and equipped with the marker design system to reconfirm specific PCR amplification by finally selected primer pairs. It is noteworthy that CAPS Maker has advantageous features in that the module is directly linked with pre-analyzed SNP database and it is possible for users to intuitively and promptly design molecular markers of interest. Taken together with other developed DBs and functional bioinformatic modules, ‘Translational Genomics Interface for Legumes (TGIL)’, which is an integrated bioinformatic system for digital breeding, was finally developed. To build TGIL system, the whole genome information for nine species was employed, including seven legumes (Cajanus cajan, Cicer arietinum, G. max, Lotus japonicus, M. truncatula, P. vulgaris, Vigna radiata) as well as two non-legume model plants (A. thaliana, Oryza sativa). Within the entire architecture of the TGIL system, ‘Tentative Orthologous Gene Database (TOGDB)’, in which contains a total of 262,566 orthologous genes, plays a central role in combining other related DBs (i.e., genome DBs, annotation DBs) and functional analysis modules (i.e., Comparative browser, LegExpress, CSGM Designer, GeneNet, MetaPath, etc). Due to the comprehensiveness in genomic information and functionally well integrated architecture, TGIL will be able to serve as an effective bioinformatic platform for the precision digital breeding in the future. In summary, this study aimed to provide a practical bioinformatic platform for the digital breeding to meet expected needs in the crop improvement of the future. To achieve this goal, we have focused mainly on developing a diverse array of bioinformatic resources, including collection and systematization of genomic and related information (e.g., genome browsers, TOGDB), and development of analysis programs and specialized bioinformatic modules (e.g., LegExpress, CAPS Maker). This integrated TGIL bioinformatic system should be a useful and practical tool for digital breeding because all of DBs and analysis modules are interconnected and interactive with other components, thereby rendering dynamic and real-time responsive outcomes. Finally, it is strongly anticipated that the TGIL system will enable for breeder to design and achieve the crop breeding plan in more precise and efficient way.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.