유전체 서열 재사용을 이용한 Genotyping By Sequencing 기술의 단일 염기 다형성 탐지 효율 개선 Improvement of SNPs detection efficient by reuse of sequences in Genotyping By Sequencing technology원문보기
백정호
(Genomics Division, Department of Agricultural Biotechnology, National Academy of Agricultural Science, RDA)
,
김도완
(Genomics Division, Department of Agricultural Biotechnology, National Academy of Agricultural Science, RDA)
,
김준아
(Genomics Division, Department of Agricultural Biotechnology, National Academy of Agricultural Science, RDA)
,
이태호
(Genomics Division, Department of Agricultural Biotechnology, National Academy of Agricultural Science, RDA)
개별 생물의 유전적 특성인 유전형 정보를 얻기 위한 개발된 기법들 중 현재 가장 많이 사용되고 있는 것은 차세대 염기서열결정을 통해 얻어진 서열을 분석하여 단일핵산염기다형현상 기반의 유전형 정보를 얻어내는GBS 방법이다. 현재 TASSEL은 GBS방법을 통해 얻어진 서열을 분석하여 시료의 유전형을 측정하기 위해 가장 많이 사용되고 있는 프로그램 중 하나이다. 그러나 TASSEL은 염기서열결정을 통해 얻어진 서열 중 일부만을 사용하는 한계가 존재한다. 우리는 이러한 한계를 극복하기 위한 효율성 개선에 대한 연구를 시작하였다. 효율성 개선을 위해 TASSEL에서 사용후 버려지는 서열의 퀄리티를 체크하여 에러율 0.1% 이하인 데이터를 확인 한 후 퀄리티가 에러율을 충족하는 부분의 서열들을 필터링 한다. 그리고 마지막으로 바코드와 제한 효소의 부분을 확인하여 길이에 따라 서열을 잘라내어 새로운 데이터 셋으로 생성하는 구조를 반복하는 알고리즘으로 구현 하였으며, 약 17% 이상의 SNP 탐지효율성 증가함을 확인 하였다. 본 논문에서는 이와 같이 유전형 연구에서 사용되지 않는 유전체 염기서열들을 사용하여 더 많은 숫자의 단일 염기 다형성을 탐지하는 방법과 구현된 프로그램을 제시한다.
개별 생물의 유전적 특성인 유전형 정보를 얻기 위한 개발된 기법들 중 현재 가장 많이 사용되고 있는 것은 차세대 염기서열결정을 통해 얻어진 서열을 분석하여 단일핵산염기다형현상 기반의 유전형 정보를 얻어내는GBS 방법이다. 현재 TASSEL은 GBS방법을 통해 얻어진 서열을 분석하여 시료의 유전형을 측정하기 위해 가장 많이 사용되고 있는 프로그램 중 하나이다. 그러나 TASSEL은 염기서열결정을 통해 얻어진 서열 중 일부만을 사용하는 한계가 존재한다. 우리는 이러한 한계를 극복하기 위한 효율성 개선에 대한 연구를 시작하였다. 효율성 개선을 위해 TASSEL에서 사용후 버려지는 서열의 퀄리티를 체크하여 에러율 0.1% 이하인 데이터를 확인 한 후 퀄리티가 에러율을 충족하는 부분의 서열들을 필터링 한다. 그리고 마지막으로 바코드와 제한 효소의 부분을 확인하여 길이에 따라 서열을 잘라내어 새로운 데이터 셋으로 생성하는 구조를 반복하는 알고리즘으로 구현 하였으며, 약 17% 이상의 SNP 탐지효율성 증가함을 확인 하였다. 본 논문에서는 이와 같이 유전형 연구에서 사용되지 않는 유전체 염기서열들을 사용하여 더 많은 숫자의 단일 염기 다형성을 탐지하는 방법과 구현된 프로그램을 제시한다.
Recently, the most popular technique to determine the Genotype, genetic features of individual organisms, is the GBS based on SNP from sequences determined by NGS. As analyzing the sequences by the GBS, TASSEL is the most used program to identify the genotypes. But, TASSEL has limitation that it use...
Recently, the most popular technique to determine the Genotype, genetic features of individual organisms, is the GBS based on SNP from sequences determined by NGS. As analyzing the sequences by the GBS, TASSEL is the most used program to identify the genotypes. But, TASSEL has limitation that it uses only the partial sequences that is obtained by NGS. We tried to improve the efficiency in use of the sequences in order to solve the limitation. So, we constructed new data sets by quality checking, filtering the unused sequences with error rate below 0.1% and clipping the sequences considering the location of barcode and enzyme. As a result, approximately over 17% of the SNP detection efficiency was increased. In this paper, we suggest the method and the applied programs in order to detect more SNPs by using the disused sequences.
Recently, the most popular technique to determine the Genotype, genetic features of individual organisms, is the GBS based on SNP from sequences determined by NGS. As analyzing the sequences by the GBS, TASSEL is the most used program to identify the genotypes. But, TASSEL has limitation that it uses only the partial sequences that is obtained by NGS. We tried to improve the efficiency in use of the sequences in order to solve the limitation. So, we constructed new data sets by quality checking, filtering the unused sequences with error rate below 0.1% and clipping the sequences considering the location of barcode and enzyme. As a result, approximately over 17% of the SNP detection efficiency was increased. In this paper, we suggest the method and the applied programs in order to detect more SNPs by using the disused sequences.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 논문에서는 NCBI에서 학명 Brassica rapa(SRA 132035)[10]인 배추과 작물의 데이터를 다운받아 제안하는 알고리즘 성능을 테스트하였다. 약 251 MB의 참조 유전체 데이터와 150.
본 논문에서는 TASSEL을 이용한 GBS 기반 SNP 탐지의 효율적인 개선 방법을 제안한다. 구체적으로 본 논문에서 제안하는 개선방법은 기존 프로그램에서 활용되지 않고 사용되지 않는데이터를 퀄리티 체크와 필터링을 통한 재사용하는 방법으로 사용되지 않는 해당 데이터가 퀄리티 체크와 필터링을 통해 유용한 데이터라 판단되면 분석을 위한 데이터 셋으로 만든다.
본 연구에서는 GBS 방법에서 분석에 사용되지 않는 유전체 단편 서열들을 재사용하여 SNP 검출 효율을 높이는 연구를 진행하였다. 이에 우리는 그림 2와 같은 순서대로 연구 진행을 위한 설계를 하였다.
그러나 TASSEL은 바코드 형식의 태그가 부착된 전체 염기서열 중에서 통상 낮은오류값을 가지는 것으로 알려진 서열의 시작 부분만을 분석에 사용하는 특징이 있다. 우리는 이 사용되지 않는 염기서열을 분석하여 낮은 오류 값을 가지고 있음에도 분석되지 않는 서열 부위가 있을 수 있음을 확인하였으며 이를 사용함으로서 SNP 탐지에 대한 효율을 개선할 수 있는 방법을 개발했기에 본 논문에서 제시하고자 한다.
이는 컴퓨터에 익숙하지 않은 대다수의 생물학 연구자들에게 어려운 단계로 이를 해결하기 위해 향후에 웹 기반의 서비스[6]를 제공하고자 한다. 이러한 연구는 유전체를 연구하고 분석하는 사람들에게 보다 효율성이 높은 정보를 제공할 것이다.
제안 방법
효율적인 개선 방법을 제안한다. 구체적으로 본 논문에서 제안하는 개선방법은 기존 프로그램에서 활용되지 않고 사용되지 않는데이터를 퀄리티 체크와 필터링을 통한 재사용하는 방법으로 사용되지 않는 해당 데이터가 퀄리티 체크와 필터링을 통해 유용한 데이터라 판단되면 분석을 위한 데이터 셋으로 만든다. 이를 통해 기존의 방법보다 더 많은데이터를 확보할 수 있다.
다음으로 우리는 앞서 나온 결과와 비교하기 위해 본 논문에서 제안하는 방법의 알고리즘을 적용하여 실험을 진행하였다. 먼저 150.
103 MB의 데이터를 얻을 수 있었다. 마지막으로 생성된 맵핑 데이터를 토대로 SNcalling 작업을업을 수행하여 총 1, 353, 800개의 SNP와 15, 045헤테로 한테로한 SNP 을 탐지하였다.
진행하였다. 먼저 150.4 GB의 시퀀싱 데이터에서 뒷부분의 사용되지 않는다고 판단되는 데이터를 재사용하기 위해 퀄리티 체크와 데이터 제거를 통한 새로운 데이터 셋 생성 작업을 진행이와 같은 이와같은 작업은 시퀀스의 길이가 150bp로 1회에 퀄리티 체크와 데이터 제거를 통한 새로운 데이터 셋 생성 작업을 수행하였다. 결과적으로 새로운 1개의 데이터 셋을 생성할 수 있었다.
알고리즘을 적용한 전처리 프로그램 적용한 내용과 그렇지 않은 내용을 비교하기 위해 2번에 나누어 표 2 와 같이 실험을 진행하였다. 먼저 150.
알고리즘 성능을 테스트하였다. 약 251 MB의 참조 유전체 데이터와 150.4 GB 용량의 fastq 포맷 시퀀싱 데이터 그리고 실험적인 처리를 통한 바코드에 대한 정보 데이터를 가지고서 TASSEL을 이용한 분석을 진행하였다.
1% 이하 데이터를 체크하여 분석에 사용하였다. 이렇게 퀄리티 체크를 수행한 후 유전체 서열을 생산한 장비에 따라 퀄리티 스코어 계산 방법을 고려하여 에러율을 충족시키지 못하는 서열들을 제외하는 방법으로 필터링을 하였다. 이렇게 얻은 퀄리티 좋은 데이터를 바코드 인식과, 제한 효소 검사 그리고 태그 길이를 확인한 후 GBS에서 사용될 서열의 길이만 잘라 최종적으로 FASTQ 파일 포맷으로 되어 있는 데이터 셋을 생성한다.
대상 데이터
이러한 원본 데이터는 연구에서 사용되어질전처리 방법에 적용되기 위해서는 GBS 프로그램인 TASSEL의 바코드와 제한 효소 그리고 tag의 길이를 고려한 특성상 최소 150base pair(bp) 이상이 되어야 한다. 따라서 우리는 150bp 이상 길이를 가진 원본 데이터를 체크 하였다. 또한 결과 데이터의 신뢰성을 높이기 위해 염기서열의 에러율 0.
먼저 TASSEL로 처리하였더니 기존보다 773 MB 증가한 약 1569 MB의 태그 데이터가 생성되었다. 또한 생성된 태그의 개수가 39, 707, 989개에서 78, 341, 685개로 38, 633, 696개가 증가한 것을 볼 수 있었다.
데이터처리
따라서 우리는 150bp 이상 길이를 가진 원본 데이터를 체크 하였다. 또한 결과 데이터의 신뢰성을 높이기 위해 염기서열의 에러율 0.1% 이하 데이터를 체크하여 분석에 사용하였다. 이렇게 퀄리티 체크를 수행한 후 유전체 서열을 생산한 장비에 따라 퀄리티 스코어 계산 방법을 고려하여 에러율을 충족시키지 못하는 서열들을 제외하는 방법으로 필터링을 하였다.
성능/효과
다양한 분석 파이프라인 중 가장 많이 사용되어지고있는 GBS 분석 파이프라인은 코넬대학교 Buckler lab 에서 개발한 TASSEL(Trait Analysis by aSSociation, Evolution and Linkage)[2, 8]로 현재 가장 안정적이고 우수한 결과를 보여주고 있다. 그러나 TASSEL은 바코드 형식의 태그가 부착된 전체 염기서열 중에서 통상 낮은오류값을 가지는 것으로 알려진 서열의 시작 부분만을 분석에 사용하는 특징이 있다.
이를 통해 기존의 방법보다 더 많은데이터를 확보할 수 있다. 또한 이러한 데이터 셋을 통해 TASSEL 방법으로 더 많은 SNP들을 탐지하여 동일한 서열 정보를 이용하여 기존의 방법보다 전체적으로 약 17.4%, 헤테로한 SNP 17.8% 이상의 높은 SNP를 탐지 효율을 보여줌으로서 SNP 관련 연구자들보다 많은 결과를 얻을 수 있게 해준다.
이러한 데이터를 가지고 SNP calling 작업을 수행하였더니 총 1, 589, 900개의 SNP와 17, 716개의 헤태로한 SNP를 탐지 해낼 수 있었다. 이와 같은 결과는 기존에 앞부분 만이 사용되고 뒷부분을 사용되지 않는 시퀀스 데이터를 재사용하여 그림 4와 같이 전체 약 17.
이렇게 얻은 퀄리티 좋은 데이터를 바코드 인식과, 제한 효소 검사 그리고 태그 길이를 확인한 후 GBS에서 사용될 서열의 길이만 잘라 최종적으로 FASTQ 파일 포맷으로 되어 있는 데이터 셋을 생성한다. 이러한 작업 절차를 유전체서열의 길이를 고려하고 반복 수행함으로서 GBS에서사용될 데이터 셋을 충분히 확보 할 수 있었다.
이에 따라 NGS를 이용해 과거에는 긴 시간과 노력이 필요했던 유전체 전체의 염기서열 분석(WGS: Whole Genome Sequencing) 또는 재염기서열 분석 (Resequencing)을 적은 자원으로도 효과적으로 진행할 수 있게 되었다. 뿐만 아니라 그 효율성으로 인해 유전체의 구조, 유전변이, 차별적인 유전자의 발현, 전사 조절에 관한 연구 등 다양한 부분에서 사용되어지고 있다.
탐지 해낼 수 있었다. 이와 같은 결과는 기존에 앞부분 만이 사용되고 뒷부분을 사용되지 않는 시퀀스 데이터를 재사용하여 그림 4와 같이 전체 약 17.4% 정도, 헤테로한 SNP는 17.8%의 SNP를 더 검출 하여 SNP 를 탐지하는데 보다 더 좋은 효율을 나타냄을 보여주고 있다.
있다. 태그 데이터를 가지고 참조 유전체 데이터와 맵핑하였더니 124 MB가 증가한 227 MB의 맵핑 데이터를 생성 할 수 있었다.
후속연구
이는 컴퓨터에 익숙하지 않은 대다수의 생물학 연구자들에게 어려운 단계로 이를 해결하기 위해 향후에 웹 기반의 서비스[6]를 제공하고자 한다. 이러한 연구는 유전체를 연구하고 분석하는 사람들에게 보다 효율성이 높은 정보를 제공할 것이다.
이렇게 생성된 새로운 데이터 셋은 기존 TASSEL에서 사용되지 않는 데이터로 만들어진 데이터로 GBS의최종 결과물인 단일 염기 다형성 탐지하는데 효율을 증가 시킬 수 있을 것이라 판단된다.
참고문헌 (10)
Stephane Deschamps, Victor Llaca and Gregory D. May, "Genotyping-by-Sequencing in Plants," Biology vol. 1, no. 3, pp.460-483, Sep. 2012.
Jeffrey C. Glaubitz, Terry M. Casstevens, Fei Lu, James Harriman, Robert J. Elshire, Qi Sun and Edward S. Buckler, “TASSEL-GBS: A High Capacity Genotyping by Sequencing Analysis Pipeline,” PLoS ONE, vol. 9, no. 2, e90346, Feb. 2014.
Catchen J, Hohenlohe PA, Bassham S, Amores A and Cresko WA, “Stacks: an anlysis tool set for population genomics,” Molecular Ecology, vol. 22, no. 11, pp. 3124-3140, Jun. 2013.
Trait Analysis by aSSociation, Evolution and Linkage (TASSEL) [Internet]. Available: http://tassel.bitbucket.org/
Sonah H, Bastien M, Iquira E, Tardivel A, Legare G, Boyle B, Normandeau E, Larose S, Jean M and Belzile F, “An improved genotyping by sequencing (GBS) approach offering increased versatility and efficiency of SNP discovery and genotyping,” PLoS ONE, vol. 8, no. 1, e54603, Jan. 2013.
ChangKug Kim, DongSuk Park, UnungJoo Seol and JangHo Hahn, “The integrated web service and genome database for agricultural plants with biotechnology information,” Bioinformation, vol. 6, no. 6, pp. 469-503, Jun. 2011.
Hui Liu, Micha Bayer, Arnis Druka, Joanne R Russell, Christine A Hackett, Jesse Poland, Luke Ramsay, Pete E Hedley and Robbie Waugh, “An evaluation of genotyping by sequencing (GBS) 새 map the Breviaristatum-e (ari-e) locus in cultivated barley,” BMC Genomics, vol. 15, no. 1, pp. 104-114, Feb. 2014.
Peter J. Bradbury, Zhiwu Zhang, Dallas E. Kroon, Terry M. Casstevens, Yogesh Ramdoss and Edward S. Buckler, “TASSEL: software for association mapping of complex traits in diverse samples,” BIOINFORMATICS, vol. 23, no. 19, pp. 2633-2635, Jun. 2007.
Robert J. Elshire, Jeffrey C. Glaubitz, Qi Sun, Jesse A. Poland, Ken Kawamoto, Edward S. Buckler and Sharon E. Mitchell, “A Robust, Simple Genotyping-by-Sequencing (GBS) Approach for High Diversity Species,” PLoS ONE, vol. 6, no. 5, e19379, May. 2011.
National Center for Biotechnology Information(NCBI), U.S. National Library of Medicine [Internet]. Avilable: http://www.ncbi.nlm.nih.gov/sra/?termSRA132035.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.