[논문]차세대 시퀀싱 데이터를 위한 SNP 분석 방법

홍상균; 이덕해; 공진화; 김덕근; 홍동완; 윤지희

차세대 시퀀싱 데이터를 위한 SNP 분석 방법
SNP Analysis Method for Next-generation Sequencing Data 원문보기

홍상균 (한림대학교 컴퓨터공학과) , 이덕해 (한림대학교 컴퓨터공학과) , 공진화 (한림대학교 컴퓨터공학과) , 김덕근 (한림대학교 컴퓨터공학과) , 홍동완 (한림대학교 컴퓨터공학과) , 윤지희 (한림대학교 컴퓨터공학과)

최근 차세대 시퀀싱 기술의 급속한 발전에 따라 서열 정보의 해독이 비교적 쉬워지면서 개인별 맞춤의학의 실현에 대한 기대와 관심이 높아지고 있다. 각 개인의 서열 정보 사이에는 SNP (single nucleotide polymorphism), Indel, CNV (copy number variation) 등의 다양한 유전적 구조 변이가 존재하며, 이러한 서열 정보의 부분적 차이는 각 개인의 유전적 특성 및 질병 감수성 등과 밀접한 관련을 갖는다. 본 연구에서는 차세대 시퀀싱 결과로 산출되는 수많은 짧은 DNA 서열 조각인 리드 데이터를 이용한 SNP 추출 알고리즘을 제안한다. 제안된 알고리즘에서는 레퍼런스 시퀀스의 각 위치에 대한 리드 시퀀스의 매핑 정보를 기반으로 SNP 후보 영역을 추출하며, 품질 정보 등을 활용하여 에러 발생률을 최소화한다. 또한 대규모 시퀀싱 데이터와 SNP 구조 변이 데이터의 효율적인 저장/검색을 지원하는 시각적 분석 도구를 구현하여 제안된 방식의 유용성을 검증한다.

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서는 차세대 시퀀싱 기술을 활용한 SNP 분석 방법을 제안하였다. 제안하는 SNP 분석 방법은 차세대 시퀀싱 데이터를 레퍼런스 서열에 매핑하여 매핑된 리드의 염기 분포, 품질 점수 등의 정보를 활용하여 SNP 영역을 추출한다.
본 연구에서는 차세대 시퀀싱 데이터를 이용한 효율적인 SNP 분석 방법을 제안한다. 제안하는 방법은 차세대 시퀀싱 데이터인 리드를 기존에 완성된 레퍼런스 서열에 매핑하고 매핑된 위치를 기반으로 레퍼런스와 리드의 염기 서열을 비교하는 방법으로 염기의 품질 점수 (quality score) [5]와 염기 서열의 분포 정보를 활용하여 SNP 분석을 수행한다.

제안 방법

또한 본 시스템에서는 검출된 SNP 결과의 자세한 분석을 위하여 시퀀스 분석기를 제공한다. 그림 2는 시퀀스 분석기의 사용 예를 보인다.
제안하는 방법은 차세대 시퀀싱 데이터인 리드를 기존에 완성된 레퍼런스 서열에 매핑하고 매핑된 위치를 기반으로 레퍼런스와 리드의 염기 서열을 비교하는 방법으로 염기의 품질 점수 (quality score) [5]와 염기 서열의 분포 정보를 활용하여 SNP 분석을 수행한다. 또한 현재 우리 연구실에서 개발 중인 NGSDAT (next generation sequencing data analysis tool) [6]에 SNP 분석 기능을 구현하여, 제안된 방식의 유용성을 검증하였다.
본 시스템에 의한 SNP 분석 결과 출력 화면을 그림 1에 보인다. 본 시스템에서는 SNP 분석을 위한 파라메터로서 가중치 적용 여부, 고유 매핑 (unique mapping) 적용 여부, 최소 리드 커버리지, SNP 검출을 위한 임계값, 접합자 구조를 결정하는 임계값 등을 입력으로 받는다. SNP 분석 결과 파일은 표 1과 같은 포맷으로 저장되며,사용자는 분석 결과를 다양한 형식으로 검색 가능하다.
SNP는 개인 간의 염기 배열 상에 발생하는 차이로 DNA 사슬의 특정 부위에 서로 다른 염기를 가지고 있는 경우를 말한다. 본 연구에서는 리드를 레퍼런스 서열에 매핑하여 매핑된 위치를 기반으로 하여 레퍼런스와 리드간의 서열 차이를 통해 SNP를 검출한다. SNP 검출을 위한 알고리즘 SNP Detection을 알고리즘 1에 보인다.
본 장에서는 제안하는 SNP 분석 알고리즘을 설명하고, 현재 개발 중인 NGSDAT 분석 시스템을 사용하여 SNP 분석 및 결과 검색 방식에 대하여 기술한다.
SNP 검출을 위한 알고리즘 SNP Detection을 알고리즘 1에 보인다. 알고리즘 1은 레퍼런스 서열 S와 리드들의 집합 R과 커버리지 임계값 Tc, SNP 검출 임계값 Ts, 접합자 구조 (zygosity) 임계값 Tz를 입력받아 검출된 SNP를 반환한다. 알고리즘 1의 동작 과정을 3단계로 나누어 설명하면 다음과 같다.
본 논문에서는 차세대 시퀀싱 기술을 활용한 SNP 분석 방법을 제안하였다. 제안하는 SNP 분석 방법은 차세대 시퀀싱 데이터를 레퍼런스 서열에 매핑하여 매핑된 리드의 염기 분포, 품질 점수 등의 정보를 활용하여 SNP 영역을 추출한다. 또한 제안하는 분석 방법을 활용한 차세대 시퀀싱 데이터 분석툴인 NGSDAT의 기능을 보였다.
본 연구에서는 차세대 시퀀싱 데이터를 이용한 효율적인 SNP 분석 방법을 제안한다. 제안하는 방법은 차세대 시퀀싱 데이터인 리드를 기존에 완성된 레퍼런스 서열에 매핑하고 매핑된 위치를 기반으로 레퍼런스와 리드의 염기 서열을 비교하는 방법으로 염기의 품질 점수 (quality score) [5]와 염기 서열의 분포 정보를 활용하여 SNP 분석을 수행한다. 또한 현재 우리 연구실에서 개발 중인 NGSDAT (next generation sequencing data analysis tool) [6]에 SNP 분석 기능을 구현하여, 제안된 방식의 유용성을 검증하였다.
SNP 분석 결과 파일은 표 1과 같은 포맷으로 저장되며,사용자는 분석 결과를 다양한 형식으로 검색 가능하다. 출력 결과로 반환되는 접합자 구조는 두 가지 형태로 분류되며, 알고리즘 1에서 설명한 바와 같이 기본적으로 출현빈도 점수가 90%를 넘는 염기를 동형접합 SNP로 분류하고, 90%가 넘는 염기가 없을 경우에는 20%를 넘는 모든염기를 이형접합 SNP로 분류한다. 그러나 이와 같은 임계값은 사용자에 의하여 변경이 가능하며, 임계값을 변화시켜 다양한 SNP 분석 결과를 얻을 수 있도록 지원한다.
따라서,검출된 SNP가 어떠한 영역에서 발생하였는지의 여부를 확인할 필요가 있다. 함수 RegionTest()를 통해 각 SNP가 위치한 영역을 유전자, 엑손, 반복 영역 데이터베이스와 연동하여 영역 정보를 확인하여 기록한다. 영역 정보는 UCSC 게놈 브라우저 (http://genome.

대상 데이터

함수 RegionTest()를 통해 각 SNP가 위치한 영역을 유전자, 엑손, 반복 영역 데이터베이스와 연동하여 영역 정보를 확인하여 기록한다. 영역 정보는 UCSC 게놈 브라우저 (http://genome.ucsc.edu)에서 제공하는 데이터베이스 [18]로부터 다운로드하여 활용하였다.

이론/모형

함수 SNPcall()의 첫 단계에서는 매핑된 염기들의 품질 점수를 가중치로 사용하여 각염기 A, C, G, T의 출현빈도를 산출한다. 품질 점수로는각각의 시퀀싱 머신의 결과 포맷에 따라 산출되는 리드의산출 정확도를 사용하여 프레드 품질 점수 (Phred qualityscore) [5]를 사용한다. 예를 들어, 프레드 품질 점수가 99.

성능/효과

본 시스템에서는 SNP 분석을 위한 파라메터로서 가중치 적용 여부, 고유 매핑 (unique mapping) 적용 여부, 최소 리드 커버리지, SNP 검출을 위한 임계값, 접합자 구조를 결정하는 임계값 등을 입력으로 받는다. SNP 분석 결과 파일은 표 1과 같은 포맷으로 저장되며,사용자는 분석 결과를 다양한 형식으로 검색 가능하다. 출력 결과로 반환되는 접합자 구조는 두 가지 형태로 분류되며, 알고리즘 1에서 설명한 바와 같이 기본적으로 출현빈도 점수가 90%를 넘는 염기를 동형접합 SNP로 분류하고, 90%가 넘는 염기가 없을 경우에는 20%를 넘는 모든염기를 이형접합 SNP로 분류한다.
제안하는 SNP 분석 방법은 차세대 시퀀싱 데이터를 레퍼런스 서열에 매핑하여 매핑된 리드의 염기 분포, 품질 점수 등의 정보를 활용하여 SNP 영역을 추출한다. 또한 제안하는 분석 방법을 활용한 차세대 시퀀싱 데이터 분석툴인 NGSDAT의 기능을 보였다. 향후 SNP 분석 기능에 대한 기존의 방법과의 비교 실험을 수행할 예정이며, SNP 이외의 유전적 변이 분석에 대한 연구 및 NGSDAT의 기능 개선 연구를 수행할 예정이다

후속연구

또한 제안하는 분석 방법을 활용한 차세대 시퀀싱 데이터 분석툴인 NGSDAT의 기능을 보였다. 향후 SNP 분석 기능에 대한 기존의 방법과의 비교 실험을 수행할 예정이며, SNP 이외의 유전적 변이 분석에 대한 연구 및 NGSDAT의 기능 개선 연구를 수행할 예정이다

핵심어

질문

논문에서 추출한 답변

SNP의 접합자 구조 중 동형접합은 무엇인가?

접합자 구조에는 동형접합과 이형접합 (heterozygous)이 있다.동형접합은 SNP로 추출되는 염기가 매우 높은 출현 빈도를 보이는 단일 염기인 경우를 의미한다. 이형접합은 SNP로 추출되는 염기들의 출현빈도가 높지 않고 다수의 염기가 선택되는 경우를 의미한다.

시퀀싱 데이터 분석을 정확하게 수행하기 위해서는 어떤 데이터를 필요로 하는가?

시퀀싱 데이터 분석을 정확하게 수행하기 위해서는 매우 높은 리드 커버리지 (read coverage) 데이터를 필요로 한다. 제 1세대의 생어 시퀀싱 (sanger sequencing) 기술[7]은 1kbp 정도의 리드를 생성할 수 있지만 매우 고가의 실험이므로 리드 커버리지를 높이기 어려웠다.

유전적 구조 변이는 무엇으로 구분되는가?

그러나 개인의 서열 정보 사이에는 다양한 크기와 형태의 유전적 구조 변이 (genetic structural variation)가 존재하며, 이러한 변이가 유전적 특성을 나타내기도 하며, 유전병의 발병 원인이 되는 것으로 알려져 있다 [3]. 유전적 구조 변이는 작은 영역의 시퀀스 미스매치 (small sequence mismatch), 삽입 (insertion), 삭제 (deletion), 전이 (inversion),단위 반복 변이 (copy number variation), 그리고 SNP 등으로 구분된다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

차세대 시퀀싱 데이터를 위한 SNP 분석 방법
SNP Analysis Method for Next-generation Sequencing Data 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

차세대 시퀀싱 데이터를 위한 SNP 분석 방법 SNP Analysis Method for Next-generation Sequencing Data 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

차세대 시퀀싱 데이터를 위한 SNP 분석 방법
SNP Analysis Method for Next-generation Sequencing Data 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper