[논문]질량스펙트럼의 펩타이드 분자량 오차범위 재해석에 의한 단백질 동정의 성능 향상

권경훈; 김진영; 박건욱; 이정화; 백융기; 유종신

문제 정의

본 논문에서는 고해상도로 양질의 데이터를 대량으로 얻는 FT LTQ 질량분석기에서의 펩타이드 분자량 측정 결과를 분석하고 장비의 특성을 활용하여, 탄뎀 질량 스펙트럼 데이터로부터 많은 단백질을 높은 신뢰도로 동정할 수 있는 방안을 모색하였다. FT LTQ 는 일반적으로 4ppm 의 해상도를 구현할 수 있는 질량분석기로 알려져 있으며 펩타이드의 분자량에 대해 매우 정밀한 결과를 제공한다.
본 논문은 LCQ, LT LTQ 질량분석기의 데이터에 대해 개발되어온 분석법을 활용하여 FT LTQ 의 질량 스펙트럼을 분석하고, FT LTQ 의 높은 정확도를 적용하여 보다 효율적인 분석 결과를 유도할 수 있는 방법을 알아보았다.

제안 방법

수 있다. FT LTQ 질량분석기의 전구이온 분자량 오차범위에 대한 분석에서는 한국인의 혈장을 시료로 사용하였고, 데이터베이스 검색은 TurboSEQUEST (ThemoFinnigan, San Jose, CA) 프로그램을 사용하였다. TurboSEQUEST에서는 cross correlation value (Xcorr)라는 검색 스코어를 얻는데 이 스코어만으로 검색 결과를 판단하기는 어려우므로, 그 외에 DCn, RSp 등의 스코어 값을 보조적으로 활용한다.
본 연구에서는 인간 혈장 시료에 대해서 이와 같이 IPI 단백질 데이터베이스와 이의 역순 서열 데이터베이스을 활용하여 FT LTQ 질량스펙트럼에서의 true positive 펩타이드의 분포를 얻을 수 있었다. 지금까지 발표되어진 다른 분석 방법들에서는 역순 서열 데이터베이스의 검색 결과를 검색 스코어에 적용하여 펩타이드 동정의 오류율을 계산하는 데에만 사용하였으나, 본 연구에서는 전구이온 분자량의 오차범위에 따른 펩타이드의 분포 분석에 역순 서열 데이터베이스의 검색 결과를 활용하여 탄뎀 질량 스펙트럼의 오차범위를 명백하게 가시화하여 설정할 수 있었다.
여기서는 문제의 해결 방법으로 오차범위의 조정을 제시하였다. 이에 대한 또다른 해결 방법으로는 monoisotope peak 을 설정하는 알고리듬의 개선이 가능하다.
만일 FT LTQ 질량분석기에서 mono isotope peak가 정확하게 측정이 된다면 오차값의 분포는 0 Da 근처에 모이게 될 것이다. 우리는 이렇게 모은 펩타이드의 분포로부터 true positive 분포 곡선을 얻고, 이를 다시 가우스 함수분포로 보정하여 전체 펩타이드 중에 95% 펩타이드를 포함하는 오차범위 영역을 계산하였다. 이때 전구 이온 분자량의 오차 범위는 -17 mDa ~ 26 mDa 으로 얻어졌다.
우리는 전구이온 분자량의 오차범위와 관련한 이 같은 사전 분석 결과들을 토대로 ft LTQ 질량분석기의 데이터로부터 보다 정확하고 효율적인 단백질 동정 결과를 얻기 위한 분석 시스템을 구성하였다.
우리는 펩타이드 분자량의 오차값이 1 Da 에 가까운 분포는 1 Da 만큼 분포곡선을 왼쪽으로 이동하고, 2 Da 주위의 분포는 2Da 만큼 왼쪽으로 이동하여 0 Da 주위에 분포곡선을 모으게 하였다. 만일 FT LTQ 질량분석기에서 mono isotope peak가 정확하게 측정이 된다면 오차값의 분포는 0 Da 근처에 모이게 될 것이다.
FT LTQ 는 일반적으로 4ppm 의 해상도를 구현할 수 있는 질량분석기로 알려져 있으며 펩타이드의 분자량에 대해 매우 정밀한 결과를 제공한다. 이러한 고해상도를 십분 활용하여 단백질 동정의 효율을 높이기 위한 분석법을 제안하였다.
잘 맞는 펩타이드를 골라낸다. 이를 위해서는 우선 단백질 데이터베이스에서 실험에서의 펩타이드 이온 분자량과 오차범위 내에서 일치하는 펩타이드 서열의 집합을 얻은 뒤에 이들의 조각 이온들의 분자량의 값들이 실험에서의 탄뎀 질량스펙트럼과 가장 잘 일치하는 펩타이드를 선택한다. 여기서 펩타이드 이온의 분자량 비교는 스펙트럼을 비교할 대상이 되는 펩타이드들을 단백질 데이터베이스로부터 가려내는 과정이다.

대상 데이터

uk/ ) 에서 제공하는 IPI human database를 사용하였다. 검색 결과 얻은 펩타이드의 진위를 파악하기 위하여 IPI 데이터베이스의 역순 서열 데이터베이스를 함께 활용하였다.
역순 서열 데이터베이스는 단백질의 아미노산 서열을 뒤집어서 C-터미날의 아미노산부터 N-터미날의 아미노산까지로 서열을 만든 가상의 단백질 데이터베이스이다. 단백질 데이터 베이스와 역순서 열 데이터 베 이스를 합한 데이터 베이스로 탄뎀 질량 스펙트럼을 검색하면 검색 결과가 단백질 데이터베이스에서 얻어진 펩타이드와 역순서열에서 얻어진 펩타이드들이 얻어진다.
탄뎀 질량 스펙트럼의 데이터베이스 검색은 TurboSEQUEST 프로그램을 사용하고, 데이터 베 이스로는EBI (European Bioinfbrmatics Institute, http://www.ebi.ac.uk/ ) 에서 제공하는 IPI human database를 사용하였다. 검색 결과 얻은 펩타이드의 진위를 파악하기 위하여 IPI 데이터베이스의 역순 서열 데이터베이스를 함께 활용하였다.

데이터처리

우리는 역순 서열 데이터베이스의 분포를 전구이온 분자량의 오차분포에 적용함으로써 데이터베이스 검색 결과의 진위분석을 오차분포별로 계산할 수 있었다. 작은 오차범위에서 FT LTQ 의 데이터에서는 옳은 펩타이드 동정의 개수에 비해서 틀린 펩타이드 동정의 개수가 더 적었음에도 불구하고, 단백질 데이터베이스에서의 펩타이드 분포와 역순 서열 데이터베이스에서의 펩타이드 분포 양상으로부터 기존의 통계적인 해석 방법을 그대로 적용하여 false positive 의 개수를 예측할 수 있었다.

이론/모형

TurboSEQUEST에서는 cross correlation value (Xcorr)라는 검색 스코어를 얻는데 이 스코어만으로 검색 결과를 판단하기는 어려우므로, 그 외에 DCn, RSp 등의 스코어 값을 보조적으로 활용한다. 본 연구에서는 TurboSEQUEST에서 질량분석 스펙트럼과 관련된 스코어들을 통합하여 정의한 스코어로서 Keller 등이 정의한 F 스코어 (Keller 등, 2002)를 사용하였다. F 스코어가 작은 값인 경우에는 펩타이드 서열을 동정하기는 하였으나 스펙트럼과 펩타이드 서열이 그다지 잘 맞지 않는 경우들로서 false pos itive 데이터들을 많이 포함한다.

성능/효과

F 스코어가 작은 값인 경우에는 펩타이드 서열을 동정하기는 하였으나 스펙트럼과 펩타이드 서열이 그다지 잘 맞지 않는 경우들로서 false pos itive 데이터들을 많이 포함한다. F 스코어가 높은 펩타이드는 정확한 검색이 이루어졌음을 나타내는데, FT LTQ 데이터의 검색 결과를 분석한 결과 높은 검색 스코어값들이 분자량의 오차가 0 Da, 1 Da, 2 Da 인 영역 주변에 특히 많이 존재함을 볼 수 있다. F 스코어 값이 4보다 크게 검색된 펩타이드의 99%가 0 Da, 1 Da, 2 Da 지점으로부터 0.
작은 오차범위에서 FT LTQ 의 데이터에서는 옳은 펩타이드 동정의 개수에 비해서 틀린 펩타이드 동정의 개수가 더 적었음에도 불구하고, 단백질 데이터베이스에서의 펩타이드 분포와 역순 서열 데이터베이스에서의 펩타이드 분포 양상으로부터 기존의 통계적인 해석 방법을 그대로 적용하여 false positive 의 개수를 예측할 수 있었다. 뿐만 아니라, monoisotope peak 와 더불어 두 번째, 세 번째 피크 값이 선택되는 경우를 전구이온 분자량의 오차범위에 포함함으로써 54% 만큼 더 많은 단백질을 동정할 수 있었다.
오차분포별로 계산할 수 있었다. 작은 오차범위에서 FT LTQ 의 데이터에서는 옳은 펩타이드 동정의 개수에 비해서 틀린 펩타이드 동정의 개수가 더 적었음에도 불구하고, 단백질 데이터베이스에서의 펩타이드 분포와 역순 서열 데이터베이스에서의 펩타이드 분포 양상으로부터 기존의 통계적인 해석 방법을 그대로 적용하여 false positive 의 개수를 예측할 수 있었다. 뿐만 아니라, monoisotope peak 와 더불어 두 번째, 세 번째 피크 값이 선택되는 경우를 전구이온 분자량의 오차범위에 포함함으로써 54% 만큼 더 많은 단백질을 동정할 수 있었다.
얻을 수 있었다. 지금까지 발표되어진 다른 분석 방법들에서는 역순 서열 데이터베이스의 검색 결과를 검색 스코어에 적용하여 펩타이드 동정의 오류율을 계산하는 데에만 사용하였으나, 본 연구에서는 전구이온 분자량의 오차범위에 따른 펩타이드의 분포 분석에 역순 서열 데이터베이스의 검색 결과를 활용하여 탄뎀 질량 스펙트럼의 오차범위를 명백하게 가시화하여 설정할 수 있었다. 이러한 분석 방법은 LCQ, LT LTQ 와 같이 해상도가 낮은 장비에서는 역순 서열에서 얻은 펩타이드 분포가 일정한 모양을 가지지 못하므로, 이러한 분석 방법은 FT LTQ에서 특히 유용한 방법이다.

후속연구

낮은 해상도에서 적용되던 분석 방법들이 고해상도에서는 더 이상 적용되지 않는 경우가 생길 것이며, 낮은 해상도에서는 불가능했던 분석이 장비의 개선으로 가능해지는 경우도 있다. 본 연구에서와 같이 기존의 낮은 해상도에서 사용하던 분석 방법을 재고하고 재해석하는 과정은 신기술, 첨단 장비를 위한 새로운 분석 방법을 고안하는 계기가 될 수 있을 것이다.
이는 스펙트럼의 질적 문제와 펩타이드 서열의 동정 방법의 문제에 기인한다. 실험에서 얻은 스펙트럼으로부터 펩타이드 서열정보를 최대한 얻어내기 위해서는 양질의 스펙트럼들에 대한보다 다양한 분석이 필요하다. 이에 데이터베이스 검색 알고리듬과 데이터 분석 방법의 개선으로 펩타이드 서열 동정의 비율을 높이려는 노력이 계속되고 있다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

질량스펙트럼의 펩타이드 분자량 오차범위 재해석에 의한 단백질 동정의 성능 향상
Improvement of protein identification performance by reinterpreting the precursor ion mass tolerance of mass spectrum 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

질량스펙트럼의 펩타이드 분자량 오차범위 재해석에 의한 단백질 동정의 성능 향상 Improvement of protein identification performance by reinterpreting the precursor ion mass tolerance of mass spectrum 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

질량스펙트럼의 펩타이드 분자량 오차범위 재해석에 의한 단백질 동정의 성능 향상
Improvement of protein identification performance by reinterpreting the precursor ion mass tolerance of mass spectrum 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper