질량스펙트럼의 펩타이드 분자량 오차범위 재해석에 의한 단백질 동정의 성능 향상 Improvement of protein identification performance by reinterpreting the precursor ion mass tolerance of mass spectrum원문보기
프로테오믹스에서 얻는 탄뎀 질량 스펙트럼은 효소로 가수분해된 펩타이드의 전구이온(precursor ion) 분자량과 펩타이드에 에너지를 가하여 생성된 이온조각(fragment ion)들의 분자량값들로 구성된다. 탄뎀 질량스펙트럼의 전구이온 분자량은 단백질 서열 데이터베이스에서의 검객 과정에서 가장 먼저 고려하는 값이다. 단백질 검색 프로그램은 단백질 서열 중에 스펙트럼의 전구이온으로부터 계산된 분자량과 일치하는 펩타이드 서열들을 찾아내고, 이들 중의 하나를 이온조각들의 분자량 정보를 이용해서 선택한다. 이 때에 전구이온의 분자량은 사용자가 지정한 오차범위 내에서 일치하는 감을 검색하는데, 이때의 오차범위는 질량분석기의 정확도에 따라 결정된다. 본 논문에서는 인간 혈액의 혈장시료로부터 FT LTQ 질량분석기를 통해 얻어진 탄뎀 질량 스펙트럼에서 전구이온 분자량의 분포를 역순서열을 이용하여 분석하였다. 전구이온 분자량의 분포를 재해석하여 실험값의 정확도를 보정하고 단백질 동정의 성능을 향상시키는 방법을 모색하였다.
프로테오믹스에서 얻는 탄뎀 질량 스펙트럼은 효소로 가수분해된 펩타이드의 전구이온(precursor ion) 분자량과 펩타이드에 에너지를 가하여 생성된 이온조각(fragment ion)들의 분자량값들로 구성된다. 탄뎀 질량스펙트럼의 전구이온 분자량은 단백질 서열 데이터베이스에서의 검객 과정에서 가장 먼저 고려하는 값이다. 단백질 검색 프로그램은 단백질 서열 중에 스펙트럼의 전구이온으로부터 계산된 분자량과 일치하는 펩타이드 서열들을 찾아내고, 이들 중의 하나를 이온조각들의 분자량 정보를 이용해서 선택한다. 이 때에 전구이온의 분자량은 사용자가 지정한 오차범위 내에서 일치하는 감을 검색하는데, 이때의 오차범위는 질량분석기의 정확도에 따라 결정된다. 본 논문에서는 인간 혈액의 혈장시료로부터 FT LTQ 질량분석기를 통해 얻어진 탄뎀 질량 스펙트럼에서 전구이온 분자량의 분포를 역순서열을 이용하여 분석하였다. 전구이온 분자량의 분포를 재해석하여 실험값의 정확도를 보정하고 단백질 동정의 성능을 향상시키는 방법을 모색하였다.
In proteomics research, proteins are digested into peptides by an enzyme and in mass spectrometer, these peptides break into fragment ions to generate tandem mass spectra. The tandem mass spectral data obtained from the mass spectrometer consists of the molecular weights of the precursor ion and fra...
In proteomics research, proteins are digested into peptides by an enzyme and in mass spectrometer, these peptides break into fragment ions to generate tandem mass spectra. The tandem mass spectral data obtained from the mass spectrometer consists of the molecular weights of the precursor ion and fragment ions. The precursor ion mass of tandem mass spectrum is the first value that is fetched to sort the candidate peptides in the database search. We look far the peptide sequences whose molecular weight matches with precursor ion mass of the mass spectrum. Then, we choose one peptide sequence that shows the best match with fragment ions information. The precursor ion mass of the tandem mass spectrum is compared with that of the digested peptides of protein database within the mass tolerance that is assigned by users according to the mass spectrometer accuracy. In this study, we used reversed sequence database method to analyze the molecular weight distribution of precursor ions of the tandem mass spectra obtained by the FT LTQ mass spectrometer for human plasma sample. By reinterpreting the precursor ion mass distribution, we could compute the experimental accuracy and we suggested a method to improve the protein identification performance.
In proteomics research, proteins are digested into peptides by an enzyme and in mass spectrometer, these peptides break into fragment ions to generate tandem mass spectra. The tandem mass spectral data obtained from the mass spectrometer consists of the molecular weights of the precursor ion and fragment ions. The precursor ion mass of tandem mass spectrum is the first value that is fetched to sort the candidate peptides in the database search. We look far the peptide sequences whose molecular weight matches with precursor ion mass of the mass spectrum. Then, we choose one peptide sequence that shows the best match with fragment ions information. The precursor ion mass of the tandem mass spectrum is compared with that of the digested peptides of protein database within the mass tolerance that is assigned by users according to the mass spectrometer accuracy. In this study, we used reversed sequence database method to analyze the molecular weight distribution of precursor ions of the tandem mass spectra obtained by the FT LTQ mass spectrometer for human plasma sample. By reinterpreting the precursor ion mass distribution, we could compute the experimental accuracy and we suggested a method to improve the protein identification performance.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 논문에서는 고해상도로 양질의 데이터를 대량으로 얻는 FT LTQ 질량분석기에서의 펩타이드 분자량 측정 결과를 분석하고 장비의 특성을 활용하여, 탄뎀 질량 스펙트럼 데이터로부터 많은 단백질을 높은 신뢰도로 동정할 수 있는 방안을 모색하였다. FT LTQ 는 일반적으로 4ppm 의 해상도를 구현할 수 있는 질량분석기로 알려져 있으며 펩타이드의 분자량에 대해 매우 정밀한 결과를 제공한다.
본 논문은 LCQ, LT LTQ 질량분석기의 데이터에 대해 개발되어온 분석법을 활용하여 FT LTQ 의 질량 스펙트럼을 분석하고, FT LTQ 의 높은 정확도를 적용하여 보다 효율적인 분석 결과를 유도할 수 있는 방법을 알아보았다.
제안 방법
수 있다. FT LTQ 질량분석기의 전구이온 분자량 오차범위에 대한 분석에서는 한국인의 혈장을 시료로 사용하였고, 데이터베이스 검색은 TurboSEQUEST (ThemoFinnigan, San Jose, CA) 프로그램을 사용하였다. TurboSEQUEST에서는 cross correlation value (Xcorr)라는 검색 스코어를 얻는데 이 스코어만으로 검색 결과를 판단하기는 어려우므로, 그 외에 DCn, RSp 등의 스코어 값을 보조적으로 활용한다.
본 연구에서는 인간 혈장 시료에 대해서 이와 같이 IPI 단백질 데이터베이스와 이의 역순 서열 데이터베이스을 활용하여 FT LTQ 질량스펙트럼에서의 true positive 펩타이드의 분포를 얻을 수 있었다. 지금까지 발표되어진 다른 분석 방법들에서는 역순 서열 데이터베이스의 검색 결과를 검색 스코어에 적용하여 펩타이드 동정의 오류율을 계산하는 데에만 사용하였으나, 본 연구에서는 전구이온 분자량의 오차범위에 따른 펩타이드의 분포 분석에 역순 서열 데이터베이스의 검색 결과를 활용하여 탄뎀 질량 스펙트럼의 오차범위를 명백하게 가시화하여 설정할 수 있었다.
여기서는 문제의 해결 방법으로 오차범위의 조정을 제시하였다. 이에 대한 또다른 해결 방법으로는 monoisotope peak 을 설정하는 알고리듬의 개선이 가능하다.
만일 FT LTQ 질량분석기에서 mono isotope peak가 정확하게 측정이 된다면 오차값의 분포는 0 Da 근처에 모이게 될 것이다. 우리는 이렇게 모은 펩타이드의 분포로부터 true positive 분포 곡선을 얻고, 이를 다시 가우스 함수분포로 보정하여 전체 펩타이드 중에 95% 펩타이드를 포함하는 오차범위 영역을 계산하였다. 이때 전구 이온 분자량의 오차 범위는 -17 mDa ~ 26 mDa 으로 얻어졌다.
우리는 전구이온 분자량의 오차범위와 관련한 이 같은 사전 분석 결과들을 토대로 ft LTQ 질량분석기의 데이터로부터 보다 정확하고 효율적인 단백질 동정 결과를 얻기 위한 분석 시스템을 구성하였다.
우리는 펩타이드 분자량의 오차값이 1 Da 에 가까운 분포는 1 Da 만큼 분포곡선을 왼쪽으로 이동하고, 2 Da 주위의 분포는 2Da 만큼 왼쪽으로 이동하여 0 Da 주위에 분포곡선을 모으게 하였다. 만일 FT LTQ 질량분석기에서 mono isotope peak가 정확하게 측정이 된다면 오차값의 분포는 0 Da 근처에 모이게 될 것이다.
FT LTQ 는 일반적으로 4ppm 의 해상도를 구현할 수 있는 질량분석기로 알려져 있으며 펩타이드의 분자량에 대해 매우 정밀한 결과를 제공한다. 이러한 고해상도를 십분 활용하여 단백질 동정의 효율을 높이기 위한 분석법을 제안하였다.
잘 맞는 펩타이드를 골라낸다. 이를 위해서는 우선 단백질 데이터베이스에서 실험에서의 펩타이드 이온 분자량과 오차범위 내에서 일치하는 펩타이드 서열의 집합을 얻은 뒤에 이들의 조각 이온들의 분자량의 값들이 실험에서의 탄뎀 질량스펙트럼과 가장 잘 일치하는 펩타이드를 선택한다. 여기서 펩타이드 이온의 분자량 비교는 스펙트럼을 비교할 대상이 되는 펩타이드들을 단백질 데이터베이스로부터 가려내는 과정이다.
대상 데이터
uk/ ) 에서 제공하는 IPI human database를 사용하였다. 검색 결과 얻은 펩타이드의 진위를 파악하기 위하여 IPI 데이터베이스의 역순 서열 데이터베이스를 함께 활용하였다.
역순 서열 데이터베이스는 단백질의 아미노산 서열을 뒤집어서 C-터미날의 아미노산부터 N-터미날의 아미노산까지로 서열을 만든 가상의 단백질 데이터베이스이다. 단백질 데이터 베이스와 역순서 열 데이터 베 이스를 합한 데이터 베이스로 탄뎀 질량 스펙트럼을 검색하면 검색 결과가 단백질 데이터베이스에서 얻어진 펩타이드와 역순서열에서 얻어진 펩타이드들이 얻어진다.
탄뎀 질량 스펙트럼의 데이터베이스 검색은 TurboSEQUEST 프로그램을 사용하고, 데이터 베 이스로는EBI (European Bioinfbrmatics Institute, http://www.ebi.ac.uk/ ) 에서 제공하는 IPI human database를 사용하였다. 검색 결과 얻은 펩타이드의 진위를 파악하기 위하여 IPI 데이터베이스의 역순 서열 데이터베이스를 함께 활용하였다.
데이터처리
우리는 역순 서열 데이터베이스의 분포를 전구이온 분자량의 오차분포에 적용함으로써 데이터베이스 검색 결과의 진위분석을 오차분포별로 계산할 수 있었다. 작은 오차범위에서 FT LTQ 의 데이터에서는 옳은 펩타이드 동정의 개수에 비해서 틀린 펩타이드 동정의 개수가 더 적었음에도 불구하고, 단백질 데이터베이스에서의 펩타이드 분포와 역순 서열 데이터베이스에서의 펩타이드 분포 양상으로부터 기존의 통계적인 해석 방법을 그대로 적용하여 false positive 의 개수를 예측할 수 있었다.
이론/모형
TurboSEQUEST에서는 cross correlation value (Xcorr)라는 검색 스코어를 얻는데 이 스코어만으로 검색 결과를 판단하기는 어려우므로, 그 외에 DCn, RSp 등의 스코어 값을 보조적으로 활용한다. 본 연구에서는 TurboSEQUEST에서 질량분석 스펙트럼과 관련된 스코어들을 통합하여 정의한 스코어로서 Keller 등이 정의한 F 스코어 (Keller 등, 2002)를 사용하였다. F 스코어가 작은 값인 경우에는 펩타이드 서열을 동정하기는 하였으나 스펙트럼과 펩타이드 서열이 그다지 잘 맞지 않는 경우들로서 false pos itive 데이터들을 많이 포함한다.
성능/효과
F 스코어가 작은 값인 경우에는 펩타이드 서열을 동정하기는 하였으나 스펙트럼과 펩타이드 서열이 그다지 잘 맞지 않는 경우들로서 false pos itive 데이터들을 많이 포함한다. F 스코어가 높은 펩타이드는 정확한 검색이 이루어졌음을 나타내는데, FT LTQ 데이터의 검색 결과를 분석한 결과 높은 검색 스코어값들이 분자량의 오차가 0 Da, 1 Da, 2 Da 인 영역 주변에 특히 많이 존재함을 볼 수 있다. F 스코어 값이 4보다 크게 검색된 펩타이드의 99%가 0 Da, 1 Da, 2 Da 지점으로부터 0.
작은 오차범위에서 FT LTQ 의 데이터에서는 옳은 펩타이드 동정의 개수에 비해서 틀린 펩타이드 동정의 개수가 더 적었음에도 불구하고, 단백질 데이터베이스에서의 펩타이드 분포와 역순 서열 데이터베이스에서의 펩타이드 분포 양상으로부터 기존의 통계적인 해석 방법을 그대로 적용하여 false positive 의 개수를 예측할 수 있었다. 뿐만 아니라, monoisotope peak 와 더불어 두 번째, 세 번째 피크 값이 선택되는 경우를 전구이온 분자량의 오차범위에 포함함으로써 54% 만큼 더 많은 단백질을 동정할 수 있었다.
오차분포별로 계산할 수 있었다. 작은 오차범위에서 FT LTQ 의 데이터에서는 옳은 펩타이드 동정의 개수에 비해서 틀린 펩타이드 동정의 개수가 더 적었음에도 불구하고, 단백질 데이터베이스에서의 펩타이드 분포와 역순 서열 데이터베이스에서의 펩타이드 분포 양상으로부터 기존의 통계적인 해석 방법을 그대로 적용하여 false positive 의 개수를 예측할 수 있었다. 뿐만 아니라, monoisotope peak 와 더불어 두 번째, 세 번째 피크 값이 선택되는 경우를 전구이온 분자량의 오차범위에 포함함으로써 54% 만큼 더 많은 단백질을 동정할 수 있었다.
얻을 수 있었다. 지금까지 발표되어진 다른 분석 방법들에서는 역순 서열 데이터베이스의 검색 결과를 검색 스코어에 적용하여 펩타이드 동정의 오류율을 계산하는 데에만 사용하였으나, 본 연구에서는 전구이온 분자량의 오차범위에 따른 펩타이드의 분포 분석에 역순 서열 데이터베이스의 검색 결과를 활용하여 탄뎀 질량 스펙트럼의 오차범위를 명백하게 가시화하여 설정할 수 있었다. 이러한 분석 방법은 LCQ, LT LTQ 와 같이 해상도가 낮은 장비에서는 역순 서열에서 얻은 펩타이드 분포가 일정한 모양을 가지지 못하므로, 이러한 분석 방법은 FT LTQ에서 특히 유용한 방법이다.
후속연구
낮은 해상도에서 적용되던 분석 방법들이 고해상도에서는 더 이상 적용되지 않는 경우가 생길 것이며, 낮은 해상도에서는 불가능했던 분석이 장비의 개선으로 가능해지는 경우도 있다. 본 연구에서와 같이 기존의 낮은 해상도에서 사용하던 분석 방법을 재고하고 재해석하는 과정은 신기술, 첨단 장비를 위한 새로운 분석 방법을 고안하는 계기가 될 수 있을 것이다.
이는 스펙트럼의 질적 문제와 펩타이드 서열의 동정 방법의 문제에 기인한다. 실험에서 얻은 스펙트럼으로부터 펩타이드 서열정보를 최대한 얻어내기 위해서는 양질의 스펙트럼들에 대한보다 다양한 분석이 필요하다. 이에 데이터베이스 검색 알고리듬과 데이터 분석 방법의 개선으로 펩타이드 서열 동정의 비율을 높이려는 노력이 계속되고 있다.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.