Lee, Jeung Min
(Bio Big Data Convergence Major, Dept. of Computer and Electronics Convergence Engineering, Sunmoon University)
,
Lee, Hyun
(Division of Computer Science and Engineering, Sunmoon University)
본 논문에서는 2020년 기준 단백질 서열을 이용한 기능과 구조 예측 분야에서 가장 많이 사용되고 있는 딥러닝 모델인 CNN과 LSTM/GRU 모델을 동일한 조건 하에 비교 평가한 연구를 토대로 새로운 효소 기능 예측 모델인 PSCREM을 설계하였다. CNN 합성곱 시 누락되는 세부 패턴을 보존하기 위하여 서열 진화정보를 이용하였으며 중첩 RNN을 통해 기능적으로 중요한 의미를 가지는 아미노산 간의 관계 정보를 추출하고 특징 맵 제작에 참조하였다. 사용된 RNN 계열의 알고리즘은 LSTM과 GRU로 보통 stacked RNN 기법으로 100 units 이상 2~3회 쌓는 것이 일반적이나 본 논문에서는 10, 20 unit으로 구성한 뒤 중첩시켜서 특징 맵 제작에 사용하였다. 모델에 들어가는 데이터는 단백질 서열 데이터로 PSSM profile로 가공한 뒤 사용되었다. 실험 결과 효소 번호 첫 번째 자리를 예측하는 문제에 대해 86.4%의 정확도를 나타냄을 입증하였고, 효소 번호 3번째 자리까지 예측 정확도 84.4%의 성능을 내는 것을 확인하였다. PSCREM은 Overlapped RNN을 통해 단백질 기능에 관련된 고유 패턴을 더 잘 파악하며 Overlapped RNN은 단백질 기능 및 구조 예측 추출 분야에 새로운 방법론으로서 제안된다.
본 논문에서는 2020년 기준 단백질 서열을 이용한 기능과 구조 예측 분야에서 가장 많이 사용되고 있는 딥러닝 모델인 CNN과 LSTM/GRU 모델을 동일한 조건 하에 비교 평가한 연구를 토대로 새로운 효소 기능 예측 모델인 PSCREM을 설계하였다. CNN 합성곱 시 누락되는 세부 패턴을 보존하기 위하여 서열 진화정보를 이용하였으며 중첩 RNN을 통해 기능적으로 중요한 의미를 가지는 아미노산 간의 관계 정보를 추출하고 특징 맵 제작에 참조하였다. 사용된 RNN 계열의 알고리즘은 LSTM과 GRU로 보통 stacked RNN 기법으로 100 units 이상 2~3회 쌓는 것이 일반적이나 본 논문에서는 10, 20 unit으로 구성한 뒤 중첩시켜서 특징 맵 제작에 사용하였다. 모델에 들어가는 데이터는 단백질 서열 데이터로 PSSM profile로 가공한 뒤 사용되었다. 실험 결과 효소 번호 첫 번째 자리를 예측하는 문제에 대해 86.4%의 정확도를 나타냄을 입증하였고, 효소 번호 3번째 자리까지 예측 정확도 84.4%의 성능을 내는 것을 확인하였다. PSCREM은 Overlapped RNN을 통해 단백질 기능에 관련된 고유 패턴을 더 잘 파악하며 Overlapped RNN은 단백질 기능 및 구조 예측 추출 분야에 새로운 방법론으로서 제안된다.
In this paper, we designed a new enzyme function prediction model PSCREM based on a study that compared and evaluated CNN and LSTM/GRU models, which are the most widely used deep learning models in the field of predicting functions and structures using protein sequences in 2020, under the same condi...
In this paper, we designed a new enzyme function prediction model PSCREM based on a study that compared and evaluated CNN and LSTM/GRU models, which are the most widely used deep learning models in the field of predicting functions and structures using protein sequences in 2020, under the same conditions. Sequence evolution information was used to preserve detailed patterns which would miss in CNN convolution, and the relationship information between amino acids with functional significance was extracted through overlapping RNNs. It was referenced to feature map production. The RNN family of algorithms used in small CNN-RNN models are LSTM algorithms and GRU algorithms, which are usually stacked two to three times over 100 units, but in this paper, small RNNs consisting of 10 and 20 units are overlapped. The model used the PSSM profile, which is transformed from protein sequence data. The experiment proved 86.4% the performance for the problem of predicting the main classes of enzyme number, and it was confirmed that the performance was 84.4% accurate up to the sub-sub classes of enzyme number. Thus, PSCREM better identifies unique patterns related to protein function through overlapped RNN, and Overlapped RNN is proposed as a novel methodology for protein function and structure prediction extraction.
In this paper, we designed a new enzyme function prediction model PSCREM based on a study that compared and evaluated CNN and LSTM/GRU models, which are the most widely used deep learning models in the field of predicting functions and structures using protein sequences in 2020, under the same conditions. Sequence evolution information was used to preserve detailed patterns which would miss in CNN convolution, and the relationship information between amino acids with functional significance was extracted through overlapping RNNs. It was referenced to feature map production. The RNN family of algorithms used in small CNN-RNN models are LSTM algorithms and GRU algorithms, which are usually stacked two to three times over 100 units, but in this paper, small RNNs consisting of 10 and 20 units are overlapped. The model used the PSSM profile, which is transformed from protein sequence data. The experiment proved 86.4% the performance for the problem of predicting the main classes of enzyme number, and it was confirmed that the performance was 84.4% accurate up to the sub-sub classes of enzyme number. Thus, PSCREM better identifies unique patterns related to protein function through overlapped RNN, and Overlapped RNN is proposed as a novel methodology for protein function and structure prediction extraction.
본 논문에서는 먼저 아미노산 서열의 텍스트 데이터로 모델 자체의 패턴 추출 성능을 검증한 뒤에 PSSM profile 을 적용한 목적의 모델을 설계하였다. 이에 제안하는 모델의 성능 검증 실험은 총 4가지로 구성되었다.
그뿐만 아니라 ECPred(2018), EnzyNet(2018), MF-EFP(2020), UDSMProt(2020)과 같이 서열 진화정보를 활용해 단백질 기능을 예측하기 위한 연구 또한 다수 수행되었다[7-10]. 본 연구 또한 서열의 진화정보를 이용해 단백질 기능과 관련된 고유 패턴을 추출하기 위한 딥러닝 모델을 설계하고 실험하였다.
제안 방법
본 논문에서 설계하고 제안한 모델은 작은 학습률을 사용함에도 불구하고 과적합이 빨리 되므로 두 개의 층으로 이루어진 완전 연결 계층에서 kernel_regularizers L2를 0.00001로 설정하여 총합 2회 적용하는 것으로 과적합에 대처하였으며 완전 연결 계층 사이에 배치 정규화를 해주었고, 조기 종료를 적용하였다. 조기 종료는 검증 손실을 기준으로 판단하며 총합 5회 성능 향상이 보이지 않을 시바로 종료하도록 설정하였다.
본 논문에서 제안하는 것은 선행된 비교 실험[11]의 결과를 기반으로 구성한 CNN-RNN 특징 접목 모델이다. 입력으로는 PSSM profile로 변환된 서열 데이터를 사용하였다.
본 논문은 구조 예측에 사용되는 PSSM profile 정보를 이용해 효소의 기능을 예측한다. 이에 구조적으로 확실히 검증된 시퀀스만을 사용하여 서열의 상동성과 그 사이의 특이 패턴을 파악할 필요성이 있었다.
이에 제안하는 모델의 성능 검증 실험은 총 4가지로 구성되었다. 서열 진화정보로 변환하지 않고 단백질 문자열 자체를 사용하여 효소번호 첫 번째 자리까지 예측하는 실험, 서열 진화정보를 이용하여 효소 번호 첫 번째 자리를 예측하는 실험, 같은 조건으로 서열 진화정보를 사용하여 효소 번호 세 번째 자리까지 예측하는 실험, 제안 모델과 다른 모델을 동일한 데이터로 비교하는 실험으로 이루어진다.
모델에는 CNN과 LSTM, GRU가 모두 사용되었으며 RNN 계열인 LSTM과 GRU 모델은 일반적인 적용법인 쌓기가 아니라 중첩되었다. 중첩 CNN과 중첩 RNN으로 추출한 특징값을 길게 접목하여 새로운 특징 맵을 구성하였다. 서열 검색 도구를 이용해 만들어진 서열 진화정보가 모델의 입력 데이터로 사용되며 모델은 최종결과물로 효소 번호를 산출한다.
대상 데이터
CNN 모델 부분에서는 1D CNN을 사용하며 사용된 중첩 필터의 크기는 각각 (3,5,9)이고 필터 개수는 128개이다. Filter size의 경우 비교 실험[11]에서 (3,4,5) 필터값이 가장 좋은 성능을 내었으나 짝수보다는 홀수 필터가 패턴 추출에 더 적합하다는 실험 결과와 생물학적으로 유의미한 기능을 가지는 서열 패턴의 길이는 5~7 사이인 경향이 있으므로 (3,5,9) 홀수 값으로만 재구성해서 실험하였다.
Sub-Sub Class PSSM Dataset는 각 1만 개였던 Main Class Dataset과 달리 각 데이터 세트를 50%씩 랜덤하게 재샘플링하여 매 실험마다 총개수 Train 70,682, Validation 23,646, Test 23,646개씩 사용되었다. 충분한 학습 데이터가 존재하므로 해당 실험에서 학습률은0.
Main class PSSM Dataset과 똑같이 시퀀스가 PSI-BLAST 결과로 구성된 PSSM이 한 줄의 문자열 List 형태로 적재되어있다. Train 141,363개, Valid 47,293개, Test 47,293개로 구성되고 실험마다 50%씩 각 데이터 세트에서 제각기 표집된 부분 데이터 세트가 매 실험마다 사용되었다.
데이터 수집 과정을 통해 수집된 총 시퀀스 개수는 566,996개였으며 데이터 선별과정을 통해서 최종적으로 남은 시퀀스 개수는 237,923개다.
본 연구에서 사용된 데이터 세트는 총 3가지이다. 비교실험에서 사용된 다른 모델과의 성능 비교를 위한 모델 검증용 일반 텍스트 데이터 세트 한 개와 PSSM profile로서 본 연구의 목적에 맞게 구성된 데이터 세트 두 개로 이루어진다.
공정한 평가를 위해 동일한 데이터로 결과를 비교하였다. 비교를 위해 사용한 데이터는 효소 번호 대분류까지 예측하는 7 분류 문제이며, 90 번 대 효소 번호가 포함되지 않고, 중복된 효소 번호를 가지지 않는 237,923개의 서열에서 각 클래스에 해당하는 서열을 200개씩 무작위로 추출하였다.
모델에 적용된 파라미터는 본 논문에 앞서 수반된 모델 비교 실험[11] 결과를 기반으로 구성되었다. 선행 연구는 2020년 기준 단백질 서열을 다루어 단백질의 기능이나 구조를 예측하는 융합 분야에서 자주 보이는 딥러닝 모델인 CNN, LSTM, GRU의 단일 모델 성능과 CNN-LSTM, CNN-GRU의 결합 모델의 성능을 동일한 조건 하에 비교 실험하였다.
실험에 사용될 단백질 시퀀스는 UniProtKB 2022_01 Swiss-Prot을 사용하였다. 하나의 서열에 각기 다른 효소 번호를 여러 개 가진 효소는 데이터 수집 과정에서 전부 제외하였다.
2% 정도 정확도가 더 높았고, 손실률은 약 8% 더 낮 았다. 첫 번째 데이터 세트인 Main class Text Dataset에는 원-핫 임베딩이 적용되었고 나머지 Main Class, Sub-Sub Class PSSM Dataset에는 PSSM이 사용되었다. 두 실험에서 사용한 제안 모델의 구성 및 데이터는 전부 동일하다.
총 데이터 개수는 237,973개이다. 라벨 개수는 139개이다.
총 데이터 개수는 70,000개이다. EC 번호 대분류 7가지를 분류한다.
총 데이터 개수는 70,000개이다. EC 번호 대분류 7가지를 분류한다.
데이터처리
표 3은 제안 모델의 Main Class PSSM Dataset에 대한 효소 번호 대분류 예측 3 반복 실험 결과이다. Main Class PSSM Dataset은 총 7가지 Main Class로 Label이 되어있으며 각기 1만 개씩 고르게 분포된 균형 데이터 셋이므로 Micro로 평가하지 않고 Macro precision, recall, F1-Score로 평가하였다.
비교 상의 모델 중 MF-EFP만이 2018년 8 월 이후 EC 7이 새 대분류로 분화된 것을 고려하여 만들어진 효소 번호 예측 모델이다. 공정한 평가를 위해 동일한 데이터로 결과를 비교하였다. 비교를 위해 사용한 데이터는 효소 번호 대분류까지 예측하는 7 분류 문제이며, 90 번 대 효소 번호가 포함되지 않고, 중복된 효소 번호를 가지지 않는 237,923개의 서열에서 각 클래스에 해당하는 서열을 200개씩 무작위로 추출하였다.
4%였으며 클래스가 132개 더 증가하였으나 정확도가 7 분류 문제인 Main class dataset과 비슷한 성능을 보였다. 또한 마지막 검증을 위해 DeepEC, MF-EFP, ECPred를 직접 실험하여 제안 모델과 비교하였다. PSCREM에서 처음으로 사용된 Overlapped RNN이라는 실험적인 특징 맵 합성법에도 불구하고, 제안 모델은 다른 연구가 공표한 단백질 기능 예측 실전 모델과 실 예측 성능이 크게 차이 나지 않음을 확인하였다.
그림 5는 표 5를시각화한 자료이다. 정확도와 Macro F1 점수를 사용하여 그 성능을 평가하였다. DeepEC가 73.
DeepEC와 ECPred가 7번을 학습에 포함하지 않았기에 MF-EFP와제안 모델 또한 7번을 포함하지 않은 데이터 셋으로 비교실험을 한 번 더 수행하였다. 해당 실험 결과 또한 정확도와 Macro F1 점수를 사용하여 평가하였다. 그림 6으로 시각화하였다.
이론/모형
검증 실험은 3가지 각 데이터 세트를 대상으로 수행되어졌다. 균형데이터 세트에 대해서 Loss 계산은 Categorical cross entropy가 적용되었고, 불균형 데이터 세트에 대해서는 샘플 수가 더 적은 클래스의 학습에 집중하는 Focal loss를 적용하였다. Focal loss 안에 내장된 수치는 임시 실험에 따라 알맞게 조정되었고 실험에 따라 최종적으로 감마값이 9, 알파값이 0.
(2019)[20]의 연구에서는 단백질의 구조 예측에 사용되는 데이터 처리 방식인 PSSM profile 정보를 사용해 효소의 기능을 예측하였다. 본 논문에서 또한 단백질 구조 예측에 자주 사용되는 데이터 처리방식인 PSSM proflie을 사용하여 데이터를 전처리하고 모델에 적용한다.
PSI-BLAST(Position-Specific Iterative) 또한 이 중 하나이며 기존 검색을 정확도 측면에서 좀 더 개선한 것이다[16]. 본 논문에서 사용된 PSSM 은 PSI-BLAST의 수행 결과로서 만들어졌다.
중첩 CNN 모델은 단백질 기능 예측 페이퍼인 DeepEC[19]에서도 사용되었으나, LSTM과 GRU는 이와 같이 중첩 RNN으로 사용된 적이 없다. 일반적으로 RNN 계열 알고리즘은 stacked RNN 기법으로 100 units 이상 적용한 층을 2~3 깊이로 쌓아서 사용되어지나 본 논문에서는 기존의 10분의 1 수준인 10, 20 units의 RNN 층이 각각 단층으로 적용되었다. 효소 번호 예측을 위한 모델의 전체적인 데이터 처리흐름과 구조는 그림 2와 같다.
성능/효과
4.1.1의 첫 번째 Text Dataset을 이용한 검증 실험에서 이전 비교실험에서 가장 좋았던 모델인 LSTM 50씩 2회 쌓은 모델과 제안 모델의 결과를 비교했을 때 약 0.5% 더 정확도가 높았고 동일한 유닛 수로 Stacked 된 LSTM의 결과보다는 2.5% 더 좋았다. 비록 손실률은 Stacked LSTM 20, 10 모델이 냈던 손실률에서 약 1% 정도 줄어들었던 것에 비해 Stacked LSTM 50 2회 모델보다는 10% 더 많았으나 해당 실험에서 Unit을 10, 20으로 적용했을 때 일반적으로 사용되는 50 unit 2회 쌓기와 비슷한 결과를 도출해내었으므로 이는 Unit을 50, 70으로 적용했을 때 100 unit 2회 쌓기와 비슷한 결과를 도출하거나 더 좋은 성능을 보여줄 것으로 보였다.
4.1.2에서 보인 Main Class PSSM Dataset을 이용한 두 번째 검증 실험에서는 Text Main Class Dataset을 이용한 첫 번째 실험보다 평균 정확도가 약 2.7% 더 좋았고 손실률은 18% 낮았다. Stacked 50, 50 결과와 비교하면 약 3.
4.1.3을 통해 확인할 수 있는 Sub-Sub Class PSSM Dataset를 이용한 검증 실험에서는 데이터가 비록 불균형하나 Focal Loss로 수가 더 적은 클래스에 집중해서 가중치를 높이는 방향으로 학습시킴으로서 불균형 데이터 클래스의 편향을 일부 해소하였다. Focal loss를 적용하지 않았을 때의 세분류 예측 문제의 손실률과 정확도는 항상 1 이상, 50% 미만이었다.
DeepEC가 73.64%, MF—EFP가 17.4%, ECPred가 82.1%, 제안 모델이 89.2%로 제안 모델의 정확도가 가장 높았다
DeepEC가 85.91%, MF-EFP가 20.1%, ECPred가 95.8%, 제안 모델이 87.8%로 효소 7번이 제외된 데이터를 대상으로는 ECPred의 정확도가 가장 높았고 제안 모델의 정확도가 두 번째로 높았다. 그러나 Macro F1으로 나타내었을 때 ECPred가 72.
본 모델에서 처음으로 시도된 Overlapped RNN은 단백질 기능 및 구조 예측 추출 분야에 새로운 방법론으로서 제안된다. LSTM과 GRU가 각기 다르게 파악한 문장 간 관계 값을 통합 특징 맵에 더함으로써 모델의 패턴 학습시참조할 정보를 보충하였고, 작은 unit을 가지고도 약 2배이상 되는 Unit 수를 가진 Stacked RNN 계열과 비슷한 성능을 낼 수 있음을 실험으로 확인하였다.
또한 마지막 검증을 위해 DeepEC, MF-EFP, ECPred를 직접 실험하여 제안 모델과 비교하였다. PSCREM에서 처음으로 사용된 Overlapped RNN이라는 실험적인 특징 맵 합성법에도 불구하고, 제안 모델은 다른 연구가 공표한 단백질 기능 예측 실전 모델과 실 예측 성능이 크게 차이 나지 않음을 확인하였다. 특히 4.
7% 더 좋았고 손실률은 18% 낮았다. Stacked 50, 50 결과와 비교하면 약 3.2% 정도 정확도가 더 높았고, 손실률은 약 8% 더 낮 았다. 첫 번째 데이터 세트인 Main class Text Dataset에는 원-핫 임베딩이 적용되었고 나머지 Main Class, Sub-Sub Class PSSM Dataset에는 PSSM이 사용되었다.
3번의 실험 모두 조기 종료 함수에 의해 조기 종료되었으며 50 epoch를 적용하였음에도 첫 번째 실험은 10 epoch에서, 두 번째 실험은 10 epoch에서, 세 번째 실험은 11 epoch에서 조기 종료되었다. 각 클래스 당 7만 개인 대분류 예측 문제보다 학습에 참고할 데이터의 양이 많아 조금 높은 학습률을 적용하였으나 0.000001을 사용하였을 때보다 0.00001 학습률을 사용하여 학습했을 때 모델의 학습 결과나 진행 정도가 가장 완만하고 좋았다.
그러나 제안 모델에서는 서열의 세부 정보를 보존하는 PSSM을 사용함으로써 모델은 서열상 기능과 관련된 세세한 특이 맥락을 보호하고 기능적 세부 패턴을 유지하였다. 그 결과 모델의 성능은 향상되었다. 그러나 PSSM 제작에 소요되는 시간이 길어 PSSM profile 제작 시간 단축에 관한 연구가 필요하다.
기존의 원-핫 임베딩은 쉽고 빠르나 단백질 서열 내의 기능과 관련된 세부 정보가 CNN의 합성곱 과정에서 다수 누락될 수 있다는 단점이 있었다. 그러나 제안 모델에서는 서열의 세부 정보를 보존하는 PSSM을 사용함으로써 모델은 서열상 기능과 관련된 세세한 특이 맥락을 보호하고 기능적 세부 패턴을 유지하였다. 그 결과 모델의 성능은 향상되었다.
또한 본 연구는 딥러닝을 사용한 단백질 기능 예측 문제에 서열 진화정보 사용의 중요성을 입증하였다. 기존의 원-핫 임베딩은 쉽고 빠르나 단백질 서열 내의 기능과 관련된 세부 정보가 CNN의 합성곱 과정에서 다수 누락될 수 있다는 단점이 있었다. 그러나 제안 모델에서는 서열의 세부 정보를 보존하는 PSSM을 사용함으로써 모델은 서열상 기능과 관련된 세세한 특이 맥락을 보호하고 기능적 세부 패턴을 유지하였다.
Stacked LSTM의 형태로 20, 10 Unit을 순서대로 쌓았을 때와 이전 비교실험에서 사용되었던 Stacked LSTM 50 Unit 2회 쌓기의 결과의 손실률과 정확도를 명시하였다. 동일한 Unit을 사용했을 때 Stacked 된 LSTM의 결과보다 정확도가 2.5% 더 좋았고, 이전 비교실험에서 가장좋았던 모델인 LSTM 50씩 2회 쌓은 모델과 비교했을 때 결과 또한 약 0.5% 더 정확도가 높았다. 그러나 손실률은 Stacked LSTM 20, 10 모델이 냈던 손실률에서 약 1% 정도 줄었고 Stacked LSTM 50 2회 모델보다는 10% 더 많았다.
본 연구에서 제안한 모델의 성능 실험 결과 효소 번호 첫 번째 자리를 예측하는 문제에 대해서는 평균 86.4%의 정확도를 나타냈고, 오차범위는 ±0.2% 이내였다
본 제안 모델에 입력으로 사용된 PSSM profile은 기능보다는 구조 예측 연구에 더 자주 사용되곤 하는 profile 방법이나 구조와 기능이 아주 밀접하게 연관된 효소의 특성에 기반을 두어 실험과 제안 모델을 설계하였으며, 실험을 통해 서열 진화정보를 이용한 효소 기능 예측이 가능할뿐만 아니라 충분히 유용하다는 것을 증빙하였다.
5% 더 좋았다. 비록 손실률은 Stacked LSTM 20, 10 모델이 냈던 손실률에서 약 1% 정도 줄어들었던 것에 비해 Stacked LSTM 50 2회 모델보다는 10% 더 많았으나 해당 실험에서 Unit을 10, 20으로 적용했을 때 일반적으로 사용되는 50 unit 2회 쌓기와 비슷한 결과를 도출해내었으므로 이는 Unit을 50, 70으로 적용했을 때 100 unit 2회 쌓기와 비슷한 결과를 도출하거나 더 좋은 성능을 보여줄 것으로 보였다.
효소 번호 대분류 예측 실험 결과에서 대분류 7번까지 고려한 MF-EFP와 비교하면 72% 이상 크게 향상된 성능을 보여주었다. 성능에 관해 정확도와 F1 점수로 평균 순위를 취하였을 때 제안 모델은 2순위로 항상 일정하였으며 분류 개수에 상관없이 약 85% 정도 늘 일정한 성능을 보였다.
Focal loss를 적용하지 않았을 때의 세분류 예측 문제의 손실률과 정확도는 항상 1 이상, 50% 미만이었다. 세분류 예측 문제에 대한 제안모델의 손실률과 정확도는 각각 31.5%, 84.4%였으며 클래스가 132개 더 증가하였으나 정확도가 7 분류 문제인 Main class dataset과 비슷한 성능을 보였다. 또한 마지막 검증을 위해 DeepEC, MF-EFP, ECPred를 직접 실험하여 제안 모델과 비교하였다.
일반적으로 모델이 분류해야 할 Class가 적으면 해당 데이터에 과적합 되고, 분류해야 할 Class가 늘면 성능이 다소 떨어지는 경향을 보이나 본 논문에서 제안한 모델은 그렇지 않았다. 이는 제안 모델이 서열 진화정보를 입력으로 사용함으로써 서열 간 아미노산의 위치가 우연히 일치할 수 있는 경우의 수인 확률적 노이즈 값에 대한 영향을 덜 받기 때문이며, RNN 계열의 문맥 정보를 특징 맵의 일부로 사용함으로써 학습에 참조할 정보가 늘어 기능이 다른 단백질 서열이 가지는 고유 패턴 차이를 더 잘 구분 지을 수 있게 되었다는 것을 의미한다. 이로 인해 모델은 클래스가 늘더라도 늘 일정한 성능을 가질 수 있게 된다.
이를 위해 비교실험 전 CNN에 사용될 필터 사이즈 선별 실험과 RNN 계열 모델에 사용될 히든 유닛과 깊이 선정 실험이 선행되었으며, 중첩 CNN을 사용하는 경우 필터크기는 작은 것을 여러 번 중첩하는 것이 가장 성능이 좋았으며, RNN은 stacked 횟수가 많아질수록 히든 유닛의 개수와는 상관없이 성능이 떨어지는 것을 확인하였다.
두 실험에서 사용한 제안 모델의 구성 및 데이터는 전부 동일하다. 이를 통해 모델에 서열 데이터를 입력할 때 일반 원-핫 임베딩보다 PSSM을 통해 서열 진화정보를 사용하였을 때 예측 모델의 성능이 약 3% 더 올라감을 확인 하였다. 이는 PSSM의 내부 행렬 안에 보호된 서열의 진화정보가 서열 내의 구조에 관련된 중요한 패턴을 포함하는 것처럼 기능에 관한 중요한 패턴도 반드시 정보로서 요약하기 때문이다.
PSCREM에서 처음으로 사용된 Overlapped RNN이라는 실험적인 특징 맵 합성법에도 불구하고, 제안 모델은 다른 연구가 공표한 단백질 기능 예측 실전 모델과 실 예측 성능이 크게 차이 나지 않음을 확인하였다. 특히 4.1.4의 결과를 보면 PSCREM과 가장 유사한 조건을 가진 툴과의 성능 차이는 확연하였다. 효소 번호 대분류 예측 실험 결과에서 대분류 7번까지 고려한 MF-EFP와 비교하면 72% 이상 크게 향상된 성능을 보여주었다.
해당 실험에서 가장 결과가 좋았던 알고리즘은 50 unit 을 2회 쌓은 LSTM 알고리즘이었으며 이는 단백질 서열이 명백히 순서를 지니며, 순서에 따른 의미를 가진 정보로써 시계열 데이터 처리에 적합한 알고리즘이 패턴 처리에 유리함을 나타내었다.
4의 결과를 보면 PSCREM과 가장 유사한 조건을 가진 툴과의 성능 차이는 확연하였다. 효소 번호 대분류 예측 실험 결과에서 대분류 7번까지 고려한 MF-EFP와 비교하면 72% 이상 크게 향상된 성능을 보여주었다. 성능에 관해 정확도와 F1 점수로 평균 순위를 취하였을 때 제안 모델은 2순위로 항상 일정하였으며 분류 개수에 상관없이 약 85% 정도 늘 일정한 성능을 보였다.
후속연구
그 결과 모델의 성능은 향상되었다. 그러나 PSSM 제작에 소요되는 시간이 길어 PSSM profile 제작 시간 단축에 관한 연구가 필요하다.
또한 본 연구는 딥러닝을 사용한 단백질 기능 예측 문제에 서열 진화정보 사용의 중요성을 입증하였다. 기존의 원-핫 임베딩은 쉽고 빠르나 단백질 서열 내의 기능과 관련된 세부 정보가 CNN의 합성곱 과정에서 다수 누락될 수 있다는 단점이 있었다.
본 모델에서 처음으로 시도된 Overlapped RNN은 단백질 기능 및 구조 예측 추출 분야에 새로운 방법론으로서 제안된다. LSTM과 GRU가 각기 다르게 파악한 문장 간 관계 값을 통합 특징 맵에 더함으로써 모델의 패턴 학습시참조할 정보를 보충하였고, 작은 unit을 가지고도 약 2배이상 되는 Unit 수를 가진 Stacked RNN 계열과 비슷한 성능을 낼 수 있음을 실험으로 확인하였다.
참고문헌 (21)
Y. Liang, S. Liu, S. Zhang, "Prediction of Protein Structural Classes for Low-Similarity Sequences Based on Consensus Sequence and Segmented PSSM", Computational and Mathematical Methods in Medicine, vol. 2015, 9 pages, Dec, 2015. https://doi.org/10.1155/2015/370756
J. Wang, B. Yang, J. Revote, A. Leier, T. T Marquez-Lago, G. Webb, J. Song, K. Chou, T. Lithgow, "POSSUM: a bioinformatics toolkit for generating numerical sequence feature descriptors based on PSSM profiles", Bioinformatics, Volume 33, Issue 17, 01 September 2017, Pages 2756-2758, https://doi.org/10.1093/bioinformatics/btx302
N. Q. K. Le and V. N. Nguyen. "SNARE-CNN: a 2D convolutional neural network architecture to identify SNARE proteins from high-throughput sequencing data." PeerJ. Computer science, vol. 5, e177, Feb, 2019, doi:10.7717/peerj-cs.177
Y. Guo, J. Wu, H. Ma, S. Wang, and J. Huang, "EPTool: A New Enhancing PSSM Tool for Protein Secondary Structure Prediction", Journal of computational biology : a journal of computational molecular cell biology, vol. 28, 362-364, Apr, 2021, doi:10.1089/cmb.2020.0417
Liu Y, Gong W, Yang Z, Li C., "SNB-PSSM: A spatial neighbor-based PSSM used for protein-RNA binding site prediction.", J Mol Recognit, vol.34, e2887, June, 2021, https://doi.org/10.1002/jmr.2887
A. Dalkiran, A. S. Rifaioglu and M. J. Martin et al, "ECPred: a tool for the prediction of the enzymatic functions of protein sequences based on the EC nomenclature.", BMC bioinformatics, vol. 19, 334, Sep, 2018, https://doi.org/10.1186/s12859-018-2368-y
A. Amidi, S. Amidi and D. Vlachakis et al, "EnzyNet: enzyme classification using 3D convolutional neural networks on spatial representation.", PeerJ, vol. 6, e4750, May, 2018, doi:10.7717/peerj.4750
X. Xiao, L. Duan and G. Xue et al, "MF-EFP: Predicting Multi-Functional Enzymes Function Using Improved Hybrid Multi-Label Classifier", in IEEE Access, vol. 8, pp. 50276-50284, Mar, 2020, 10.1109/ACCESS.2020.2979888
N. Strodthoff, P. Wagner, M. Wenzel and W. Samek, "UDSMProt: universal deep sequence models for protein classification", Bioinformatics, Vol 36(8), 2401-2409, Apr, 2020, https://doi.org/10.1093/bioinformatics/btaa003
J. Lee, H. Lee, "Comparison of Deep Learning Models Using Protein Sequence Data", KIPS Transactions on Software and Data Engineering, Vol. 11, No. 6, pp. 245-254, Jun, 2022, https://doi.org/10.3745/KTSDE.2022.11.6.245
Suzuki H (2015). "Chapter 7: Active Site Structure". How Enzymes Work: From Structure to Function. Boca Raton, FL: CRC Press. pp. 117-140. ISBN 978-981-4463-92-8.
D. M. Debra, "Enzyme function discovery.", Structure, vol. 16(11), 1599-600, NOV, 2008, doi:10.1016/j.str.2008.10.001
A. A. Schaffer 1, L. Aravind, T. L. Madden, " Improving the accuracy of PSI-BLAST protein database searches with composition-based statistics and other refinements.", Nucleic Acids Res, vol. 29(14), 2994-3005, Jul, 2001, doi: 10.1093/nar/29.1.2994.
S. Kim, "Basic for Protein Structure Prediction: BLAST and Profile", Biophysical Society Newsletter, vol. 11, no. 1, October 2005.
Y. Kim, "Convolutional Neural Networks for Sentence Classification", In Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), 1746-1751, Oct, 2014, 10.3115/v1/D14-1181
J. Y. Ryu, H. U. Kim, S. Y. Lee, "Deep learning enables high-quality and high-throughput prediction of enzyme commission numbers", Proceedings of the National Academy of Sciences of the United States of America, 116 (28), 13996-14001, June, 2019, https://doi.org/10.1073/pnas.1821905116
Gao, Ruibo et al. "Prediction of Enzyme Function Based on Three Parallel Deep CNN and Amino Acid Mutation." International journal of molecular sciences, vol. 20(11), 2845, Jun, 2019, doi:10.3390/ijms20112845
A. L. Rio, M. Martin, A. Perera-Lluna and R. Saidi , "Effect of sequence padding on the performance of deep learning models in archaeal protein functional prediction.", Scientific Reports, 10(1), 14634, Sep, 2020, https://doi.org/10.1038/s41598-020-71450-8
※ AI-Helper는 부적절한 답변을 할 수 있습니다.