$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

Small CNN-RNN Engraft Model Study for Sequence Pattern Extraction in Protein Function Prediction Problems 원문보기

韓國컴퓨터情報學會論文誌 = Journal of the Korea Society of Computer and Information, v.27 no.8, 2022년, pp.49 - 59  

Lee, Jeung Min (Bio Big Data Convergence Major, Dept. of Computer and Electronics Convergence Engineering, Sunmoon University) ,  Lee, Hyun (Division of Computer Science and Engineering, Sunmoon University)

초록
AI-Helper 아이콘AI-Helper

본 논문에서는 2020년 기준 단백질 서열을 이용한 기능과 구조 예측 분야에서 가장 많이 사용되고 있는 딥러닝 모델인 CNN과 LSTM/GRU 모델을 동일한 조건 하에 비교 평가한 연구를 토대로 새로운 효소 기능 예측 모델인 PSCREM을 설계하였다. CNN 합성곱 시 누락되는 세부 패턴을 보존하기 위하여 서열 진화정보를 이용하였으며 중첩 RNN을 통해 기능적으로 중요한 의미를 가지는 아미노산 간의 관계 정보를 추출하고 특징 맵 제작에 참조하였다. 사용된 RNN 계열의 알고리즘은 LSTM과 GRU로 보통 stacked RNN 기법으로 100 units 이상 2~3회 쌓는 것이 일반적이나 본 논문에서는 10, 20 unit으로 구성한 뒤 중첩시켜서 특징 맵 제작에 사용하였다. 모델에 들어가는 데이터는 단백질 서열 데이터로 PSSM profile로 가공한 뒤 사용되었다. 실험 결과 효소 번호 첫 번째 자리를 예측하는 문제에 대해 86.4%의 정확도를 나타냄을 입증하였고, 효소 번호 3번째 자리까지 예측 정확도 84.4%의 성능을 내는 것을 확인하였다. PSCREM은 Overlapped RNN을 통해 단백질 기능에 관련된 고유 패턴을 더 잘 파악하며 Overlapped RNN은 단백질 기능 및 구조 예측 추출 분야에 새로운 방법론으로서 제안된다.

Abstract AI-Helper 아이콘AI-Helper

In this paper, we designed a new enzyme function prediction model PSCREM based on a study that compared and evaluated CNN and LSTM/GRU models, which are the most widely used deep learning models in the field of predicting functions and structures using protein sequences in 2020, under the same condi...

주제어

표/그림 (13)

AI 본문요약
AI-Helper 아이콘 AI-Helper

문제 정의

  • 본 논문에서는 먼저 아미노산 서열의 텍스트 데이터로 모델 자체의 패턴 추출 성능을 검증한 뒤에 PSSM profile 을 적용한 목적의 모델을 설계하였다. 이에 제안하는 모델의 성능 검증 실험은 총 4가지로 구성되었다.
  • 그뿐만 아니라 ECPred(2018), EnzyNet(2018), MF-EFP(2020), UDSMProt(2020)과 같이 서열 진화정보를 활용해 단백질 기능을 예측하기 위한 연구 또한 다수 수행되었다[7-10]. 본 연구 또한 서열의 진화정보를 이용해 단백질 기능과 관련된 고유 패턴을 추출하기 위한 딥러닝 모델을 설계하고 실험하였다.
본문요약 정보가 도움이 되었나요?

참고문헌 (21)

  1. Y. Liang, S. Liu, S. Zhang, "Prediction of Protein Structural Classes for Low-Similarity Sequences Based on Consensus Sequence and Segmented PSSM", Computational and Mathematical Methods in Medicine, vol. 2015, 9 pages, Dec, 2015. https://doi.org/10.1155/2015/370756 

  2. J. Wang, B. Yang, J. Revote, A. Leier, T. T Marquez-Lago, G. Webb, J. Song, K. Chou, T. Lithgow, "POSSUM: a bioinformatics toolkit for generating numerical sequence feature descriptors based on PSSM profiles", Bioinformatics, Volume 33, Issue 17, 01 September 2017, Pages 2756-2758, https://doi.org/10.1093/bioinformatics/btx302 

  3. Mousavian Z, Khakabimamaghani S, Kavousi K, Masoudi-Nejad A., "Drug-target interaction prediction from PSSM based evolutionary information.", Journal of pharmacological and toxicological methods, vol. 78, 42-51, March-April, 2016, doi:10.1016/j.vascn.2015.11.002 

  4. N. Q. K. Le and V. N. Nguyen. "SNARE-CNN: a 2D convolutional neural network architecture to identify SNARE proteins from high-throughput sequencing data." PeerJ. Computer science, vol. 5, e177, Feb, 2019, doi:10.7717/peerj-cs.177 

  5. Y. Guo, J. Wu, H. Ma, S. Wang, and J. Huang, "EPTool: A New Enhancing PSSM Tool for Protein Secondary Structure Prediction", Journal of computational biology : a journal of computational molecular cell biology, vol. 28, 362-364, Apr, 2021, doi:10.1089/cmb.2020.0417 

  6. Liu Y, Gong W, Yang Z, Li C., "SNB-PSSM: A spatial neighbor-based PSSM used for protein-RNA binding site prediction.", J Mol Recognit, vol.34, e2887, June, 2021, https://doi.org/10.1002/jmr.2887 

  7. A. Dalkiran, A. S. Rifaioglu and M. J. Martin et al, "ECPred: a tool for the prediction of the enzymatic functions of protein sequences based on the EC nomenclature.", BMC bioinformatics, vol. 19, 334, Sep, 2018, https://doi.org/10.1186/s12859-018-2368-y 

  8. A. Amidi, S. Amidi and D. Vlachakis et al, "EnzyNet: enzyme classification using 3D convolutional neural networks on spatial representation.", PeerJ, vol. 6, e4750, May, 2018, doi:10.7717/peerj.4750 

  9. X. Xiao, L. Duan and G. Xue et al, "MF-EFP: Predicting Multi-Functional Enzymes Function Using Improved Hybrid Multi-Label Classifier", in IEEE Access, vol. 8, pp. 50276-50284, Mar, 2020, 10.1109/ACCESS.2020.2979888 

  10. N. Strodthoff, P. Wagner, M. Wenzel and W. Samek, "UDSMProt: universal deep sequence models for protein classification", Bioinformatics, Vol 36(8), 2401-2409, Apr, 2020, https://doi.org/10.1093/bioinformatics/btaa003 

  11. J. Lee, H. Lee, "Comparison of Deep Learning Models Using Protein Sequence Data", KIPS Transactions on Software and Data Engineering, Vol. 11, No. 6, pp. 245-254, Jun, 2022, https://doi.org/10.3745/KTSDE.2022.11.6.245 

  12. Suzuki H (2015). "Chapter 7: Active Site Structure". How Enzymes Work: From Structure to Function. Boca Raton, FL: CRC Press. pp. 117-140. ISBN 978-981-4463-92-8. 

  13. D. M. Debra, "Enzyme function discovery.", Structure, vol. 16(11), 1599-600, NOV, 2008, doi:10.1016/j.str.2008.10.001 

  14. Saigo, Hiroto et al. "Reaction graph kernels predict EC numbers of unknown enzymatic reactions in plant secondary metabolism.", BMC Bioinformatics, 11 Suppl 1(Suppl 1), S31, Jan, 2010, doi: 10.1186/1471-2105-11-S1-S31. 

  15. A. G. McDonald and K. F. Tipton, "Enzyme nomenclature and classification: the state of the art.", FEBS J, Nov, 2021, doi.org/10.1111/febs.16274 

  16. A. A. Schaffer 1, L. Aravind, T. L. Madden, " Improving the accuracy of PSI-BLAST protein database searches with composition-based statistics and other refinements.", Nucleic Acids Res, vol. 29(14), 2994-3005, Jul, 2001, doi: 10.1093/nar/29.1.2994. 

  17. S. Kim, "Basic for Protein Structure Prediction: BLAST and Profile", Biophysical Society Newsletter, vol. 11, no. 1, October 2005. 

  18. Y. Kim, "Convolutional Neural Networks for Sentence Classification", In Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), 1746-1751, Oct, 2014, 10.3115/v1/D14-1181 

  19. J. Y. Ryu, H. U. Kim, S. Y. Lee, "Deep learning enables high-quality and high-throughput prediction of enzyme commission numbers", Proceedings of the National Academy of Sciences of the United States of America, 116 (28), 13996-14001, June, 2019, https://doi.org/10.1073/pnas.1821905116 

  20. Gao, Ruibo et al. "Prediction of Enzyme Function Based on Three Parallel Deep CNN and Amino Acid Mutation." International journal of molecular sciences, vol. 20(11), 2845, Jun, 2019, doi:10.3390/ijms20112845 

  21. A. L. Rio, M. Martin, A. Perera-Lluna and R. Saidi , "Effect of sequence padding on the performance of deep learning models in archaeal protein functional prediction.", Scientific Reports, 10(1), 14634, Sep, 2020, https://doi.org/10.1038/s41598-020-71450-8 

관련 콘텐츠

오픈액세스(OA) 유형

FREE

Free Access. 출판사/학술단체 등이 허락한 무료 공개 사이트를 통해 자유로운 이용이 가능한 논문

이 논문과 함께 이용한 콘텐츠

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로