[국내논문]지식기반 유전자알고리즘을 이용한 한국인 빈발 HLA 대립유전자에 대한 결합 펩타이드 예측 Knowledge based Genetic Algorithm for the Prediction of Peptides binding to HLA alleles common in Koreans원문보기
감염된 미생물에서 유래한 단백질 펩타이드가 HLA에 결합하여 숙주의 세포표면에 제시되면, T 세포가 이를 인식하여 면역반응을 유발함으로써 감염원을 제거하게 된다. HLA와 펩타이드간의 결합이 안정적일수록 T 세포반응이 강하게 일어나 효율적으로 감염원을 제거할 수 있다고 알려져 있다. 따라서 특정 HLA에 안정적으로 결합할 수 있는 펩타이드(HLA binder)를 찾아낼 수 있다면 감염질환이나 암의 예방을 위한 펩타이드 백신의 개발에 활용될 수 있다. 그런데 HLA는 매우 다형하기 때문에 하나의 집단 내에서도 어느 정도의 빈도를 가지는 대립유전자의 수가 매우 많다. 따라서 이들 모든 대립유전자들에 대해 가능한 펩타이드조합을 제작한 후 직접 실험을 통해 안정적으로 결합하는 펩타이드를 찾아내는 것은 매우 비효율적이다. 이를 극복하기 위하여 특정 HLA에 안정적으로 결합하는 펩타이드를 예측하는 정보전산적인 방법이 최근 개발되어 왔다. 이들 방법을 통해 제시된 펩타이드에 대해서만 직접 생물학적 실험을 시행함으로써 연구자는 검증해야 할 후보 펩타이드의 수를 현격히 감소시킬 수 있게 된다. 본 논문에서는 HLA 결합 펩타이드 예측을 위해 기계학습을 이용한 방법을 소개할 뿐만 아니라, 지금까지 HLA 결합 펩타이드 예측에 시도된 적이 없는 '지식기반 유전자 알고리즘(knowledge-based genetic algorithm)'이라는 새로운 모델을 제시하고자 한다. 이것은 유전자알고리즘(GA)에 기반한 것이었지만 전문가 지식을 접목함으로써 GA보다 더 향상된 성능으로 한국인에 흔한 HLA에 결합하는 펩타이드를 예측하였다. 뿐만 아니라 이것은 결합하는 펩타이드의 규칙을 한국인에 흔한 HLA 대립유전자에 대하여 추출해 줄 수 있는 새로운 방법이었다.
감염된 미생물에서 유래한 단백질 펩타이드가 HLA에 결합하여 숙주의 세포표면에 제시되면, T 세포가 이를 인식하여 면역반응을 유발함으로써 감염원을 제거하게 된다. HLA와 펩타이드간의 결합이 안정적일수록 T 세포반응이 강하게 일어나 효율적으로 감염원을 제거할 수 있다고 알려져 있다. 따라서 특정 HLA에 안정적으로 결합할 수 있는 펩타이드(HLA binder)를 찾아낼 수 있다면 감염질환이나 암의 예방을 위한 펩타이드 백신의 개발에 활용될 수 있다. 그런데 HLA는 매우 다형하기 때문에 하나의 집단 내에서도 어느 정도의 빈도를 가지는 대립유전자의 수가 매우 많다. 따라서 이들 모든 대립유전자들에 대해 가능한 펩타이드조합을 제작한 후 직접 실험을 통해 안정적으로 결합하는 펩타이드를 찾아내는 것은 매우 비효율적이다. 이를 극복하기 위하여 특정 HLA에 안정적으로 결합하는 펩타이드를 예측하는 정보전산적인 방법이 최근 개발되어 왔다. 이들 방법을 통해 제시된 펩타이드에 대해서만 직접 생물학적 실험을 시행함으로써 연구자는 검증해야 할 후보 펩타이드의 수를 현격히 감소시킬 수 있게 된다. 본 논문에서는 HLA 결합 펩타이드 예측을 위해 기계학습을 이용한 방법을 소개할 뿐만 아니라, 지금까지 HLA 결합 펩타이드 예측에 시도된 적이 없는 '지식기반 유전자 알고리즘(knowledge-based genetic algorithm)'이라는 새로운 모델을 제시하고자 한다. 이것은 유전자알고리즘(GA)에 기반한 것이었지만 전문가 지식을 접목함으로써 GA보다 더 향상된 성능으로 한국인에 흔한 HLA에 결합하는 펩타이드를 예측하였다. 뿐만 아니라 이것은 결합하는 펩타이드의 규칙을 한국인에 흔한 HLA 대립유전자에 대하여 추출해 줄 수 있는 새로운 방법이었다.
T cells induce immune responses and thereby eliminate infected micro-organisms when peptides from the microbial proteins are bound to HLAs in the host cell surfaces, It is known that the more stable the binding of peptide to HLA is, the stronger the T cell response gets to remove more effectively th...
T cells induce immune responses and thereby eliminate infected micro-organisms when peptides from the microbial proteins are bound to HLAs in the host cell surfaces, It is known that the more stable the binding of peptide to HLA is, the stronger the T cell response gets to remove more effectively the source of infection. Accordingly, if peptides (HLA binder) which can be bound stably to a certain HLA are found, those peptieds are utilized to the development of peptide vaccine to prevent infectious diseases or even to cancer. However, HLA is highly polymorphic so that HLA has a large number of alleles with some frequencies even in one population. Therefore, it is very inefficient to find the peptides stably bound to a number of HLAs by testing random possible peptides for all the various alleles frequent in the population. In order to solve this problem, computational methods have recently been developed to predict peptides which are stably bound to a certain HLA. These methods could markedly decrease the number of candidate peptides to be examined by biological experiments. Accordingly, this paper not only introduces a method of machine learning to predict peptides binding to an HLA, but also suggests a new prediction model so called 'knowledge-based genetic algorithm' that has never been tried for HLA binding peptide prediction. Although based on genetic algorithm (GA). it showed more enhanced performance than GA by incorporating expert knowledge in the process of the algorithm. Furthermore, it could extract rules predicting the binding peptide of the HLA alleles common in Koreans.
T cells induce immune responses and thereby eliminate infected micro-organisms when peptides from the microbial proteins are bound to HLAs in the host cell surfaces, It is known that the more stable the binding of peptide to HLA is, the stronger the T cell response gets to remove more effectively the source of infection. Accordingly, if peptides (HLA binder) which can be bound stably to a certain HLA are found, those peptieds are utilized to the development of peptide vaccine to prevent infectious diseases or even to cancer. However, HLA is highly polymorphic so that HLA has a large number of alleles with some frequencies even in one population. Therefore, it is very inefficient to find the peptides stably bound to a number of HLAs by testing random possible peptides for all the various alleles frequent in the population. In order to solve this problem, computational methods have recently been developed to predict peptides which are stably bound to a certain HLA. These methods could markedly decrease the number of candidate peptides to be examined by biological experiments. Accordingly, this paper not only introduces a method of machine learning to predict peptides binding to an HLA, but also suggests a new prediction model so called 'knowledge-based genetic algorithm' that has never been tried for HLA binding peptide prediction. Although based on genetic algorithm (GA). it showed more enhanced performance than GA by incorporating expert knowledge in the process of the algorithm. Furthermore, it could extract rules predicting the binding peptide of the HLA alleles common in Koreans.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 논문에서는 HLA 결합 펩타이드 예측을 위해 기계 학습 알고리즘을 이용한 방법들을 소개하고, 지금까지 HLA 결합 펩타이드 예측에 시도된 적이 없는 유전자알고리즘으로 HLA 대립유전자에 대한 결합 펩타이드 규칙을 추출한다. 이는 지금까지 여러 연구자들에 의해 시도 되었던 인공신경망을 이용하여 예측 모델을 만들고, 이로부터 규칙 추출 알고리즘(Ordered‐Attribute Search, OAS)[6]을 이용하여 규칙을 추출한 후 다시 의·생물학 분야에서 높은 성능을 보여주고 있는 유전자알고리즘의 초기해 생성에 활용함으로써 더 다양하고 정확한 binder를 생성하는 예측 모델을 구축하는 것이다.
이는 지금까지 여러 연구자들에 의해 시도 되었던 인공신경망을 이용하여 예측 모델을 만들고, 이로부터 규칙 추출 알고리즘(Ordered‐Attribute Search, OAS)[6]을 이용하여 규칙을 추출한 후 다시 의·생물학 분야에서 높은 성능을 보여주고 있는 유전자알고리즘의 초기해 생성에 활용함으로써 더 다양하고 정확한 binder를 생성하는 예측 모델을 구축하는 것이다. 이를 본 논문에서는 지식기반 유전자알고리즘(Knowledge Based Genetic Algorithm, KBGA)이라고 제안한다. 그리고 지식기반 유전자알고리즘을 이용하여 한국인 빈발 HLA 대립유전자[7] 중 HLA class Ⅰ의 HLA–A, HLA-B에서 5% 이상의 높은 빈도를 보이는 A*2402 (22.
본 논문에서는 HLA 결합 펩타이드 예측 규칙을 생성하기 위해 처음으로 유전자알고리즘 사용을 시도하였다. 그리고 유전자알고리즘 초기 개체집단의 생성과 돌연변이율을 결정하는데 이미 알려져 있는 생물학적 지식(domain-knowledge)을 이용하였다.
본 논문에서는 (1) HLA 결합 펩타이드 정보를 OAS 알고리즘과 유전자알고리즘에 적용시켜 HLA 펩타이드 간의 결합 규칙을 생성하였고 (2) PSSM (position‐specific scoring matrix)을 유전자알고리즘의 돌연변이 연산에 적용함으로서 정확한 해를 찾을 가능성이 높아지게 하였다. 또한 (3) 지식기반 유전자알고리즘을 이용하여 한국인 빈발 HLA 대립유전자에 대해 90% 이상의 결합 펩타이드 규칙을 생성하였다.
제안 방법
현재 알려져 있는 한국인의 HLA 대립유전자 분포는 건강한 한국인 309명을 대상으로 분석하여 HLA-A, HLAB 대립유전자 빈도를 구분하였다[7]. HLA-A 대립유전자는 22종, HLA-B는 41종이 동정되었는데, 이들의 혈청학적 표현형은 각각 HLA-A 11종 HLA-B 29종이었다.
이들 binder와 non binder를 학습데이터 세트로 하여 인공신경망을 반복적으로 돌리게 되면 인공신경망의 출력 값과 실제 분류 값을 비교하면서 값의 차이에 대한 평균 제곱오차(mean square error, MSE)가 최소가 되도록 수정 하면서 학습해 나간다. 인공신경망은 HLA 결합 펩타이드 예측을 위해 그동안 가장 많이 사용되어왔던 알고리즘으로서 결정트리와 은닉마르코프 모델을 능가하는 높은 성능을 보여주었다.
또한 돌연변이를 일으킬 때 position‐specific scoring matrix (PSSM)를 이용하여 아미노산의 위치와 종류에 따라 돌연변이 개체 선택율을 달리함으로써 HLA binding motif에 더 높은 비율의 해를 얻을 수 있도록 하였다.
본 논문에서는 HLA 결합 펩타이드 정보를 OAS 알고리즘에 적용하여 초기 개체집단을 생성하고, PSSM을 이용하여 아미노산의 출현빈도에 따라 돌연변이 개체 선택율을 달리하였다. 이것을 본 논문에서는 지식기반 유전자 알고리즘(knowledge-based genetic algorithm)이라 한다.
대상 데이터
HLA 결합 펩타이드 예측 모델을 만들기 위해 실험에 사용한 학습 데이터는 SYFPEITHI 데이터베이스[8]에서 753개 펩타이드와 MHCPEP 데이터베이스[9]에서 4,539개 펩타이드가 사용되었다.
실험에서는 SYFPEITHI 데이터베이스와 MHCPEP 데이터베이스의 binding 펩타이드 데이터를 사용하여 학습시키고, 각 데이터베이스에 포함되는 대립유전자에 대해 비교 평가하였다. Non-binder는 ENSEMBL 데이터베이스로부터 단백질을 무작위로 추출하여 일정한 크기로 자른 다음에 HLA 펩타이드 데이터베이스에 들어있는 서열을 모두 제거한 후 사용하였고, binder와 non-binder의 1:2 비율로 1764개 binder와 3528개 non-binder인 총 5292개의 펩타이드가 학습에 이용되었다.
데이터처리
실험에서는 SYFPEITHI 데이터베이스와 MHCPEP 데이터베이스의 binding 펩타이드 데이터를 사용하여 학습시키고, 각 데이터베이스에 포함되는 대립유전자에 대해 비교 평가하였다.
지식기반 유전자알고리즘과 기계학습 알고리즘에서 추출된 HLA 결합 규칙이 실제로 유용한지에 대한 타당성은 기존에 실험적으로 알려져 있는 HLA Facts Book*과 비교하여 검증하였다. 그 결과 지식기반 유전자알고리즘에서 생성한 결합 규칙은 HLA FactsBook의 motif를 모두 포함하고 있어(표 4), KBGA의 HLA 결합 규칙이 실제 사용가능하다는 신뢰성을 확인하였다.
이론/모형
본 논문에서는 HLA 결합 펩타이드 정보를 OAS 알고리즘에 적용하여 초기 개체집단을 생성하고, PSSM을 이용하여 아미노산의 출현빈도에 따라 돌연변이 개체 선택율을 달리하였다. 이것을 본 논문에서는 지식기반 유전자 알고리즘(knowledge-based genetic algorithm)이라 한다.
그리고 유전자알고리즘 초기 개체집단의 생성과 돌연변이율을 결정하는데 이미 알려져 있는 생물학적 지식(domain-knowledge)을 이용하였다.
인공신경망은 데이터 셋의 size가 20개 이상일 때 유의미한 결과를 보인다는 Pierre[4]의 실험결과에 따라, size가 20개를 유지하는 3-fold cross validation방법을 사용하였다. 입력노드 180개, 은닉노드 2개, 출력노드 1개의 구조로, 각 DB의 alleles은 평균 90%의 일반화 성능과 100%의 학습 정확률을 나타내었다.
또한 (3) 지식기반 유전자알고리즘을 이용하여 한국인 빈발 HLA 대립유전자에 대해 90% 이상의 결합 펩타이드 규칙을 생성하였다.
성능/효과
그리고 지식기반 유전자알고리즘을 이용하여 한국인 빈발 HLA 대립유전자[7] 중 HLA class Ⅰ의 HLA–A, HLA-B에서 5% 이상의 높은 빈도를 보이는 A*2402 (22.5%), A*0201 (15.7%), A*3303 (14.4%), A*1101 (11.0%), A*0206 (8.9%), A*2601 (5.2%), B*5101 (12.1%), B*1501 (8.7%), B*4403 (7.4%), B*3501 (6.6%), B*4601 (6.2%), B*5801 (5.8%), B*5401 (5.0%)의 결합 펩타이드를 예측하는 규칙을 추출하였다.
현재 알려져 있는 한국인의 HLA 대립유전자 분포는 건강한 한국인 309명을 대상으로 분석하여 HLA-A, HLAB 대립유전자 빈도를 구분하였다[7]. HLA-A 대립유전자는 22종, HLA-B는 41종이 동정되었는데, 이들의 혈청학적 표현형은 각각 HLA-A 11종 HLA-B 29종이었다.
이러한 지식기반 유전자알고리즘을 기반으로 한 예측 모델은 기존의 인공신경망을 기반으로 개발된 Net MHCpan과 NetMHC 보다 평균 20% 더 높은 예측율을 나타내었다[11].
인공신경망은 데이터 셋의 size가 20개 이상일 때 유의미한 결과를 보인다는 Pierre[4]의 실험결과에 따라, size가 20개를 유지하는 3-fold cross validation방법을 사용하였다. 입력노드 180개, 은닉노드 2개, 출력노드 1개의 구조로, 각 DB의 alleles은 평균 90%의 일반화 성능과 100%의 학습 정확률을 나타내었다.
지식기반 유전자알고리즘과 기계학습 알고리즘에서 추출된 HLA 결합 규칙이 실제로 유용한지에 대한 타당성은 기존에 실험적으로 알려져 있는 HLA Facts Book*과 비교하여 검증하였다. 그 결과 지식기반 유전자알고리즘에서 생성한 결합 규칙은 HLA FactsBook의 motif를 모두 포함하고 있어(표 4), KBGA의 HLA 결합 규칙이 실제 사용가능하다는 신뢰성을 확인하였다. 또한 KBGA를 통해 새롭게 발견된 규칙은 음영색으로 표시하였다(표 5).
지식기반 유전자알고리즘을 이용하여 HLA 결합 펩타이드의 ‘if-then’ 규칙을 추출한 결과 HLA A*2402에서 예측율 93.3%의 “If Y@P2 ^ L@P9 then binding”인 규칙을 추출하였다.
지식기반 유전자알고리즘의 motif 규칙은 의·생물학분야에 임상적 적용이 가능하도록 예측율 90% 이상의 기준을 두어 나타내었다.
또한 (3) 지식기반 유전자알고리즘을 이용하여 한국인 빈발 HLA 대립유전자에 대해 90% 이상의 결합 펩타이드 규칙을 생성하였다. 이것은 유전자알고리즘의 초기 집단 생성에서 어떤 우수형질을 확보했는지의 여부가 결과에 큰 영향을 준다는 것과 돌연변이 생성에 관해 기존의 생물학적 지식을 이용하는 것이 예측 신뢰성을 더 높인다는 것을 확인해 주는 것이다.
후속연구
그러나 이러한 기법은 실험 데이터의 부족으로 인하여 연구실에서의 생물학적 실험을 완벽하게 대체할 수는 없지만 필수적인 실험의 수를 최소로 압축하여, 연구자로 하여금 좀 더 정밀한 실험에 집중시켜 연구실험 비용 최소화 및 시간 절약 이라는 장점을 누리도록 도와준다. 최근 이용할 수 있는 생물학적 자료들이 체계적으로 누적되고 있으며, 아울러 이를 효율적으로 다룰 수 있는 생물정보학적 기법 또한 빠르게 발전하고 있는 점을 고려하면 HLA 결합 펩타이드를 예측하는 시스템은 향후 계속해서 발전 구축되어질 전망이다.
그리고 HLA-결합 펩타이드를 예측하는 시스템[3, 5]은 소수 국외에서 개발된 바 있으나 HLA-결합 예측 규칙을 추출하는 시스템은 아직 보고된 바가 없다. 본 연구에서 제시한 지식기반 유전자알고리즘은 그러한 생물정보학적 발전에 일부 기여할 것으로 사료된다.
향후 연구 과제로는 유전자알고리즘의 초기 집단 생성과 돌연변이에 사용한 도메인 지식을 선택과 교차 등의 다양한 연산에 적용함으로써 보다 도메인에 적합한 (domain specific) 지식기반 유전자알고리즘을 검토할 필요가 있다.
질의응답
핵심어
질문
논문에서 추출한 답변
HLA란 무엇인가?
HLA (Human leukocyte antigen)는 사람이 가지고 있는 유전자 중에서 가장 심한 다형성(polymorphism)을 보이는 유전자이다. 감염 미생물에서 유래한 펩타이드를 끼워 T 세포에 항원제시(presentation)함으로써 면역반응을 유도 하는 것으로 알려져 있다.
T 세포 에피토프란 무엇인가?
감염 미생물에서 유래한 펩타이드를 끼워 T 세포에 항원제시(presentation)함으로써 면역반응을 유도 하는 것으로 알려져 있다. 이때 HLA에 의해 T 세포에 제시되어 면역반응을 유발하는 펩타이드를 T 세포 에피토프(epitope)라 한다[1].
펩타이드는 왜 발견하기 어려운가?
그러나 HLA에 결합되는 펩타이드를 발견하는 것은 매우 어려운 문제이다. 왜냐하면 (그림 1)과 같이 항원 단백질의 20%만 processing되고, 그 중 0.5%가 HLA 틈새(cleft)에 결합되며, 또 그 중 절반만이 CTL(Cytotoxic T cell)에 반응하는 것으로 알려져 있기 때문이다[1, 3]. 결국 1/2000의 펩타이드가 면역학적 반응성을 나타낸다(immunogenic)고 할 수 있는 것이다.
참고문헌 (12)
Brusic, V. Bajic, V.B. Petrovsky, N., 'Computa tional methods for prediction of T-cell epitopes -a framework for modelling, testing, and applications.', Elsevier Inc. Science Direct, pp.436-443, 2004.
Lafuente, EM. and Reche, PA., 'Prediction of MHC-peptide binding: a systematic and compreh ensive overview.', Curr Pharm Des, pp.3209- 3220, 2009.
Zhang, L. Udaka, K. Mamitsuka, H. Zhu, S., 'Toward more accurate pan-specific MHC- peptide binding prediction: a review of current methods and tools.', Brief Bioinform, pp.350-364, 2011.
Donnes, P. Kohlbacher, O., 'SVMHC: a server for prediction of MHC-binding peptides.', Nucleic Acids Research, pp.194-197, 2006.
Tong, JC. Tan, TW. Ranganathan, S., 'Methods and protocols for prediction of immunogenic epitopes.', Brief Bioinform, pp.96-108, 2006.
Kim H., 'Computationally Efficient Heuristics for If-Then Rule Extraction from Feed-Forward Neural Networks.', Lecture Notes in Artificial Intelligence, pp.170-182, 2000.
황상현, 오흥범, 양진혁, 권오중, 한국인의 HLA-A, -B, -C 대립유전자와 일배체형 분포, 대한진단검사의학회지, 제24권, 제 6호, pp.396-404, 2004.
Rammensee, H.G. Bachmann, J. Emmerich, N.P. Bachor, O.A. and Stevanovic, 'SYFPEITHI:data base for MHC ligands and peptide motifs.',Immunogenetics, pp.213-219, 1999.
Brusic, V. Rudy, G. Harrsison, LC., 'MHCPEP, a database of MHC-binding peptides:update 1997.', Nucleic Acids Research, pp.368-371, 1998.
Fernandez, M. Caballero, J. Fernandez, L. Sarai A., 'Genetic algorithm optimization in drug design QSAR: Bayesian-regularized genetic neural networks (BRGNN) and genetic algorithm optimized support vectors machines (GA-SVM).', Molecular diversity, pp.269-289, 2011.
Cho, YJ. Kim, H. OH, HB., 'Generating Rules for Predicting MHC Class I Binding Peptide using ANN and Knowledge-based GA.', jdcta International Journal, pp.111-119, 2009.
Loong, TW., 'Understanding sensitivity and specificity with the right side of the brain.', BMJ, pp.716-719, 2003.
이 논문을 인용한 문헌
저자의 다른 논문 :
활용도 분석정보
상세보기
다운로드
내보내기
활용도 Top5 논문
해당 논문의 주제분야에서 활용도가 높은 상위 5개 콘텐츠를 보여줍니다. 더보기 버튼을 클릭하시면 더 많은 관련자료를 살펴볼 수 있습니다.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.