[논문]마이크로어레이 기반 miRNA 모듈 분석을 위한 하이퍼망 분류 기법

김선; 김수진; 장병탁

[국내논문] 마이크로어레이 기반 miRNA 모듈 분석을 위한 하이퍼망 분류 기법
Hypernetwork Classifiers for Microarray-Based miRNA Module Analysis 원문보기

정보과학회논문지. Journal of KIISE. 소프트웨어 및 응용, v.35 no.6, 2008년, pp.347 - 356

김선 (서울대학교 컴퓨터공학부) , 김수진 (서울대학교 생물정보학 협동과정) , 장병탁 (서울대학교 컴퓨터공학부)

초록
AI-Helper

마이크로어레이는 분자 생물학 실험에 있어 중요한 도구로 사용되고 있으며, 마이크로어레이 데이타 분석을 위한 다양한 계산학적 방법이 개발되어 왔다. 그러나, 기존 분석방법은 주어진 조건에 영향을 주는 개별 유전자를 추출하는 데 강한 방면, 유전자 간의 복합작용에 의한 영향을 분석하기 힘들다는 단점을 가지고 있다. 하이퍼망 모델은 생물학적인 네트워크 작용을 모방한 구조이며, 계산과정에서 요소간의 복합작용을 직접 고려하기 때문에 기존 방법에서 다루기 힘들었던 요소간 상호작용 분석이 가능하다는 장점을 가진다. 본 논문에서는 마이크로어레이 데이타를 기반으로 microRNA(miRNA) 프로파일 분석을 위한 하이퍼망 분류 기법을 소개한다. 하이퍼망 분류기는 miRNA 쌍을 기본 요소로 하여 진화 과정을 통해 miRNA 분류 데이타를 학습한다. 학습된 하이퍼망으로부터 유의하다.고 판단되는 miRNA 모듈을 쉽게 추출할 수 있으며, 사용자는 추출된 모듈의 유치미성을 직접 판단할 수 있다. 하이퍼망 분류기는 암 관련 miRNA 발현 데이타 분류 실험을 통해 91.46%의 정확도를 보임으로써 기존 기계학습 방법에 비해 뛰어난 성능을 보여주었으며, 하이퍼망 분석을 통해 생물학적으로 유의한 miRNA 모듈을 찾을 수 있음을 확인하였다.

Abstract ▼ AI-Helper

High-throughput microarray is one of the most popular tools in molecular biology, and various computational methods have been developed for the microarray data analysis. While the computational methods easily extract significant features, it suffers from inferring modules of multiple co-regulated genes. Hypernetworhs are motivated by biological networks, which handle all elements based on their combinatorial processes. Hence, the hypernetworks can naturally analyze the biological effects of gene combinations. In this paper, we introduce a hypernetwork classifier for microRNA (miRNA) profile analysis based on microarray data. The hypernetwork classifier uses miRNA pairs as elements, and an evolutionary learning is performed to model the microarray profiles. miTNA modules are easily extracted from the hypernetworks, and users can directly evaluate if the miRNA modules are significant. For experimental results, the hypernetwork classifier showed 91.46% accuracy for miRNA expression profiles on multiple human canters, which outperformed other machine learning methods. The hypernetwork-based analysis showed that our approach could find biologically significant miRNA modules.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서는 miRNA 발현 프로파일 데이타로부터암과 연관된 유전자 모듈을 찾아내기 위한 하이퍼망 분류 방법을 제시하고자 한다. 하이퍼망[9, 1 이은 랜덤 하이퍼 그래프 모델의한 종류로서 하이퍼그래프에 가중치를 가진 간선을 사용한다.
본 논문에서는 마이크로어레이 데이타를 분석하기 위한 방법으로 하이퍼망 분류기를 사용하여 miRNA 모度- 을 인식하는 기법을 제안하였다. 학습 데이타를 저장하고 예측하기 위해 확률 모델의 일종인 하이퍼망 분류기를 정의하였으며, 제한된 컴퓨팅 환경 하에서 효과직으로 최적 해를 찾기 위해 랜덤 그래프 모델과 진화 학습알고리즘을 소개하였다.
여기에서 학습 과정은 주어진 데이타를 표현할 수 있도록 하이퍼 간선의 가중치를 조절하는 것이다. 본 장에서는 앞에서 정의한 하이퍼망 분류기를 기반으로 분류 성능을 최대화하는 하이퍼망 분류기를 생성하기 위한 진화 학습 기법 올 제시한다.
GO는 유전자들간 기능적 긴밀성을 검증하는데 표준적으로 쓰이는 분석방법이다. 이 GO 프로젝트의 목적은 세가지 구조로 유전자믈을 biological process (BP), cellular component (CO, molecular function (MF) 세가지로 분류하여, 종에 의존적이지 않은 독립적인 관점에서 각 유전자에 대해 생물학적 분석을 제공하는 것이며, 전형적으로 검증은 통계적으로 유의한지 여부에 따라 판단된다. 만약 찾아진 모듈에서 각 miRNA가 생물학적으로 밀접한 관련이 있다면, 그 모듈의 miRNA 목적 유전자들간에도 기능적으로 상관성이 존재할 것이다.
하이퍼망의 또 다른 특징은 예측한 결과에 대해 그 이유를 사람이 이해할 수 있는 형태로 쉽게 분석할 수 있다는 점이다. 이러한 하이퍼망 구조는 고차원 자질(featiue)을 이용, 최적의 조합 구성 및 가중치를 구하는데 사용되며, 이를 위한 기법으로 본 논문에서는 진화 학습 알고리즘을 제시한다.

제안 방법

본문에 설명한 랜덤 하이퍼망을 이용하여 초기 해 집합을 구성하였으며, 개체의 절반은 확률 p = 0.5에 의해 학습 데이타로부터 선택하였고, 나머지 부분은 랜덤하게 선택하였다. 이는 해집합의 다양성 및 클래스간 확률 차이가 적을 경우 임의성을 반영하기 위함이다.
실험을 위해 암에 관련돤 miRNA 모듈 분석을 위한마이크로어래이 데이타[15]를 사용하여 분류 실험을 수행하였다. 실험에 사용한 miRNA 마이크로어레이 데이타는 89개의 샘플에서 151개의 miRNA의 발현을 측정한 것이다, 89개의 샘플은 68개의 암 조직과 21개의 정상 조직으로 구성되어 있다.
그림 8은 랜덤하게 추출한 유전자와 모듈 I 및 II 각각의 miRNA 목적 유전자 발현 정도를 이용하여 계산한 상관계수 분포 그래프이다. 즉, 모듈 I의 has-miR-147, has-miR-296의 목적 유전자와 모듈 II 의 has-miR-215, has-miR-7의 목적 유전자를 추출하여 각 모든 쌍에 대해 계산한 상관 계수와 랜덤하게 추출한 유전자들간의 상관 계수들과 분포를 비교한 것이다. 목적 유전자들의 상관관계 곡선이 랜덤한 유전자들의 곡선보다 오른쪽으로 치우쳐 있는 것은 상대적으로 더 높은 상관관계가 있다는 것을 의미하며, 곧 하이퍼 망에 의해 찾아진 miRNA 모듈의 목적 유전자들이 더 높은 공동발현(co-expression)을 한다는 것을 말한다.
추출돤 miRNA 모듈의 생물학적 유의성을 검증하기 위해서 모듈을 구성하고 있는 miRNA의 목적 유전자들을 추출하여 Gene Ontology (GO) 분석을 통해 기능적인 연관관계를 알아보았다. GO는 유전자들간 기능적 긴밀성을 검증하는데 표준적으로 쓰이는 분석방법이다.
하이퍼망 분류기에 의해 찾아진 miRNA 모듈을 검증하기 위해 표 3의 상위 2개 모듈인 모듈 I 및 II를 구성하는 miRNA들의 목적 유전자들의 발현 양상을, 분석해보았다. 그림 8은 랜덤하게 추출한 유전자와 모듈 I 및 II 각각의 miRNA 목적 유전자 발현 정도를 이용하여 계산한 상관계수 분포 그래프이다.
75 m만큼 학습 비율을 감소시켰다. 하이퍼망 학습의 정지 조건은 40회의 epoch을 기준으로 하였다.
학습 데이타는 실험을 위해 각 샘플의 중간값에 기반하여 miRNA의 발현 수준을 0 또는 1로 나누어 바이너리 변환하여 하이퍼망 분류기에 적용하였다. 이러한 변환 과정을 거친 이유는 하이퍼망 구현의 편의성 및 miRNA 모듈의 분석을 쉽게 하는데 있다.
인식하는 기법을 제안하였다. 학습 데이타를 저장하고 예측하기 위해 확률 모델의 일종인 하이퍼망 분류기를 정의하였으며, 제한된 컴퓨팅 환경 하에서 효과직으로 최적 해를 찾기 위해 랜덤 그래프 모델과 진화 학습알고리즘을 소개하였다. 하이퍼망은 생체분자 네트웍에기반해 만들어진 모델로서 지지벡터머신 또는 신경망과 같은 기존 기계학습 기법과는 다르게 학습 결과를 사람이 이해할 수 있는 형태로 직접 분석 가능하다는 장점을 가진다.

대상 데이터

실험에 사용한 miRNA 마이크로어레이 데이타는 89개의 샘플에서 151개의 miRNA의 발현을 측정한 것이다, 89개의 샘플은 68개의 암 조직과 21개의 정상 조직으로 구성되어 있다. 표 1은 데이타 샘플의 구성조직을 보인 것이다.
이는 해집합의 다양성 및 클래스간 확률 차이가 적을 경우 임의성을 반영하기 위함이다. 전체 해 집합의 개체 크기는 50, 000개로 설정하였으며, 각 개제의초기 가중치(或血)는 동일하게 1,000으로 설정하였다. 하이퍼 망 분류기의 에너지 함수로는 sigmoid 함수를 사 흉하였다.

데이터처리

암과 관련된 miRNA 발현 프로파일을 이용한 분류 실험에서 하이퍼망 분류기는 결정트리 및 나이브베이즈보다 뛰어난 분류 성능을 보여주었으며, 신경망 및 지지벡터머신과 대등한 성능을 보여주었다. 학습된 하이퍼 망 분류기를 통해 발견된 miRNA 모듈이 생물학적으로 의미가 있는지를 보기 위해 GO 분석 및 목적 유전자에 대한 통계분석 방법을 이용하였으며, 그 결과분석 모듈의 생물학적 유의미성을 발견할 수 있었다.

이론/모형

비교한 것이다. 기존 기계학습 기법으로는 시경망, 지지벡터머신, 결정트리 및 나이브베이즈가 사용되었으며, leave one-out cross validation을 이용하여 성능을 측정하였다. 그 결과, 랜덤 하이파망 분류기는 0.
따라서 k 및 几이 중가함에 따라서 I외은 기하급수적으로 증가한다. 따라서 조합의 경우의 수가 폭발적으로 증가하는 문제를 해결하기 위해 랜덤 그래프에 기반한 방법을 해집합 구성을 위해 사용한다. 기존 하이퍼망과 구별하기 위해 랜덤 그래프에 의해 만들어진 하이퍼망을 이제부터 랜덤 하이퍼망이라고 하겠다.
초기 집단을 구성하기 위한 방법으로 본 논문에서는 랜덤 그래프 모델을 활용한다. 랜덤그래프는 랜덤 과정에 의해서 생성된 그래프를 말한다[9].

성능/효과

기존 기계학습 기법으로는 시경망, 지지벡터머신, 결정트리 및 나이브베이즈가 사용되었으며, leave one-out cross validation을 이용하여 성능을 측정하였다. 그 결과, 랜덤 하이파망 분류기는 0.9146의 정확도로서 결정트리 및 나이브베이즈보다 높은 성능을 보여주었으며, 신경망과 지지벡터머신과는 대등한 분류 성능을 보여주었다. 신경망과 지지벡터머산은일반 문제에서 안정적으로 비교적 높은 성능을 보여주는 기계학습 기법으로 알려져 있다.
그리고 학습된 하이퍼망 분류기에서 암과 연관이 있다고 예측된 miRNA 모듈을 추출하였으며, 목적 유전자에 대한 통계적 분석 및 온톨로지 분석 등을 통해 추출된 miRNA 모듈이 유의미한 결과가 될 수 있음을 보였다. 본 논문의 구성은 다음과 같다.
높은 분류 정확도와 함께 암 발현 패턴과 관련된 miRNA 페어를 찾기 위한 실험 수행결과, 하이퍼망 기반 분류 기법은 기존 기계학습 기법인 신경망 또는 지지벡터머신과 대등한 분류 성능을 보여주었으며, 결정 트리와 나이브베이즈 보다 뛰어난 성능을 보여주었다. 그리고 학습된 하이퍼망 분류기에서 암과 연관이 있다고 예측된 miRNA 모듈을 추출하였으며, 목적 유전자에 대한 통계적 분석 및 온톨로지 분석 등을 통해 추출된 miRNA 모듈이 유의미한 결과가 될 수 있음을 보였다.
해집합이 학습되는 정도, 즉 하이퍼간선의 사중치가 변화되는 정도 耳二 ACEi/CEi 는 데이타에 대한 적응성과 안정적인 학습 사이의 균형을 맞추는데 중요한 요소이다. 따라서 실험에서는 〃값을 0.01 부터 시작하여 매번 epoch의 전체 정확도가 이전 보다 떨어질 경우, 0.75 m만큼 학습 비율을 감소시켰다. 하이퍼망 학습의 정지 조건은 40회의 epoch을 기준으로 하였다.
따라서, BCL3 와 BCL6 두 유전자 발현의 변화는 암을 형성하는 메커니즘에 영향을 줄 수 있으며 더 나아가 암의 성장과 존속을 결정하는데 주요한 역할을 할 수 있는 유전자임은 알 수 있다. 모듈 Ⅱ에 대한 GO 분석도 모듈 I과 같은 결과를 보여주었으며, 따라서 하이퍼망 분류기를 이융해추출된 miRNA 모듈은 복합작용이 있는 암 관련 모듈이라고 할 수 있다.
하이퍼망은 생체분자 네트웍에기반해 만들어진 모델로서 지지벡터머신 또는 신경망과 같은 기존 기계학습 기법과는 다르게 학습 결과를 사람이 이해할 수 있는 형태로 직접 분석 가능하다는 장점을 가진다. 암과 관련된 miRNA 발현 프로파일을 이용한 분류 실험에서 하이퍼망 분류기는 결정트리 및 나이브베이즈보다 뛰어난 분류 성능을 보여주었으며, 신경망 및 지지벡터머신과 대등한 성능을 보여주었다. 학습된 하이퍼 망 분류기를 통해 발견된 miRNA 모듈이 생물학적으로 의미가 있는지를 보기 위해 GO 분석 및 목적 유전자에 대한 통계분석 방법을 이용하였으며, 그 결과분석 모듈의 생물학적 유의미성을 발견할 수 있었다.
종합해 보면, 하이퍼망은 하이퍼간선 및 하이퍼간선의 가중치로 구성되는 일련의 규칙 집단(popt血tion)을 사용하여 특정 데이타 집합을 표현하는 확률 모델이라고 할 수 있다.
01^1 유의한 텀 (term) 목록을 나타낸 것이다. 표에 나타난 바와 같이, 두 miRNA가 공통으로 타겟하고 있는 13개의 목적 유전자(BQL3, BCL6, CCND1, CCND2, CDH₁, DDX6, ETV6, FGFR1, MYCL1, IRF4, NF2, NRAS, PDGFB)가 유의한 수준으로 나타났다. 전체적으로, 모듈 I에서의 목적 유전자들은 전사, 단백질 결합, 세포 조절, 생리학적 또는 생물학적 과정에 연관된 특정 기능의 카테고리에 속해 있다.

후속연구

하이퍼망 분류기 및 진화 기반 학습 방법은 좋은 분류 성능과 함께 사람이 이해 멏 분석 가능한 해법을 제공한다는 점에서 자질 선택과 같은 전처리 과정에 사용되거나 마이크로어레이 데이타 외에 분석 능력이 중요한 다른 문제에도 활용될 수 있을 것으로 보인다.

참고문헌 (20)

Ramaswamy, S. and Golub, T.R., 'DNA Microarrays in Clinical Oncology,' Journal of Clinical Oncology, Vol.20, pp. 1932-1941, 2002

상세보기
Segal, E., Friedman, N., Kaminski, N., Regev, A., and Koller, D., 'From Signatures to Models: Understanding Cancer Using Microarrays,' Nature Genetics, Vol.37, s38-s45, 2005

상세보기
Segal, E., Friedman, N., Koller, D., and Regev, A., 'A Module Map Showing Conditional Activity of Expression Modules in Cancer,' Nature Genetics, Vol.36, pp. 1090-1098, 2004

상세보기
Brown, M.P.S., Grundy, W.N., Lin, D., Cristianini, N., Sugnet C.W., Furey, T.S., Ares, M., Jr., and Haussler, D., 'Knowledge-Based Analysis of Microarray Gene Expression Data by Using Support Vector Machines,' Proceedings of the National Academy of Sciences, Vol.97, No.1, pp. 262-267, 2000

상세보기
Dettling, M. and Buhlmann, P., 'Boosting for Tumor Classification with Gene Expression Data,' Bioinformatics, Vol.19, pp. 1061-1069, 2003

상세보기
Subramanian, A., Tamayo, P., Mootha, V.K., Mukherjee, S., Ebert, B.L., Gillette, M.A., Paulovich, A., Pomeroy, S.L., Golub, T.R., Lander, E.S., and Mesirov, J.P., 'Gene Set Enrichment Analysis: A Knowledge-Based Approach for Interpreting Genome-Wide Expression Profiles,' Proceedings of the National Academy of Sciences, Vol.102, pp. 15545-15550, 2005
Huang, E., Ishida, S., Pittman, J., Dressman, H., Bild, A., Kloos, M., Kloos, M., Pestell, R.G., West, M., and Nevins, J.R., 'Gene Expression Phenotypic Models That Predict the Activity of Oncogenic Pathways,' Nature Genetics, Vol.34, pp. 226-230, 2003

상세보기
Meltzer, P.S., 'Cancer Genomics: Small RNAs with Big Impacts,' Nature, Vol.435, pp. 745-746, 2005

상세보기
Zhang, B.-T., 'Random Hypergraph Models of Learning and Memory in Biomolecular Networks: Shorter-Term Adaptability vs. Longer-Term Persistency,' IEEE Symposium on Foundations of Computational Intelligence, pp. 344-349, 2007
Kim, S., Kim, S.-J., and Zhang, B.-T., 'Evolving Hypernetwork Classifiers for microRNA Expression Profile Analysis,' IEEE Congress on Evolutionary Computation, pp. 313-319, 2007
Berge, C., Graphs and Hypergraphs, North-Holland Publishing, 1973
Milo, R., Shen-Orr, S., Itzkovitz, S., Kashitan, N., Chklovskii, D., and Alon, U., 'Network Motifs: Simple Building Blocks of Comples Networks,' Science, Vol.298, pp. 824-827, 2002

상세보기
MacKay, D., Information Theory, Inference, and Learning Algorithms, Cambridge University Press, 2004
Kim, S., Heo, M.-O., and Zhang, B.-T., 'Text Classifiers Evolved on a Simulated DNA Computer,' IEEE Congress on Evolutionary Computation, pp. 9196-9202, 2006
Lu, J., Getz, G., Miska, E.A., Alvarez-Saavedra, E., Lamb, J., Peck, D., Sweet-Cordero, A., Ebert, B.L., Mak, R.H., Ferrando, A.A., Downing, J.R., Jacks, T., Horvitz, H.R., and Golub, T.R., 'MicroRNA Expression Profiles Classify Human Cancers,' Nature, Vol.435, pp. 834-838, 2005

상세보기
Calin, G.A., Sevignani, C., Dumitru, C.D., Hyslop, T., Noch, E., Yendamuri, S., Shimizu, M., Rattan, S., Bullrich, F., Negrini, M., and Croce, C.M., 'Human microRNA Genes are Frequently Located at Fragile Sites and Genomic Regions Involved in Cancers,' Proceedings of the National Academy of Sciences, Vol.101, No.9, pp. 2999-3004, 2006

상세보기
Zhang, L., Huang, J., Yang, N., Greshock, J., Megraw, M.S., Giannakakis, A., Liang, S., Naylor, T.L., Barchetti, A., Ward, M.R., Yao, G., Medina, A., Brien-Jenkins, A.O., Katsaros, D., Hatzigeorgiou, A., Gimotty, P.A., Weber, B.L., and Coukos, G., 'MicroRNAs Exhibit High Frequency Genomic Alterations in Human Cancer,' Proceedings of the National Academy of Sciences, Vol.103, pp. 9136-9141, 2006
Beissbarth, T., Speed, T.P., 'GOstat: Find Statistically Overrepresented Gene Ontologies within a Group of Genes,' Bioinformatics, Vol.20, No.9, pp. 1464-1465, 2004

상세보기
Kashatus, D., Cogswell, P., and Baldwin, A.S., 'Expression of the Bcl-3 Proto-Oncogene Suppresses p53 Activation,' Genes and Development, Vol.20, pp. 225-235, 2006

상세보기
Phan, R.T. and Dalla-Favera, R., 'The BCL6 Proto-Oncogene Suppresses p53 Expression in Germinal-Centre B Cells,' Nature, Vol.432, pp. 635-639, 2004

상세보기

저자의 다른 논문 :

LOADING...

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증