[논문]빈발 유전자 발현 패턴과 연쇄 규칙을 이용한 유전자 조절 네트워크 구축

이헌규; 류근호; 정두영

doi:10.3745/kipstd.2007.14-d.1.009

빈발 유전자 발현 패턴과 연쇄 규칙을 이용한 유전자 조절 네트워크 구축
Constructing Gene Regulatory Networks using Frequent Gene Expression Pattern and Chain Rules 원문보기

정보처리학회논문지. The KIPS transactions. Part D. Part D, v.14D no.1 = no.111, 2007년, pp.9 - 20

이헌규 (충북대학교 대학원 전자계산학과) , 류근호 (충북대학교 전기전자 컴퓨터공학부) , 정두영 (충북대학교 전기전자 컴퓨터공학부)

초록
AI-Helper

유전자들의 그룹은 복잡한 상호작용들을 통해 세포의 기능이 조절되며 이러한 상호작용을 하는 유전자 그룹들을 유전자 조절 네트워크 (GRNs: Gene Regulatory Networks)라고 한다. 이전의 유전자 발현 분석 기법인 군집화와 분류는 단지 상동성에 의한 유전자들 사이의 소속을 결정하는 데에는 유용하나 분자 활동에서의 같은 클래스에서 발견되어지는 유전자들 사이의 조절 관계를 식별할 수 없다. 더욱이 유전자들이 어떻게 연관되는 지와 유전자들이 서로 어떻게 조절하는지에 대한 매커니즘의 이해가 필요하다. 따라서 이 논문에서는 시계열 마이크로어레이 데이터로부터의 유전자들의 조절 관계를 발견하기 위해서 빈발 패턴 마이닝과 연쇄 규칙을 이용한 새로운 접근법을 제안하였다. 이 기법에서는 먼저, 빈발 패턴 마이닝 적용을 위한 적절한 데이터 변환 방법을 제안하였고 FP-growth을 이용하여 유전자 발현 패턴들을 발견한다. 그런 다음, 연쇄 규칙을 이용하여 빈발한 유전자 패턴들로부터 유전자 조절 네트워크를 구축하였다. 마지막으로 제안된 기법의 검증은 공개된 유전자들의 조절 관계와 실험 결과의 일치함을 보임으로써 평가하였다.

Abstract ▼ AI-Helper

Groups of genes control the functioning of a cell by complex interactions. Such interactions of gene groups are tailed Gene Regulatory Networks(GRNs). Two previous data mining approaches, clustering and classification, have been used to analyze gene expression data. Though these mining tools are useful for determining membership of genes by homology, they don't identify the regulatory relationships among genes found in the same class of molecular actions. Furthermore, we need to understand the mechanism of how genes relate and how they regulate one another. In order to detect regulatory relationships among genes from time-series Microarray data, we propose a novel approach using frequent pattern mining and chain rules. In this approach, we propose a method for transforming gene expression data to make suitable for frequent pattern mining, and gene expression patterns we detected by applying the FP-growth algorithm. Next, we construct a gene regulatory network from frequent gene patterns using chain rules. Finally, we validate our proposed method through our experimental results, which are consistent with published results.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

이 논문에서는 시계열 마이크로어레이 데이터로부터의 조절 네트워크 구축을 위해 빈발패턴 마이닝과 연쇄 규칙을 이용한 기법을 제안한다. 이전의 마이크로어레이 분석 기법인 클러스터링과 분류기법[8T1]에서는 단지 발현 패턴이 유사한 유전자들의 그룹핑과 기능이 알려진 유전자들로부터 모델을 학습시키고 이러한 모델로부터 새로운 유전자들의 기능을 예측하는 것으로 한정된다.

가설 설정

유전자를 그의 발현이 증가하는 것과 감소하는 것으로 단순화하여 확률적 네트워크를 추정하고 다른 모델에 같은 데이터를 적용할 때에도 공통적으로 얻어지는 결과를 통해 탐색하였다. 또한 유전자의 상태 전이가 동기화 되었다는 것과 유전자의 활동이 단지 두 가지라는 가정 하에서 유전자 조절 네트워크를 부울 네트워크(boolean network)의 형태로 추론하는 방법이 [기에서 제안하였다. 여기서는 유전자의 활동 레벨을 두 가지 상태(on/off)로 놓고 어떠한 유전자의 조합이 한 유전자의 다음 단계 활동 수준을 결정하는가를 알아내기 위해 상호정보량(mutual information)을 활용한 적용하였으며 그러한 조합을 알아내어 유전자 조절 네트워크를 구성하였다.

제안 방법

. 연속적인 실수 값의 유전자 발현 데이터에서 빈발 패턴탐사가 가능하도록 하기 위해서 데이터 변환 기법인 이산화 방법을 제안한다.
. 조건부 확률과 결합 확률을 이용한 연쇄 규칙을 이용하여 빈발한 유전자 패턴들로부터 유전자 조절 네트워크 구축 방법을 제안한다.
따라서 [4] 에서는 발현에서 유의한 차이를 보이지 않는 유전자들을 제외시켜 차원을 줄이는 선형 모델법을 제안하였으며, 특이치분해 (SVD: Singular Value Decomposition)를 이용하여 차원의 문제를 해결한 [5]는 상호작용을 알아내기 위해 SVD 를 실시하여 극히 적은 수의 유전자만을 남기고, 이러한 유전자만으로 상호작용 행렬을 풀어 유전자의 상호작용을 쉽게 발견한다. 둘째, 기계학습을 이용한 새로운 방법으로 베이지안 네트워크가 있다[1, 5, 6], 그 중 [1]에서 제안한 방법은 희귀(sparse) 후보 기법과 모델평균화 기법을 이용한 통계적 접근법이다. 유전자를 그의 발현이 증가하는 것과 감소하는 것으로 단순화하여 확률적 네트워크를 추정하고 다른 모델에 같은 데이터를 적용할 때에도 공통적으로 얻어지는 결과를 통해 탐색하였다.
패턴들을 포함한다. 따라서 효율적인 패턴들의 저장과 PC에 기반한 중복 패턴 제거를 위해, [14]에서 소개된 트리를 변형한 압축 패턴 트리, CP-tree( Compressed Pattern tree) 데이터 저장 구조를 제안한다. CP-tree 구조는 압축된 패턴 저장이 가능하고 패턴들 사이의 부분 패턴 (sub sequence pattern)/상위 시퀀스 패턴(super sequence pattern) 관계들을 반영한다.
탐사된 유전자 패턴은 대용량이며 많은 중복 패턴들을 포함한다. 따라서, 유용한 패턴만을 추출하기 위해 패턴 응집도(FO 측정 지표를 제안하며 압축 패턴 트리를 이용, 중복 패턴들을 제거한다.
제안한다. 또한, 생성된 대량의 패턴들에서 중복 패턴 제거 및 메모리의 효율적인 패턴 저장을 위한 압축 패턴 트리 구조를 제안한다. 먼저 유전자 발현 데이터에서의 빈발패턴 추출을 위한 유전자 패턴에 대한 정의를 내리고 이로부터 빈발 패턴 탐사 과정 문제를 단계별로 정의한다.
이 과정에서 효율적인 패턴 탐사를 위해 FP-growth 알고리즘을 적용하였고, 패턴의 새로운 유용성 측정 지표의 정의 그리고 압축 패턴 트리를 이용한 대량의 중복 패턴 제거 방법을 제시하였다. 마지막 단계에서는 중복 패턴이 제거된 유전자 패턴들로부터 연쇄 규칙을 이용하여 네트워크를 확률적 모델로 추정하였다. 실험은 saccharomyces cerevisiae 의 성장 주기 중 alpha-factor와 cdc28 데이터 집합에 대해서 유전자의 조절 레벨을 단순한 이진 변환(up, down) 보다더 잘 반영할 수 있는 positive, negative 데이터 변환을 하여 실험하였다.
실험은 alpha-factor와 cdc28 데이터 집합에서 발현되는 모든 빈발 유전자 발현 패턴들을 찾아내고 연쇄 규칙을 적용하여 조절자들을 예측한다. 예측에 대한 검증은<표 7>의 confusion matrix로 표현하며, 예측 결과의 평가는 Recall과 Precision 그리고 F-Measure와 평균절대오차(MAE: Mean Absolute Error)를 이용하였다.
마지막 단계에서는 중복 패턴이 제거된 유전자 패턴들로부터 연쇄 규칙을 이용하여 네트워크를 확률적 모델로 추정하였다. 실험은 saccharomyces cerevisiae 의 성장 주기 중 alpha-factor와 cdc28 데이터 집합에 대해서 유전자의 조절 레벨을 단순한 이진 변환(up, down) 보다더 잘 반영할 수 있는 positive, negative 데이터 변환을 하여 실험하였다. 또한 실험 결과는 각각의 데이터 집합에 대해, 예측된 조절자와 이미 알려진 결과와의 비교를 통해 검증하였다.
또한 유전자의 상태 전이가 동기화 되었다는 것과 유전자의 활동이 단지 두 가지라는 가정 하에서 유전자 조절 네트워크를 부울 네트워크(boolean network)의 형태로 추론하는 방법이 [기에서 제안하였다. 여기서는 유전자의 활동 레벨을 두 가지 상태(on/off)로 놓고 어떠한 유전자의 조합이 한 유전자의 다음 단계 활동 수준을 결정하는가를 알아내기 위해 상호정보량(mutual information)을 활용한 적용하였으며 그러한 조합을 알아내어 유전자 조절 네트워크를 구성하였다. 그러나 베이지안 네트워크를 이용한 조절 네트워크 추론은 베이지안의 이론적 근거와 통계적 안정성을 가지지만, 마이크로어레이 데이터의 많은 양의 유전자들을 추론함에 있어 충분한 양의 훈련데이터를 얻는 것이 어려우며, 이로 인해 찾아낸 네트워크의 관계 중 높은 양성 오류(false positive율의 잘못된 예측을 하게 된다.
둘째, 기계학습을 이용한 새로운 방법으로 베이지안 네트워크가 있다[1, 5, 6], 그 중 [1]에서 제안한 방법은 희귀(sparse) 후보 기법과 모델평균화 기법을 이용한 통계적 접근법이다. 유전자를 그의 발현이 증가하는 것과 감소하는 것으로 단순화하여 확률적 네트워크를 추정하고 다른 모델에 같은 데이터를 적용할 때에도 공통적으로 얻어지는 결과를 통해 탐색하였다. 또한 유전자의 상태 전이가 동기화 되었다는 것과 유전자의 활동이 단지 두 가지라는 가정 하에서 유전자 조절 네트워크를 부울 네트워크(boolean network)의 형태로 추론하는 방법이 [기에서 제안하였다.
제안된 유전자 조절 네트워크의 구축 과정은 첫째, 전처리된 각 유전자 발현 데이터에서 빈발한 유전자 패턴들의 발견한다. 이 과정에서 효율적인 패턴 탐사를 위해 FP-growth 알고리즘을 적용하였고, 패턴의 새로운 유용성 측정 지표의 정의 그리고 압축 패턴 트리를 이용한 대량의 중복 패턴 제거 방법을 제시하였다. 마지막 단계에서는 중복 패턴이 제거된 유전자 패턴들로부터 연쇄 규칙을 이용하여 네트워크를 확률적 모델로 추정하였다.
이 논문에서는 유전자 조절 네트워크 구축을 통해 다른 유전자들의 발현 레벨을 조절하는 조잘자(activator, inhibitor)를 예측하였다. 이를 위해서 먼저, 유전자 발현 데이터를 발현 비율에 기반한 3가지 항목으로 표현하여 빈발 패턴 마이닝이 적용 가능하도록 트랜잭션화 하였다.
이 장에서는 특정 시점에서의 유사한 발현 패턴을 갖는 유전자들을 발견하기 위해서 유전자 발현 마이크로어레이 데이터에서의 빈발한 유전자 패턴 탐사 기법을 소개하며, 탐사된 패턴들 사이의 유용성 측정을 위한 새로운 측정치인 패턴 응집도를 제안한다. 또한, 생성된 대량의 패턴들에서 중복 패턴 제거 및 메모리의 효율적인 패턴 저장을 위한 압축 패턴 트리 구조를 제안한다.
예측하였다. 이를 위해서 먼저, 유전자 발현 데이터를 발현 비율에 기반한 3가지 항목으로 표현하여 빈발 패턴 마이닝이 적용 가능하도록 트랜잭션화 하였다. 제안된 유전자 조절 네트워크의 구축 과정은 첫째, 전처리된 각 유전자 발현 데이터에서 빈발한 유전자 패턴들의 발견한다.
이를 위해서 먼저, 유전자 발현 데이터를 발현 비율에 기반한 3가지 항목으로 표현하여 빈발 패턴 마이닝이 적용 가능하도록 트랜잭션화 하였다. 제안된 유전자 조절 네트워크의 구축 과정은 첫째, 전처리된 각 유전자 발현 데이터에서 빈발한 유전자 패턴들의 발견한다. 이 과정에서 효율적인 패턴 탐사를 위해 FP-growth 알고리즘을 적용하였고, 패턴의 새로운 유용성 측정 지표의 정의 그리고 압축 패턴 트리를 이용한 대량의 중복 패턴 제거 방법을 제시하였다.

대상 데이터

마이크로어레이 데이터 D는 (그림 2)와 같이<gene, timepointy 형태의 nxm■데이터 행렬로 표현되어지며 "개의 유전자(또는 probe), m개의 실험 샘플로 구성된다.

데이터처리

실험은 saccharomyces cerevisiae 의 성장 주기 중 alpha-factor와 cdc28 데이터 집합에 대해서 유전자의 조절 레벨을 단순한 이진 변환(up, down) 보다더 잘 반영할 수 있는 positive, negative 데이터 변환을 하여 실험하였다. 또한 실험 결과는 각각의 데이터 집합에 대해, 예측된 조절자와 이미 알려진 결과와의 비교를 통해 검증하였다.
예측에 대한 검증은의 confusion matrix로 표현하며, 예측 결과의 평가는 Recall과 Precision 그리고 F-Measure와 평균절대오차(MAE: Mean Absolute Error)를 이용하였다.

이론/모형

. 전처리된 유전자 발현 데이터로부터 빈발한 패턴 탐사를 위해 현재까지 성능이 가장 우수한 FP-growth 기법을 적용한다.
. 제안된 기법의 검증은 공개된 유전자들의 조절 관계와 실험 결과의 일치함을 보임으로써 평가되고, 그 평가기준으로써 Precision, Recall, F-Measure, MAE를 사용한다.
구조를 묘사할 수 있다. 이 절에서는 [12]에서 소개된 FP-growth 방법을 이용하여 사용자 기반의 최소지지도를 만족하는 모든 빈발 패턴 탐사 알고리즘을 기술한다.

성능/효과

따라서 마이크로어레이 데이터에서 빈발한 유전자들의 패턴을 발견하고 이러한 패턴들을 이용하여 연속적인 조건부 확률을 적용한 통계적 기법인 연쇄 규칙을 유도함으로써 유전자들 간의 상호 조절 관계를 발견할 수 있다. 또한 제안된 기법은 알려지지 않은 유전자들의 조절 관계를 표현할 수 있고 이로부터 아직 알지 못하는 생물학적 정보를 얻을 수 있다. 제안된 조절 네트워크 구축 방법을 위해 논문은 다음과 같은 내용으로 구성된다.

참고문헌 (17)

Friedman, N., Linial, M., Nachman, I. and Pe'er, D., 'Using Bayesian networks to analyze expression data', Journal of Computational Biology, 7:601-620, 2000

상세보기
Husmeier, D., 'Sensitivity and specificity of inferring genetic regulatory interactions from microarray experiments with dynamic Bayesian networks', Bioinformatics, 19: 2271-2282, 2003

상세보기
Ting Chen, Vladimir Filkov, Steven S. Skiena, 'Identifying Gene Regulatory Networks from Experimental Data', RECOMB, 94-103, 1999
Van Someren, E. P., Wessels, L. F. A., and Reinders, 'Linear modeling of genetic networks from experimental data. Proc., ISMB, 355-366, 2000
Holter, N. S., Maritan, A., Fedoroff, N. V. and Banavar, J. R., 'Dynamic modeling of gene expression data, Proc., Natl, Acad. Sci. 1693-1698, 2000
Rishi Khan, Yujing Zeng, Javier GarciaFrias and Guang Gao, 'A Bayesian Modeling Framework for Genetic Regulation', Proc., CSB'02, 2002
Akutsu, T., Miyano, S., and kuhara, S., 'Identification of genetic networks from a small number of gene expression patterns under the Boolean network model', Pacific Symposium on Biocomputing 17-28, 1999
Eisen, M. B., Spellman, P. T., Brown, P.O., and Botstein, D., 'Cluster Analysis and Display of Genome-Wide Expression Patterns'. Proc., National Academy of Science. 95: 14863-14868, 1998

상세보기
Spellman, P. T., Sherlock, G., Zhang, M. Q., Iyer, V. R., Anders, K., Eisen, M. B., Brown, P.O., Botstein, D. and Futcher, B., 'Comprehensive identification of cell cycle-regulated genes of the yeast Saccharomyces cerevisiae by microarray hybridization', Molecular Biology of the Cell, 9:3273-3297. 1998

상세보기
Tamayo, P., Slonim, D., Mesirov, J., Zhu, Q., Kitareewan, S., Dmitrovsky, E., Lander, E. and Golub, T. 'Interpreting patterns of gene expression with selforganizing maps'. PNAS, 96:2907-2912. 1999

상세보기
Brown, M. P., Grundy, W. N., Lin, D., Sugnet, C. W., Furey, T. S., Ares Jr., and Haussler, D., 'Knowledge-based analysis of microarray gene expression data by using support vector machines'. PNAS, 4;97(1):262-7. 2000
Han, J., Pei, J., Yin, Y., 'Mining frequent patterns without candidate generation'. In SIGMOD'00, Dallas, TX, 2000
Forsyth, R. and Rada, R., 'Machine Learning applications in Expert Systems and Information Retrieval', Ellis Horwood Limited, 1986
Li, W., Han, J. and Pei, J., 'CMAR: Accurate and Efficient Classification Based on Multiple Association Rules', Proc., Interna'l Conf, on Data Mining, 2001
Meretakis, D. and Wuthrich, B., 'Extending naive bayes classifiers using long itemsets', Proc., the 5th ACM SIGKDD Conference on Knowledge Discovery and Data Min-ing, 165-174, 1999
Elledge, S. J. and Davis, R. W., 'Identification of the DNA damage-responsive element of RNR2 and evidence that four distinct cellular factors bind it', Molecular and Cell Biology, 9(12):5373-86. 1989

상세보기
Yeast Protein Database (YPD) (http://www.proteome.com)

저자의 다른 논문 :

LOADING...

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증