유전자들의 그룹은 복잡한 상호작용들을 통해 세포의 기능이 조절되며 이러한 상호작용을 하는 유전자 그룹들을 유전자 조절 네트워크 (GRNs: Gene Regulatory Networks)라고 한다. 이전의 유전자 발현 분석 기법인 군집화와 분류는 단지 상동성에 의한 유전자들 사이의 소속을 결정하는 데에는 유용하나 분자 활동에서의 같은 클래스에서 발견되어지는 유전자들 사이의 조절 관계를 식별할 수 없다. 더욱이 유전자들이 어떻게 연관되는 지와 유전자들이 서로 어떻게 조절하는지에 대한 매커니즘의 이해가 필요하다. 따라서 이 논문에서는 시계열마이크로어레이 데이터로부터의 유전자들의 조절 관계를 발견하기 위해서 빈발 패턴 마이닝과 연쇄 규칙을 이용한 새로운 접근법을 제안하였다. 이 기법에서는 먼저, 빈발 패턴 마이닝 적용을 위한 적절한 데이터 변환 방법을 제안하였고 FP-growth을 이용하여 유전자 발현 패턴들을 발견한다. 그런 다음, 연쇄 규칙을 이용하여 빈발한 유전자 패턴들로부터 유전자 조절 네트워크를 구축하였다. 마지막으로 제안된 기법의 검증은 공개된 유전자들의 조절 관계와 실험 결과의 일치함을 보임으로써 평가하였다.
유전자들의 그룹은 복잡한 상호작용들을 통해 세포의 기능이 조절되며 이러한 상호작용을 하는 유전자 그룹들을 유전자 조절 네트워크 (GRNs: Gene Regulatory Networks)라고 한다. 이전의 유전자 발현 분석 기법인 군집화와 분류는 단지 상동성에 의한 유전자들 사이의 소속을 결정하는 데에는 유용하나 분자 활동에서의 같은 클래스에서 발견되어지는 유전자들 사이의 조절 관계를 식별할 수 없다. 더욱이 유전자들이 어떻게 연관되는 지와 유전자들이 서로 어떻게 조절하는지에 대한 매커니즘의 이해가 필요하다. 따라서 이 논문에서는 시계열 마이크로어레이 데이터로부터의 유전자들의 조절 관계를 발견하기 위해서 빈발 패턴 마이닝과 연쇄 규칙을 이용한 새로운 접근법을 제안하였다. 이 기법에서는 먼저, 빈발 패턴 마이닝 적용을 위한 적절한 데이터 변환 방법을 제안하였고 FP-growth을 이용하여 유전자 발현 패턴들을 발견한다. 그런 다음, 연쇄 규칙을 이용하여 빈발한 유전자 패턴들로부터 유전자 조절 네트워크를 구축하였다. 마지막으로 제안된 기법의 검증은 공개된 유전자들의 조절 관계와 실험 결과의 일치함을 보임으로써 평가하였다.
Groups of genes control the functioning of a cell by complex interactions. Such interactions of gene groups are tailed Gene Regulatory Networks(GRNs). Two previous data mining approaches, clustering and classification, have been used to analyze gene expression data. Though these mining tools are use...
Groups of genes control the functioning of a cell by complex interactions. Such interactions of gene groups are tailed Gene Regulatory Networks(GRNs). Two previous data mining approaches, clustering and classification, have been used to analyze gene expression data. Though these mining tools are useful for determining membership of genes by homology, they don't identify the regulatory relationships among genes found in the same class of molecular actions. Furthermore, we need to understand the mechanism of how genes relate and how they regulate one another. In order to detect regulatory relationships among genes from time-series Microarray data, we propose a novel approach using frequent pattern mining and chain rules. In this approach, we propose a method for transforming gene expression data to make suitable for frequent pattern mining, and gene expression patterns we detected by applying the FP-growth algorithm. Next, we construct a gene regulatory network from frequent gene patterns using chain rules. Finally, we validate our proposed method through our experimental results, which are consistent with published results.
Groups of genes control the functioning of a cell by complex interactions. Such interactions of gene groups are tailed Gene Regulatory Networks(GRNs). Two previous data mining approaches, clustering and classification, have been used to analyze gene expression data. Though these mining tools are useful for determining membership of genes by homology, they don't identify the regulatory relationships among genes found in the same class of molecular actions. Furthermore, we need to understand the mechanism of how genes relate and how they regulate one another. In order to detect regulatory relationships among genes from time-series Microarray data, we propose a novel approach using frequent pattern mining and chain rules. In this approach, we propose a method for transforming gene expression data to make suitable for frequent pattern mining, and gene expression patterns we detected by applying the FP-growth algorithm. Next, we construct a gene regulatory network from frequent gene patterns using chain rules. Finally, we validate our proposed method through our experimental results, which are consistent with published results.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
이 논문에서는 시계열 마이크로어레이 데이터로부터의 조절 네트워크 구축을 위해 빈발패턴 마이닝과 연쇄 규칙을 이용한 기법을 제안한다. 이전의 마이크로어레이 분석 기법인 클러스터링과 분류기법[8T1]에서는 단지 발현 패턴이 유사한 유전자들의 그룹핑과 기능이 알려진 유전자들로부터 모델을 학습시키고 이러한 모델로부터 새로운 유전자들의 기능을 예측하는 것으로 한정된다.
가설 설정
유전자를 그의 발현이 증가하는 것과 감소하는 것으로 단순화하여 확률적 네트워크를 추정하고 다른 모델에 같은 데이터를 적용할 때에도 공통적으로 얻어지는 결과를 통해 탐색하였다. 또한 유전자의 상태 전이가 동기화 되었다는 것과 유전자의 활동이 단지 두 가지라는 가정 하에서 유전자 조절 네트워크를 부울 네트워크(boolean network)의 형태로 추론하는 방법이 [기에서 제안하였다. 여기서는 유전자의 활동 레벨을 두 가지 상태(on/off)로 놓고 어떠한 유전자의 조합이 한 유전자의 다음 단계 활동 수준을 결정하는가를 알아내기 위해 상호정보량(mutual information)을 활용한 적용하였으며 그러한 조합을 알아내어 유전자 조절 네트워크를 구성하였다.
제안 방법
. 연속적인 실수 값의 유전자 발현 데이터에서 빈발 패턴탐사가 가능하도록 하기 위해서 데이터 변환 기법인 이산화 방법을 제안한다.
. 조건부 확률과 결합 확률을 이용한 연쇄 규칙을 이용하여 빈발한 유전자 패턴들로부터 유전자 조절 네트워크 구축 방법을 제안한다.
따라서 [4] 에서는 발현에서 유의한 차이를 보이지 않는 유전자들을 제외시켜 차원을 줄이는 선형 모델법을 제안하였으며, 특이치분해 (SVD: Singular Value Decomposition)를 이용하여 차원의 문제를 해결한 [5]는 상호작용을 알아내기 위해 SVD 를 실시하여 극히 적은 수의 유전자만을 남기고, 이러한 유전자만으로 상호작용 행렬을 풀어 유전자의 상호작용을 쉽게 발견한다. 둘째, 기계학습을 이용한 새로운 방법으로 베이지안 네트워크가 있다[1, 5, 6], 그 중 [1]에서 제안한 방법은 희귀(sparse) 후보 기법과 모델평균화 기법을 이용한 통계적 접근법이다. 유전자를 그의 발현이 증가하는 것과 감소하는 것으로 단순화하여 확률적 네트워크를 추정하고 다른 모델에 같은 데이터를 적용할 때에도 공통적으로 얻어지는 결과를 통해 탐색하였다.
패턴들을 포함한다. 따라서 효율적인 패턴들의 저장과 PC에 기반한 중복 패턴 제거를 위해, [14]에서 소개된 트리를 변형한 압축 패턴 트리, CP-tree( Compressed Pattern tree) 데이터 저장 구조를 제안한다. CP-tree 구조는 압축된 패턴 저장이 가능하고 패턴들 사이의 부분 패턴 (sub sequence pattern)/상위 시퀀스 패턴(super sequence pattern) 관계들을 반영한다.
탐사된 유전자 패턴은 대용량이며 많은 중복 패턴들을 포함한다. 따라서, 유용한 패턴만을 추출하기 위해 패턴 응집도(FO 측정 지표를 제안하며 압축 패턴 트리를 이용, 중복 패턴들을 제거한다.
제안한다. 또한, 생성된 대량의 패턴들에서 중복 패턴 제거 및 메모리의 효율적인 패턴 저장을 위한 압축 패턴 트리 구조를 제안한다. 먼저 유전자 발현 데이터에서의 빈발패턴 추출을 위한 유전자 패턴에 대한 정의를 내리고 이로부터 빈발 패턴 탐사 과정 문제를 단계별로 정의한다.
이 과정에서 효율적인 패턴 탐사를 위해 FP-growth 알고리즘을 적용하였고, 패턴의 새로운 유용성 측정 지표의 정의 그리고 압축 패턴 트리를 이용한 대량의 중복 패턴 제거 방법을 제시하였다. 마지막 단계에서는 중복 패턴이 제거된 유전자 패턴들로부터 연쇄 규칙을 이용하여 네트워크를 확률적 모델로 추정하였다. 실험은 saccharomyces cerevisiae 의 성장 주기 중 alpha-factor와 cdc28 데이터 집합에 대해서 유전자의 조절 레벨을 단순한 이진 변환(up, down) 보다더 잘 반영할 수 있는 positive, negative 데이터 변환을 하여 실험하였다.
실험은 alpha-factor와 cdc28 데이터 집합에서 발현되는 모든 빈발 유전자 발현 패턴들을 찾아내고 연쇄 규칙을 적용하여 조절자들을 예측한다. 예측에 대한 검증은<표 7>의 confusion matrix로 표현하며, 예측 결과의 평가는 Recall과 Precision 그리고 F-Measure와 평균절대오차(MAE: Mean Absolute Error)를 이용하였다.
마지막 단계에서는 중복 패턴이 제거된 유전자 패턴들로부터 연쇄 규칙을 이용하여 네트워크를 확률적 모델로 추정하였다. 실험은 saccharomyces cerevisiae 의 성장 주기 중 alpha-factor와 cdc28 데이터 집합에 대해서 유전자의 조절 레벨을 단순한 이진 변환(up, down) 보다더 잘 반영할 수 있는 positive, negative 데이터 변환을 하여 실험하였다. 또한 실험 결과는 각각의 데이터 집합에 대해, 예측된 조절자와 이미 알려진 결과와의 비교를 통해 검증하였다.
또한 유전자의 상태 전이가 동기화 되었다는 것과 유전자의 활동이 단지 두 가지라는 가정 하에서 유전자 조절 네트워크를 부울 네트워크(boolean network)의 형태로 추론하는 방법이 [기에서 제안하였다. 여기서는 유전자의 활동 레벨을 두 가지 상태(on/off)로 놓고 어떠한 유전자의 조합이 한 유전자의 다음 단계 활동 수준을 결정하는가를 알아내기 위해 상호정보량(mutual information)을 활용한 적용하였으며 그러한 조합을 알아내어 유전자 조절 네트워크를 구성하였다. 그러나 베이지안 네트워크를 이용한 조절 네트워크 추론은 베이지안의 이론적 근거와 통계적 안정성을 가지지만, 마이크로어레이 데이터의 많은 양의 유전자들을 추론함에 있어 충분한 양의 훈련데이터를 얻는 것이 어려우며, 이로 인해 찾아낸 네트워크의 관계 중 높은 양성 오류(false positive율의 잘못된 예측을 하게 된다.
둘째, 기계학습을 이용한 새로운 방법으로 베이지안 네트워크가 있다[1, 5, 6], 그 중 [1]에서 제안한 방법은 희귀(sparse) 후보 기법과 모델평균화 기법을 이용한 통계적 접근법이다. 유전자를 그의 발현이 증가하는 것과 감소하는 것으로 단순화하여 확률적 네트워크를 추정하고 다른 모델에 같은 데이터를 적용할 때에도 공통적으로 얻어지는 결과를 통해 탐색하였다. 또한 유전자의 상태 전이가 동기화 되었다는 것과 유전자의 활동이 단지 두 가지라는 가정 하에서 유전자 조절 네트워크를 부울 네트워크(boolean network)의 형태로 추론하는 방법이 [기에서 제안하였다.
제안된 유전자 조절 네트워크의 구축 과정은 첫째, 전처리된 각 유전자 발현 데이터에서 빈발한 유전자 패턴들의 발견한다. 이 과정에서 효율적인 패턴 탐사를 위해 FP-growth 알고리즘을 적용하였고, 패턴의 새로운 유용성 측정 지표의 정의 그리고 압축 패턴 트리를 이용한 대량의 중복 패턴 제거 방법을 제시하였다. 마지막 단계에서는 중복 패턴이 제거된 유전자 패턴들로부터 연쇄 규칙을 이용하여 네트워크를 확률적 모델로 추정하였다.
이 논문에서는 유전자 조절 네트워크 구축을 통해 다른 유전자들의 발현 레벨을 조절하는 조잘자(activator, inhibitor)를 예측하였다. 이를 위해서 먼저, 유전자 발현 데이터를 발현 비율에 기반한 3가지 항목으로 표현하여 빈발 패턴 마이닝이 적용 가능하도록 트랜잭션화 하였다.
이 장에서는 특정 시점에서의 유사한 발현 패턴을 갖는 유전자들을 발견하기 위해서 유전자 발현 마이크로어레이 데이터에서의 빈발한 유전자 패턴 탐사 기법을 소개하며, 탐사된 패턴들 사이의 유용성 측정을 위한 새로운 측정치인 패턴 응집도를 제안한다. 또한, 생성된 대량의 패턴들에서 중복 패턴 제거 및 메모리의 효율적인 패턴 저장을 위한 압축 패턴 트리 구조를 제안한다.
예측하였다. 이를 위해서 먼저, 유전자 발현 데이터를 발현 비율에 기반한 3가지 항목으로 표현하여 빈발 패턴 마이닝이 적용 가능하도록 트랜잭션화 하였다. 제안된 유전자 조절 네트워크의 구축 과정은 첫째, 전처리된 각 유전자 발현 데이터에서 빈발한 유전자 패턴들의 발견한다.
이를 위해서 먼저, 유전자 발현 데이터를 발현 비율에 기반한 3가지 항목으로 표현하여 빈발 패턴 마이닝이 적용 가능하도록 트랜잭션화 하였다. 제안된 유전자 조절 네트워크의 구축 과정은 첫째, 전처리된 각 유전자 발현 데이터에서 빈발한 유전자 패턴들의 발견한다. 이 과정에서 효율적인 패턴 탐사를 위해 FP-growth 알고리즘을 적용하였고, 패턴의 새로운 유용성 측정 지표의 정의 그리고 압축 패턴 트리를 이용한 대량의 중복 패턴 제거 방법을 제시하였다.
대상 데이터
마이크로어레이 데이터 D는 (그림 2)와 같이<gene, timepointy 형태의 nxm■데이터 행렬로 표현되어지며 "개의 유전자(또는 probe), m개의 실험 샘플로 구성된다.
데이터처리
실험은 saccharomyces cerevisiae 의 성장 주기 중 alpha-factor와 cdc28 데이터 집합에 대해서 유전자의 조절 레벨을 단순한 이진 변환(up, down) 보다더 잘 반영할 수 있는 positive, negative 데이터 변환을 하여 실험하였다. 또한 실험 결과는 각각의 데이터 집합에 대해, 예측된 조절자와 이미 알려진 결과와의 비교를 통해 검증하였다.
예측에 대한 검증은의 confusion matrix로 표현하며, 예측 결과의 평가는 Recall과 Precision 그리고 F-Measure와 평균절대오차(MAE: Mean Absolute Error)를 이용하였다.
이론/모형
. 전처리된 유전자 발현 데이터로부터 빈발한 패턴 탐사를 위해 현재까지 성능이 가장 우수한 FP-growth 기법을 적용한다.
. 제안된 기법의 검증은 공개된 유전자들의 조절 관계와 실험 결과의 일치함을 보임으로써 평가되고, 그 평가기준으로써 Precision, Recall, F-Measure, MAE를 사용한다.
구조를 묘사할 수 있다. 이 절에서는 [12]에서 소개된 FP-growth 방법을 이용하여 사용자 기반의 최소지지도를 만족하는 모든 빈발 패턴 탐사 알고리즘을 기술한다.
성능/효과
따라서 마이크로어레이 데이터에서 빈발한 유전자들의 패턴을 발견하고 이러한 패턴들을 이용하여 연속적인 조건부 확률을 적용한 통계적 기법인 연쇄 규칙을 유도함으로써 유전자들 간의 상호 조절 관계를 발견할 수 있다. 또한 제안된 기법은 알려지지 않은 유전자들의 조절 관계를 표현할 수 있고 이로부터 아직 알지 못하는 생물학적 정보를 얻을 수 있다. 제안된 조절 네트워크 구축 방법을 위해 논문은 다음과 같은 내용으로 구성된다.
참고문헌 (17)
Friedman, N., Linial, M., Nachman, I. and Pe'er, D., 'Using Bayesian networks to analyze expression data', Journal of Computational Biology, 7:601-620, 2000
Husmeier, D., 'Sensitivity and specificity of inferring genetic regulatory interactions from microarray experiments with dynamic Bayesian networks', Bioinformatics, 19: 2271-2282, 2003
Ting Chen, Vladimir Filkov, Steven S. Skiena, 'Identifying Gene Regulatory Networks from Experimental Data', RECOMB, 94-103, 1999
Van Someren, E. P., Wessels, L. F. A., and Reinders, 'Linear modeling of genetic networks from experimental data. Proc., ISMB, 355-366, 2000
Holter, N. S., Maritan, A., Fedoroff, N. V. and Banavar, J. R., 'Dynamic modeling of gene expression data, Proc., Natl, Acad. Sci. 1693-1698, 2000
Rishi Khan, Yujing Zeng, Javier GarciaFrias and Guang Gao, 'A Bayesian Modeling Framework for Genetic Regulation', Proc., CSB'02, 2002
Akutsu, T., Miyano, S., and kuhara, S., 'Identification of genetic networks from a small number of gene expression patterns under the Boolean network model', Pacific Symposium on Biocomputing 17-28, 1999
Eisen, M. B., Spellman, P. T., Brown, P.O., and Botstein, D., 'Cluster Analysis and Display of Genome-Wide Expression Patterns'. Proc., National Academy of Science. 95: 14863-14868, 1998
Spellman, P. T., Sherlock, G., Zhang, M. Q., Iyer, V. R., Anders, K., Eisen, M. B., Brown, P.O., Botstein, D. and Futcher, B., 'Comprehensive identification of cell cycle-regulated genes of the yeast Saccharomyces cerevisiae by microarray hybridization', Molecular Biology of the Cell, 9:3273-3297. 1998
Tamayo, P., Slonim, D., Mesirov, J., Zhu, Q., Kitareewan, S., Dmitrovsky, E., Lander, E. and Golub, T. 'Interpreting patterns of gene expression with selforganizing maps'. PNAS, 96:2907-2912. 1999
Brown, M. P., Grundy, W. N., Lin, D., Sugnet, C. W., Furey, T. S., Ares Jr., and Haussler, D., 'Knowledge-based analysis of microarray gene expression data by using support vector machines'. PNAS, 4;97(1):262-7. 2000
Han, J., Pei, J., Yin, Y., 'Mining frequent patterns without candidate generation'. In SIGMOD'00, Dallas, TX, 2000
Forsyth, R. and Rada, R., 'Machine Learning applications in Expert Systems and Information Retrieval', Ellis Horwood Limited, 1986
Li, W., Han, J. and Pei, J., 'CMAR: Accurate and Efficient Classification Based on Multiple Association Rules', Proc., Interna'l Conf, on Data Mining, 2001
Meretakis, D. and Wuthrich, B., 'Extending naive bayes classifiers using long itemsets', Proc., the 5th ACM SIGKDD Conference on Knowledge Discovery and Data Min-ing, 165-174, 1999
Elledge, S. J. and Davis, R. W., 'Identification of the DNA damage-responsive element of RNR2 and evidence that four distinct cellular factors bind it', Molecular and Cell Biology, 9(12):5373-86. 1989
※ AI-Helper는 부적절한 답변을 할 수 있습니다.