Fisher Criterion을 이용한 Gene Set Enrichment Analysis 기반 유의 유전자 집합의 검출 방법 연구 Identifying Statistically Significant Gene-Sets by Gene Set Enrichment Analysis Using Fisher Criterion원문보기
Gene set enrichment analysis (GSEA)는 두 개의 클래스를 가지는 마이크로어레이 실험 데이터 분석을 위해 생물학적 특징을 기반으로 구성된 다양한 유전자-집합 중에서 두 클래스의 발현값들이 통계적으로 중요한 차이를 나타내는 유의한 유전자-집합을 추출하기 위한 분석 방법이다. 특히, 유전자에 대한 다양한 생물학적인 정보를 지닌 유전자 주석 데이터베이스(Cytogenetic Band, KEGG pathway, Gene Ontology 등)를 이용하여 마이크로어레이 실험에 사용된 전체 유전자 중 특정 기능을 가지는 유전자들을 그룹화하여 다양한 유전자-집합을 발굴하고, 각 유전자-집합 내에서 두 클래스간에 발현값의 차이를 참조하여 유의한 유전자들을 결정하여, 이를 기반으로 통계적으로 유의한 유전자-집합들을 최종 검출하는 방법이다. 본 논문에서는 GSEA 분석 과정에서 현재 주로 사용되고 있는 signal-to-noise ratio 기반 유전자 서열화(gene ranking) 방법 대신에, Fisher criterion을 이용한 유전자 서열화 방법을 적용함으로써 기존의 GSEA 방법에서 추출하지 못한 생물학적으로 의미 있는 새로운 유의 유전자-집합을 추출하는 방법을 제안하고자 한다. 또한, 제안한 방법의 성능을 고찰하기 위하여 공개된 Leukemia 관련 마이크로어레이 실험 데이터 분석에 적용하였으며, 기존의 알려진 결과와 비교 분석함으로써 제안한 방법의 유용성을 검증하고자 하였다.
Gene set enrichment analysis (GSEA)는 두 개의 클래스를 가지는 마이크로어레이 실험 데이터 분석을 위해 생물학적 특징을 기반으로 구성된 다양한 유전자-집합 중에서 두 클래스의 발현값들이 통계적으로 중요한 차이를 나타내는 유의한 유전자-집합을 추출하기 위한 분석 방법이다. 특히, 유전자에 대한 다양한 생물학적인 정보를 지닌 유전자 주석 데이터베이스(Cytogenetic Band, KEGG pathway, Gene Ontology 등)를 이용하여 마이크로어레이 실험에 사용된 전체 유전자 중 특정 기능을 가지는 유전자들을 그룹화하여 다양한 유전자-집합을 발굴하고, 각 유전자-집합 내에서 두 클래스간에 발현값의 차이를 참조하여 유의한 유전자들을 결정하여, 이를 기반으로 통계적으로 유의한 유전자-집합들을 최종 검출하는 방법이다. 본 논문에서는 GSEA 분석 과정에서 현재 주로 사용되고 있는 signal-to-noise ratio 기반 유전자 서열화(gene ranking) 방법 대신에, Fisher criterion을 이용한 유전자 서열화 방법을 적용함으로써 기존의 GSEA 방법에서 추출하지 못한 생물학적으로 의미 있는 새로운 유의 유전자-집합을 추출하는 방법을 제안하고자 한다. 또한, 제안한 방법의 성능을 고찰하기 위하여 공개된 Leukemia 관련 마이크로어레이 실험 데이터 분석에 적용하였으며, 기존의 알려진 결과와 비교 분석함으로써 제안한 방법의 유용성을 검증하고자 하였다.
Gene set enrichment analysis (GSEA) is a computational method to identify statistically significant gene sets showing significant differences between two groups of microarray expression profiles and simultaneously uncover their biological meanings in an elegant way by employing gene annotation datab...
Gene set enrichment analysis (GSEA) is a computational method to identify statistically significant gene sets showing significant differences between two groups of microarray expression profiles and simultaneously uncover their biological meanings in an elegant way by employing gene annotation databases, such as Cytogenetic Band, KEGG pathways, gene ontology, and etc. For the gone set enrichment analysis, all the genes in a given dataset are first ordered by the signal-to-noise ratio between the groups and then further analyses are proceeded. Despite of its impressive results in several previous studies, however, gene ranking by the signal-to-noise ratio makes it difficult to consider highly up-regulated genes and highly down-regulated genes at the same time as the candidates of significant genes, which possibly reflect certain situations incurred in metabolic and signaling pathways. To deal with this problem, in this article, we investigate the gene set enrichment analysis method with Fisher criterion for gene ranking and also evaluate its effects in Leukemia related pathway analyses.
Gene set enrichment analysis (GSEA) is a computational method to identify statistically significant gene sets showing significant differences between two groups of microarray expression profiles and simultaneously uncover their biological meanings in an elegant way by employing gene annotation databases, such as Cytogenetic Band, KEGG pathways, gene ontology, and etc. For the gone set enrichment analysis, all the genes in a given dataset are first ordered by the signal-to-noise ratio between the groups and then further analyses are proceeded. Despite of its impressive results in several previous studies, however, gene ranking by the signal-to-noise ratio makes it difficult to consider highly up-regulated genes and highly down-regulated genes at the same time as the candidates of significant genes, which possibly reflect certain situations incurred in metabolic and signaling pathways. To deal with this problem, in this article, we investigate the gene set enrichment analysis method with Fisher criterion for gene ranking and also evaluate its effects in Leukemia related pathway analyses.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 논문에서는 이러한 문제를 해결하기 위하여 Fisher criterion[4'6]°fl 기반한 유전자 서열화 방법을 적용함으로써 어느 한 클래스에서의 발현값이 다른 클래스에 비해 높거나 낮은 것 중 하나를 선택하기보다는 두 클래스에서 나타나는 발현값의 차이가 통계적으로 의미를 나타내는 유전자들을 대상으로 유의한 유전차- 집합을 검출하고자 한다. 데이터 분석 실험을 위해 Golub et al.
본 실험에서는 DNA 마이크로어레이 실험을 통해 획득한 Leukemia 관련 유전자 발현 프로파일을 이용하여 AML과 ALL을 구분할 수 있는 유의한 유전자-집합 및 유전자들을 검출하기 위해, 유전자 서열화 방법으로 SNR을 사용한 GSEA와 Fisher oiterion을 사용한 GSEA를 비교 분석하고자 하였다. 이를 위하여, 먼저 KEGG Pathwa产成嘻 이용하여 旳개의 유전자-집합을 구성하였고, 이 중 AML과 ALL 두 클래스에서 중요한 발현값의 차이를 나타내는 유의한 유전자-집합을 찾아내고 이들의 패스웨이 기능을 분석하였다.
이 방법은 두 개의 클래스를 가지는 마이크로 어레이 비교 분석 실험에서 특정 생물학적 공통 요소를 지닌 유전자들로 구성된 다양한 유전자-집합(gene-set) 을 생성하고, 이 중에서 두 클래스 간에 발현값의 차이가 유의하게 나타나는 유전자-집합을 통계적 분석을 통해 찾아내는 방법이다. 이것은 기존의 유의 유전자 추출 방법들이 다른 생물학적인 정보를 고려하지 않고 수치적인 발현 데이터에만 의존하여 분석함으로써 생물학적 메커니즘을 이해하기 위해 추가적인 별도의 생물학적 분석과정이 필요했던 것과는 달리, 유의 유전자 집합을 추출하기 위한 자체 분석과정에서 생물학적인 정보를 발현 프로파일과 함께 고려하여 유의성을 판단함으로써 이전의 문제를 해결하고자 하였다.
이상에서와 같이 본 논문에서는 GSEA 분석을 위한 유전자 서열화 방법으로서 일반적으로 사용되는 SNR 방법 대신 Fisher Criterion을 이용하는 방법을 제안하고, 이의 유용성을 백혈병 관련 실험 분석을 통해 살펴보았다. 실험 결과에 의하면 SNR 기반 유전자 서열화 방법을 이용한 경우 백혈병의 두 클래스인 AML과 ALL에서 중요한 발현값의 차이를 보이는 유의한 패스 웨이로서 실제 생물학적으로 관련성이 밝혀진 총 5개의 패스 웨이 중 2개만을 찾아낼 수 있었다.
제안 방법
Subramanian et al.[1] 연구에서는 GSEA 분석 방법을 이용하여 사람의 혈액 속에 있는 lymphoblastoid 세포에서 남성과 여성 간에 차이를 나타내는 유전자-집합을 추출하거나, NCI-60 암 세포 라인에서의 유전자 발현 데이터를 이용하여 다양한 자극 신호에 따라 유전자 발현을 조절하는 전사인자인 p53의 타깃을 규명하는 데에 적용하였다. 또한, Acute Leukemia와 관련된 연구 및 폐암과 관련한 정상인 유전자와 암에 걸린 유전자들을 비교 분석한 결과를 소개하고 있다" 한편, 2006년 Erdogan Taskesen(2)는 사람의 암 발병과 관련된 중요 유전자 연구를 위해 GSEA 를 이용하여 HMEC (Human Mammary Epithelial Cell) cell lines의 패스웨이에 관한 연구를 수행하였다.
그러나 실제 Fisher criterion을 사용할 경우 그 측정치가 항상 양의 값만을 갖기 때문에 양의 영역에서의 분포의 유사성만 판단하면 된다. 따라서 음의 영역에서 0과의 편차가 가장 큰 부분을 제외하고 양의 영역에서 0과의 편차가 가장 큰 부분이 그 유전자- 집합의 ES값이 되도록 조정하였다.
이를 위하여, 먼저 KEGG Pathwa产成嘻 이용하여 旳개의 유전자-집합을 구성하였고, 이 중 AML과 ALL 두 클래스에서 중요한 발현값의 차이를 나타내는 유의한 유전자-집합을 찾아내고 이들의 패스웨이 기능을 분석하였다. 또한, 이렇게 검출된 유의 유전자-집합의 패스웨이 기능이 기존에 알려진 Leukemia와 관련된 패스웨이인지를 비교 분석하였다.
반면에, 새로운 Fisher Criterion 을 이용한 경우에는 AML 관련해서는 hsa04110 과 hsa04210, ALL 과 관련된 hsa04660과 hsaO铝62, 그리고 ALL/AML에 관련된 hsa04frK) 패스웨이를 추출함으로써 생물학적으로 이미 검증된 총 다섯 개의 백혈병 관련 패스웨이 정보를 모두 주줄하였다.
검증을 이용하는 방법이 있다. 본 실험에서는 NES값을 이용하여 상위 40 개에 해당하는 유전자-집합들을 유의한 유전자-집합으로 선정하고, 백혈병과 관련하여 이미 알려진 KEGG 패스웨이 정보와 GSEA분석에 의해 검출된 유의 유전자-집합들이 상호 얼마나 매칭 되는지를 검토하여 기존 SNR 기반 GSEA와 새로운 Fisher Criterion 기반 GSEA 결과들을 비교 평가하였다.
상기 표 1에 나타난 바와 같이, 기존의 SNR을 GSEA 분석에 이용할 경우, AML 관련 패스웨이 정보로서 hsa04U0 와 ALL/AML 관련 패스웨이로서 h옹M4640인 총 두 개의 패스웨이만을 추출하였다. 반면에, 새로운 Fisher Criterion 을 이용한 경우에는 AML 관련해서는 hsa04110 과 hsa04210, ALL 과 관련된 hsa04660과 hsaO铝62, 그리고 ALL/AML에 관련된 hsa04frK) 패스웨이를 추출함으로써 생물학적으로 이미 검증된 총 다섯 개의 백혈병 관련 패스웨이 정보를 모두 주줄하였다.
실험에서 사용한 유전자 주석 데이터베이스는 KEGG pathway를 이용하였다. 유전차- 집합을 구성하기 위해 KEGG pathway 데이터베이스에서 pathway 기능별로 카테고리화한 데이터들을 이용하여 특정 pathway에 관련된 유전자들로 유전자-집합을구성하였다B必劉 유전자-집합을 구성할 때 유전자의 수가 너무 작은 것은 GSEA 분석에서 잘못된 결과를 얻을 수 있기 때문에 pathway 기능별로 분류된 유전자 -집합을 구성하는 유전자의 수가 최소 5개 이상이 되는 167개의 유전자-집합들을 구성하여 GSEA분석에 이용하였다.
패스웨이로 고려하였다. 이를 기반으로 각 GSEA 방법들을 분석을 통해 유의성이 높다고 주줄된 상위 40개의 유전자-집합 중에서, 백혈병 관련 다섯 개의 패스웨이를 얼마나 포함하고 있는지를 검토하여 결과를 검증하였다. 이에 관한 분석 결과는 표 1과 같다.
비교 분석하고자 하였다. 이를 위하여, 먼저 KEGG Pathwa产成嘻 이용하여 旳개의 유전자-집합을 구성하였고, 이 중 AML과 ALL 두 클래스에서 중요한 발현값의 차이를 나타내는 유의한 유전자-집합을 찾아내고 이들의 패스웨이 기능을 분석하였다. 또한, 이렇게 검출된 유의 유전자-집합의 패스웨이 기능이 기존에 알려진 Leukemia와 관련된 패스웨이인지를 비교 분석하였다.
적용하였다. 이를 통해, 클래스 A의 발현값이 B에 비해 높고 낮음에 상관없이 두 클래스 간에 차이가 많이 나는 유전자들이 유의 유전자로서 고려되고, 각 유전자-집합의 유의성을 판단하는 데에 반영되도록 하였다. 특정 유전자 H 대한 Fisher Criterion 계산 식은 다음과 같다.
특히 KEGG 패스웨이에서 백혈병의 AML 클래스와 관련이 있다고 밝혀진 패스웨이 hscO4H0과 hscM210 (hsa04110: Cell cycle, hsa04210: Apotosis), ALL 클래스와 관련된 hsa04660와 hsa04662 (hsa04660: T cell receptor signaling pathway, hsa04662: B cell receptor signaling pathway), 그리고 AML과 ALL 클래스 둘 다 동시에 관련이 있다고 밝혀진 hsM640 (hsa04640: Hematojwietic cell lineage)®'221-^ 선정하여 백혈병 관련 패스웨이로 고려하였다. 이를 기반으로 각 GSEA 방법들을 분석을 통해 유의성이 높다고 주줄된 상위 40개의 유전자-집합 중에서, 백혈병 관련 다섯 개의 패스웨이를 얼마나 포함하고 있는지를 검토하여 결과를 검증하였다.
대상 데이터
실험을 위해 1999년 Golub et al.回에 의해 발표된바 있는 Leukemia 데이터 셑回을 사용하였다. 이 데이터 셑은 백혈병의 두 가지 다른 클래스인 Acute Myeloid Leukemia(AML) 및 Acute Lymphoblastic Leukemia(ALL)에서 나타나는 인간 유전자 7129개의 발현 프로파일로 구성되어 있다.
유전자-집합이다. 실험에서 사용한 유전자 주석 데이터베이스는 KEGG pathway를 이용하였다. 유전차- 집합을 구성하기 위해 KEGG pathway 데이터베이스에서 pathway 기능별로 카테고리화한 데이터들을 이용하여 특정 pathway에 관련된 유전자들로 유전자-집합을구성하였다B必劉 유전자-집합을 구성할 때 유전자의 수가 너무 작은 것은 GSEA 분석에서 잘못된 결과를 얻을 수 있기 때문에 pathway 기능별로 분류된 유전자 -집합을 구성하는 유전자의 수가 최소 5개 이상이 되는 167개의 유전자-집합들을 구성하여 GSEA분석에 이용하였다.
回에 의해 발표된바 있는 Leukemia 데이터 셑回을 사용하였다. 이 데이터 셑은 백혈병의 두 가지 다른 클래스인 Acute Myeloid Leukemia(AML) 및 Acute Lymphoblastic Leukemia(ALL)에서 나타나는 인간 유전자 7129개의 발현 프로파일로 구성되어 있다. 총 38개의 실험 샘플이 사용되었으며, 27개가 ALL 클래스에 해당하고 나머지 11개는 AML 클래스에 해당한다.
이 데이터 셑은 백혈병의 두 가지 다른 클래스인 Acute Myeloid Leukemia(AML) 및 Acute Lymphoblastic Leukemia(ALL)에서 나타나는 인간 유전자 7129개의 발현 프로파일로 구성되어 있다. 총 38개의 실험 샘플이 사용되었으며, 27개가 ALL 클래스에 해당하고 나머지 11개는 AML 클래스에 해당한다.
데이터처리
검출하고자 한다. 데이터 분석 실험을 위해 Golub et al. (1999)의 Leukemia 데이터를 사용하였으며 추출된 유의 유전자 집합의 결과를 기존의 알려진 생물학적 정보와 비교 분석하였다.
이론/모형
그리하여, 본 논문에서는 어느 한 클래스에서의 유전자 발현값이 다른 클래스에 비해 많고 적음보다는 두 클래스 간에 많은 발현값의 차이를 나타내는 유전자들을 유의 유전자로서 고려될 수 있도록 아래 식 (2) 와같은 Fisher criterion'^〕에 기반한 유전자 서열화 기법을 적용하였다. 이를 통해, 클래스 A의 발현값이 B에 비해 높고 낮음에 상관없이 두 클래스 간에 차이가 많이 나는 유전자들이 유의 유전자로서 고려되고, 각 유전자-집합의 유의성을 판단하는 데에 반영되도록 하였다.
성능/효과
실험 결과에 의하면 SNR 기반 유전자 서열화 방법을 이용한 경우 백혈병의 두 클래스인 AML과 ALL에서 중요한 발현값의 차이를 보이는 유의한 패스 웨이로서 실제 생물학적으로 관련성이 밝혀진 총 5개의 패스 웨이 중 2개만을 찾아낼 수 있었다. 반면에 Fisher Criterion을 사용한 경우에는 5개 모두를 찾아낼 수 있었다, 따라서 특정 클래스에서의 유전자 발현값이 다른 클래스에 비해 상대적으로 높거나 낮은 패턴을 동시에 반영하는 Fisher Criterion을 GSEA 분석에 적용할 경우 SN压을 이용할 때에 발견하지 못한 생물학적으로 의미 있는 유의 유전자-집합을 효과적으로 주줄할 수 있었다.
실험 결과에 의하면 SNR 기반 유전자 서열화 방법을 이용한 경우 백혈병의 두 클래스인 AML과 ALL에서 중요한 발현값의 차이를 보이는 유의한 패스 웨이로서 실제 생물학적으로 관련성이 밝혀진 총 5개의 패스 웨이 중 2개만을 찾아낼 수 있었다. 반면에 Fisher Criterion을 사용한 경우에는 5개 모두를 찾아낼 수 있었다, 따라서 특정 클래스에서의 유전자 발현값이 다른 클래스에 비해 상대적으로 높거나 낮은 패턴을 동시에 반영하는 Fisher Criterion을 GSEA 분석에 적용할 경우 SN压을 이용할 때에 발견하지 못한 생물학적으로 의미 있는 유의 유전자-집합을 효과적으로 주줄할 수 있었다.
후속연구
반면에, Fisher Criterion의 경우 측정치의 특성상 두 클래스에서의 발현값이 어느 한 쪽에서 많고 적음보다는 두 클래스 간의 발현값 차이가 크고 작음에 따라 유의 유전자를 결정하고 이에 기반하여 유전자~집합의 유의성을 판별하는 특징을 지닌다. 따라서 Fisher criterion 기반 유전자 서열화 기법을 GSEA 분석에 사용할 경우, SNR 사용 시에 놓칠 수 있는 중요한 유의 유전자-집합 검출에 도움이 될 것으로 추정된다.
참고문헌 (22)
A. Subramanian et al., "Gene set enrichment analysis: a knowledge-based approach for interpreting genome-wide expression profiles.", Proc. Natl Acad Sci USA 102: 15545-50, Sep 2005
E. Taskesen, "Sub-typing of model organisms based on gene expression data." Bioinformatics technical University of Delft Research Assignment, 2006
S. Monti et al., "Molecular profiling of diffuse large B-cell lymphoma identifies robust subtypes including one characterized by host inflammatory response.", Blood. 2005 Mar 1;105(5):1851-61, Nov 2004
C. Bishop, "Neural Networks for Pattern Recognition", Oxford University Press, Oxford, 1995
A. Blum et al., "Selection of relevant features and example in machine learning", Artificial intelligence, 97:245-271, 1997
Y. Ge et al., "Resampling-based multiple testing for microarray data analysis", Technical Report 633, Department of Statistics, University of California, Berkeley, 2003
V. G. Tusher et al., "Significance analysis of microarrays applied to the ionizing radiation response", Proc Natl Acad Sci. 24;98(9):5116-21, Apr 2001
R. Gentleman et al., "Bioinformatics and Computational Biology Solutions Using R and Bioconductor", Springer, 2005
J. Verzani, "Using R for Introductory Statistics" Chapman & Hall/CRC, Boca Raton, FL, 2005
T. R. Golub et al., "Molecular classification of cancer: class discovery and class prediction by gene expression monitoring", Science (Wash. DC), 286: 531.537, 1999
I. Dinu et al., "Improving GSEA for analysis of biologicpathways for differential gene expression across a binary phenotype.", Collection of Biostatistics, 2007
T. Manoli et al., "Group testing for Pathway analysis improves comparability of different microarray datasets", Bioinformatics, 22(20):2500-2506, 2006
※ AI-Helper는 부적절한 답변을 할 수 있습니다.