마이크로어레이 유전자 발현 데이터인 yeast cdc15에 대해 시계열 데이터의 특성을 반영한 푸리에 계수를 이용한 검정통계량과 FDR 다중비교법을 이용하여 차별화된 유전자를 선별한 후 선별된 유전자들에 대해 모형기반 군집방법, K-평균법, PAM, SOM, 계층적 Ward 군집방법과 Fuzzy 군집방법을 실시하였다. 군집방법에 따른 특성을 알아보고 군집화 결과와 내부유효성 측도로 연결성 측도, Dunn 지수와 실루엣 값을 살펴본다. 또한 GO분석을 통한 생물학적 의미도 파악해본다.
마이크로어레이 유전자 발현 데이터인 yeast cdc15에 대해 시계열 데이터의 특성을 반영한 푸리에 계수를 이용한 검정통계량과 FDR 다중비교법을 이용하여 차별화된 유전자를 선별한 후 선별된 유전자들에 대해 모형기반 군집방법, K-평균법, PAM, SOM, 계층적 Ward 군집방법과 Fuzzy 군집방법을 실시하였다. 군집방법에 따른 특성을 알아보고 군집화 결과와 내부유효성 측도로 연결성 측도, Dunn 지수와 실루엣 값을 살펴본다. 또한 GO분석을 통한 생물학적 의미도 파악해본다.
We accomplish clustering analyses for yeast cell cycle microarray expression data. To reflect the characteristics of a time-course data, we screen the genes using the test statistics with Fourier coefficients applying a FDR procedure. We compare the results done by model-based clustering, K-means, P...
We accomplish clustering analyses for yeast cell cycle microarray expression data. To reflect the characteristics of a time-course data, we screen the genes using the test statistics with Fourier coefficients applying a FDR procedure. We compare the results done by model-based clustering, K-means, PAM, SOM, hierarchical Ward method and Fuzzy method with the yeast data. As the validity measure for clustering results, connectivity, Dunn index and silhouette values are computed and compared. A biological interpretation with GO analysis is also included.
We accomplish clustering analyses for yeast cell cycle microarray expression data. To reflect the characteristics of a time-course data, we screen the genes using the test statistics with Fourier coefficients applying a FDR procedure. We compare the results done by model-based clustering, K-means, PAM, SOM, hierarchical Ward method and Fuzzy method with the yeast data. As the validity measure for clustering results, connectivity, Dunn index and silhouette values are computed and compared. A biological interpretation with GO analysis is also included.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
3의 실루엣값을 살펴보면 K-평균법, 연결성 측도와 Dunn 지수를 살펴보면 계층적 군집방법의 내부 유효성이 큰 것을 알 수 있다. 또한, 원래 유전자 발현값으로 군집화한 경우를 살펴보고자한다. 푸리에 계수를 이용하여 군집화하는 경우보다 실루엣값은 작은 편이지만 Dunn지수는 큰 편이다.
마이크로어레이 유전자 발현 데이터는 비슷한 성질을 갖는 유전자들을 군집화 함으로써 특정한 기능이나 공통성을 찾고자한다. 유전자 데이터의 경우 그 수가 많기 때문에 분석을 할 때에도 시간과 비용 등의 어려움이 많고 분석 후에 결과가 좋지 않은 경우도 발생하게 된다.
결과를 살펴보면 대체적으로 푸리에 계수를 이용하여 군집화한 결과가 원데이터를 이용하여 군집화 한 결과보다 내부유효성이 좋은 것을 알 수 있다. 먼저, 푸리에 계수로 군집화한 경우를 고려해보자. 표 5.
본 연구에서는 여러 개의 시점(time point)에서 얻은 유전자 발현 데이터에 대해 차원축소 방법일 뿐만 아니라 기저함수에 대한 정보를 포함하는 푸리에 계수를 이용하여 유전자를 선별하고 선별된 유전자에 대한 군집분석을 하고자한다.
이 연구에서는 관측벡터간 거리는 유클리드 거리로 정의하고, 군집간 거리는 편차제곱합을 이용하여 정의한 Ward 군집 방법을 고려하고자한다. Ward 방법은 군집내 제곱합 증분과 군집간 제곱합을 고려한 방법으로 군집간 정보의 손실을 최소화하도록 군집화를 한다.
가설 설정
이러한 문제를 해결하기 위해 각각의 유전자를 검정하여 의미있는 유전자만을 선별해 분석에 이용하고자 한다. i번째 유전자가 다르게 발현되지(differentially expressed) 않았다는 귀무가설 하에 검정을 실시한다. 이 경우에는 적어도 하나의 유전자가 잘못 군집화 되었을 확률인 FWER(familywise error rate)와 활동성(active) 유전자라고 밝혀진 것 중 비활동성(inactive) 유전자인 부분의 평균인 FDR(false discovery rate)를 제어해야한다.
모형기반 군집방법은 Fraley와 Raftery (2002)에서 데이터 y = (y1, . . . , yn)를 다음과 같은 밀도함수를 갖는 혼합모형이라고 가정한다.
제안 방법
K개 군집이 되도록 medoids를 구한 후 각 개체를 가장 가까운 medoid가 있는 군집으로 분류한다. K평균법에 비해 비유사도(dissimilarity)가 큰 편이나 이상값에 덜 민감한 방법이므로 군집결정시 K-평균법에 비해 이상점의 영향력이 작아진다.
시간에 따른 유전자 발현 평균값의 패턴이 같은 군집에 속하는 유전자들은 각각이 암호화하는 단백질들을 동일한 시기에 생성함을 의미하며 이들 생성된 단백질들 중 일부는 공통적인 생물학적 기능에 관여한다고 할 수 있다. 각 cluster에 속하는 유전자들이 어떠한 생물학적 기능에 관여하는가를 예측하기 위하여 DAVID Bioinformatics Resources 6.7(National Institute of Allergy and Infectious Diseases(NIAID), NIH) (Huang 등, 2009)을 이용한 GO(Gene Ontology) 분석을 하였다 (표 5.4). 각 통계기법 별로 군 집당 유전자 개수가 가장 많은 4개의 GO term을 분석해 본 결과 Cluster A에서는 모형기반과 PAM이 유사성을 보이며 또한 SOM, Ward, Fuzzy 기법의 결과가 서로 유사함을 보여주었다.
여기서 선별을 보수적으로 하기위해 스펙트럼 계산시 유전자별로 표본분산과 표본공분산을 이용하였다. 각 경우에 대해 푸리에 계수의 개수를 변화시켜가며 푸리에 계수들로만 군집분석을 하고 또한 선별된 유전자의 24개 시점에서의 유전자 발현값들로도 군집분석을 실시하였다. 각 경우마다 모형기반 군집분석에서 BIC를 고려하면 최적군집 수는 3개로 결정된다.
3의 실루엣값을 살펴보면 PAM 방법, 연결성 측도를 살펴보면 계층적 군집방법, Dunn 지수를 살펴보면 모형기반 군집방법의 내부 유효성이 큰 것을 알 수 있다. 모형기반의 실루엣값과 생물학적 특성을 보여주는 패턴을 고려하여 J = 5인 경우를 최종모형으로 선택한 후 그룹별 특성을 보여주고자한다.
본 연구에서는 효모 cdc15 유전자 데이터를 이용하여 유전자 선별 작업을 한 후에 군집분석을 해보았다.
선별방법으로는 시계열 특성을 고려한 검정통계량을 이용하여 FDR 다중검정법으로 유전자 선별을 한 후 군집화한 결과를 얻었다. 선별작업을 통해 군집시 고려한 유전자 수를 줄여 군집 계산시 효율성이 높아졌다.
Screening 분석 시 검정통계량에 사용된 푸리에 계수의 개수 J = 3, 4, 5에 대해 FDR을 통해 유전자 선별작업을 수행한 결과 전체 유전자수 4381개 중에서 J = 3일 경우에는 49개, J = 4일 경우에는 29개, J = 5일 경우에는 418개의 유전자가 선별되었다. 여기서 선별을 보수적으로 하기위해 스펙트럼 계산시 유전자별로 표본분산과 표본공분산을 이용하였다. 각 경우에 대해 푸리에 계수의 개수를 변화시켜가며 푸리에 계수들로만 군집분석을 하고 또한 선별된 유전자의 24개 시점에서의 유전자 발현값들로도 군집분석을 실시하였다.
선별작업을 통해 군집시 고려한 유전자 수를 줄여 군집 계산시 효율성이 높아졌다. 유전자 선별작업 후 원데이터를 이용한 군집화와 푸리에 계수를 이용한 군집화를 실시하여 비교하였다.
군집분석에서 다르게 발현된 유전자를 찾아내지 못하는 경우가 있는데 이는 유전자들이 자신이 속한 군집 안에서 의미있게 변하지 않기 때문이다. 이러한 문제를 해결하기 위해 각각의 유전자를 검정하여 의미있는 유전자만을 선별해 분석에 이용하고자 한다. i번째 유전자가 다르게 발현되지(differentially expressed) 않았다는 귀무가설 하에 검정을 실시한다.
각각의 훈련 과정은 세단계로 구성된다. 입력공간(input space)에서 랜덤하게 선택한 입력벡터 제시하고 네트워크를 평가하고 무게벡터를 업데이트 한다. 패턴을 발표한 후 입력패턴과 무게벡터의 유클리드 거리를 계산한다.
입력공간(input space)에서 랜덤하게 선택한 입력벡터 제시하고 네트워크를 평가하고 무게벡터를 업데이트 한다. 패턴을 발표한 후 입력패턴과 무게벡터의 유클리드 거리를 계산한다. 가장 짧은 거리를 갖는 뉴런을 k로 표시한다.
대상 데이터
분석에 이용한 데이터는 효모 마이크로어레이 발현 데이터로 cdc15 방법을 이용하여 값을 측정한 데이터이다. 효모는 인간을 포함한 고등생물체와 같은 진핵세포로 구성되는 생물 모델이기 때문에 그 유전자 발현 데이터 분석은 생물정보연구에 의미가 있다.
이론/모형
K-평균법은 수치화된 자료에만 사용할 수 있다. K-평균법에 대한 설명은 김재희 (2011)와 Izenman (2008)을 참고하였다.
군집화 방법 중에서 분포를 가정하는 모형 기반 군집방법과 비계층적방법인 K-평균법, PAM, 자기 조직화 지도(SOM), 퍼지(fuzzy) 방법, 그리고 계층적 방법인 Ward 방법을 이용하였다.
모형을 선택할 때 BIC 값이 최소가 되는 군집의 수를 최종모형으로 선택할 수 있다. 모형기반 군집방법은 Fraley와 Raftery (2006)에서 설명하고 있는 R 프로그램의 MCLUST 패키지를 사용하여 분석할 수 있다.
을 이용하여 Benjamini와 Hochberg (1995) FDR 과정을 적용하고자한다 (Kim 등, 2011). 여기서 #로 0에서 스펙트럼으로 추정한다.
성능/효과
네 번째 행은 24개 시점에서 측정된 유전자 발현값 모두를 이용하여 군집을 형성하고 이렇게 형성된 군들에 따라 계산된 실루엣값을 다섯 번째 행에서 보여준다. 24개 시점 유전자 발현값 모두를 사용한 경우보다 푸리에 계수를 이용하여 군집을 형성했을 경우의 실루엣값이 더 높은 편임을 알 수 있다. 그러므로 푸리에계수를 이용했을 경우 차원축소효과와 더불어 더 높은 실루엣값을 얻음을 알 수 있다.
세포분열과 DNA 복제와 연관된 유전자들이 발현되는 것이 모형기반, PAM, SOM, Ward, Fuzzy 분석법에서 관찰된 반면 세포내 단백질 이동과 인(phosphorus)의 대사와 관련된 일련의 유전자 군이 K-평균법에 의한 군집에 포함되어 있음을 알 수 있었다. Cluster C에 속하는 유전자들은 모형기반을 제외한 나머지 다섯가지 군집분석 방법에서 유사하게 나타났는데 세포분열과 관련된 스트레스 연관 유전자들이 모형기반 분석법에 의한 군집에 포함되어 있는 반면 세포분열의 각 단계를 조절하는 M phase에 관여하는 유전자들과 단백질 합성에 관여하는 유전자들이 K-평균법, PAM, SOM, Ward, Fuzzy 통계 기법에 의한 군집들에 발견됨을 알 수 있었다.
각 통계기법 별로 군 집당 유전자 개수가 가장 많은 4개의 GO term을 분석해 본 결과 Cluster A에서는 모형기반과 PAM이 유사성을 보이며 또한 SOM, Ward, Fuzzy 기법의 결과가 서로 유사함을 보여주었다. K-평균법에 의한 군집은 모형기반, PAM, SOM, Fuzzy 기법의 결과에서는 보이지 않는 DNA repair와 같은 stress 연관 유전자들이 발현되는 것을 알 수 있었다. Cluster B에 포함되는 유전자들의 기능을 분석한 결과는 K-평균법을 제외한 나머지 다섯가지의 군집분석법에서 유사한 결과들을 보여 주었다.
Screening 분석 시 검정통계량에 사용된 푸리에 계수의 개수 J = 3, 4, 5에 대해 FDR을 통해 유전자 선별작업을 수행한 결과 전체 유전자수 4381개 중에서 J = 3일 경우에는 49개, J = 4일 경우에는 29개, J = 5일 경우에는 418개의 유전자가 선별되었다. 여기서 선별을 보수적으로 하기위해 스펙트럼 계산시 유전자별로 표본분산과 표본공분산을 이용하였다.
4). 각 통계기법 별로 군 집당 유전자 개수가 가장 많은 4개의 GO term을 분석해 본 결과 Cluster A에서는 모형기반과 PAM이 유사성을 보이며 또한 SOM, Ward, Fuzzy 기법의 결과가 서로 유사함을 보여주었다. K-평균법에 의한 군집은 모형기반, PAM, SOM, Fuzzy 기법의 결과에서는 보이지 않는 DNA repair와 같은 stress 연관 유전자들이 발현되는 것을 알 수 있었다.
Dunn (1974)이 제안한 방법으로 Dunn 지수는 같은 군집에 속해 있는 두 개체간의 가장 큰 거리에 대한 서로 다른 군집에 속해 있는 두 개체간의 가장 작은 거리의 비를 나타낸다. 같은 군집에 속해 있는 두 개체간의 거리가 작을수록, 다른 군집에 속해 있는 두 개체간의 거리가 클수록 Dunn 지수는 커지므로 이 값이 클수록 군집화가 잘 되었다고 판단할 수 있다. Dunn 지수는
결과를 살펴보면 대체적으로 푸리에 계수를 이용하여 군집화한 결과가 원데이터를 이용하여 군집화 한 결과보다 내부유효성이 좋은 것을 알 수 있다. 먼저, 푸리에 계수로 군집화한 경우를 고려해보자.
통계적인 분석으로 클러스트링된 유전자들의 발현 패턴은 기능이 아직까지 밝혀지지 않은 미지의 유전자들의 기능을 유추하고 또한 각 유전자들이 어떻게 협동적으로 상호조절하여 생체 기능을 활성화시킬 수 있는가에 대한 정보를 제공할 수 있다. 본 연구에서 제시된 통계적인 유전자 발현의 군집의 결과는 특정한 생물학적 process가 시간대별로 진행됨을 암시하며 또한 어떠한 유전자들이 그 과정에 참여하는지 보여준다. 또한 통계기법의 종류에 따라 특정 군집에 동일하게 나타나는 유전자들과 더불어 특이적인 발현 양상을 보이는 군집도 존재하여 여러 통계 기법의 활용에 따라 다양한 생물학적 결과를 예측할 수 있음을 보여준다.
선별방법으로는 시계열 특성을 고려한 검정통계량을 이용하여 FDR 다중검정법으로 유전자 선별을 한 후 군집화한 결과를 얻었다. 선별작업을 통해 군집시 고려한 유전자 수를 줄여 군집 계산시 효율성이 높아졌다. 유전자 선별작업 후 원데이터를 이용한 군집화와 푸리에 계수를 이용한 군집화를 실시하여 비교하였다.
Cluster B에 포함되는 유전자들의 기능을 분석한 결과는 K-평균법을 제외한 나머지 다섯가지의 군집분석법에서 유사한 결과들을 보여 주었다. 세포분열과 DNA 복제와 연관된 유전자들이 발현되는 것이 모형기반, PAM, SOM, Ward, Fuzzy 분석법에서 관찰된 반면 세포내 단백질 이동과 인(phosphorus)의 대사와 관련된 일련의 유전자 군이 K-평균법에 의한 군집에 포함되어 있음을 알 수 있었다. Cluster C에 속하는 유전자들은 모형기반을 제외한 나머지 다섯가지 군집분석 방법에서 유사하게 나타났는데 세포분열과 관련된 스트레스 연관 유전자들이 모형기반 분석법에 의한 군집에 포함되어 있는 반면 세포분열의 각 단계를 조절하는 M phase에 관여하는 유전자들과 단백질 합성에 관여하는 유전자들이 K-평균법, PAM, SOM, Ward, Fuzzy 통계 기법에 의한 군집들에 발견됨을 알 수 있었다.
후속연구
또한 통계기법의 종류에 따라 특정 군집에 동일하게 나타나는 유전자들과 더불어 특이적인 발현 양상을 보이는 군집도 존재하여 여러 통계 기법의 활용에 따라 다양한 생물학적 결과를 예측할 수 있음을 보여준다. 그러나 통계적인 데이터가 제시하는 생물학적 process가 실제적으로 효모세포에서 일어나는가에 대한 실험적인 증명이 또한 필요하다 하겠다.
본 연구에서 제시된 통계적인 유전자 발현의 군집의 결과는 특정한 생물학적 process가 시간대별로 진행됨을 암시하며 또한 어떠한 유전자들이 그 과정에 참여하는지 보여준다. 또한 통계기법의 종류에 따라 특정 군집에 동일하게 나타나는 유전자들과 더불어 특이적인 발현 양상을 보이는 군집도 존재하여 여러 통계 기법의 활용에 따라 다양한 생물학적 결과를 예측할 수 있음을 보여준다. 그러나 통계적인 데이터가 제시하는 생물학적 process가 실제적으로 효모세포에서 일어나는가에 대한 실험적인 증명이 또한 필요하다 하겠다.
질의응답
핵심어
질문
논문에서 추출한 답변
유전자 데이터 분석의 어려운 점은?
마이크로어레이 유전자 발현 데이터는 비슷한 성질을 갖는 유전자들을 군집화 함으로써 특정한 기능이나 공통성을 찾고자한다. 유전자 데이터의 경우 그 수가 많기 때문에 분석을 할 때에도 시간과 비용 등의 어려움이 많고 분석 후에 결과가 좋지 않은 경우도 발생하게 된다. 이러한 문제를 해결하기 위해 변수변환을 이용하여 데이터의 차원수를 줄이거나 선별(screening)과정을 통해 유전자를 선별하여 선별된 유전자만을 가지고 분석을 하는 방법이 있다.
유전자 데이터에 대한 군집분석 개발에 대한 선행연구는 어떤 것들이 있는가?
유전자 데이터에 대한 군집분석 개발은 다양한 방법으로 활발히 연구되고 있다. Toronen 등 (1999)은 자기 조직화 지도(SOM)방법을 이용하여 군집분석을 하였다. Getz 등 (2000)은 초모수적(super paramagnetic) 군집분석을 하였고 Tusher 등 (2001)은 마이크로어레이의 유의한 분석 방법에 대해 연구하였다. Gasch와 Eisen (2002)는 퍼지(fuzzy) K-평균법을 이용하여 군집분석을 하였다. Zhang 등 (2003)은 이산 푸리에 변환(discrete Fourier transform)을 이용한 군집분석 결과를 보여주었다. Dudoit 등 (2003)은 마이크로어레이 실험에서의 다중비교 검정에 대한 기존 방법들에 대한 비교 연구하였다. Serban과 Wasserman (2005)은 비모수적 추정과 변수 변환을 통한 군집화에 대한 방법을 연구하였다. Kim 등 (2006)은 푸리에 프로화일을 이용하여 2단계 군집방법을 적용하였으며 Kim과 Kim(2008)은 미분 푸리에 계수를 사용한 군집분석을 제안하였다. 최근에 Bickel (2011)은 분포를 모르는 게놈-스케일(Genome-scale) 선별에 대한 조절된 관측 유의수준 추정에 대한 연구를 하였다.
자율학습이란?
군집분석은 가장 잘 알려진 자율학습(unsupervised learning)의 예이다. 자율학습이란 목표패턴이 주어지지 않고 입력패턴에 근거하여 학습을 진행하는 방법으로 구조화되지 않은 다변량 데이터를 분석하는데 가장 많이 쓰이는 방법이다.
참고문헌 (28)
김재희 (2011). R 다변량 통계 분석, 교우사, 서울
김재희, 고윤실 (2009). 군집분석 비교 및 한우 관능평가데이터 군집화, 응용통계 연구, 22, 745-758.
Benjamini, Y. and Hochberg, Y. (1995). Controlling the false discovery rate: A practical and powerful approach to multiple testing, Journal of the Royal Statistical Society: Series B, 57, 289-300.
Bickel, D. R. (2011). Estimating the null distribution to adjust observed confidence levels for genome-scale screening, Bioinformatics, 67, 363-370.
Datta, S. and Datta, S. (2005). Empirical Bayes screening of many p-values with application to microarray studies, Bioinformatics, 21, 1987-1994.
Eckel, J. E., Gennings, C., Chinchilli, V. M., Burgoon, L. D. and Zacharewski, T. R. (2004). Empirical Bayes gene screening tool for time-course or dose-response microarray data, Journal of Biopharmaceutical Statistics, 14, 647-670.
Fraley, C. and Raftery, A. E. (2002). Model-based clustering, discriminant analysis, and density estimation, Journal of the American Statistical Association, 97, 611-631.
Fraley, C. and Raftery, A. E. (2006). MCLUST Version 3 for R: Normal mixture modeling and model-based clustering, Technical Report No. 504.
Gentleman, R., Caray, V. J., Huber, W., Irizarry, R. A. and Dudoit, S. (2005). Bioinformatics and computational biology solutions using R and bioconductor, Spinger, New York.
Getz, G., Levine, E., Domany, E. and Zhang, M. Q. (2000). Super-paramagneic clustering of yeast expression profiles. Physica, A279, 457-464.
Handl, J., Knowles, J. and Kell, D. B. (2005). Computational cluster validation in post-genomic data analysis. Bioinformatics, 21, 3201-3212.
Huang, D. W., Sherman, B. T. and Lempicki, R. A.(2009). Systematic and integrative analysis of large gene lists using DAVID Bioinformatics Resources, Nature Protocols, 4, 44-57.
Hero, A. O., Fleury, G., Mears, A. J. and Swaroop, A. (2004). Multicriteria gene screening for analysis of differential expression with DNA microarrays, Journal on Applied Signal processing, 2004, 43-52.
Izenman, A. J. (2008). Modern Multivariate Statistical Techniques, Spinger, New York.
Kim, B. R., Littell, R. C. and Wu, R. (2006). Clustering periodic patterns of gene expression based on fourier appoximations, Current Genomics, 7, 197-203.
Kim, J., Ogden, R. T. and Kim, H. (2011). A method of identify differential expression profile with timecourse gene data and Fourier transformation, BMC Bioinformatics, in revision.
Kaufman, L. and Rousseeuw, P. J. (1990). Finding Groups in Data: An Introduction to Cluster Analysis, Wiley, New York.
Kohonen, T. (1998). The self-organizing map, Neurocomputing, 21, 1-6.
Rousseeuw, P. T. (1987). Silhouettes: Graphical aid to the interpretation and validation of cluster analysis, Journal of Computation Applied Math, 20, 53-65.
Serban, N. and Wasserman, L. (2005). CATS: Clustering after transformation and smoothing, Journal of the American Statistical Association, 471, 990-999.
Tusher, V. G., Tibshirani, R. and Chu, G. (2001). Significance analysis of microarrays applied to the ionizing radiation response, Proceedings of the National Academy of Sciences of the United States of America, 98, 5116-5121.
Toronen, R., Kolehmainen, M., Wong, G. and Castren, E. (1999). Analysis of gene expression data using self-organizing maps, Federation of European Biochemical Societies, 451, 142-146.
Zhang, L., Zhang, A. and Ramanathan, M. (2003). Fourier harmonic approach for visualizing temporal patterns of gene expression data, IEEE Computer Society Bioinformatics Conference, 2, 137-147.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.