군집분석은 마이크로어레이 발현자료에서 유전자 혹은 표본들의 유사한 특성을 갖는 연관구조를 조사하는데 중요한 도구이다. 본 논문에서는 마이크로어레이 자료에서 계층적 군집방법, K-평균법, PAM (partitioning around medoids), SOM (self-organizing maps) 그리고 모형기반 군집방법 들의 성능을 3가지 군집 타당성 측도인 내적 측도, 안정적 측도 그리고 생물학적 측도를 가지고 비교분석하고자 한다. 모의실험을 통해 생성된 자료와 실제 SRBCT (small round blue cell tumor) 자료를 가지고 여러 가지 군집방법들의 성능을 비교하였으며 그 결과 모의실험 자료에서는 거의 모든 방법들이 3가지 군집측도에서 원래 자료와 일치하는 좋은 군집 결과를 나타내었고 SRBCT 자료에서는 모의실험 자료처럼 명확한 군집화 결과를 보여주지는 않으나 내적측도의 실루엣 너비 (Silhouette width) 관점에서는 PAM 방법, SOM, 모형기반 군집방법 그리고 생물학적 측도에서는 PAM 방법과 모형기반 군집방법이 모의실험 결과와 비슷한 결과를 얻었고 안정적 측도에서 모형기반 군집방법이 다른 방법들보다 좋은 군집결과를 보여주었다.
군집분석은 마이크로어레이 발현자료에서 유전자 혹은 표본들의 유사한 특성을 갖는 연관구조를 조사하는데 중요한 도구이다. 본 논문에서는 마이크로어레이 자료에서 계층적 군집방법, K-평균법, PAM (partitioning around medoids), SOM (self-organizing maps) 그리고 모형기반 군집방법 들의 성능을 3가지 군집 타당성 측도인 내적 측도, 안정적 측도 그리고 생물학적 측도를 가지고 비교분석하고자 한다. 모의실험을 통해 생성된 자료와 실제 SRBCT (small round blue cell tumor) 자료를 가지고 여러 가지 군집방법들의 성능을 비교하였으며 그 결과 모의실험 자료에서는 거의 모든 방법들이 3가지 군집측도에서 원래 자료와 일치하는 좋은 군집 결과를 나타내었고 SRBCT 자료에서는 모의실험 자료처럼 명확한 군집화 결과를 보여주지는 않으나 내적측도의 실루엣 너비 (Silhouette width) 관점에서는 PAM 방법, SOM, 모형기반 군집방법 그리고 생물학적 측도에서는 PAM 방법과 모형기반 군집방법이 모의실험 결과와 비슷한 결과를 얻었고 안정적 측도에서 모형기반 군집방법이 다른 방법들보다 좋은 군집결과를 보여주었다.
Cluster analysis has proven to be a useful tool for investigating the association structure among genes and samples in a microarray data set. We applied several cluster validation measures to evaluate the performance of clustering algorithms for analyzing microarray gene expression data, including h...
Cluster analysis has proven to be a useful tool for investigating the association structure among genes and samples in a microarray data set. We applied several cluster validation measures to evaluate the performance of clustering algorithms for analyzing microarray gene expression data, including hierarchical clustering, K-means, PAM, SOM and model-based clustering. The available validation measures fall into the three general categories of internal, stability and biological. The performance of clustering algorithms is evaluated using simulated and SRBCT microarray data. Our results from simulated data show that nearly every methods have good results with same result as the number of classes in the original data. For the SRBCT data the best choice for the number of clusters is less clear than the simulated data. It appeared that PAM, SOM, model-based method showed similar results to simulated data under Silhouette with of internal measure as well as PAM and model-based method under biological measure, while model-based clustering has the best value of stability measure.
Cluster analysis has proven to be a useful tool for investigating the association structure among genes and samples in a microarray data set. We applied several cluster validation measures to evaluate the performance of clustering algorithms for analyzing microarray gene expression data, including hierarchical clustering, K-means, PAM, SOM and model-based clustering. The available validation measures fall into the three general categories of internal, stability and biological. The performance of clustering algorithms is evaluated using simulated and SRBCT microarray data. Our results from simulated data show that nearly every methods have good results with same result as the number of classes in the original data. For the SRBCT data the best choice for the number of clusters is less clear than the simulated data. It appeared that PAM, SOM, model-based method showed similar results to simulated data under Silhouette with of internal measure as well as PAM and model-based method under biological measure, while model-based clustering has the best value of stability measure.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
고차원의 정규분포를 갖는 자료를 생성하여 군집방법들 간 비교하고자 한다. 여기서는 차원이 100인 4개의 군집을 생각하였으며 각 군집은 다음과 같이 정규분포를 갖는 10개의 자료들로 구성되어있다.
본 논문에서는 마이크로어레이 자료에 대해 여러 가지 군집 방법의 성능을 비교하고 군집 타당성 측도를 통해 군집 결과를 평가하고자 한다. 본 논문에서 사용하는 SRBCT (small round blue cell tumor) 자료 (Khan 등, 2001)는 아이들에게 흔히 발생하는 악성 종양 자료로서 총 63개의 표본과 2308개의 유전자 속성을 가진 EWS (Ewing family of tumors), RMS (rhabdomyosarcoma), NB (neuroblasoma), BL (Burkitt lymphoma)의 4종류의 암에 대해 조사한 자료이다.
본 절에서는 계층적 군집방법, K-평균법, PAM 방법, SOM 방법과 모형기반 군집 방법에 대해 간략하게 살펴보고자 한다.
본 절에서는 고차원의 유전자 발현자료에 대하여 군집 타당성 분석을 수행하기 앞서 모의실험을 통해 생성된 저차원과 고차원의 인공적인 자료와 실제 SRBCT 자료를 가지고 5가지 군집방법들의 성능을 여러 가지 타당성 측도를 가지고 비교하고자 한다. 모의실험은 R 프로그램을 이용하며 clValid (Brock 등, 2008) 패키지를 이용하여 군집 타당성 측도를 계산하고자 한다.
가설 설정
데이터 y는 서로 독립인 N개의 다변량 관측벡터 y1, · · · , yN으로 구성되어 있다고 가정한다.
제안 방법
본 절에서는 고차원의 유전자 발현자료에 대하여 군집 타당성 분석을 수행하기 앞서 모의실험을 통해 생성된 저차원과 고차원의 인공적인 자료와 실제 SRBCT 자료를 가지고 5가지 군집방법들의 성능을 여러 가지 타당성 측도를 가지고 비교하고자 한다. 모의실험은 R 프로그램을 이용하며 clValid (Brock 등, 2008) 패키지를 이용하여 군집 타당성 측도를 계산하고자 한다.
본 논문에서 다루고자 하는 SRBCT자료에 대해 전처리 과정 (preprocessing)으로 log 변환을 수행하였으며 Quantile 표준화 작업 (Deshmukh와 Purohit, 2007)을 거친 다음 2308개 유전자 중에서 분산분석을 통해 유의확률이 0.01이하인 유의한 유전자 937개를 선택하였다.
본 논문에서는 마이크로어레이 자료에 대해 많이 사용하는 계층적 군집방법과 비계층적 군집방법으로 K-평균법, PAM 그리고 SOM 그리고 모형기반 군집방법 들의 성능을 3 가지 타당성 측도인 내적 측도, 안정적 측도 그리고 생물학적 측도를 가지고 비교분석하였다.
우리는 실제 SRBCT 자료와 모의실험 통해 생성된 자료를 가지고 군집방법 성능을 비교하였다.
대상 데이터
본 논문에서 사용하는 SRBCT (small round blue cell tumor) 자료 (Khan 등, 2001)는 아이들에게 흔히 발생하는 악성 종양 자료로서 총 63개의 표본과 2308개의 유전자 속성을 가진 EWS (Ewing family of tumors), RMS (rhabdomyosarcoma), NB (neuroblasoma), BL (Burkitt lymphoma)의 4종류의 암에 대해 조사한 자료이다.
고차원의 정규분포를 갖는 자료를 생성하여 군집방법들 간 비교하고자 한다. 여기서는 차원이 100인 4개의 군집을 생각하였으며 각 군집은 다음과 같이 정규분포를 갖는 10개의 자료들로 구성되어있다.
이론/모형
모형기반 군집방법에서 실험에 사용된 공분산행렬의 모형은 “EI”라고 표기되는 동등구형볼륨 모형(equal volume spherical model; Yeung 등, 2001b)이 사용되었다.
본 논문에서는 계층적 군집방법 (hierarchical clustering; Eisen 등, 1998)과 비계층적 군집방법 (non-hierarchical clustering)으로 K-평균법(K-means clustering; Hartigan와 Wong, 1979), PAM (partitioning around medoids; Kaufman와 Rousseeuw, 1990) 그리고 SOM (self-organizing maps; Kohonen, 1997) 그리고 모형기반 군집방법(model-based clustering; Fraley와 Raftery, 2002)들이 사용되고 군집결과의 타당성을 재는 측도로는 내적 측도 (internal measure)로 연결성 (connectivity; Handl 등, 2005), Dunn 지수 (Dunn, 1974), 실루엣 너비 (silhouette width; Rousseeuw, 1987)와 안정적 측도 (stability measure; Datta와 Datta, 2003; Yeung 등, 2001a)로 APN (average proportion of non-overlap), AD (average distance), ADM (average distance between means), FOM (figure of merit) 그리고 생물학적 측도 (biological measure; Datta와 Datta, 2006)로 BHI (biological homogeneity index)와 BSI (biological stability index)가 사용된다.
성능/효과
에 있는 개체들 간의 최대 거리를 나타낸다. 같은 군집에 속해있는 두 개체간의 거리가 작을수록, 다른 군집에 속해있는 두 개체간의 거리가 클수록 D(C)값은 커지므로 이 값이 클수록 군집화가 잘 되었다고 판단할 수 있다.
공분산이 존재하는 경우 Dunn 지수에 대해서는 공분산이 0인 경우처럼 k=4에서 좋은 군집화를 보여주고 있으나 실루엣 너비 측면에서 공분산이 0인 경우와 같은 결과를 낳으나 실루엣 너비 측면에서는 k=3에서 좋은 군집화를 보였다.
먼저 모의실험에서 거의 모든 군집 방법들이 3가지 측도 하에서 원래 자료수와 일치하는 좋은 군집화를 나타내고 있음을 알 수 있다. 그리고 SRBCT 자료에서는 모의실험 자료처럼 명확한 군집화 결과를 보여주지는 않으나 내적 측도인 연결성 면에서 보면 군집의 개수가 작을수록 좋은 군집결과를 보여주는 반면에 실루엣 너비 관점에서 보면 PAM, SOM 그리고 모형기반 군집방법은 군집의 개수 k= 4개인 좋은 군집화를 나타내고 있다. 안정성 측도 면에서 모형기반 군집방법이 다른 방법들보다 비교적 좋은 군집결과를 보여주고 있고 SOM 방법은 다른 방법들 보다 다소 일관성이 떨어짐을 알 수 있다.
먼저 모의실험에서 거의 모든 군집 방법들이 3가지 측도 하에서 원래 자료수와 일치하는 좋은 군집화를 나타내고 있음을 알 수 있다. 그리고 SRBCT 자료에서는 모의실험 자료처럼 명확한 군집화 결과를 보여주지는 않으나 내적 측도인 연결성 면에서 보면 군집의 개수가 작을수록 좋은 군집결과를 보여주는 반면에 실루엣 너비 관점에서 보면 PAM, SOM 그리고 모형기반 군집방법은 군집의 개수 k= 4개인 좋은 군집화를 나타내고 있다.
표 4.9로부터 PAM 방법과 모형기반 군집방법 만이 BHI와 BSI 관점에서 원래 자료에서 클래스의 수와 일치하는 결과를 보였고 계층적 군집방법은 k=3인 경우 K-평균법과 SOM 방법은 BHI 관점에서 군집이 k=5인 경우 생물학적으로 안정하다는 것을 보여주고 있다.
질의응답
핵심어
질문
논문에서 추출한 답변
마이크로어레이는 무엇인가?
마이크로어레이 (microarray)란 슬라이드 유리와 같은 작은 고형체 위에 수천 혹은 수만 개의 DNA를 바둑판 격자처럼 배열해 놓은 칩으로 이 기술은 대량의 유전자 기능을 동시에 밝히는 기능 유전체학 (functional genomics)의 중요한 도구이다 (황진수와 김지연, 2009; Deshmukh와 Purohit, 2007).
계층적 군집 방법의 단점은 무엇인가?
계층적 군집 방법의 단점은 한 번 군집화된 개체는 다시 재배치가 불가능하다는 것이다.
K-평균법이 계층적 군집방법과 다른 점은 무엇인가?
이 방법은 계층적 군집방법과는 달리 한 개체가 속해있던 군집에서 다른 군집으로 재배치가 가능하고 계산량도 적은 편이어서 유전자 자료와 같은 대량의 개체들에 대한 군집방법으로 유용하다.
참고문헌 (23)
김재희, 고윤실 (2009). 군집분석 비교 및 한우 관능평가 데이터 군집화. , 22, 745-758.
Brock, G., Pihur, V., Datta, S. and Datta, S. (2008). clValid: An R package for cluster validation. Journal of Statistical Software, 25, 1-21
Datta, S. and Datta, S. (2003). Comparisons and validation of statistical clustering techniques for microarray gene expression data. Bioinformatics, 19, 459-466.
Datta, S. and Datta, S. (2006). Methods for evaluating clustering algorithms for gene expression data using a reference set of functional classes. BMC Bioinformatics, 7, 397.
Eisen, M. B., Spellman, T. P., Brown, P. O. and Botstein, D. (1998). Cluster analysis and display of genome-wide expression patterns. Proceedings of the National Academy of Sciences of the United States of America, 95, 863-14868.
Fraley, C. and Raftery, A. E. (2002). Model-based clustering, discriminant analysis, and density estimation. Journal of the American Statistical Association, 97, 611-631.
Kaufman, L. and Rousseeuw, P. J. (1990). Finding groups in data: An introduction to cluster analysis, John Wiley & Sons, New York.
Khan, J., Wei, S., Ringer, M., Saal, L. H., Ladanyi, M., Westermann, F., Berthold, F., Schwab, M., Anyonescu, C. R., Peterson, C. and Meltzer, P. S. (2001). Classification and diagnostic prediction of cancers using gene expression profiling and artificial neural networks. Nature Medicine, 7, 673-679
He, Y., Pan, W. and Lin, J. (2006). Cluster analysis using multivariate normal mixture models to detect differential gene expression with microarray data. Computational Statistics & Data Analysis, 51, 641-658
Rousseeuw, P. J. (1987). Silhouettes: a graphical aid to the interpretation and validation of cluster analysis. Journal of Computational and Applied Mathematics, 20, 53-65.
Yeung, K. Y., Fraley, C., Murua, A., Raftery, A. E. and Ruzzo, W. L. (2001b). Model-based clustering and data transformations for gene expression data. Bioinformatics, 17, 977-987.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.