[논문]마이크로어레이 유전자 발현 자료에 대한 군집 방법 비교

임진수; 임동훈

doi:10.7465/jkdi.2012.23.1.039

[국내논문] 마이크로어레이 유전자 발현 자료에 대한 군집 방법 비교
Comparison of clustering methods of microarray gene expression data 원문보기

Journal of the Korean Data & Information Science Society = 한국데이터정보과학회지, v.23 no.1, 2012년, pp.39 - 51

초록
AI-Helper

군집분석은 마이크로어레이 발현자료에서 유전자 혹은 표본들의 유사한 특성을 갖는 연관구조를 조사하는데 중요한 도구이다. 본 논문에서는 마이크로어레이 자료에서 계층적 군집방법, K-평균법, PAM (partitioning around medoids), SOM (self-organizing maps) 그리고 모형기반 군집방법 들의 성능을 3가지 군집 타당성 측도인 내적 측도, 안정적 측도 그리고 생물학적 측도를 가지고 비교분석하고자 한다. 모의실험을 통해 생성된 자료와 실제 SRBCT (small round blue cell tumor) 자료를 가지고 여러 가지 군집방법들의 성능을 비교하였으며 그 결과 모의실험 자료에서는 거의 모든 방법들이 3가지 군집측도에서 원래 자료와 일치하는 좋은 군집 결과를 나타내었고 SRBCT 자료에서는 모의실험 자료처럼 명확한 군집화 결과를 보여주지는 않으나 내적측도의 실루엣 너비 (Silhouette width) 관점에서는 PAM 방법, SOM, 모형기반 군집방법 그리고 생물학적 측도에서는 PAM 방법과 모형기반 군집방법이 모의실험 결과와 비슷한 결과를 얻었고 안정적 측도에서 모형기반 군집방법이 다른 방법들보다 좋은 군집결과를 보여주었다.

Abstract ▼ AI-Helper

Cluster analysis has proven to be a useful tool for investigating the association structure among genes and samples in a microarray data set. We applied several cluster validation measures to evaluate the performance of clustering algorithms for analyzing microarray gene expression data, including hierarchical clustering, K-means, PAM, SOM and model-based clustering. The available validation measures fall into the three general categories of internal, stability and biological. The performance of clustering algorithms is evaluated using simulated and SRBCT microarray data. Our results from simulated data show that nearly every methods have good results with same result as the number of classes in the original data. For the SRBCT data the best choice for the number of clusters is less clear than the simulated data. It appeared that PAM, SOM, model-based method showed similar results to simulated data under Silhouette with of internal measure as well as PAM and model-based method under biological measure, while model-based clustering has the best value of stability measure.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

고차원의 정규분포를 갖는 자료를 생성하여 군집방법들 간 비교하고자 한다. 여기서는 차원이 100인 4개의 군집을 생각하였으며 각 군집은 다음과 같이 정규분포를 갖는 10개의 자료들로 구성되어있다.
본 논문에서는 마이크로어레이 자료에 대해 여러 가지 군집 방법의 성능을 비교하고 군집 타당성 측도를 통해 군집 결과를 평가하고자 한다. 본 논문에서 사용하는 SRBCT (small round blue cell tumor) 자료 (Khan 등, 2001)는 아이들에게 흔히 발생하는 악성 종양 자료로서 총 63개의 표본과 2308개의 유전자 속성을 가진 EWS (Ewing family of tumors), RMS (rhabdomyosarcoma), NB (neuroblasoma), BL (Burkitt lymphoma)의 4종류의 암에 대해 조사한 자료이다.
본 절에서는 계층적 군집방법, K-평균법, PAM 방법, SOM 방법과 모형기반 군집 방법에 대해 간략하게 살펴보고자 한다.
본 절에서는 고차원의 유전자 발현자료에 대하여 군집 타당성 분석을 수행하기 앞서 모의실험을 통해 생성된 저차원과 고차원의 인공적인 자료와 실제 SRBCT 자료를 가지고 5가지 군집방법들의 성능을 여러 가지 타당성 측도를 가지고 비교하고자 한다. 모의실험은 R 프로그램을 이용하며 clValid (Brock 등, 2008) 패키지를 이용하여 군집 타당성 측도를 계산하고자 한다.

가설 설정

데이터 y는 서로 독립인 N개의 다변량 관측벡터 y1, · · · , yN으로 구성되어 있다고 가정한다.

제안 방법

본 절에서는 고차원의 유전자 발현자료에 대하여 군집 타당성 분석을 수행하기 앞서 모의실험을 통해 생성된 저차원과 고차원의 인공적인 자료와 실제 SRBCT 자료를 가지고 5가지 군집방법들의 성능을 여러 가지 타당성 측도를 가지고 비교하고자 한다. 모의실험은 R 프로그램을 이용하며 clValid (Brock 등, 2008) 패키지를 이용하여 군집 타당성 측도를 계산하고자 한다.
본 논문에서 다루고자 하는 SRBCT자료에 대해 전처리 과정 (preprocessing)으로 log 변환을 수행하였으며 Quantile 표준화 작업 (Deshmukh와 Purohit, 2007)을 거친 다음 2308개 유전자 중에서 분산분석을 통해 유의확률이 0.01이하인 유의한 유전자 937개를 선택하였다.
본 논문에서는 마이크로어레이 자료에 대해 많이 사용하는 계층적 군집방법과 비계층적 군집방법으로 K-평균법, PAM 그리고 SOM 그리고 모형기반 군집방법 들의 성능을 3 가지 타당성 측도인 내적 측도, 안정적 측도 그리고 생물학적 측도를 가지고 비교분석하였다.
우리는 실제 SRBCT 자료와 모의실험 통해 생성된 자료를 가지고 군집방법 성능을 비교하였다.

대상 데이터

본 논문에서 사용하는 SRBCT (small round blue cell tumor) 자료 (Khan 등, 2001)는 아이들에게 흔히 발생하는 악성 종양 자료로서 총 63개의 표본과 2308개의 유전자 속성을 가진 EWS (Ewing family of tumors), RMS (rhabdomyosarcoma), NB (neuroblasoma), BL (Burkitt lymphoma)의 4종류의 암에 대해 조사한 자료이다.
고차원의 정규분포를 갖는 자료를 생성하여 군집방법들 간 비교하고자 한다. 여기서는 차원이 100인 4개의 군집을 생각하였으며 각 군집은 다음과 같이 정규분포를 갖는 10개의 자료들로 구성되어있다.

이론/모형

모형기반 군집방법에서 실험에 사용된 공분산행렬의 모형은 “EI”라고 표기되는 동등구형볼륨 모형(equal volume spherical model; Yeung 등, 2001b)이 사용되었다.
본 논문에서는 계층적 군집방법 (hierarchical clustering; Eisen 등, 1998)과 비계층적 군집방법 (non-hierarchical clustering)으로 K-평균법(K-means clustering; Hartigan와 Wong, 1979), PAM (partitioning around medoids; Kaufman와 Rousseeuw, 1990) 그리고 SOM (self-organizing maps; Kohonen, 1997) 그리고 모형기반 군집방법(model-based clustering; Fraley와 Raftery, 2002)들이 사용되고 군집결과의 타당성을 재는 측도로는 내적 측도 (internal measure)로 연결성 (connectivity; Handl 등, 2005), Dunn 지수 (Dunn, 1974), 실루엣 너비 (silhouette width; Rousseeuw, 1987)와 안정적 측도 (stability measure; Datta와 Datta, 2003; Yeung 등, 2001a)로 APN (average proportion of non-overlap), AD (average distance), ADM (average distance between means), FOM (figure of merit) 그리고 생물학적 측도 (biological measure; Datta와 Datta, 2006)로 BHI (biological homogeneity index)와 BSI (biological stability index)가 사용된다.

성능/효과

에 있는 개체들 간의 최대 거리를 나타낸다. 같은 군집에 속해있는 두 개체간의 거리가 작을수록, 다른 군집에 속해있는 두 개체간의 거리가 클수록 D(C)값은 커지므로 이 값이 클수록 군집화가 잘 되었다고 판단할 수 있다.
공분산이 존재하는 경우 Dunn 지수에 대해서는 공분산이 0인 경우처럼 k=4에서 좋은 군집화를 보여주고 있으나 실루엣 너비 측면에서 공분산이 0인 경우와 같은 결과를 낳으나 실루엣 너비 측면에서는 k=3에서 좋은 군집화를 보였다.
먼저 모의실험에서 거의 모든 군집 방법들이 3가지 측도 하에서 원래 자료수와 일치하는 좋은 군집화를 나타내고 있음을 알 수 있다. 그리고 SRBCT 자료에서는 모의실험 자료처럼 명확한 군집화 결과를 보여주지는 않으나 내적 측도인 연결성 면에서 보면 군집의 개수가 작을수록 좋은 군집결과를 보여주는 반면에 실루엣 너비 관점에서 보면 PAM, SOM 그리고 모형기반 군집방법은 군집의 개수 k= 4개인 좋은 군집화를 나타내고 있다. 안정성 측도 면에서 모형기반 군집방법이 다른 방법들보다 비교적 좋은 군집결과를 보여주고 있고 SOM 방법은 다른 방법들 보다 다소 일관성이 떨어짐을 알 수 있다.
먼저 모의실험에서 거의 모든 군집 방법들이 3가지 측도 하에서 원래 자료수와 일치하는 좋은 군집화를 나타내고 있음을 알 수 있다. 그리고 SRBCT 자료에서는 모의실험 자료처럼 명확한 군집화 결과를 보여주지는 않으나 내적 측도인 연결성 면에서 보면 군집의 개수가 작을수록 좋은 군집결과를 보여주는 반면에 실루엣 너비 관점에서 보면 PAM, SOM 그리고 모형기반 군집방법은 군집의 개수 k= 4개인 좋은 군집화를 나타내고 있다.
표 4.9로부터 PAM 방법과 모형기반 군집방법 만이 BHI와 BSI 관점에서 원래 자료에서 클래스의 수와 일치하는 결과를 보였고 계층적 군집방법은 k=3인 경우 K-평균법과 SOM 방법은 BHI 관점에서 군집이 k=5인 경우 생물학적으로 안정하다는 것을 보여주고 있다.

질의응답

핵심어	질문	논문에서 추출한 답변
	마이크로어레이는 무엇인가?	마이크로어레이 (microarray)란 슬라이드 유리와 같은 작은 고형체 위에 수천 혹은 수만 개의 DNA를 바둑판 격자처럼 배열해 놓은 칩으로 이 기술은 대량의 유전자 기능을 동시에 밝히는 기능 유전체학 (functional genomics)의 중요한 도구이다 (황진수와 김지연, 2009; Deshmukh와 Purohit, 2007).
	계층적 군집 방법의 단점은 무엇인가?	계층적 군집 방법의 단점은 한 번 군집화된 개체는 다시 재배치가 불가능하다는 것이다.
	K-평균법이 계층적 군집방법과 다른 점은 무엇인가?	이 방법은 계층적 군집방법과는 달리 한 개체가 속해있던 군집에서 다른 군집으로 재배치가 가능하고 계산량도 적은 편이어서 유전자 자료와 같은 대량의 개체들에 대한 군집방법으로 유용하다.

참고문헌 (23)

김재희, 고윤실 (2009). 군집분석 비교 및 한우 관능평가 데이터 군집화. , 22, 745-758.

원문보기 상세보기
여인권 (2011). 우리나라 기상자료에 대한 군집분석. , 22, 941-949.

원문보기 상세보기
이경아, 김재희 (2011). 효모 마이크로어레이 유전자 발현 데이터에 대한 군집화 비교. , 22, 741-753.

원문보기 상세보기
정윤경, 백장선 (2007). 고차원(유전자 발현) 자료에 대한 군집 타당성 분석 기법의 성능비교. , 20, 167-181.

원문보기 상세보기
주용성, 정형주, 김병준 (2009). 한국 기상자료의 군집분석: 베이지안 모델기반 방법의 응용. , 20, 57-64.

원문보기 상세보기
황진수, 김지연 (2009). 마이크로어레이 자료에서 서포트 벡터 머신과 데이터 뎁스를 이용한 분류방법의 비교연구. , 20, 311-319.

원문보기 상세보기
Brock, G., Pihur, V., Datta, S. and Datta, S. (2008). clValid: An R package for cluster validation. Journal of Statistical Software, 25, 1-21
Datta, S. and Datta, S. (2003). Comparisons and validation of statistical clustering techniques for microarray gene expression data. Bioinformatics, 19, 459-466.

상세보기
Datta, S. and Datta, S. (2006). Methods for evaluating clustering algorithms for gene expression data using a reference set of functional classes. BMC Bioinformatics, 7, 397.

상세보기
Deshmukh, S. R. and Purohit, S. G. (2007). Microarray data: Statistical analysis using R, Alpha Science International Ltd, Oxford.
Dunn, J. C. (1974). Well separated clusters and fuzzy partitions. Journal on Cybernetics, 4, 95-104.

상세보기
Eisen, M. B., Spellman, T. P., Brown, P. O. and Botstein, D. (1998). Cluster analysis and display of genome-wide expression patterns. Proceedings of the National Academy of Sciences of the United States of America, 95, 863-14868.
Fraley, C. and Raftery, A. E. (2002). Model-based clustering, discriminant analysis, and density estimation. Journal of the American Statistical Association, 97, 611-631.

상세보기
Kaufman, L. and Rousseeuw, P. J. (1990). Finding groups in data: An introduction to cluster analysis, John Wiley & Sons, New York.
Khan, J., Wei, S., Ringer, M., Saal, L. H., Ladanyi, M., Westermann, F., Berthold, F., Schwab, M., Anyonescu, C. R., Peterson, C. and Meltzer, P. S. (2001). Classification and diagnostic prediction of cancers using gene expression profiling and artificial neural networks. Nature Medicine, 7, 673-679

상세보기
Kohonen, T. (1997). Self-organizing maps, Springer-Verlag, New York.
Handl, J., Knowles, J. and Kell, D. B. (2005). Computational cluster validation in post-genomic data analysis. Bioinformatics, 21, 3201-3212.

상세보기
Hartigan, J. A. and Wong, M. A. (1979). Algorithm AS 136: A k-means clustering algorithm. Applied Statistics, 28, 100-108.

상세보기
He, Y., Pan, W. and Lin, J. (2006). Cluster analysis using multivariate normal mixture models to detect differential gene expression with microarray data. Computational Statistics & Data Analysis, 51, 641-658

상세보기
Liu, Y. and Ringner, M. (2004). Multiclass discovery in array data. BMC Bioinformatics, 5, 70-79.

상세보기
Rousseeuw, P. J. (1987). Silhouettes: a graphical aid to the interpretation and validation of cluster analysis. Journal of Computational and Applied Mathematics, 20, 53-65.

상세보기
Yeung, K. Y., Haynor, D. R. and Ruzzo, W. L. (2001a). Validating clustering for gene expression data. Bioinformatics, 17, 309-318.

상세보기
Yeung, K. Y., Fraley, C., Murua, A., Raftery, A. E. and Ruzzo, W. L. (2001b). Model-based clustering and data transformations for gene expression data. Bioinformatics, 17, 977-987.

상세보기

저자의 다른 논문 :

LOADING...

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증