마이크로어레이 유전자 발현데이터인 효모데이터를 이용하여 군집분석을 실시하였다. 모형기반 군집방법, K-평균법, 중앙값 중심분포 (PAM), 자기 조직화 지도 (SOM), 계층적 Ward 군집방법을 이용하여 군집화를 실시하고, 연결성 측도 (connectivity), Dunn지수, 실루엣 측도 (silhouette)를 이용하여 각 군집방법에 대한 유효성을 측정하고 군집분석 결과를 비교하고자한다.
마이크로어레이 유전자 발현데이터인 효모데이터를 이용하여 군집분석을 실시하였다. 모형기반 군집방법, K-평균법, 중앙값 중심분포 (PAM), 자기 조직화 지도 (SOM), 계층적 Ward 군집방법을 이용하여 군집화를 실시하고, 연결성 측도 (connectivity), Dunn지수, 실루엣 측도 (silhouette)를 이용하여 각 군집방법에 대한 유효성을 측정하고 군집분석 결과를 비교하고자한다.
We accomplish clustering analyses for yeast cell cycle microarray expression data. We compare model-based clustering, K-means, PAM, SOM and hierarchical Ward method with yeast data. As the validity measure for clustering results, connectivity, Dunn Index and silhouette values are computed and compar...
We accomplish clustering analyses for yeast cell cycle microarray expression data. We compare model-based clustering, K-means, PAM, SOM and hierarchical Ward method with yeast data. As the validity measure for clustering results, connectivity, Dunn Index and silhouette values are computed and compared.
We accomplish clustering analyses for yeast cell cycle microarray expression data. We compare model-based clustering, K-means, PAM, SOM and hierarchical Ward method with yeast data. As the validity measure for clustering results, connectivity, Dunn Index and silhouette values are computed and compared.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
마이크로어레이 유전자 발현데이터는 비슷한 성질을 갖는 유전자들을 군집화 함으로써 유전자들의 공통성이나 기능을 찾고자 한다. 유전자 데이터는 그 수가 최소한 수백 개로 많기 때문에 이러한 유전자 데이터를 동시에 비교분석 할 때에는 시간과 비용이 많이 필요하다.
그렇기 때문에 유전자 데이터를 공통성을 갖는 유전자끼리 군집화하여 의미가 있는 유전자들만 분석에 이용하여 시간과 비용을 줄일 수 있다. 다른 유전자들과 공통성을 갖지 않는 특정한 질병이나 유전에 영향을 주는 유전자를 찾는 것 또한 유전자 데이터 군집분석의 목적이다. 예를 들어 정상인의 유전자와 질병에 걸린 환자의 유전자를 비교 하여 그 질병에 영향을 주는 유전자를 찾을 수 있다.
본 연구에서는 효모데이터에 대해 다양한 군집분석을 적용하고 비교해 보고자한다. 2장에서는 본 연구에 사용한 군집분석방법에 대해 간단히 설명하고 3장에서는 군집화 결과 후 군집의 유효성측도에 대해 설명한다.
군집화를 할 때 군집의 개수를 적절하게 정하는 것이 중요하며 유효성측도를 고려해야한다. 이번 연구에서 비교하고자하는 각 군집방법에 대한 특징을 언급하고자 한다.
군집분석에서는 관측벡터간의 거리와 군집간 거리에 대한 정의가 필요하다. 이 연구에서는 관측벡터간 거리는 유클리드 거리로 정의하고, 군집간 거리는 편차제곱합을 이용하여 정의한 Ward 군집 방법을 고려하고자한다. Ward 방법은 군집내 제곱합 증분과 군집간 제곱합을 고려한 방법으로 군집간 정보의 손실을 최소화하도록 군집화를 한다.
가설 설정
모형기반 군집방법은 Fraley와 Raftery (2002)에서 데이터 y = (y1, · · · , yn)를 다음과 같은 밀도함수를 갖는 혼합모형이라고 가정한다.
각 모형별로 BIC 값을 얻은 후 BIC 값을 최소화하는 최적 군집 개수인 4 개로 군집의 개수를 정하였다. 평균과 공분산 형태가 다르다고 가정한 모형을 고려하였다.
제안 방법
효모 유전자의 시작점을 맞추는 방법 (synchronization)으로 cdc15 (cell division cycle) 방법을 이용한 효모 유전자 발현데이터에 대한 군집분석을 하고자 한다. 이 데이터는 2번이상의 세포 주기를 포함한 24개의 시간점을 갖고 있다.
총 6178개의 데이터 중 결측값 (missing value)이 있는 경우를 제거한 4381개 유전자 데이터만 분석에 이용하였다. 5가지 군집 방법으로 군집을 형성하고 각 군집 분석 방법의 결과와 군집 내부 유효성 등을 살펴보고 비교하고자한다. 각 군집 분석 결과 요약으로 각 군집에 속한 유전자 개수, 실루엣 값 등은 표 4.
효모데이터에 대해 다변량 정규성 가정하에 모형 기반 군집화를 실시하였다. Fraley와 Raftery (2006)는 모형 기반 군집화에 대해 설명하며 실제 계산에는 R 프로그램의 Mclust 함수를 이용하였다.
Fraley와 Raftery (2006)는 모형 기반 군집화에 대해 설명하며 실제 계산에는 R 프로그램의 Mclust 함수를 이용하였다. 각 모형별로 BIC 값을 얻은 후 BIC 값을 최소화하는 최적 군집 개수인 4 개로 군집의 개수를 정하였다. 평균과 공분산 형태가 다르다고 가정한 모형을 고려하였다.
K-평균법은 비계층적인 방법으로써 군집의 개수를 정한 뒤 군집화를 해야 한다. 모형기반 군집방법을 통해 군집 4개가 적당하다는 결론을 얻어, 군집의 수를 4개로 정하고 K-평균법을 이용하여 군집화를 하였다.
PAM 방법은 비계층적인 방법으로써 군집의 개수를 정한 뒤 군집화를 해야 한다. 모형기반 군집방법시 BIC 기준으로 군집의 수를 4개로 정하고 PAM 방법을 이용하여 군집화를 하였다. 그림 4.
SOM 방법은 비계층적인 방법으로써 군집의 개수를 정한 뒤 군집화를 해야 한다. 모형기반 군집방법을 이용하여 군집 4개가 적당하다는 결론을 이용하여 군집의 수를 4개로 정하고 SOM 방법을 이용하여 군집화를 하였다. 그림 4.
13는 덴드로그램을 포함한 히트맵을 보여준다. 덴드로그램에서 절단점 (cutting point)을 고려한 결과 다른 방법들과 마찬가지로 군집의 수가 4개가 되도록 군집화하였다. 계층적 군집방법을 이용하여 군집화 한 각 군집들의 평균에 대해 커널함수 스무딩을 통한 그래프 그림 4.
2는 모형기반 군집방법, K-평균법, PAM, SOM, 계층적 군집방법의 유효성 측도를 비교한 표이다. 유효성 측도로 연결성 측도, Dunn 지수, 실루엣 측도를 고려하고자 한다. 연결성 측도는 어떤 개체가 그 개체와 가까운 거리에 있는 개체들과 얼마나 같은 군집에 속해있는지를 알게 해주는 값이다.
2에서 보여준다. 각 군집화 방법에 대한 내부유효성을 알아보기 위해 연결성 측도, Dunn, 실루엣 값을 구해 보았다. 효모 cdc15 데이터의 경우 모형 기반군집 결과의 실루엣값이 크지않아 변수 변환 등을 통해 다변량 정규성을 만족하는 변수를 찾은후 군집화하면 실루엣값이 증가할 것으로 보인다.
대상 데이터
이 데이터는 2번이상의 세포 주기를 포함한 24개의 시간점을 갖고 있다. 총 6178개의 데이터 중 결측값 (missing value)이 있는 경우를 제거한 4381개 유전자 데이터만 분석에 이용하였다. 5가지 군집 방법으로 군집을 형성하고 각 군집 분석 방법의 결과와 군집 내부 유효성 등을 살펴보고 비교하고자한다.
본 연구에서는 유전자 데이터인 효모 cdc15 데이터를 이용하여 군집분석을 해보았다. 군집화 방법 중 분포를 가정하는 모형 기반 군집방법과 비계층적방법인 K-평균법, PAM, 자기 조직화 지도 (SOM), 계층적 방법인 Ward 방법을 이용하였고 비교 결과는 표 4.
이론/모형
K-평균법은 수치화 된 자료에만 사용할 수 있다. K-평균법에 대한 설명은 김재희 (2008, 2011)에서 참고하였다.
계층적인 군집화 방법 (hierarchical clustering method)으로 개체 간의 거리는 유클리드 거리를 이용하여 Ward 방법을 사용하였으며 그림 4.13는 덴드로그램을 포함한 히트맵을 보여준다. 덴드로그램에서 절단점 (cutting point)을 고려한 결과 다른 방법들과 마찬가지로 군집의 수가 4개가 되도록 군집화하였다.
값이 클수록 진한색으로 값이 작을수록 옅은 색으로 나타난다. 히트맵의 프로그램과 해석은 Gentleman 등 (2005)을 참조하였다. 계층적 군집결과에 대한 히트맵인 그림 4.
본 연구에서는 유전자 데이터인 효모 cdc15 데이터를 이용하여 군집분석을 해보았다. 군집화 방법 중 분포를 가정하는 모형 기반 군집방법과 비계층적방법인 K-평균법, PAM, 자기 조직화 지도 (SOM), 계층적 방법인 Ward 방법을 이용하였고 비교 결과는 표 4.2에서 보여준다. 각 군집화 방법에 대한 내부유효성을 알아보기 위해 연결성 측도, Dunn, 실루엣 값을 구해 보았다.
성능/효과
Dunn (1974)이 제안한 방법으로 Dunn 지수는 같은 군집에 속해 있는 두 개체간의 가장 큰 거리에 대한 서로 다른 군집에 속해 있는 두 개체간의 가장 작은 거리의 비를 나타낸다. 같은 군집에 속해 있는두 개체간의 거리가 작을수록, 다른 군집에 속해 있는 두 개체간의 거리가 클수록 Dunn 지수는 커지므로 이 값이 클수록 군집화가 잘 되었다고 판단할 수 있다.
질의응답
핵심어
질문
논문에서 추출한 답변
자기 조직화 지도 방법의 단점은 무엇인가?
고차원의 복잡하고 비선형 관계를 갖는 데이터를 작은 차원의 간단한 기하학적 관계를 갖는 형태로 보여주며 관측값들의 모형은 각 교점과 관계가 있는데 관측값들의 범위를 최적으로 묘사시켜 모형을 설정한다. 자기 조직화 지도 방법은 조절모수 (tuning parameter)가 많다는 단점이 있다. 즉, 격자구조 (grid configuration), 이웃크기 (neighborhood size), 축소함수 (shrinkage function) 등의 영향을 받는다.
K-평균법의 단점은 무엇인가?
이 방법은 계층적 군집방법과 달리 한 개체가 속해있던 군집에서 다른 군집으로 이동하는 재배치가 가능하며 계산량도 적은 편이라서 유전자 데이터와 같이 다량의 개체들에 대한 군집방법으로 유용하다. 단점은 군집의 정확한 개수를 알아야하고 초기 군집선정에 따라 최종 군집결과가 영향을 받는 것이다. K-평균법은 계층적인 군집방법과 함께 쓰일 수 있는데 계층적 군집방법으로 군집의 개수를 정하고 K-평균법을 이용하여 개체를 재배치 할 수 있다.
군집화와 분류의 차이점은 무엇인가?
군집화 (clustering)란 유사하거나 관련 있는 것끼리 묶는 것을 나타낸다. 군집화와 분류 (classification)의 차이를 살펴보면, 군집화는 새롭거나 알지 못하는 군집으로 데이터를 묶는 것이고, 분류는 이미 알고 있는 군집으로 데이터를 묶는 것이다. 박희창과 류지현 (2005)에 의하면 군집화는 군집의 수 또는 구조에 대한 가정이 없으며, 오직 데이터들 사이의 유사성에 의하여 군집을 형성하고 형성된 군집의 특성을 파악하여 군집들 사이의 관계를 분석하는 것이다.
참고문헌 (22)
김재희 (2008). , 교우사, 서울
김재희 (2011). , 교우사, 서울
Cho, K. and Park, H. (2008). A study of association rule application using self-organizung map for fused data. Journal of the Korean Data & Information Science Society, 19, 95-104.
Fraley, C. and Raftery, A. E. (2002). Model-based clustering, discriminant analysis, and density estimation. Journal of the American Statistical Association, 97, 611-631.
Fraley, C. and Raftery, A. E. (2006). MCLUST Version 3 for R: Normal mixture modeling and model-based clustering, Technical Report No. 504.
Fraley, C. and Raftery, A. E. (2007). Bayesian regularization for normal mixture estimation and modelbased clustering. Journal of Classification, 24, 155-181.
Gentleman, R., Caray, V. J., Huber, W., Irizarry, R. A. and Dudoit, S. (2005). Bioinformatics and computational biology solutions using R and bioconductor, Spinger, New York.
Getz, G., Levine, E., Domany, E. and Zhang, M. Q. (2000). Super-paramagneic clustering of yeast expression profiles. Physica A, 279, 457-464.
Kim, J. and Ko, Y. (2009). A comparison of cluster analyses and clutering of sensory data on Hanwoo bulls. The Korean Journal of Applied Statistics, 22, 745-758.
McLachlan, G. J., Do, K.-A. and Ambroise C. (2004). Analyzing microarray gene expression data, Wiley, New York.
Park, C. (2007). Monitoring of gene regulations using average rank in DNA microarray: Implement of R. Journal of the Korean Data & Information Science Society, 18, 1005-1021.
Park, H. and Ryu, J. (2005). Clustering algorithm using a center of gravity for grid-based sample. Journal of the Korean Data & Information Science Society, 16, 217-226.
Rousseeuw, P. T. (1987). Silhouettes : A graphical aid to the interpretation and validation of cluster analysis. Journal of Computational and Applied Mathematics, 20, 53-65.
Toronen, R., Kolehmainen, M., Wong, G. and Castren, E. (1999). Analysis of gene expression data using self-organizing maps. Federation of European Biochemical Societies, 451, 142-146.
Wit, E. and McClure, J. (2004). Statistics for microarrays, Wiley, New York.
Yeung, K. Y., Haynor D. R. and Ruzzo, W. L. (2000). Validating clustering for gene expression data. Bioinformatics, 17, 309-318.
Zhang, L., Zhang, A. and Ramanathan, M. (2003). Fourier harmonic approach for visualizing temporal patterns of gene expression data. IEEE Computer Society Bioinformatics Conference, 2, 137-147.
이 논문을 인용한 문헌
저자의 다른 논문 :
활용도 분석정보
상세보기
다운로드
내보내기
활용도 Top5 논문
해당 논문의 주제분야에서 활용도가 높은 상위 5개 콘텐츠를 보여줍니다. 더보기 버튼을 클릭하시면 더 많은 관련자료를 살펴볼 수 있습니다.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.