$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

[국내논문] 효모 마이크로어레이 유전자발현 데이터에 대한 군집화 비교
Comparison of clustering with yeast microarray gene expression data 원문보기

Journal of the Korean Data & Information Science Society = 한국데이터정보과학회지, v.22 no.4, 2011년, pp.741 - 753  

이경아 (덕성여자대학교 정보통계학과) ,  김재희 (덕성여자대학교 정보통계학과)

초록
AI-Helper 아이콘AI-Helper

마이크로어레이 유전자 발현데이터인 효모데이터를 이용하여 군집분석을 실시하였다. 모형기반 군집방법, K-평균법, 중앙값 중심분포 (PAM), 자기 조직화 지도 (SOM), 계층적 Ward 군집방법을 이용하여 군집화를 실시하고, 연결성 측도 (connectivity), Dunn지수, 실루엣 측도 (silhouette)를 이용하여 각 군집방법에 대한 유효성을 측정하고 군집분석 결과를 비교하고자한다.

Abstract AI-Helper 아이콘AI-Helper

We accomplish clustering analyses for yeast cell cycle microarray expression data. We compare model-based clustering, K-means, PAM, SOM and hierarchical Ward method with yeast data. As the validity measure for clustering results, connectivity, Dunn Index and silhouette values are computed and compar...

Keyword

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 마이크로어레이 유전자 발현데이터는 비슷한 성질을 갖는 유전자들을 군집화 함으로써 유전자들의 공통성이나 기능을 찾고자 한다. 유전자 데이터는 그 수가 최소한 수백 개로 많기 때문에 이러한 유전자 데이터를 동시에 비교분석 할 때에는 시간과 비용이 많이 필요하다.
  • 그렇기 때문에 유전자 데이터를 공통성을 갖는 유전자끼리 군집화하여 의미가 있는 유전자들만 분석에 이용하여 시간과 비용을 줄일 수 있다. 다른 유전자들과 공통성을 갖지 않는 특정한 질병이나 유전에 영향을 주는 유전자를 찾는 것 또한 유전자 데이터 군집분석의 목적이다. 예를 들어 정상인의 유전자와 질병에 걸린 환자의 유전자를 비교 하여 그 질병에 영향을 주는 유전자를 찾을 수 있다.
  • 본 연구에서는 효모데이터에 대해 다양한 군집분석을 적용하고 비교해 보고자한다. 2장에서는 본 연구에 사용한 군집분석방법에 대해 간단히 설명하고 3장에서는 군집화 결과 후 군집의 유효성측도에 대해 설명한다.
  • 군집화를 할 때 군집의 개수를 적절하게 정하는 것이 중요하며 유효성측도를 고려해야한다. 이번 연구에서 비교하고자하는 각 군집방법에 대한 특징을 언급하고자 한다.
  • 군집분석에서는 관측벡터간의 거리와 군집간 거리에 대한 정의가 필요하다. 이 연구에서는 관측벡터간 거리는 유클리드 거리로 정의하고, 군집간 거리는 편차제곱합을 이용하여 정의한 Ward 군집 방법을 고려하고자한다. Ward 방법은 군집내 제곱합 증분과 군집간 제곱합을 고려한 방법으로 군집간 정보의 손실을 최소화하도록 군집화를 한다.

가설 설정

  • 모형기반 군집방법은 Fraley와 Raftery (2002)에서 데이터 y = (y1, · · · , yn)를 다음과 같은 밀도함수를 갖는 혼합모형이라고 가정한다.
  • 각 모형별로 BIC 값을 얻은 후 BIC 값을 최소화하는 최적 군집 개수인 4 개로 군집의 개수를 정하였다. 평균과 공분산 형태가 다르다고 가정한 모형을 고려하였다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
자기 조직화 지도 방법의 단점은 무엇인가? 고차원의 복잡하고 비선형 관계를 갖는 데이터를 작은 차원의 간단한 기하학적 관계를 갖는 형태로 보여주며 관측값들의 모형은 각 교점과 관계가 있는데 관측값들의 범위를 최적으로 묘사시켜 모형을 설정한다. 자기 조직화 지도 방법은 조절모수 (tuning parameter)가 많다는 단점이 있다. 즉, 격자구조 (grid configuration), 이웃크기 (neighborhood size), 축소함수 (shrinkage function) 등의 영향을 받는다.
K-평균법의 단점은 무엇인가? 이 방법은 계층적 군집방법과 달리 한 개체가 속해있던 군집에서 다른 군집으로 이동하는 재배치가 가능하며 계산량도 적은 편이라서 유전자 데이터와 같이 다량의 개체들에 대한 군집방법으로 유용하다. 단점은 군집의 정확한 개수를 알아야하고 초기 군집선정에 따라 최종 군집결과가 영향을 받는 것이다. K-평균법은 계층적인 군집방법과 함께 쓰일 수 있는데 계층적 군집방법으로 군집의 개수를 정하고 K-평균법을 이용하여 개체를 재배치 할 수 있다.
군집화와 분류의 차이점은 무엇인가? 군집화 (clustering)란 유사하거나 관련 있는 것끼리 묶는 것을 나타낸다. 군집화와 분류 (classification)의 차이를 살펴보면, 군집화는 새롭거나 알지 못하는 군집으로 데이터를 묶는 것이고, 분류는 이미 알고 있는 군집으로 데이터를 묶는 것이다. 박희창과 류지현 (2005)에 의하면 군집화는 군집의 수 또는 구조에 대한 가정이 없으며, 오직 데이터들 사이의 유사성에 의하여 군집을 형성하고 형성된 군집의 특성을 파악하여 군집들 사이의 관계를 분석하는 것이다.
질의응답 정보가 도움이 되었나요?

참고문헌 (22)

  1. 김재희 (2008). , 교우사, 서울 

  2. 김재희 (2011). , 교우사, 서울 

  3. Cho, K. and Park, H. (2008). A study of association rule application using self-organizung map for fused data. Journal of the Korean Data & Information Science Society, 19, 95-104. 

  4. Fraley, C. and Raftery, A. E. (2002). Model-based clustering, discriminant analysis, and density estimation. Journal of the American Statistical Association, 97, 611-631. 

  5. Fraley, C. and Raftery, A. E. (2006). MCLUST Version 3 for R: Normal mixture modeling and model-based clustering, Technical Report No. 504. 

  6. Fraley, C. and Raftery, A. E. (2007). Bayesian regularization for normal mixture estimation and modelbased clustering. Journal of Classification, 24, 155-181. 

  7. Gentleman, R., Caray, V. J., Huber, W., Irizarry, R. A. and Dudoit, S. (2005). Bioinformatics and computational biology solutions using R and bioconductor, Spinger, New York. 

  8. Getz, G., Levine, E., Domany, E. and Zhang, M. Q. (2000). Super-paramagneic clustering of yeast expression profiles. Physica A, 279, 457-464. 

  9. Handl, J., Knowles, J. and Kell, D. B. (2005). Computational cluster validation in post-genomic data analysis. Bioinformatics, 21, 3201-3212. 

  10. Kim, J. and Kim, H. (2008). Clustering of change patterns using Fourier coefficients. Bioinformatics, 24, 184-191. 

  11. Kim, J. and Ko, Y. (2009). A comparison of cluster analyses and clutering of sensory data on Hanwoo bulls. The Korean Journal of Applied Statistics, 22, 745-758. 

  12. Kaufman, L. and Rousseeuw, P. J. (1990). Finding groups in data: An introduction to cluster analysis, Wiley, New York. 

  13. Kohonen, T. (1998). The self-organizing map. Neurocomputing, 21, 1-6. 

  14. Lee, Y. and An, M. (2007). A comparison of clustering algorithm in data mining. Journal of the Korean Data & Information Science Society, 14, 725-736. 

  15. McLachlan, G. J., Do, K.-A. and Ambroise C. (2004). Analyzing microarray gene expression data, Wiley, New York. 

  16. Park, C. (2007). Monitoring of gene regulations using average rank in DNA microarray: Implement of R. Journal of the Korean Data & Information Science Society, 18, 1005-1021. 

  17. Park, H. and Ryu, J. (2005). Clustering algorithm using a center of gravity for grid-based sample. Journal of the Korean Data & Information Science Society, 16, 217-226. 

  18. Rousseeuw, P. T. (1987). Silhouettes : A graphical aid to the interpretation and validation of cluster analysis. Journal of Computational and Applied Mathematics, 20, 53-65. 

  19. Toronen, R., Kolehmainen, M., Wong, G. and Castren, E. (1999). Analysis of gene expression data using self-organizing maps. Federation of European Biochemical Societies, 451, 142-146. 

  20. Wit, E. and McClure, J. (2004). Statistics for microarrays, Wiley, New York. 

  21. Yeung, K. Y., Haynor D. R. and Ruzzo, W. L. (2000). Validating clustering for gene expression data. Bioinformatics, 17, 309-318. 

  22. Zhang, L., Zhang, A. and Ramanathan, M. (2003). Fourier harmonic approach for visualizing temporal patterns of gene expression data. IEEE Computer Society Bioinformatics Conference, 2, 137-147. 

저자의 다른 논문 :

활용도 분석정보

상세보기
다운로드
내보내기

활용도 Top5 논문

해당 논문의 주제분야에서 활용도가 높은 상위 5개 콘텐츠를 보여줍니다.
더보기 버튼을 클릭하시면 더 많은 관련자료를 살펴볼 수 있습니다.

관련 콘텐츠

오픈액세스(OA) 유형

GOLD

오픈액세스 학술지에 출판된 논문

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로