$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

[국내논문] 마이크로어레이 유전자 발현 자료에 대한 군집 방법 비교
Comparison of clustering methods of microarray gene expression data 원문보기

Journal of the Korean Data & Information Science Society = 한국데이터정보과학회지, v.23 no.1, 2012년, pp.39 - 51  

임진수 (부산대학교 생명과학과) ,  임동훈 (경상대학교 정보통계학과)

초록
AI-Helper 아이콘AI-Helper

군집분석마이크로어레이 발현자료에서 유전자 혹은 표본들의 유사한 특성을 갖는 연관구조를 조사하는데 중요한 도구이다. 본 논문에서는 마이크로어레이 자료에서 계층적 군집방법, K-평균법, PAM (partitioning around medoids), SOM (self-organizing maps) 그리고 모형기반 군집방법 들의 성능을 3가지 군집 타당성 측도인 내적 측도, 안정적 측도 그리고 생물학적 측도를 가지고 비교분석하고자 한다. 모의실험을 통해 생성된 자료와 실제 SRBCT (small round blue cell tumor) 자료를 가지고 여러 가지 군집방법들의 성능을 비교하였으며 그 결과 모의실험 자료에서는 거의 모든 방법들이 3가지 군집측도에서 원래 자료와 일치하는 좋은 군집 결과를 나타내었고 SRBCT 자료에서는 모의실험 자료처럼 명확한 군집화 결과를 보여주지는 않으나 내적측도의 실루엣 너비 (Silhouette width) 관점에서는 PAM 방법, SOM, 모형기반 군집방법 그리고 생물학적 측도에서는 PAM 방법과 모형기반 군집방법이 모의실험 결과와 비슷한 결과를 얻었고 안정적 측도에서 모형기반 군집방법이 다른 방법들보다 좋은 군집결과를 보여주었다.

Abstract AI-Helper 아이콘AI-Helper

Cluster analysis has proven to be a useful tool for investigating the association structure among genes and samples in a microarray data set. We applied several cluster validation measures to evaluate the performance of clustering algorithms for analyzing microarray gene expression data, including h...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 고차원의 정규분포를 갖는 자료를 생성하여 군집방법들 간 비교하고자 한다. 여기서는 차원이 100인 4개의 군집을 생각하였으며 각 군집은 다음과 같이 정규분포를 갖는 10개의 자료들로 구성되어있다.
  • 본 논문에서는 마이크로어레이 자료에 대해 여러 가지 군집 방법의 성능을 비교하고 군집 타당성 측도를 통해 군집 결과를 평가하고자 한다. 본 논문에서 사용하는 SRBCT (small round blue cell tumor) 자료 (Khan 등, 2001)는 아이들에게 흔히 발생하는 악성 종양 자료로서 총 63개의 표본과 2308개의 유전자 속성을 가진 EWS (Ewing family of tumors), RMS (rhabdomyosarcoma), NB (neuroblasoma), BL (Burkitt lymphoma)의 4종류의 암에 대해 조사한 자료이다.
  • 본 절에서는 계층적 군집방법, K-평균법, PAM 방법, SOM 방법과 모형기반 군집 방법에 대해 간략하게 살펴보고자 한다.
  • 본 절에서는 고차원의 유전자 발현자료에 대하여 군집 타당성 분석을 수행하기 앞서 모의실험을 통해 생성된 저차원과 고차원의 인공적인 자료와 실제 SRBCT 자료를 가지고 5가지 군집방법들의 성능을 여러 가지 타당성 측도를 가지고 비교하고자 한다. 모의실험은 R 프로그램을 이용하며 clValid (Brock 등, 2008) 패키지를 이용하여 군집 타당성 측도를 계산하고자 한다.

가설 설정

  • 데이터 y는 서로 독립인 N개의 다변량 관측벡터 y1, · · · , yN으로 구성되어 있다고 가정한다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
마이크로어레이는 무엇인가? 마이크로어레이 (microarray)란 슬라이드 유리와 같은 작은 고형체 위에 수천 혹은 수만 개의 DNA를 바둑판 격자처럼 배열해 놓은 칩으로 이 기술은 대량의 유전자 기능을 동시에 밝히는 기능 유전체학 (functional genomics)의 중요한 도구이다 (황진수와 김지연, 2009; Deshmukh와 Purohit, 2007).
계층적 군집 방법의 단점은 무엇인가? 계층적 군집 방법의 단점은 한 번 군집화된 개체는 다시 재배치가 불가능하다는 것이다.
K-평균법이 계층적 군집방법과 다른 점은 무엇인가? 이 방법은 계층적 군집방법과는 달리 한 개체가 속해있던 군집에서 다른 군집으로 재배치가 가능하고 계산량도 적은 편이어서 유전자 자료와 같은 대량의 개체들에 대한 군집방법으로 유용하다.
질의응답 정보가 도움이 되었나요?

참고문헌 (23)

  1. 김재희, 고윤실 (2009). 군집분석 비교 및 한우 관능평가 데이터 군집화. , 22, 745-758. 

  2. 여인권 (2011). 우리나라 기상자료에 대한 군집분석. , 22, 941-949. 

  3. 이경아, 김재희 (2011). 효모 마이크로어레이 유전자 발현 데이터에 대한 군집화 비교. , 22, 741-753. 

  4. 정윤경, 백장선 (2007). 고차원(유전자 발현) 자료에 대한 군집 타당성 분석 기법의 성능비교. , 20, 167-181. 

  5. 주용성, 정형주, 김병준 (2009). 한국 기상자료의 군집분석: 베이지안 모델기반 방법의 응용. , 20, 57-64. 

  6. 황진수, 김지연 (2009). 마이크로어레이 자료에서 서포트 벡터 머신과 데이터 뎁스를 이용한 분류방법의 비교연구. , 20, 311-319. 

  7. Brock, G., Pihur, V., Datta, S. and Datta, S. (2008). clValid: An R package for cluster validation. Journal of Statistical Software, 25, 1-21 

  8. Datta, S. and Datta, S. (2003). Comparisons and validation of statistical clustering techniques for microarray gene expression data. Bioinformatics, 19, 459-466. 

  9. Datta, S. and Datta, S. (2006). Methods for evaluating clustering algorithms for gene expression data using a reference set of functional classes. BMC Bioinformatics, 7, 397. 

  10. Deshmukh, S. R. and Purohit, S. G. (2007). Microarray data: Statistical analysis using R, Alpha Science International Ltd, Oxford. 

  11. Dunn, J. C. (1974). Well separated clusters and fuzzy partitions. Journal on Cybernetics, 4, 95-104. 

  12. Eisen, M. B., Spellman, T. P., Brown, P. O. and Botstein, D. (1998). Cluster analysis and display of genome-wide expression patterns. Proceedings of the National Academy of Sciences of the United States of America, 95, 863-14868. 

  13. Fraley, C. and Raftery, A. E. (2002). Model-based clustering, discriminant analysis, and density estimation. Journal of the American Statistical Association, 97, 611-631. 

  14. Kaufman, L. and Rousseeuw, P. J. (1990). Finding groups in data: An introduction to cluster analysis, John Wiley & Sons, New York. 

  15. Khan, J., Wei, S., Ringer, M., Saal, L. H., Ladanyi, M., Westermann, F., Berthold, F., Schwab, M., Anyonescu, C. R., Peterson, C. and Meltzer, P. S. (2001). Classification and diagnostic prediction of cancers using gene expression profiling and artificial neural networks. Nature Medicine, 7, 673-679 

  16. Kohonen, T. (1997). Self-organizing maps, Springer-Verlag, New York. 

  17. Handl, J., Knowles, J. and Kell, D. B. (2005). Computational cluster validation in post-genomic data analysis. Bioinformatics, 21, 3201-3212. 

  18. Hartigan, J. A. and Wong, M. A. (1979). Algorithm AS 136: A k-means clustering algorithm. Applied Statistics, 28, 100-108. 

  19. He, Y., Pan, W. and Lin, J. (2006). Cluster analysis using multivariate normal mixture models to detect differential gene expression with microarray data. Computational Statistics & Data Analysis, 51, 641-658 

  20. Liu, Y. and Ringner, M. (2004). Multiclass discovery in array data. BMC Bioinformatics, 5, 70-79. 

  21. Rousseeuw, P. J. (1987). Silhouettes: a graphical aid to the interpretation and validation of cluster analysis. Journal of Computational and Applied Mathematics, 20, 53-65. 

  22. Yeung, K. Y., Haynor, D. R. and Ruzzo, W. L. (2001a). Validating clustering for gene expression data. Bioinformatics, 17, 309-318. 

  23. Yeung, K. Y., Fraley, C., Murua, A., Raftery, A. E. and Ruzzo, W. L. (2001b). Model-based clustering and data transformations for gene expression data. Bioinformatics, 17, 977-987. 

저자의 다른 논문 :

LOADING...

관련 콘텐츠

오픈액세스(OA) 유형

GOLD

오픈액세스 학술지에 출판된 논문

이 논문과 함께 이용한 콘텐츠

유발과제정보 저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로