$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

[국내논문] 효모 마이크로어레이 유전자 발현 데이터에 대한 유전자 선별 및 군집분석
Gene Screening and Clustering of Yeast Microarray Gene Expression Data 원문보기

응용통계연구 = The Korean journal of applied statistics, v.24 no.6, 2011년, pp.1077 - 1094  

이경아 (덕성여자대학교 정보통계학과) ,  김태훈 (덕성여자대학교 PrePharmMed학과) ,  김재희 (덕성여자대학교 정보통계학과)

초록
AI-Helper 아이콘AI-Helper

마이크로어레이 유전자 발현 데이터인 yeast cdc15에 대해 시계열 데이터의 특성을 반영한 푸리에 계수를 이용한 검정통계량과 FDR 다중비교법을 이용하여 차별화된 유전자를 선별한 후 선별된 유전자들에 대해 모형기반 군집방법, K-평균법, PAM, SOM, 계층적 Ward 군집방법과 Fuzzy 군집방법을 실시하였다. 군집방법에 따른 특성을 알아보고 군집화 결과와 내부유효성 측도로 연결성 측도, Dunn 지수와 실루엣 값을 살펴본다. 또한 GO분석을 통한 생물학적 의미도 파악해본다.

Abstract AI-Helper 아이콘AI-Helper

We accomplish clustering analyses for yeast cell cycle microarray expression data. To reflect the characteristics of a time-course data, we screen the genes using the test statistics with Fourier coefficients applying a FDR procedure. We compare the results done by model-based clustering, K-means, P...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 3의 실루엣값을 살펴보면 K-평균법, 연결성 측도와 Dunn 지수를 살펴보면 계층적 군집방법의 내부 유효성이 큰 것을 알 수 있다. 또한, 원래 유전자 발현값으로 군집화한 경우를 살펴보고자한다. 푸리에 계수를 이용하여 군집화하는 경우보다 실루엣값은 작은 편이지만 Dunn지수는 큰 편이다.
  • 마이크로어레이 유전자 발현 데이터는 비슷한 성질을 갖는 유전자들을 군집화 함으로써 특정한 기능이나 공통성을 찾고자한다. 유전자 데이터의 경우 그 수가 많기 때문에 분석을 할 때에도 시간과 비용 등의 어려움이 많고 분석 후에 결과가 좋지 않은 경우도 발생하게 된다.
  • 결과를 살펴보면 대체적으로 푸리에 계수를 이용하여 군집화한 결과가 원데이터를 이용하여 군집화 한 결과보다 내부유효성이 좋은 것을 알 수 있다. 먼저, 푸리에 계수로 군집화한 경우를 고려해보자. 표 5.
  • 본 연구에서는 여러 개의 시점(time point)에서 얻은 유전자 발현 데이터에 대해 차원축소 방법일 뿐만 아니라 기저함수에 대한 정보를 포함하는 푸리에 계수를 이용하여 유전자를 선별하고 선별된 유전자에 대한 군집분석을 하고자한다.
  • 이 연구에서는 관측벡터간 거리는 유클리드 거리로 정의하고, 군집간 거리는 편차제곱합을 이용하여 정의한 Ward 군집 방법을 고려하고자한다. Ward 방법은 군집내 제곱합 증분과 군집간 제곱합을 고려한 방법으로 군집간 정보의 손실을 최소화하도록 군집화를 한다.

가설 설정

  • 이러한 문제를 해결하기 위해 각각의 유전자를 검정하여 의미있는 유전자만을 선별해 분석에 이용하고자 한다. i번째 유전자가 다르게 발현되지(differentially expressed) 않았다는 귀무가설 하에 검정을 실시한다. 이 경우에는 적어도 하나의 유전자가 잘못 군집화 되었을 확률인 FWER(familywise error rate)와 활동성(active) 유전자라고 밝혀진 것 중 비활동성(inactive) 유전자인 부분의 평균인 FDR(false discovery rate)를 제어해야한다.
  • 모형기반 군집방법은 Fraley와 Raftery (2002)에서 데이터 y = (y1, . . . , yn)를 다음과 같은 밀도함수를 갖는 혼합모형이라고 가정한다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
유전자 데이터 분석의 어려운 점은? 마이크로어레이 유전자 발현 데이터는 비슷한 성질을 갖는 유전자들을 군집화 함으로써 특정한 기능이나 공통성을 찾고자한다. 유전자 데이터의 경우 그 수가 많기 때문에 분석을 할 때에도 시간과 비용 등의 어려움이 많고 분석 후에 결과가 좋지 않은 경우도 발생하게 된다. 이러한 문제를 해결하기 위해 변수변환을 이용하여 데이터의 차원수를 줄이거나 선별(screening)과정을 통해 유전자를 선별하여 선별된 유전자만을 가지고 분석을 하는 방법이 있다.
유전자 데이터에 대한 군집분석 개발에 대한 선행연구는 어떤 것들이 있는가? 유전자 데이터에 대한 군집분석 개발은 다양한 방법으로 활발히 연구되고 있다. Toronen 등 (1999)은 자기 조직화 지도(SOM)방법을 이용하여 군집분석을 하였다. Getz 등 (2000)은 초모수적(super paramagnetic) 군집분석을 하였고 Tusher 등 (2001)은 마이크로어레이의 유의한 분석 방법에 대해 연구하였다. Gasch와 Eisen (2002)는 퍼지(fuzzy) K-평균법을 이용하여 군집분석을 하였다. Zhang 등 (2003)은 이산 푸리에 변환(discrete Fourier transform)을 이용한 군집분석 결과를 보여주었다. Dudoit 등 (2003)은 마이크로어레이 실험에서의 다중비교 검정에 대한 기존 방법들에 대한 비교 연구하였다. Serban과 Wasserman (2005)은 비모수적 추정과 변수 변환을 통한 군집화에 대한 방법을 연구하였다. Kim 등 (2006)은 푸리에 프로화일을 이용하여 2단계 군집방법을 적용하였으며 Kim과 Kim(2008)은 미분 푸리에 계수를 사용한 군집분석을 제안하였다. 최근에 Bickel (2011)은 분포를 모르는 게놈-스케일(Genome-scale) 선별에 대한 조절된 관측 유의수준 추정에 대한 연구를 하였다.
자율학습이란? 군집분석은 가장 잘 알려진 자율학습(unsupervised learning)의 예이다. 자율학습이란 목표패턴이 주어지지 않고 입력패턴에 근거하여 학습을 진행하는 방법으로 구조화되지 않은 다변량 데이터를 분석하는데 가장 많이 쓰이는 방법이다.
질의응답 정보가 도움이 되었나요?

참고문헌 (28)

  1. 김재희 (2011). R 다변량 통계 분석, 교우사, 서울 

  2. 김재희, 고윤실 (2009). 군집분석 비교 및 한우 관능평가데이터 군집화, 응용통계 연구, 22, 745-758. 

  3. Benjamini, Y. and Hochberg, Y. (1995). Controlling the false discovery rate: A practical and powerful approach to multiple testing, Journal of the Royal Statistical Society: Series B, 57, 289-300. 

  4. Bickel, D. R. (2011). Estimating the null distribution to adjust observed confidence levels for genome-scale screening, Bioinformatics, 67, 363-370. 

  5. Datta, S. and Datta, S. (2005). Empirical Bayes screening of many p-values with application to microarray studies, Bioinformatics, 21, 1987-1994. 

  6. Dudoit, S., Shaffer, J. P. and Boldrick, J. C. (2003). Multiple hypothesis testing in microarray experiments, Statistical Science, 18, 71-103. 

  7. Dunn (1974). Well-separated clusters and optimal fuzzy partitions, Journal of Cybernetics, 4, 95-104. 

  8. Eckel, J. E., Gennings, C., Chinchilli, V. M., Burgoon, L. D. and Zacharewski, T. R. (2004). Empirical Bayes gene screening tool for time-course or dose-response microarray data, Journal of Biopharmaceutical Statistics, 14, 647-670. 

  9. Fraley, C. and Raftery, A. E. (2002). Model-based clustering, discriminant analysis, and density estimation, Journal of the American Statistical Association, 97, 611-631. 

  10. Fraley, C. and Raftery, A. E. (2006). MCLUST Version 3 for R: Normal mixture modeling and model-based clustering, Technical Report No. 504. 

  11. Gentleman, R., Caray, V. J., Huber, W., Irizarry, R. A. and Dudoit, S. (2005). Bioinformatics and computational biology solutions using R and bioconductor, Spinger, New York. 

  12. Getz, G., Levine, E., Domany, E. and Zhang, M. Q. (2000). Super-paramagneic clustering of yeast expression profiles. Physica, A279, 457-464. 

  13. Handl, J., Knowles, J. and Kell, D. B. (2005). Computational cluster validation in post-genomic data analysis. Bioinformatics, 21, 3201-3212. 

  14. Huang, D. W., Sherman, B. T. and Lempicki, R. A.(2009). Systematic and integrative analysis of large gene lists using DAVID Bioinformatics Resources, Nature Protocols, 4, 44-57. 

  15. Hero, A. O., Fleury, G., Mears, A. J. and Swaroop, A. (2004). Multicriteria gene screening for analysis of differential expression with DNA microarrays, Journal on Applied Signal processing, 2004, 43-52. 

  16. Izenman, A. J. (2008). Modern Multivariate Statistical Techniques, Spinger, New York. 

  17. Kim, B. R., Littell, R. C. and Wu, R. (2006). Clustering periodic patterns of gene expression based on fourier appoximations, Current Genomics, 7, 197-203. 

  18. Kim, J. and Hart, J. D. (1998). Test for change when the data are dependent, Journal of Time Series, 19, 399-424. 

  19. Kim, J. and Kim, H. (2008). Clustering of change using Fourier coefficient, Bioinformatics, 24, 184-191. 

  20. Kim, J., Ogden, R. T. and Kim, H. (2011). A method of identify differential expression profile with timecourse gene data and Fourier transformation, BMC Bioinformatics, in revision. 

  21. Kaufman, L. and Rousseeuw, P. J. (1990). Finding Groups in Data: An Introduction to Cluster Analysis, Wiley, New York. 

  22. Kohonen, T. (1998). The self-organizing map, Neurocomputing, 21, 1-6. 

  23. Ma, S. (2006). Empirical study of supervised gene screening, BMC Bioinformatics, 7, 537. 

  24. Rousseeuw, P. T. (1987). Silhouettes: Graphical aid to the interpretation and validation of cluster analysis, Journal of Computation Applied Math, 20, 53-65. 

  25. Serban, N. and Wasserman, L. (2005). CATS: Clustering after transformation and smoothing, Journal of the American Statistical Association, 471, 990-999. 

  26. Tusher, V. G., Tibshirani, R. and Chu, G. (2001). Significance analysis of microarrays applied to the ionizing radiation response, Proceedings of the National Academy of Sciences of the United States of America, 98, 5116-5121. 

  27. Toronen, R., Kolehmainen, M., Wong, G. and Castren, E. (1999). Analysis of gene expression data using self-organizing maps, Federation of European Biochemical Societies, 451, 142-146. 

  28. Zhang, L., Zhang, A. and Ramanathan, M. (2003). Fourier harmonic approach for visualizing temporal patterns of gene expression data, IEEE Computer Society Bioinformatics Conference, 2, 137-147. 

저자의 다른 논문 :

섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로