$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

[국내논문] 효모 마이크로어레이 유전자 발현데이터에 대한 가우시안 과정 회귀를 이용한 유전자 선별 및 군집화
Screening and Clustering for Time-course Yeast Microarray Gene Expression Data using Gaussian Process Regression 원문보기

응용통계연구 = The Korean journal of applied statistics, v.26 no.3, 2013년, pp.389 - 399  

김재희 (덕성여자대학교 정보통계학과) ,  김태훈 (덕성여자대학교 프리팜메드학과)

초록
AI-Helper 아이콘AI-Helper

본 연구에서는 가우시안 과정회귀방법을 소개하고 시계열 마이크로어레이 유전자 발현데이터에 대해 가우시안 과정회귀를 적용한 사례를 보이고자한다. 가우시안 과정회귀를 적합하여 로그 주변우도함수 비를 이용한 유전자를 선별방법에 대한 모의실험을 통해 민감도, 특이도, 위발견율 등을 계산하여 선별방법으로의 활용성을 보였다. 실제 효모세포주기 데이터에 대해 제곱지수공분산함수를 고려한 가우시안 과정회귀를 적합하여 로그 주변우도함수 비를 이용하여 차변화된 유전자를 선별한 후, 선별된 유전자들에 대해 가우시안 모형기반 군집화를 하고 실루엣 값으로 군집유효성을 보였다.

Abstract AI-Helper 아이콘AI-Helper

This article introduces Gaussian process regression and shows its application with time-course microarray gene expression data. Gene screening for yeast cell cycle microarray expression data is accomplished with a ratio of log marginal likelihood that uses Gaussian process regression with a squared ...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 본 연구에서는 가우스 과정회귀 기법을 소개하고 Kalaitzis와 Lawrence (2011) 기법을 활용하여 비활동성(inactive, quiet) 유전자 선별한 후 차별화된(differentially expressed) 유전자들을 정리하여 그 다음 단계의 분석에서의 효율성을 높이는데 기여하고자 한다. 또한 실제 데이터 분석으로는 효모데이터에 대한 적용예를 보여준다.
  • 본 연구에서는 효모 유전자 발현 데이터에 대해 GPR을 적용하여 차별화된 유전자에 대해 로그주변우도함수를 구하고 로그주변우도함수 비를 이용하여 유전자를 선별하였으며 선별된 유전자들에 대해 모형기반 군집을 형성하여 군집별 유전자 함수의 특성을 알아보았다. 시계열 유전자 발현 데이터에 대해 functional data의 관점으로 GPR을 적용하여 선별할 경우 유전자 발현의 전반적인 패턴이 고려되므로 각 유전자에 대한 함수를 기반으로 선별할 수 있는 장점이 있다.
  • 여기서 선별되는 유전자들의 특성과 개수 등을 고려하며 결정점을 정하였다. 이와 같이 선택된 367개 유전자들에 대해 모형기반 군집화(model based clustering)를 고려하고자한다. 모형 기반 군집화는 Fraley와 Raftery (2002, 2006, 2007)에 의한 제안되고 정리되었으며 가우시안 혼합모형(Gaussian mixture model) 기반 군집화 방법이다.
  • , n을 고려한다. 표기편의상 한 개 유전자 관련 데이터에 대한 선형회귀모형으로 정의된 GPR 모형에 대해 살펴보고자한다.
  • 효모 데이터에 대해 GPR 활용 유전자 선별 작업을 하기 전에 우선 모의실험을 수행하여 선별 결과에 대한 정보를 얻고자한다.

가설 설정

  • GPR에서 표준적인 공분산 함수인 제곱 지수 공분산함수(squared exponential covariance function)를 갖는 GP를 고려하면 유전자 프로화일에 내재하는 실제 신호(true signal)가 스무드 함수(smooth function) 즉 무한 미분 가능 함수를 갖는다고 가정할 수 있다. 이러한 특성 때문에 모형에 대한 강한 가정 없이 내재하는 신호를 표현하는데 GP를 활용할 수 있으나 시간에 따른 집합체 데이터에 대해 가짜 패턴(spurious pattern; false positive)을 찾을 수도 있음을 주의해야 한다.
  • 유전자 발현 데이터인 Yiu는 시간점 xiu에서 i번째 데이터의 로그값이다. 곡선 fi가 스무드 함수집합에 속한다고 가정한다.
  • 여기서 백색잡음은 서로 독립이며 ϵ ∼ N(0, σ2 n)를 따른다고 가정한다.
  • GP는 특성공간상에서 확률과정(stochastic process)이며 정규확률분포의 일반화이다. 특정한 입력값 x에서의 함수값 f(x)를 가진 긴 벡터를 함수로 간주하고 가능한 함수들에 대한 함수를 가정한다. p(y(x1), .
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
특정 분포함수들 집합이란 무엇인가? GP는 다변량정규분포를 특정 분포함수들 집합에 대한 정규분포의 개념으로 확장한 것이다. 여기서 특정 분포함수들 집합이란 공분산 함수(covariance function) 또는 커널함수(kernel function)에 의해 즉 데이터 간의 유사성 측도(similarity metric)에 의해 정의되는 집합이다. 
가우스 과정의 특징은 무엇인가? 가우스 과정(Gaussian process; GP)는 시계열 유전자 발현 데이터에 포함되어있는 실제 신호와 잡음을 양적으로 표현하는 데 적절한 방법으로 활용할 수 있으며 차별화된 유전자 프로화일(differential gene profile)에 대해 순위(rank)를 줄 수 있다. GP는 다변량정규분포를 특정 분포함수들 집합에 대한 정규분포의 개념으로 확장한 것이다.
유전자 데이터의 경우 그 수가 매우 크기 때문에 분석시 시간과 비용 등의 어려움이 많고 분석 후에 결과가 좋지 않은 경우도 발생하는데, 이를 해결하기 위한 방법으로 무엇이 있는가? 유전자 데이터의 경우 그 수가 매우 크기 때문에 분석시 시간과 비용 등의 어려움이 많고 분석 후에 결과가 좋지 않은 경우도 발생하게 된다. 이러한 문제를 해결하기 위해 변수변환을 이용하여 데이터의 차원수를 줄이거나 선별(screening)과정을 통해 유전자를 선별하여 선별된 유전자만을 가지고 분석을 하는 방법이 있다. 이와 같은 유전자 선별방법에 대한 연구로 Hero 등 (2004)은 다양한 기준을 가진 DNA 마이크로어레이 실험을 통해 얻은 유전자들 중 다르게 발현되는 유전자를 확인하는 통계적 방법에 대해 연구하였다.
질의응답 정보가 도움이 되었나요?

참고문헌 (15)

  1. Eckel, J. E., Gennings, C., Chinchilli, V. M., Burgoon, L. D. and Zacharewski, T. R. (2004). Empirical Bayes gene screening tool for time-course or dose-response microarray data, Journal of Biopharmaceutical Statistics, 14, 647-670. 

  2. Fraley, C. and Raftery, A. E. (2002). Model-based clustering, discriminant analysis, and density estimation, Journal of the American Statistical Association, 97, 611-631. 

  3. Fraley, C. and Raftery, A. E. (2006). MCLUST Version 3 for R: Normal mixture modeling and model-based clustering. Technical Report No. 504. 

  4. Fraley, C. and Raftery, A. E. (2007). Bayesian regularization for normal mixture estimation and model-based clustering, Journal of Classication, 24, 155-181. 

  5. Hero, A. O., Fleury, G., Mears, A. J. and Swaroop, A. (2004). Multicriteria gene screening for analysis of differential expression with DNA microarrays, Journal on Applied Signal processing, 2004, 43-52. 

  6. Kalaitzis, A. and Lawrence, N. (2011). A simple approach to ranking differentially expressed gene expression time courses through Gaussian process regression, BMC Bioinformatics, 12, 180. 

  7. Kim, J. and Kim, H. (2008). Clustering of change using Fourier coefficient, Bioinformatics, 24, 184-191. 

  8. Lee, K., Kim, T. and Kim, J. (2011). Gene screening and clustering of yeast microarray gene expression data, The Korean Journal of Applied Statistics, 24, 1077-1094. 

  9. Ma, S. (2006). Empirical study of supervised gene screening, BMC Bioinformatics, 7, 537. 

  10. Rasmussen, C. E. and Williams, C. K. (2005). Gaussian Processes for Machine Learning, MIT Press 

  11. Rousseeuw, P. T. (1987). Silhouettes: Graphical aid to the interpretation and validation of cluster analysis. Journal of Computation Applied Math, 20, 53-65. 

  12. Serban, N. and Wasserman, L. (2005). CATS: Clustering after transformation and smoothing, Journal of the American Statistical Association, 471, 990-999. 

  13. Spellman, P. T., Sherlock, G., Zhang, M. Q., Iyer, V. R., Anders, K., Eisen, M. B., Brown, P. O., Botstein, D. and Futcher, B. (1998). Comprehensive identification of cell cycle-regulated genes of the yeast Saccharomyces cerevisiae by microarray hybridization, Molecular Biology of the Cell, 9, 3273-3297. 

  14. Toronen, R., Kolehmainen, M., Wong, G. and Castren, E. (1999). Analysis of gene expression data using self-organizing maps, Federation of European Biochemical Societies, 451, 142-146. 

  15. Zhang, L., Zhang, A. and Ramanathan, M. (2003). Fourier harmonic approach for visualizing temporal patterns of gene expression data, IEEE Computer Society Bioinformatics Conference, 2, 137-147. 

저자의 다른 논문 :

LOADING...

관련 콘텐츠

오픈액세스(OA) 유형

FREE

Free Access. 출판사/학술단체 등이 허락한 무료 공개 사이트를 통해 자유로운 이용이 가능한 논문

이 논문과 함께 이용한 콘텐츠

유발과제정보 저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로