$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

특이발현과 특이공발현을 고려한 유의한 유전자 집단 탐색
Identifying statistically significant gene sets based on differential expression and differential coexpression 원문보기

응용통계연구 = The Korean journal of applied statistics, v.29 no.3, 2016년, pp.437 - 448  

이선호 (세종대학교 수학통계학부)

초록

서로 상관있는 유전자들의 발현조절이 질병이나 종양의 발생에 영향을 미치기 때문에 단일유전자 분석 대신 공통의 생물학적 요소를 지닌 유전자 집단 분석이 각광을 받게 되었고 생물학적으로 좀더 설명하기 쉬운 결과를 얻게 되었다. 표현형에 따라 유의한 차이를 보이는 유전자 집단을 찾는 여러 방법들이 있지만, 대부분의 방법들이 집단에 속한 유전자들의 표현형에 따른 발현의 차이를 탐색하거나 유전자들 사이의 공발현 구조가 다른지 탐색하는 것이다. 본 연구에서는 특이발현과 특이공발현의 차이를 모두 고려하는 탐색방법을 제시하였고 p53이란 유전자 자료와 모의자료를 이용하여 제시한 방법의 성능을 알아 보았다.

Abstract AI-Helper 아이콘AI-Helper

Gene set analysis utilizing biologic information is expected to produce more interpretable results because the occurrence of tumors (or diseases) is believed to be associated with the regulation of related genes. Many methods have been developed to identify statistically significant gene sets across...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • g개의 유전자로 이루어진, 표본의 수가 각 n1, n2인 서로 다른 표현형을 갖는 두 군의 마이크로어레이 발현 자료가 있다고 하자. 이 때 k번째 군(k = 1, 2)에 속한 l번째(l = 1, .
  • 그러므로 관심 유전자 집단의 유의성 검정을 위하여 서로 다른 배경에서 유도된 여러 방법을 함께 사용하게 되지만 각기 다른 결과가 나왔을 때 이것들을 서로 비교하거나 하나의 결론으로 도출하기에는 어려움이 있다. 본 연구에서는 어떤 유전자 집단이 질병의 발생에 유의한 영향을 미치는지 판단하기 위하여 여러 가지 검정법을 사용하고 여기서 하나의 결론을 찾는 새로운 방법, NEW를 제시하였다 (Table 2.1).
  • 본 연구에서는 표현형에 따른 차이로 평균발현값에 차이가 있는 경우와 유전자들 사이의 공발현 구조에 차이가 있는 경우로 나누어 생각하였고 그에 따른 검정 방법들을 살펴보았다. 그러나 어떤 방법이 유의한 유전자군을 찾는데 제일 좋다고 단정할 수 없으므로 결국 여러 방법을 사용하여 각각 다른 결과들을 얻게 된다.
  • , g). 전체 유전자 중 p개 유전자로 구성된 집단 P가 질병의 발생에 유의한 영향을 미치는지 알아보는 것이 유전자 집단 분석의 목적이다.

가설 설정

  • 비교군에 속한 l번째 (l = 1, . . . , n) 표본의 유전자 발현값 분포는 # ′ ∼ N(0, Ip), 처리군의 l번째 표본은 # = #∼ N(µp,Σp)를 가정하였다.
  • 집단에 속한 p개 유전자 중 γ 만큼만 서로 상관관계가 있다 가정하였고, γp개 유전자 중 임의의 두 유전자 간의 공분산은 r이라 가정하였다.
  • 집단에 속한 각 유전자들의 가중치는 다른 모든 유전자들과의 전반적인 상호관계에 비례한다고 가정하였고, k번째 군(k = 1, 2)의 i번째 유전자의 가중치를 #라 할 때 Perron-Frobenius 정리 (Meyer, 2001)를 이용하여 w(k) = (# , . . . , #)′의 값을 구하였다.
  • 집단에 속한 유전자 중 γp/2개 유전자는 특이발현만 하고, 또 다른 γp/2개 유전자는 특이공발현만 한다고 가정하였다.
  • 집단에 속한 유전자 중 γp개 유전자는 특이발현을 하는 동시에 특이공발현 유전자를 가정하였다.
  • 처리군 표본의 분포도 비교군과 동일하게 모든 유전자가 서로 독립인 # ∼ N(0, Ip) (l = 1, . . . , n)를 가정하였고 표본의 수 n은 15, 25, 40, 60으로, 집단에 속한 유전자 수 p는 20, 40, 60으로 변화시켜 Table 4.1의 결과를 얻었다.
  • 처리군에서 특이발현 유전자의 평균 발현값은 µ, 특이공발현하는 정도는 r이라 가정하였다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
PAGE란? Global test (Goeman 등, 2004)는 score 검정을 이용하여 질병과 관련있는 대사경로를 찾는 방법을 제시하였고, 환자의 생존율과 관계있는 대사경로를 찾는 방법으로까지 확장하였다 (Goeman 등, 2005). 대부분의 방법들이 비모수적 배경에서 유도되었으므로 p-value 계산을 위한 permutation이 수반되어야 하는 단점이 있고 이를 극복하기 위한 시도로 Kim과 Volsky (2005)는 관심 집단에 속한 유전자들의 수가 충분히 크고 서로 독립이라는 가정 아래 중심극한정리를 적용하는 PAGE를 제안하였다. 그러나 이는 과다발현 유전자와 발현억제 유전자들이 공존할 때 특이발현성이 상쇄되는 결함이 존재한다.
이표본 t 검정과 이를 변형한 Significance Analysis of Microarray 방법의 단점은? 초기 유전자 분석은 질병의 발생에 영향을 미치는 유전자를 찾는 단일유전자 분석으로 표현형(질병군 또는 정상군)에 따라 발현 차이가 큰 유전자를 개별적으로 찾아내는 이표본 t 검정과 이를 변형한 Significance Analysis of Microarray(SAM) (Tusher, 2001) 등의 방법이 있다. 그러나 분석 대상 유전자가 많아 결과 해석이 어렵고 생물학적 의미 도출을 위해서는 별도의 분석과정이 필요하며 분석 표본이 달라짐에 따라 결과에 차이가 생기기도 한다. 이런 문제점들을 보완하기 위한 시도로 각 유전자들의 발현 자료와 함께 생물학적 정보를 분석에 반영하는 방법을 연구하게 되었고 공통의 생물학적 요소를 지닌 유전자 집단을 대상으로 서로 다른 표현형 사이에 발현의 차이가 유의한지 검색하는 집단분석(gene set analysis)이 대두되었다.
유전자 자료에서 독립성 여부를 판단하기 위해 Fisher의 정확성 검정이나 초기하분포를 이용한 검정을 사용하였을 때, 단점은? 전체 유전자 자료로부터 특이발현 유전자 집단을 만든 후 이 집단과 관심 유전자 집단 사이의 독립성 여부를 Fisher의 정확성 검정이나 초기하분포를 이용한 검정 (Draghici 등, 2003; Khatri 등, 2004)을 실시하기도 하였는데, 이 방법들은 특이발현 유전자 집단에 대한 정의가 애매하고, 관심 집단에 속한 유전자들의 특이발현 유전자 집단 포함 여부만 중요할 뿐, 그들의 특이발현 정도는 고려되지 않는 단점이 있다.
질의응답 정보가 도움이 되었나요?

참고문헌 (23)

  1. Choi, Y. and Kendziorski, C. (2009). Statistical methods for gene set co-expression analysis, Bioinformatics, 25, 2780-2786. 

  2. Dinu, I., Potter, J. D., Mueller, T., Liu, Q., Adewale, A. J., Jhangri, G. S., Einecke, G., Famulski, K. S., Halloran, P. and Yasui, Y. (2007). Improving gene set analysis of microarray data by SAM-GS, BMC Bioinformatics, 8, 242. 

  3. Draghici, S., Khatri, P., Martins, R. P., Ostermeier, G. C., and Krawetz, S. A. (2003). Global functional profiling of gene expression, Genomics, 81, 98-104. 

  4. Efron, B. and Tibshirani, R. (2007). On testing the significance of sets of genes, Annals of Applied Statistics, 1, 107-129. 

  5. Goeman, J., van de Geer, S., de Kort, F., and Houwelingen, H. (2004). A global test for groups of genes: testing association with a clinical outcome, Bioinformatics, 20, 93-99. 

  6. Goeman, J., Oosting, J., Cleton-Jansen, A. M., Anninga, J. K., and van Houwelingen, H. C. (2005). Testing association of a pathway with survival using gene expression data, Bioinformatics, 21, 1950-1957. 

  7. Jung, S. and Kim, S. (2014). EDDY: a novel statistical gene set test method to detect differential genetic dependencies, Nucleic Acids Research, 42, e60. 

  8. Khatri, P., Bhavsar, P., Bawa, G., and Draghici, S. (2004). Onto-Tools: an ensemble of web-accessible, ontology-based tools for the functional design and interpretation of high-throughput gene expression experiments, Nucleic Acids Research, 32, 449-456. 

  9. Kim, B. S., Jang, J. S., Kim, S. C., and Lim, J. (2009). A report on the inter-gene correlations in cDNA microarray data sets, The Korean Journal of Applied Statistics, 22, 617-626. 

  10. Kim, S. Y. and Volsky, D. (2005). PAGE: parametric analysis of gene set enrichment, BMC Bioinformatics, 6, 1471-2105. 

  11. Klebanov, L. and Yakovlev, A. (2007). Diverse correlation structures in gene expression data and their utility in improving statistical inference, The Annals of Applied Statistics, 1, 538-559. 

  12. Lai, Y., Wu, B., Chen, L., Zhao, H. (2004). A statistical method for identifying differential gene-gene coexpression patterns, Bioinformatics, 20, 3146-3155. 

  13. Lee, S. H., Lee, S. K., and Lee, K. H. (2009). Developing a parametric method for testing the significance of gene sets in microarray data analysis, Communications for Statistical Applications and Methods, 397-408. 

  14. Ma, H., Schadt, E. E., Kaplan, L. M., and Zhao, H. (2011). COSINE: condition-specific sub-network identification using a global optimization method, Bioinformatics, 27, 1290-1298. 

  15. Maciejewski, H. (2014). Gene set analysis methods: statistical models and methodological differences, Briefings in Bioinformatics, 15, 504-518. 

  16. Meyer, C. (2001). Matrix Analysis and Applied Linear Algebra, Society for industrial and applied mathematics (SIAM), Philadelphia. 

  17. Mootha, V. K., Lindgren, C. M., Eriksson, K. F., Subramanian, A., Sihag, S., Lehar, J., Puigserver, P., Carlsson, E., Ridderstrale, M., Laurila, E., Houstis, N., Daly, M. J., Patterson, N., Mesirov, J. P., Golub, T. R., Tamayo, P., Spiegelman, B., Lander, E. S., Hirschhorn, J. N., Altshuler, D., and Groop, L. C. (2003). PGC-1-responsive genes involved in oxidative phosphorylation are coordinately downregulated in human diabetes, Nature Genetics, 34, 267-273. 

  18. Newton, M. A., Quintana, F. A., den Boon, J. A. (2007). Random set methods identify distinct aspects of the enrichment signal in gene-set analysis, Annals of Applied Statistics, 1, 85-106. 

  19. Qui, X., Klebanov, L., and Yakovlev, A. (2005). Correlation between gene expression levels and limitations of the empirical Bayes methodology for finding differentially expressed genes, Statistical Applications in Genetics and Molecular Biology, 4, Ariticle 34. 

  20. Rahmatallah, Y., Emmert-Streib, F. and Glazko, G. (2014). Gene sets net correlations analysis (GSNCA): a multivariate differential coexpression test for gene sets, Bioinformatics, 30, 360-368. 

  21. Subramanian, A., Tamayo, P., Mootha, V. K., Mukherjee, S., Ebert, B. L., Gillette, M. A., Paulovich, A., Pomeroy, S. L., Golub, T. R., Lander, E. S., and Mesirov, J. P. (2005). Gene set enrichment analysis: A knowledge-based approach for interpreting genome-wide expression profiles, In Proceedings of the National Academy of Sciences, 102, 15545-15550. 

  22. Tesson, B. M., Breitling, R., and Jansen, R. C. (2010). DiffCoEx: a simple and sensitive method to find differentially coexpressed gene modules, BMC Bioinformatics, 11, 497. 

  23. Tusher, V. G. (2001). Significance analysis of microarrays applied to the ionizing radiation response, In Proceedings of the National Academy of Sciences, 98, 5116-5121. 

저자의 다른 논문 :

LOADING...
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로