$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

선형혼합모형의 역할 및 활용사례: 유전역학 분석을 중심으로
Linear Mixed Models in Genetic Epidemiological Studies and Applications 원문보기

응용통계연구 = The Korean journal of applied statistics, v.28 no.2, 2015년, pp.295 - 308  

임정민 ((주) 천랩) ,  원성호 (서울대학교 보건대학원)

초록
AI-Helper 아이콘AI-Helper

지난 수십 년 동안 유전형 기술(genotyping technology)의 발달로 개인별 유전자 정보를 얻기 위해 필요한 비용이 감소함에 따라, 다양한 인간 질병의 원인 유전자를 규명하기 위한 많은 유전역학 연구들이 진행되어 왔다. 예를 들어 전장유전체관련분석(genome-wide association studies)은 수백 개에 이르는 표현형(phenotypes)에 대하여 수천 개에 이르는 원인유전자를 규명하였다. 유전체 자료의 홍수로 인하여 대규모 유전체 자료를 분석할 수 있는 다양한 분석 알고리즘에 개발되었으며, 특별히 선형혼합모형유전율의 추정부터 관련분석(association studies)에 이르기까지 유전역학 연구에서 광범위하게 활용되고 방법론이었다. 본 논문에서는 유전역학 연구에 있어 빈번하게 활용되는 선형혼합모형의 활용 사례를 나열하고, 각 분석 모형 별 추정치들의 생물학적 의미를 논하고자 한다.

Abstract AI-Helper 아이콘AI-Helper

We have experienced a substantial improvement in and cost-drop for genotyping that enables genetic epidemiological studies with large-scale genetic data. Genome-wide association studies have identified more than ten thousand causal variants. Many statistical methods based on linear mixed models have...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 또한 GCTA 소프트웨어는 기저 임계 모형(liability threshold model; Lee 등, 2011)을 활용하여 이진형 자료에 대한 단일염기다형성-칩 자료에 의하여 설명되는 분산의 비율을 계산하기 위하여 확장되었다. 질병의 유무는 연속형인 잠재변수에 의하여 결정되고, 잠재변수는 표준정규분포를 따른다고 가정하자 (Lynch와 Walsh, 1998).
  • 단일염기다형성은 인간 유전체 상에 1Kb 간격으로 최소 하나 이상으로 존재하므로 초위성체에 비해 질병의 원인 유전자 규명을 위한 표지유전자로서 더욱 유용하다. 또한 최근 단일염기다형성을 사용한 전장유전체분석이 활발히 진행되고 있으므로, 본 논문에서는 단일염기다형성 기반 분석 방법론을 위주로 논할 것이다.
  • 본 논문에서는 이처럼 유전역학분석에서 다양하게 활용되고 있는 선형혼합모형 관련 이론과 다양한 활용 사례를 소개하고자 한다. 논문의 구성은 다음과 같다.
  • 논문의 구성은 다음과 같다. 우선 유전역학연구에서 다양하게 활용되고 있는 선형혼합모형을 제시한 후 표현형기반 연구로 다유전자효과 모형 및 가족자료를 활용한 유전율 추정 방법에 대하여 설명하였다. 또한 유전자기반 연구로써 독립자료 및 가족자료를 활용하는 전장유전체 분석과 전장유전체 단일염기다형성들의 통합효과의 의미와 추정 알고리즘을 설명하였다.
  • 현재까지 알려진 유전역학 선형혼합모형 기반 자료 분석방법 중에 Zhou와 Stephen에 의하여 제안된 GEMMA (Zhou와 Stephens, 2012) 알고리즘이 가장 빠른 방법이므로 이를 소개하고자 한다. 표현형(phenotype) 벡터 y, 단일염기다형성의 수를 M, 그리고 절편(intercept)과 환경변수가 P개 있다고 하자. 이 때, 설계행렬(design matrix)을 X라고 하면 y의 차원은 N×1, X는 절편, 환경변수 그리고 분석하고자 하는 한 개의 단일염기다형성으로 이루어진 N×(P+1)이다.
  • 유전역학분석은 많은 경우 개체 간의 상관성이 존재하기 때문에 선형혼합모형이 광범위하게 사용되어 왔다. 현재까지 알려진 유전역학 선형혼합모형 기반 자료 분석방법 중에 Zhou와 Stephen에 의하여 제안된 GEMMA (Zhou와 Stephens, 2012) 알고리즘이 가장 빠른 방법이므로 이를 소개하고자 한다. 표현형(phenotype) 벡터 y, 단일염기다형성의 수를 M, 그리고 절편(intercept)과 환경변수가 P개 있다고 하자.

가설 설정

  • n개의 가족이 있고 i번째 가족의 구성원 수를 ni라고 하면, N = #이라고 할 수 있다. 각 개체의 상동염색체는 한 쌍으로 이루어져 있으므로, i번째 가족의 j번째 구성원의 한 쌍의 염색체의 다유전자효과를 각각 gij1, gij2라고 가정하자. 만약 E(gij1) = E(gij2) = 0, var(gij1) = var(gij2) = #이고 gij1; gij2가 같은 분포를 따른다고 가정하자.
  • 만약 E(gij1) = E(gij2) = 0, var(gij1) = var(gij2) = #이고 gij1; gij2가 같은 분포를 따른다고 가정하자. 그리고 i번째 가족의 j번째 구성원의 총 다유전자효과를 gij라고 하고, 유전자간(interlocus)에 상호작용은 존재하지 않는다고 가정하자. var(gij1) + var(gij2)은 다유전자가법효과분산(polygenic additive effect variance)라고 하고 σ2a으로 표기하자.
  • 키, 몸무게를 비롯한 대부분의 표현형들의 경우 개별 유전자들의 효과 크기는 미미하나, 다수의 원인 유전자들이 표현형에 영향을 미치고 있음이 알려져 있다. 다유전자효과모형이란 이처럼 개별 유전자의 효과크기는 작으나 다수의 유전자들이 표현형에 영향을 미치는 경우를 가정한다. 다유전자효과모형에 따르면, 각 개체의 다유전자효과는 정규분포를 따르며 멘델의 법칙에 의하여 가족 구성원들의 표현형은 유사한 경향이 있다.
  • 결과적으로 #가 팽창(inflation)되어 유전율 추정값은 실제보다 크게 나오는 경향이 있다 (Manolio 등, 2009). 둘째, 다유전자들 사이에 상호작용은 존재할 것으로 예측되나 다유전자효과모형은 상호작용이 존재하지 않는다고 가정한다. Zuk 등 (2012)은 다유전자효과모형에서 유전자간의 상호작용을 무시하는 경우, 이로 인한 분산은 #의 크기를 증가시킴을 보였다.
  • 최근 인구집단층화 문제에 로버스트한 선형혼합모형이 제안되었다. 샘플 크기는 N, 전체 M개의 단일염기다형성이 있다고 가정하자. 또한 M개의 단일염기다형성들의 유전자 관측값으로 이루어진 N × M 설계행렬을 G라고 하자.
  • 2)는 다음의 비현실적인 가정을 하고 있다. 첫째, 환경적 영향으로 인하여 발생하는 표현형의 유사성은 존재하지 않는다고 가정한다. 그러나 환경적 요인으로 인한 공분산은 모수화(parameterization)가 쉽지 않아 많은 경우 모형에서 제외된다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
유전자기반 연구는 어디에 주로 이용되는가 반면 유전자기반 연구는 가족자료 혹은 환자-대조(case-control) 자료를 이용하여 표지유전자(genetic marker)와 질병간의 상관 여부를 분석하는 연구로써, 관련분석(association analysis)과 연관분석(linkage analysis) 등이 이에 해당한다. 관련분석(association analysis)은 주로 단일염기다형성(single nucleotide polymorphism), 그리고 연관분석(linkage analysis)은 초위성체(microsatellite)가 표지 유전자(genetic marker)로 주로 이용된다. 단일염기다형성은 인간 유전체 상에 1Kb 간격으로 최소 하나 이상으로 존재하므로 초위성체에 비해 질병의 원인 유전자 규명을 위한 표지 유전자로서 더욱 유용하다.
유전역학연구는 무엇으로 구분되는가 다양한 질병의 유전적 원인을 규명하는 유전역학연구(genetic epidemiological studies)는 유전자 정보없이 표현형(phenotype) 정보만을 활용하여 질병의 유전적 특성을 연구하는 질병기반 연구와, 표지유전자(genetic marker)와 관심 표현형 사이의 상관성(correlation)을 도출하는 유전자기반 연구로 구분할 수 있다. 표현형 기반 연구는 가족자료를 이용하며, 유전율(heritability) 및 유전분리성(segregation) 분석과 같이 질병의 유전적 성향을 파악하는 연구로써 유전자기반 연구의 사전 연구로 활용된다.
유전자기반 연구란 무엇인가 표현형 기반 연구는 가족자료를 이용하며, 유전율(heritability) 및 유전분리성(segregation) 분석과 같이 질병의 유전적 성향을 파악하는 연구로써 유전자기반 연구의 사전 연구로 활용된다. 반면 유전자기반 연구는 가족자료 혹은 환자-대조(case-control) 자료를 이용하여 표지유전자(genetic marker)와 질병간의 상관 여부를 분석하는 연구로써, 관련분석(association analysis)과 연관분석(linkage analysis) 등이 이에 해당한다. 관련분석(association analysis)은 주로 단일염기다형성(single nucleotide polymorphism), 그리고 연관분석(linkage analysis)은 초위성체(microsatellite)가 표지 유전자(genetic marker)로 주로 이용된다.
질의응답 정보가 도움이 되었나요?

참고문헌 (43)

  1. Abecasis, G. R., Cherny, S. S., Cookson, W. O. and Cardon, L. R. (2002). Merlin-rapid analysis of dense genetic maps using sparse gene flow trees, Nature Genetics, 30, 97-101. 

  2. Almasy, L. and Blangero, J. (1998). Multipoint quantitative-trait linkage analysis in general pedigrees, American Journal of Human Genetics, 62, 1198-1211. 

  3. Aulchenko, Y. S., de Koning, D. J. and Haley, C. (2007a). Genomewide rapid association using mixed model and regression: A fast and simple method for genomewide pedigree-based quantitative trait loci association analysis, Genetics, 177, 577-585. 

  4. Aulchenko, Y. S., Ripke, S., Isaacs, A. and Van Duijn, C. M. (2007b). GenABEL: An R library for genome-wide association analysis, Bioinformatics, 23, 1294-1296. 

  5. Chen, W. M. and Abecasis, G. R. (2006). Estimating the power of variance component linkage analysis in large pedigrees, Genet Epidemiol, 30, 471-484. 

  6. Corbeil, R. R. and Searle, S. R. (1976). Restricted Maximum Likelihood (REML) Estimation of Variance Components in Mixed Model, Technometrics, 18, 31-38. 

  7. Elston, R. C. and Gray-McGuire, C. (2004). A review of the 'Statistical Analysis for Genetic Epidemiology' (S.A.G.E.) software package, Hum Genomics, 1, 456-459. 

  8. Falconer, D. S. (1989). Introduction to Quantitative Genetics, (3rd ed.), Burnt Mill, Harlow, Essex, England. 

  9. George, E. I. and McCulloch, R. E. (1993). Variable selection via Gibbs sampling, Journal of the American Statistical Association, 88, 881-889. 

  10. Gilmour, A. R., Thompson, R. and Cullis, B. R. (1995). Average information REML: An efficient algorithm for variance parameter estimation in linear mixed models, Biometrics, 51, 1440-1450. 

  11. Hindorff, L. A., Sethupathy, P., Junkins, H. A., Ramos, E. M., Mehta, J. P., Collins, F. S. and Manolio, T. A. (2009). Potential etiologic and functional implications of genome-wide association loci for human diseases and traits, Proceedings of the National Academy of Sciences of the United States of America, 106, 9362-9367. 

  12. Kang, H. M., Sul, J. H., Service, S. K., Zaitlen, N. A., Kong, S. Y., Freimer, N. B., Sabatti, C. and Eskin, E. (2010). Variance component model to account for sample structure in genome-wide association studies, Nature Genetics, 42, 348-U110. 

  13. Kang, H. M., Ye, C. and Eskin, E. (2008a). Accurate discovery of expression quantitative trait loci under confounding from spurious and genuine regulatory hotspots, Genetics, 180, 1909-1925. 

  14. Kang, H. M., Zaitlen, N. A., Wade, C. M., Kirby, A., Heckerman, D., Daly, M. J. and Eskin, E. (2008b). Efficient control of population structure in model organism association mapping, Genomics, 178, 1709-1723. 

  15. Kenward, M. G. and Roger, J. H. (1997). Small sample inference for fixed effects from restricted maximum likelihood, Biometrics, 53, 983-997. 

  16. Klein, R. J., Zeiss, C., Chew, E. Y., Tsai, J. Y., Sackler, R. S., Haynes, C., Henning, A. K., SanGiovanni, J. P., Mane, S. M., Mayne, S. T., Bracken, M. B., Ferris, F. L., Ott, J., Barnstable, C. and Hoh, J. (2005). Complement factor H polymorphism in age-related macular degeneration, Science, 308, 385-389. 

  17. Korte, A., Vilhjalmsson, B. J., Segura, V., Platt, A., Long, Q. and Nordborg, M. (2012). A mixed-model approach for genome-wide association studies of correlated traits in structured populations, Nature Genetics, 44, 1066-+. 

  18. Lee, S. H., Wray, N. R., Goddard, M. E. and Visscher, P. M. (2011). Estimating missing heritability for disease from genome-wide association studies, American Journal of Human Genetics, 88, 294-305. 

  19. Lim, J., Sung, J. and Won, S. (2014). Efficient strategy for the genetic analysis of related samples with a linear mixed model, Journal of the Korean Data and Information Science Society, 25, 1025-1038. 

  20. Lippert, C., Listgarten, J., Liu, Y., Kadie, C. M., Davidson, R. I. and Heckerman, D. (2011). FaST linear mixed models for genome-wide association studies, Nature Methods, 8, 833-U894. 

  21. Listgarten, J., Kadie, C., Schadt, E. E. and Heckerman, D. (2010). Correction for hidden confounders in the genetic analysis of gene expression, Proceedings of the National Academy of Sciences of the United States of America, 107, 16465-16470. 

  22. Lynch, M. and Walsh, B. (1998). Genetics and Analysis of Quantitative Traits, Sunderland, Mass.: Sinauer. 

  23. Manolio, T. A., Collins, F. S., Cox, N. J., Goldstein, D. B., Hindorff, L. A., Hunter, D. J., McCarthy, M. I., Ramos, E. M., Cardon, L. R., Chakravarti, A., Cho, J. H., Guttmacher, A. E., Kong, A., Kruglyak, L., Mardis, E., Rotimi, C. N., Slatkin, M., Valle, D., Whittemore, A. S., Boehnke, M., Clark, A. G., Eichler, E. E., Gibson, G., Haines, J. L., Mackay, T. F., McCarroll, S. A. and Visscher, P. M. (2009). Finding the missing heritability of complex diseases, Nature, 461, 747-753. 

  24. Martin, E. R., Bass, M. P., Hauser, E. R. and Kaplan, N. L. (2003). Accounting for linkage in family-based tests of association with missing parental genotypes, American Journal of Human Genetics, 73, 1016-1026. 

  25. Ott, J. (1999). Analysis of Human Genetic Linkage, (3rd ed.), Baltimore: Johns Hopkins University Press. 

  26. Ott, J., Kamatani, Y. and Lathrop, M. (2011). Family-based designs for genome-wide association studies, Nature Reviews Genetics, 12, 465-474. 

  27. Ott, J., Schrott, H. G., Goldstei, J. l., Hazzard, W. R., Allen, F. H., Falk, C. T. and Motulsky, A. G. (1974). Linkage studies in a large kindred with familial hypercholesterolemia, American Journal of Human Genetics, 26, 598-603. 

  28. Posthuma, D. and Boomsma, D. I. (2005). Mx scripts library: Structural equation modeling scripts for twin and family data, Behavior Genetics, 35, 499-505. 

  29. Price, A. L., Patterson, N. J., Plenge, R. M., Weinblatt, M. E., Shadick, N. A. and Reich, D. (2006). Principal components analysis corrects for stratification in genome-wide association studies, Nature Genetics, 38, 904-909. 

  30. Price, A. L., Zaitlen, N. A., Reich, D. and Patterson, N. (2010). New approaches to population stratification in genome-wide association studies, Nature Reviews Genetics, 11, 459-463. 

  31. Purcell, S., Neale, B., Todd-Brown, K., Thomas, L., Ferreira, M. A. R., Bender, D., Sklar, P., de Bakker, P. I., Daly, M. J. and Sham, P. C. (2007). PLINK: A tool set for whole-genome association and populationbased linkage analyses, American Journal of Human Genetics, 81, 559-575. 

  32. Rabinowitz, D. and Laird, N. (2000). A unified approach to adjusting association tests for population admixture with arbitrary pedigree structure and arbitrary missing marker information, Human Heredity, 50, 211-223. 

  33. Risch, N. and Merikangas, K. (1996). The future of genetic studies of complex human diseases, Science, 273, 1516-1517. 

  34. Smyth, G. K. and Verbyla, A. P. (1996). A conditional likelihood approach to residual maximum likelihood estimation in generalized linear models, Journal of the Royal Statistical Society Series B-Methodological, 58, 565-572. 

  35. Tang, H., Quertermous, T., Rodriguez, B., Kardia, S. L. R., Zhu, X. F., Brown, A., Pankow, J. S., Province, M. A., Hunt, S. C., Boerwinkle, E., Schork, N. J. and Risch, N. J. (2005). Genetic structure, selfidentified race/ethnicity, and confounding in case-control association studies, American Journal of Human Genetics, 76, 268-275. 

  36. Vattikuti, S., Guo, J. and Chow, C. C. (2012). Heritability and genetic correlations explained by common SNPs for metabolic syndrome traits, Plos Genetics, 8. 

  37. Welter, D., MacArthur, J., Morales, J., Burdett, T., Hall, P., Junkins, H., Klemm, A., Flicek, P., Manolio, T., Hindorff, L. and Parkinson, H. (2014). The NHGRI GWAS Catalog, a curated resource of SNP-trait associations, Nucleic Acids Research, 42(D1), D1001-D1006. 

  38. Yang, J. A., Benyamin, B., McEvoy, B. P., Gordon, S., Henders, A. K., Nyholt, D. R., Madden, P. A., Heath, A. C., Martin, N. G., Montgomery, G. W., Goddard, M. E. and Visscher, P. M. (2010). Common SNPs explain a large proportion of the heritability for human height, Nature Genetics, 42, 565-U131. 

  39. Yang, J. A., Lee, S. H., Goddard, M. E. and Visscher, P. M. (2011). GCTA: A tool for genome-wide complex trait analysis, American Journal of Human Genetics, 88, 76-82. 

  40. Yu, J., Pressoir, G., Briggs, W. H., Vroh Bi, I., Yamasaki, M., Doebley, J. F., McMullen, M. D., Gaut, B. S., Nielsen, D. M., Holland, J. B., Kresovich, S. and Buckler, E. S. (2006). A unified mixed-model method for association mapping that accounts for multiple levels of relatedness, Nature Genetics, 38, 203-208. 

  41. Zhang, Z. W., Ersoz, E., Lai, C. Q., Todhunter, R. J., Tiwari, H. K., Gore, M. A., Bradbury, P. J., Yu, J., Arnett, D. K., Ordovas, J. M. and Buckler, E. S. (2010). Mixed linear model approach adapted for genome-wide association studies, Nature Genetics, 42, 355-U118. 

  42. Zhou, X. and Stephens, M. (2012). Genome-wide efficient mixed-model analysis for association studies, Nature Genetics, 44, 821-U136. 

  43. Zuk, O., Hechter, E., Sunyaev, S. R. and Lander, E. S. (2012). The mystery of missing heritability: Genetic interactions create phantom heritability, Proceedings of the National Academy of Sciences of the United States of America, 109, 1193-1198. 

저자의 다른 논문 :

LOADING...

관련 콘텐츠

오픈액세스(OA) 유형

GOLD

오픈액세스 학술지에 출판된 논문

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로