가축의 경제적인 특성은 환경적인 요인과 유전적인 요인의 영향을 받으며, 또한 하나의 유전자가 아닌 여러 유전자의 상호작용의 영향을 받는다고 알려져 있다. 본 논문에서는 선형회귀모형을 활용하여 환경적인 요인을 보정한 자료로 한우의 맛과 육질에 영향을 준다고 밝혀진 지방산합성효소의 단일염기다형성 5개를 이용해 한우의 경제 형질에 영향을 미치는 우수 유전자 조합을 선별하고 우수 유전자형을 밝힌다. 이를 위해 데이터마이닝 기법인 인공신경망, 로지스틱 회귀모형, C5.0, CART 기법을 이용하였다. 공정한 모형 평가를 위해 전체 데이터를 훈련용 데이터 (60%)와 검증용 데이터 (40%)로 나누었고, 훈련용 데이터에서 설정된 모형을 검증용 데이터에 적용시켜 정확도를 비교하였다. 그 결과 C5.0이 최적 모형으로 선정되었으며, C5.0의 의사결정나무를 통해 우수 유전자 조합을 선별하였다.
가축의 경제적인 특성은 환경적인 요인과 유전적인 요인의 영향을 받으며, 또한 하나의 유전자가 아닌 여러 유전자의 상호작용의 영향을 받는다고 알려져 있다. 본 논문에서는 선형회귀모형을 활용하여 환경적인 요인을 보정한 자료로 한우의 맛과 육질에 영향을 준다고 밝혀진 지방산합성효소의 단일염기다형성 5개를 이용해 한우의 경제 형질에 영향을 미치는 우수 유전자 조합을 선별하고 우수 유전자형을 밝힌다. 이를 위해 데이터마이닝 기법인 인공신경망, 로지스틱 회귀모형, C5.0, CART 기법을 이용하였다. 공정한 모형 평가를 위해 전체 데이터를 훈련용 데이터 (60%)와 검증용 데이터 (40%)로 나누었고, 훈련용 데이터에서 설정된 모형을 검증용 데이터에 적용시켜 정확도를 비교하였다. 그 결과 C5.0이 최적 모형으로 선정되었으며, C5.0의 의사결정나무를 통해 우수 유전자 조합을 선별하였다.
Economic traits of livestock are affected by environmental factors and genetic factors. In addition, it is not affected by one gene, but is affected by interaction of genes. We used a linear regression model in order to adjust environmental factors. And, in order to identify gene-gene interaction ef...
Economic traits of livestock are affected by environmental factors and genetic factors. In addition, it is not affected by one gene, but is affected by interaction of genes. We used a linear regression model in order to adjust environmental factors. And, in order to identify gene-gene interaction effect, we applied data mining techniques such as neural network, logistic regression, CART and C5.0 using five-SNPs (single nucleotide polymorphism) of FASN (fatty acid synthase). We divided total data into training (60%) and testing (40%) data, and applied the model which was designed by training data to testing data. By the comparison of prediction accuracy, C5.0 was identified as the best model. It were selected superior genotype using the decision tree.
Economic traits of livestock are affected by environmental factors and genetic factors. In addition, it is not affected by one gene, but is affected by interaction of genes. We used a linear regression model in order to adjust environmental factors. And, in order to identify gene-gene interaction effect, we applied data mining techniques such as neural network, logistic regression, CART and C5.0 using five-SNPs (single nucleotide polymorphism) of FASN (fatty acid synthase). We divided total data into training (60%) and testing (40%) data, and applied the model which was designed by training data to testing data. By the comparison of prediction accuracy, C5.0 was identified as the best model. It were selected superior genotype using the decision tree.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
로지스틱 회귀모형은 임상 연구 자료에서 중요한 요인들을 식별하는 탐색적 분석에 많이 적용된다(Berson 등, 2000; Lee 등, 2005; Heo와 Lee, 2008). 로지스틱 회귀모형에서 종속변수가 이항자료인 형태가 가장 일반적이며, 본 연구도 이항자료를 이용하므로 이항반응에 대해서만 살펴보기로 한다. 이항 반응변수를 종종 베르누이 변수라고도 한다.
본 연구는 한우의 품질에 영향을 미치는 유전적인 요인들을 밝히고자, 한우의 맛과 육질에 영향을 주는 것으로 알려진 올레인산(C18:1), 단일불포화지방산(MUFA) 그리고 근내지방도(MS)에 초점을 맞추어, 이들 경제형질에 영향을 미치는 우수 유전자 조합과 우수 유전자형을 알아보고자 했다. 이때 경제 형질에 영향을 미치는 유전자는 소 염색체 19번에 존재하는 지방산합성효소(FASN)에서 5가지 단일염기다형성(SNP)를 이용했다.
제안 방법
각 뉴런은 특정의 작업을 수행하고 신경망은 이들 뉴런을 연결함으로써 자극과 반응간의 관계를 학습하고, 새로운 데이터에 대한 분류·추정 및 예측을 하게 된다.
단계 4. 관측치의 재배열과 재배열 후의 통계량 계산 - 두 그룹의 데이터를 n개만큼 랜덤 추출하여 서로 교환한 후 그룹의 F 측정치를 구한다. 이 과정을 10,000번 반복한다.
09%로 가장 높다. 그러므로 각 경제 형질을 종합적으로 봤을 때 정확도가 가장 높게 나타난 C5.0 기법을 최종모형으로 선택하여 경제 형질에 영향을 미치는 우수한 단일 SNP와 SNP조합을 선별하였다.
데이터는 공정한 모형평가를 위해서 훈련용 데이터와 검증용 데이터를 각각 60%, 40%로 분할하여 분석하였다. 그리고 인공신경망, 로지스틱 회귀모형, C5.0, CART 순으로 데이터마이닝 기법을 적용하여 모델을 구축하였다. Table 3.
다음으로 유전자 간의 상호작용을 고려하여 선별한 우수 유전자 조합으로는 올레인산(C18:1)과 단일불포화지방산(MUFA)에서(g.13126T>C, g.15532C>A) 조합이 선별되었고, 우수 유전자형으로는 올레인산(C18:1)은 TTCA, TTAA가 선별되었고, 단일불포화지방산(MUFA)는 TTCC, TTCA, TTAA, TCAA가 선별되었다.
데이터는 공정한 모형평가를 위해서 훈련용 데이터와 검증용 데이터를 각각 60%, 40%로 분할하여 분석하였다. 그리고 인공신경망, 로지스틱 회귀모형, C5.
본 논문에서의 종속변수는 각 경제형질을 두 그룹으로 나눈 이항자료이고, 독립변수는 FASN의 5가지 SNP를 이용한다. 마찬가지로 다음의 CART와 C5.
본 연구에서는 각 경제형질을 K-평균 알고리즘으로 이분화한 값을 종속변수로 사용하였다. Table 3.
본 연구에서는 한우의 맛과 육질에 영향을 미치는 유전적인 요인을 찾고자 데이터마이닝 기법(인공 신경망, 로지스틱 회귀모형, C5.0, CART)을 이용하여 경제 형질인 올레인산(C18:1), 단일불포화지방산(MUFA), 근내지방도(MS)와 지방산합성효소(fatty acid synthase; FASN)의 5가지 단일염기다형성(single nucleotide polymorphism; SNP)과의 연관성을 알아보고, 각 경제형질에 영향을 미치는 우수한 단일 SNP와 SNP 조합 그리고 우수 유전자형을 선별하였다. 더불어 선별된 우수 유전자형이 경제 형질의 가치를 높인다는 것을 뒷받침하기 위해서, t-검정과 순열검정을 실시하여 통계적으로 유의미한 차이를 갖는지 확인하였다.
그리고 한우의 품질에는 유전적인 요인과 환경적인 요인이 함께 영향을 미치는데, 특히 유전적인 요인만을 고려하기 위해서 선형회귀모형을 통해 환경적인 요인을 보정하여 분석에 사용하였다. 분석은 데이터마이닝 기법 중 검증용 데이터의 모형의 정확도가 가장 높았던 C5.0 기법을 최종 선택하여 사용했고, 의사결정나무를 통해 경제 형질을 가장 분류를 잘한 단일 유전자와 유전자 조합을 선별하고, 세부적으로 우수 유전자형을 찾았다. 그 결과 올레인산(C18:1)과 단일불포화지방산(MUFA)에 영향을 주는 우수 단일 유전자는 g.
위의 순열검정을 통해서 각각의 우수한 단일 유전자와 유전자 조합에 대해 p-값을 계산하고, 그 결과를 통해 한우의 경제형질에 영향을 미치는 우수 유전자 조합과 우수 유전자형을 규명한다.
본 연구는 한우의 품질에 영향을 미치는 유전적인 요인들을 밝히고자, 한우의 맛과 육질에 영향을 주는 것으로 알려진 올레인산(C18:1), 단일불포화지방산(MUFA) 그리고 근내지방도(MS)에 초점을 맞추어, 이들 경제형질에 영향을 미치는 우수 유전자 조합과 우수 유전자형을 알아보고자 했다. 이때 경제 형질에 영향을 미치는 유전자는 소 염색체 19번에 존재하는 지방산합성효소(FASN)에서 5가지 단일염기다형성(SNP)를 이용했다. 그리고 한우의 품질에는 유전적인 요인과 환경적인 요인이 함께 영향을 미치는데, 특히 유전적인 요인만을 고려하기 위해서 선형회귀모형을 통해 환경적인 요인을 보정하여 분석에 사용하였다.
대상 데이터
본 연구는 경북지역에서 자란 18 아비로부터 얻어진 513 두의 한우의 데이터를 사용하였다. 경제 형질은 한우의 맛과 향에 영향을 준다고 알려져 있는 올레인산(oleic acid; C18:1)과 단일불포화지방산(monounsaturated fatty acid; MUFA), 한우의 육질에 영향을 준다고 알려진 근내지방도(marbling score; MS)를 분석에 사용하였다(Lee 등, 2011).
데이터처리
4.1절에서 선별된 우수 유전자형이 경제형질의 가치를 높이는지를 확인하기 위해서 t-검정과 순열검정을 통해 살펴봤다. table 4.
0 기법을 통하여 각 경제 형질에 영향을 주는 우수한 단일 SNP와 SNP조합을 선별하고, 우수 유전자형을 밝힌다. 그리고 t-검정과 순열검정을 실시하여 우수 유전자형의 통계적인 유의성을 살펴보았다.
이때 경제 형질에 영향을 미치는 유전자는 소 염색체 19번에 존재하는 지방산합성효소(FASN)에서 5가지 단일염기다형성(SNP)를 이용했다. 그리고 한우의 품질에는 유전적인 요인과 환경적인 요인이 함께 영향을 미치는데, 특히 유전적인 요인만을 고려하기 위해서 선형회귀모형을 통해 환경적인 요인을 보정하여 분석에 사용하였다. 분석은 데이터마이닝 기법 중 검증용 데이터의 모형의 정확도가 가장 높았던 C5.
0, CART)을 이용하여 경제 형질인 올레인산(C18:1), 단일불포화지방산(MUFA), 근내지방도(MS)와 지방산합성효소(fatty acid synthase; FASN)의 5가지 단일염기다형성(single nucleotide polymorphism; SNP)과의 연관성을 알아보고, 각 경제형질에 영향을 미치는 우수한 단일 SNP와 SNP 조합 그리고 우수 유전자형을 선별하였다. 더불어 선별된 우수 유전자형이 경제 형질의 가치를 높인다는 것을 뒷받침하기 위해서, t-검정과 순열검정을 실시하여 통계적으로 유의미한 차이를 갖는지 확인하였다. 본 연구에서 사용한 자료는, 한우의 경제 형질은 유전적인 요인뿐만 아니라 환경적인 요인들의 영향도 받기 때문에, 환경적인 요인을 배제하고 한우의 경제 형질에 영향을 미치는 유전적인 요인만을 찾기 위해서 선형회귀모형을 활용하여 환경적인 요인인 장소와 일령을 보정한 것을 이용했다(Lee와 Jin, 2012).
단계 3. 선별된 유전자형 조합에 대한 통계량 계산 - 각 방법을 통해 선별된 우수 유전자형 조합의 F 측정치를 계산한다.
선택된 최적 유전자 조합의 통계적 유의성 검정을 위해서 본 연구에서는 t-검정과 순열검정(Good, 2000)을 통한 p-값을 계산한다. 순열검정의 절차는 다음과 같다.
15532C>A) 조합이 선별되었고, 우수 유전자형으로는 TTAA, TCCA, TCAA, CCCC, CCCA, CCAA가 선별되었다. 이렇게 선별된 우수 유전자형들이 경제 형질에 유의미한 영향을 미치는지 확인하기 위해서 t-검정과 순열검정을 실시하였고, 그 결과 모든 유전자형의 p-값이 0.001에 근접하여 통계적으로 유의미하게 경제 형질의 가치를 높인다는 것을 확인하였다.
이론/모형
더불어 선별된 우수 유전자형이 경제 형질의 가치를 높인다는 것을 뒷받침하기 위해서, t-검정과 순열검정을 실시하여 통계적으로 유의미한 차이를 갖는지 확인하였다. 본 연구에서 사용한 자료는, 한우의 경제 형질은 유전적인 요인뿐만 아니라 환경적인 요인들의 영향도 받기 때문에, 환경적인 요인을 배제하고 한우의 경제 형질에 영향을 미치는 유전적인 요인만을 찾기 위해서 선형회귀모형을 활용하여 환경적인 요인인 장소와 일령을 보정한 것을 이용했다(Lee와 Jin, 2012).
성능/효과
SNP간의 상호작용을 고려한 SNP 조합의 결과를 살펴보면, 올레인산(C18:1)에 영향을 주는 것으로 나타난(g.13126T>C, g.15532C>A)조합에서는 우수 유전자형으로 선별된 TTCA, TTAA가 평균 46.49로 다른 유전자형들에 비해 가치가 유의미하게 높았고(p <0.001), 단일불포화지방산(MUFA)에 영향을 주는 것으로 나타난(g.13126T>C, g.15532C>A)조합에서는 우수 유전자형으로 선별된 TTCC, TTCA, TTAA, TCAA가 평균 54.79로 다른 유전자형들에 비해 가치가 높았다(p<0.001).
단계 5. 결론(p-값 계산) - 각 F 측정치를 내림차순으로 정렬한 후 기존의 F 측정치와 비교하여 p-값을 구한다.
그 결과 올레인산(C18:1)과 단일불포화지방산(MUFA)에 영향을 주는 우수 단일 유전자는 g.13126T>C가 선별되었고, 경제 형질의 가치를 높이는 우수 유전자형으로는 TT가 선별되었다.
그리고 근내지방도(MS)의 우수 유전자 조합으로는(g.12870T>C, g.15532C>A) 조합이 선별되었고, 우수 유전자형으로는 TTAA, TCCA, TCAA, CCCC, CCCA, CCAA가 선별되었다.
근내지방도(MS)에 영향을 주는 것으로 나타난(g.12870T>C, g.15532C>A)조합에서는 우수 유전자형으로 선별된 TTAA, TCCA, TCAA, CCCC, CCCA, CCAA가 평균 5.71로 다른 유전자형들에 비해 가치가 높았다(p <0.001).
근내지방도(MS)에 영향을 주는 우수 단일 유전자는 g.15532C>A가 선별되었고, 우수 유전자형으로는 CA와 AA가 선별되었다.
다음으로(g.12870T>C, g.15532C>A) 조합이 가장 우수한 SNP 조합으로 타나났고 CCCC, TCCA, CCCA, TTAA, TCAA, CCAA 유전자형이 우수 유전자형으로 선별되었다.
다음으로(g.13126T>C, g.15532C>A) 조합이 가장 우수한 SNP 조합으로 타나났고 TTCA, TTAA, TCAA 유전자형이 그룹 2로 분류될 확률을 78.1%까지 높여주어 우수 유전자형으로 선별되었다.
다음으로(g.13126T>C, g.15532C>A) 조합이 가장 우수한 SNP 조합으로 타나났고 TTCC, TTCA, TTAA, TCAA 유전자형이 그룹 2로 분류될 확률을 80.6%까지 높여주어 우수 유전자형으로 선별되었다.
또한 유전자 간의 상호작용을 고려한 우수 유전자 조합이 상호작용을 고려하지 않은 단일 유전자와 비교했을 때, 한우의 경제 형질의 가치를 조금 더 향상시킨다는 것을 확인 할 수 있다. 즉, 한우의 경제 형질의 가치는 단일 유전자 보다는 유전자 간의 상호작용 효과에 의해 더 많은 영향을 받는다는 사실을 알 수 있다.
먼저 단일 SNP의 결과를 살펴보면, 올레인산(C18:1)과 단일불포화지방산(MUFA)에 영향을 주는 것으로 나타난 g.13126T>C에서는 우수 유전자형인 TT가 각각 평균 45.57, 54.84로 다른 유전자형들에 비해 가치가 유의미하게 높았고(p <0.001), 근내지방도(MS)에 영향을 주는 것으로 나타난 g.15532C>A에서는 우수 유전자형인 CA, AA가 평균 5.48로 다른 유전자형들에 비해 가치가 높았다(p <0.001).
3은 각 경제 형질별로 기법에 따른 훈련용 데이터와 검증용 데이터의 정확도를 계산하여 나타낸 것이다. 인공신경망, 로지스틱 회귀모형, CART, C5.0의 훈련용 데이터의 정확도를 살펴보면 올레인산(C18:1)은 각각 79.11%, 77.85%, 78.16%, 77.22%로 크게 차이가 없고, 단일불포화지방산(MUFA)도 각각 71.52%, 72.85%, 71.19%, 70.53%로 크게 차이를 보이지 않는다. 근내지방도(MS)도 각각 63.
질의응답
핵심어
질문
논문에서 추출한 답변
인공신경망이란 무엇이고 어떤 구성을 가지나요?
인공신경망은 인간의 신경-두뇌 시스템을 흉내 낸 것으로, 몇 개의 뉴런 (neuron)과 이것들이 배열된 층 (layer)으로 구성된다 (Sarle, 1994; Tan 등, 2006; Heo와 Lee, 2008; Park 등, 2011). 각 뉴런은 특정의 작업을 수행하고 신경망은 이들 뉴런을 연결함으로써 자극과 반응간의 관계를 학습하고, 새로운 데이터에 대한 분류·추정 및 예측을 하게 된다.
본 연구에서 한우의 경제적인 특성을 알아보기 위한 실험진행 방법은?
본 연구에서는 한우의 맛과 육질에 영향을 미치는 유전적인 요인을 찾고자 데이터마이닝 기법 (인공 신경망, 로지스틱 회귀모형, C5.0, CART)을 이용하여 경제 형질인 올레인산 (C18:1), 단일불포화지방산 (MUFA), 근내지방도 (MS)와 지방산합성효소 (fatty acid synthase; FASN)의 5가지 단일염기다형성 (single nucleotide polymorphism; SNP)과의 연관성을 알아보고, 각 경제형질에 영향을 미치는 우수한 단일 SNP와 SNP 조합 그리고 우수 유전자형을 선별하였다. 더불어 선별된 우수 유전자형이 경제 형질의 가치를 높인다는 것을 뒷받침하기 위해서, t-검정과 순열검정을 실시하여 통계적으로 유의미한 차이를 갖는지 확인하였다. 본 연구에서 사용한 자료는, 한우의 경제 형질은 유전적인 요인 뿐만아니라 환경적인 요인들의 영향도 받기 때문에, 환경적인 요인을 배제하고 한우의 경제 형질에 영향을 미치는 유전적인 요인만을 찾기 위해서 선형회귀모형을 활용하여 환경적인 요인인 장소와 일령을 보정한 것을 이용했다 (Lee와 Jin, 2012).
단일불포화지방산이 소고기의 어떤 부분에 영향을 미치나요?
단일불포화지방산 (monounsaturated fatty acid; MUFA)은 소고기의 맛과 부드러움에 영향을 미치며, 올레인산 (oleic acid; C18:1)은 MUFA의 중심 역할로 요리된 소고기 향의 원인이 된다 (Melton 등, 1982; Mandell 등, 1998; Matsusushi 등, 2011; Oh 등, 2011). 그리고 소고기의 근내지방도 (marbling score; MS)도 소고기의 품질에 주요한 지표가 되고 있다.
참고문헌 (17)
Berson, A., Smith, S. and Thearling, K. (2000). Building data mining applications for CRM, McGraw-Hill, New York.
Breiman, L., Friedman, J. H., Olshen, R. and Stone, C. J. (1984). Classification and regression tree, Chapman & Hall, New York.
Casas, E., White, S. N., Riley, D. G., Smith, T. P. L., Brenneman, R. A., Olson, T. A., Johnson, D. D., Coleman, S. W., Bennett, G. L. and Chase, C. C. (2005). Assessment of single nucleotide polymorphisms in genes residing on choromosomes 14 and 29 for association with carcass composition traits in Bos indicus cattle. Journal of Animal Scuence, 83, 13-19.
Freund, Y. and Mason, L. (1999). The alternating decision tree learning algorithm. Proceedings of the Sixteenth International Conference on Machine Learning, 99, 121-133.
Good, P. (2000). Permutation test : A practical guide to resampling methods for testing hypotheses, Springer-Verlag, New York.
Heo, M. H. and Lee, Y. G. (2008). Data mining modeling and example, Hannarae, Seoul.
Lee, J. W., Park, M. R. and Yoo, H. N. (2005). Statistical methods for life science research, Free Academy, Seoul.
Lee, J. Y. and Jin, M. H. (2012). Major gene interaction identification in Hanwoo by adjusted environmental effects. Journal of the Korean Data & Information Science Society, 23, 467-474.
Lee, Y. S., Oh, D. Y. and Yeo, J. S. (2011). Study on identification of candidate DNA marker related with beef quality in QTL region of BTA 2 in Hanwoo population. Journal of the Korean Data & Information Science Society, 22, 661-669.
Mandell, I., Buchanan-Smith, G. and C. P. Campbell. 1998. Effects of forage vs grain feeding on carcass characteristics, fatty acid composition, and beef quality in Limousin-cross steers when time on feed is controlled. Journal of Animal Science, 76, 2619-2630.
Matsuhashi. T., Maruyama. S., Uemoto. Y., Kobayashi. N., Mannen. H., Abe. T., Sakaguchi. S. and Kobayashi. E. (2011). Effects of bovine fatty acid synthase, stearoyl-coenzyme A desaturase, sterol regulatory element-binding protein 1, and growth ghormone gene polymorphisms on fatty acid composition and carcass traits in Japanese Black cattle. Journal of Animal Science, 89, 12-22.
Melton, S. L., Amiri, M., Davis, G. W. and Backus, W. R. (1982). Flavor and chemical characteristics of ground beef from grass-, forage-grain- and grain-finished steers. Journal of Animal Science, 55, 77-87.
Oh, D. Y., Lee, Y. S., La, B. M., Yeo, J. S., Chung, E. Y., Kim, Y. Y. and Lee, C. Y. (2011). Fatty acid composition of beef is associated with exonic nucleotide variants of the gene encoding FASN. Molecular Biology Reports, 39, 4083-4090.
Park, I. S., Han, J. T., Sohn, H. S. and Kang, S. B. (2011). Developing the administrative model using the data mining technique for injury in National Health Insurance. Journal of the Korean Data & Information Science Society, 23, 467-476.
Quinlan, J. R. (1993). C4.5: Programs for machine learning, Morgan-Kaufmann Publishers, San Mateo, CA.
Sarle, W. S. (1994). Neural networks and statistical models. Proceedings of the 19th Annual SAS Users Group International Conference, 1-13.
Tan, P., Steinbach, M. and Kumar, V. (2006). Introduction to data mining, Addison Wesley Longman, California, USA.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.