[논문]혼합회귀모형에서 콤포넌트 및 설명변수에 대한 벌점함수의 적용

박종선; 모은비

doi:10.5351/kjas.2019.32.2.199

혼합회귀모형에서 콤포넌트 및 설명변수에 대한 벌점함수의 적용
Joint penalization of components and predictors in mixture of regressions 원문보기

응용통계연구 = The Korean journal of applied statistics, v.32 no.2, 2019년, pp.199 - 211

초록
AI-Helper

주어진 회귀자료에 유한혼합회귀모형을 적합하는 경우 적절한 성분의 수를 선택하고 선택된 각각의 회귀모형에서 의미있는 예측변수들의 집합을 선택하며 동시에 편의와 변동이 작은 회귀계수 추정치들을 얻는 것은 매우 중요하다. 본 연구에서는 혼합선형회귀모형에서 성분의 개수와 회귀계수에 벌점함수를 적용하여 적절한 성분의 수와 각 성분의 회귀모형에 필요한 설명변수들을 동시에 선택하는 방법을 제시하였다. 성분에 대한 벌점은 성분들의 로그값에 SCAD 벌점함수를 적용하였고 회귀계수들에는 SCAD와 더불어 MCP 및 Adplasso 벌점함수들을 사용하여 가상자료와 실제자료들에 대한 결과를 비교하였다. SCAD-SCAD 벌점함수 조합과 SCAD-MCP 조합의 경우 기존의 Luo 등 (2008)의 방법에서 문제가 되었던 과적합 문제를 해결함과 동시에 선택된 성분의 수와 회귀계수들을 효과적으로 선택하였으며 회귀계수들의 추정치에 대한 편의도 크지 않았다. 본 연구는 성분의 수가 알려져 있지 않은 회귀자료에서 적절한 성분의 수와 더불어 각 성분에 대한 회귀모형에서 모형에 필요한 예측변수들을 동시에 선택하는 방법을 제시하였다는데 의미가 있다고 하겠다.

Abstract ▼ AI-Helper

This paper is concerned with issues in the finite mixture of regression modeling as well as the simultaneous selection of the number of mixing components and relevant predictors. We propose a penalized likelihood method for both mixture components and regression coefficients that enable the simultaneous identification of significant variables and the determination of important mixture components in mixture of regression models. To avoid over-fitting and bias problems, we applied smoothly clipped absolute deviation (SCAD) penalties on the logarithm of component probabilities suggested by Huang et al. (Statistical Sinica, 27, 147-169, 2013) as well as several well-known penalty functions for coefficients in regression models. Simulation studies reveal that our method is satisfactory with well-known penalties such as SCAD, MCP, and adaptive lasso.

주제어

표/그림 (10)

표 Table 4.1. Frequencies and percents of number of components for ρ = 0.5 and K = 3
표 Table 4.2. C and IC of α and β (ρ = 0.5)
표 Table 4.3. Frequencies and percents of number of components for ρ = 0.8 and K = 3
표 Table 4.4. C and IC of α and β (ρ = 0.8)
그림 Figure 4.1. Boxplot of estimated α.
그림 Figure 4.2. Boxplot of estimated coefficients for SCAD-SCAD case with n = 500, ρ = 0.8.
그림 Figure 4.3. Boxplot of estimated coefficients for SCAD-Adplasso case with n = 500, ρ = 0.8.
그림 Figure 5.1. Histogram of salary (y) (a) and log(salary) (b).
표 Table 5.1. Coeﬃcient estimates for various models (M: Mixture reg.)
표 Table 5.2. RMSEP and REP for various models (L: Linear reg., M: Mixture reg.)

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

가 포함되어 있으며 이들 모수의 적절한 선택은 매우 중요하다. 본 연구에서는 과적합을 방지하기 위하여 BIC를 최적화하는 조율모수들을 선택하였다. BIC는
본 연구에서는 성분과 회귀계수에 직접 벌점함수를 적용하여 적절한 성분의 수와 모형에 필요한 회귀계수들을 동시에 선택하는 방법을 제시하였다. 성분에 대한 벌점은 성분들의 로그값에 SCAD 벌점을 주는 Huang 등 (2017)의 방법을 적용하였고 회귀계수들에는 SCAD 이외에 다양한 벌점함수들을 적용하여 가상자료와 실제자료에 대하여 비교하였다.
이 절에서는 전통적인 EM 알고리즘을 M-step에 적용한 수정된 EM 알고리즘을 소개한다.

제안 방법

423)인 두 개의 집단으로 분리하였다. SCAD-SCAD 벌점함수를 조합한 모형은 성분의 개수를 2개로 추정하였으며, 혼합 확률이 (0.567, 0.433)을 가지면서 첫 번째 집단은 3개의 변수(타점, FA자격여부, 연봉협상 자 여부), 두 번째 집단은 2개의 변수(안타수, 연봉협상 자격여부)를 최종적으로 선택하였다. 각 집단에서 선택된 변수들을 고려하면 첫 번째 집단은 베테랑선수의 집단으로 생각할 수 있고,두 번째 집단은 신인선수 집단으로 생각할 수 있다.
각각의 분에 대한 회귀계수들은 β1 = (3, 1.5, 0, 0, 2, 0), β2 = (2,-1.5, 0, 0, 0), β3 = (-2, 1, 0, 0, 1, 0.7)이고 예측변수들의 상관관계는 상관계수가 0.5와 0.8인 AR(1)모형을 고려하였다.
1은 기존 모형과 제안 모형을 통해 얻은 회귀 계수를 나타낸 결과이다. 모든 분석에는 BIC를최적화하는 모형을 선택하였다. 일반선형회귀모형은 후진제거법을 사용하여 변수선택을 하였는데, 8개의 변수(출루율, 안타수, 타점, 볼넷수, 삼진수, FA자격여부, 1991/2년도 FA자격여부, 연봉협상 자격 여부)를 선택한 것으로 나타났다.
성분에 대한 벌점함수는 SCAD만을 고려하였으나 회귀계수들에 대한 벌점함수는 SCAD, adplasso,MCP를 적용하여 결과들을 비교하였다. 모의실험은 각각의 경우에 500번씩 반복하여 추정된 성분의 수와 회귀계수들에 대하여 참값이 0인 경우 이들을 0으로 정확하게 추정한 개수의 평균인 C(Correct)와 참값이 0이 아닌 경우 이들을 잘못 추정한 개수의 평균인 IC(InCorrect)를 살펴보았다. 추정된 성분의 확률들과 회귀계수들은 상자그림을 통하여 편의와 변동을 시각적으로 확인하였다.
반응변수와 예측변수들을 포함하는 관측치들이 이질적인 모집단에 속하여 있는 자료에 대한 분석방법으로 유한혼합회귀모형을 들 수 있으며 이 경우 적절한 하위 모집단의 수와 각 모집단에서 의미있는 예측변수들을 선택하는 것은 매우 중요한 문제이다. 본 연구에서는 유한혼합회귀모형의 성분의 수와 각 성분에 포함된 선형회귀모형의 예측변수들을 동시에 선택할 수 있는 벌점화 모형을 제시하였다. 성분과 예측변수 모두에 벌점함수를 적용하는 기존의 방법 (Luo 등, 2008)을 해결하기 위하여 예측변수들에 대한 벌점함수를 적용하여 성분의 수를 선택하는 대신 각 성분에 대한 확률과 회귀계수들에 직접 벌점함수를 적용하여 과적합 등의 문제를 해결하였다.
본 연구에서는 유한혼합회귀모형의 성분의 수와 각 성분에 포함된 선형회귀모형의 예측변수들을 동시에 선택할 수 있는 벌점화 모형을 제시하였다. 성분과 예측변수 모두에 벌점함수를 적용하는 기존의 방법 (Luo 등, 2008)을 해결하기 위하여 예측변수들에 대한 벌점함수를 적용하여 성분의 수를 선택하는 대신 각 성분에 대한 확률과 회귀계수들에 직접 벌점함수를 적용하여 과적합 등의 문제를 해결하였다.
성분에 대한 벌점함수는 SCAD만을 고려하였으나 회귀계수들에 대한 벌점함수는 SCAD, adplasso,MCP를 적용하여 결과들을 비교하였다. 모의실험은 각각의 경우에 500번씩 반복하여 추정된 성분의 수와 회귀계수들에 대하여 참값이 0인 경우 이들을 0으로 정확하게 추정한 개수의 평균인 C(Correct)와 참값이 0이 아닌 경우 이들을 잘못 추정한 개수의 평균인 IC(InCorrect)를 살펴보았다.
Huang 등 (2017)은 이를 유한정규혼합모형으로 확장하여 혼합 모형의 성분에 변형된 LASSO 벌점함수를 적용하여 BIC방법보다 계산 성능이 우수하며 정규혼합모형에서 일관된 성분의 수를 선택할 수 있음을 증명하였다. 이들은 성분의 확률에 직접 벌점함수를 적용하는 경우 EM-알고리즘의 완전로그가능도함수(complete-datalog-likelihood function)가 성분확률의 로그값을 포함하여 확률값이 0에 근접한 경우 이에 대한 기울기(gradient)가 빠르게 증가하는 문제점을 해결하기 위하여 성분확률의 로그값에 벌점함수를 적용하였다.
추정시 초기 성분의 수를 10으로 두었고 LQA 알고리즘에서 성분확률들의 초기값은 모두 1/10로 동일하게 주었다. 회귀계수들의 초기값은 참값을 평균으로 갖는 정규분포에서 난수를 추출하여 생성하였고 분산의 경우에는 참값을 평균으로 갖는 균일분포를 이용하였다. adplasso방법에서 w도 회귀계수에 대한 초기값을 생성하는 방법과 같은 방법을 적용하여 초기값을 부여하였다.

대상 데이터

1의 오른쪽)를 보여준다. 모형은 전체자료 중 임의로 선택된 90%의 자료를 사용하여 추정하였으며 나머지 10%의 자료는 검증에 사용하였다. 모형의 비교에는 검증자료에 대한 예측값의 평균제곱오차제곱근(root mean squared error of prediction; RMSEP)와예측값의 상대오차(relative error of the prediction in percentage; REP)를 이용하였다 (Wang 등, 2013)
새롭게 제안된 방법의 효과를 살펴보기 위하여 사용된 실제자료는 미국 메이저리그에 소속된 야구선수 337명의 1992년 연봉자료(반응변수 y)와 이와 연관된 1991년도의 성적과 관련이 있는 16개 예측변수들을포함하고있다. 자료는Journal of Statistics Education의웹사이트(www.
새롭게 제안된 방법의 효과를 살펴보기 위하여 사용된 실제자료는 미국 메이저리그에 소속된 야구선수 337명의 1992년 연봉자료(반응변수 y)와 이와 연관된 1991년도의 성적과 관련이 있는 16개 예측변수들을포함하고있다. 자료는Journal of Statistics Education의웹사이트(www.amstat.org/publications/jse)에서 얻을 수 있다. 예측변수들은 타율(x₁), 출루율(x₂), 득점수(x₃), 안타수(x₄), 2루타수(x₅), 3루타수(x₆), 홈런수(x₇), 타점(x₈), 볼넷수(x₉), 삼진수(x₁₀), 도루수(x₁₁), 에러수(x₁₂), FA자격여부(x₁₃), 1991-92시즌에 FA자격을 얻었는지 여부(x₁₄), 연봉협상 자격여부(x₁₅), 1991-92시즌에 연봉협상 자격을 얻었는지 여부(x₁₆)이다.

데이터처리

모형은 전체자료 중 임의로 선택된 90%의 자료를 사용하여 추정하였으며 나머지 10%의 자료는 검증에 사용하였다. 모형의 비교에는 검증자료에 대한 예측값의 평균제곱오차제곱근(root mean squared error of prediction; RMSEP)와예측값의 상대오차(relative error of the prediction in percentage; REP)를 이용하였다 (Wang 등, 2013)
모의실험은 각각의 경우에 500번씩 반복하여 추정된 성분의 수와 회귀계수들에 대하여 참값이 0인 경우 이들을 0으로 정확하게 추정한 개수의 평균인 C(Correct)와 참값이 0이 아닌 경우 이들을 잘못 추정한 개수의 평균인 IC(InCorrect)를 살펴보았다. 추정된 성분의 확률들과 회귀계수들은 상자그림을 통하여 편의와 변동을 시각적으로 확인하였다.

이론/모형

회귀계수들의 초기값은 참값을 평균으로 갖는 정규분포에서 난수를 추출하여 생성하였고 분산의 경우에는 참값을 평균으로 갖는 균일분포를 이용하였다. adplasso방법에서 w도 회귀계수에 대한 초기값을 생성하는 방법과 같은 방법을 적용하여 초기값을 부여하였다.
본 연구에서는 성분과 회귀계수에 직접 벌점함수를 적용하여 적절한 성분의 수와 모형에 필요한 회귀계수들을 동시에 선택하는 방법을 제시하였다. 성분에 대한 벌점은 성분들의 로그값에 SCAD 벌점을 주는 Huang 등 (2017)의 방법을 적용하였고 회귀계수들에는 SCAD 이외에 다양한 벌점함수들을 적용하여 가상자료와 실제자료에 대하여 비교하였다. 새로운 방법은 성분의 수에 직접 벌점함수를 적용하여 Luo 등 (2008)의 방법의 문제점인 과적합을 해결할 수 있었으며 회귀계수에 적절한 벌점함수를 사용하면 계수 추정치의 편의도 크지 않은 것으로 나타났다.
LASSO는 불편성,HARD는 연속성을 만족하지 못하나, Adplasso, SCAD, MCP의 경우에는 희박성과 연속성을 만족하며 계수 추정치가 어느 정도 큰 경우 불편성도 만족한다. 성분에 대한 벌점함수는 Huang 등 (2017)의 방법을 적용하고 회귀계수들에는 Khalili와 Chen (2007)의 벌점함수들을 적용한 가능도함수는 다음과 같다.

성능/효과

각 집단에서 선택된 변수들을 고려하면 첫 번째 집단은 베테랑선수의 집단으로 생각할 수 있고,두 번째 집단은 신인선수 집단으로 생각할 수 있다. SCAD-MCP 방법도 성분 개수를 2개로 추정하였고, 혼합 확률이 (0.549, 0.451)이며 첫 번째 집단은 3개의 변수(타점, FA 자격여부, 연봉협상 자격여부), 두 번째 집단은 3개의 변수(안타수, 타점, FA 자격여부)를 선택한 것으로 나타났다. SCAD-MCP 방법에서는 첫 번째 집단이 신인선수 집단으로 생각이 되고, 두 번째 집단이 베테랑선수의 집단으로 생각된다.
1에는 추정된 성분의 수의 빈도표와 백분율을 포함하였다. SCAD-SCAD를 제외하면 성분의 수를 정확히 추정한 비율이 모두 80%를 넘었으며 SCAD-Adplasso의 조합이 가장 높았다. 모든 경우 성분의 개수를 2로 과소 추정하는 경우보다 4로 과대추정하는 빈도가 높았으며 표본수가 300인 경우 SCAD-MCP 조합에서 상대적으로 추정된 성분의 수가 5 이상으로 나타나는 경우가 많았다.
성분의 경우에는 SCAD-SCAD 조합이 가장 높은 정확도를 보였으며 SCAD-MCP 조합의 경우 성분의 수를 3으로 추정한 비율이 표본수 300에서는 80%에 그리고 표본수 500에서는 90%에 미치지 못하여 다른 두 방법에 비하여 결과가 좋지 않았으며 과소 및 과대추정하는 비율도 높았다. 각 성분별 변수 선택의 경우 C, IC의 결과를 보면 C의 경우 벌점함수의 조합들 간에 큰 차이는 없었으나 MCP 방법의 결과가 가장 좋지 않았다. IC의 경우에는 Adplasso 방법이 다른 두 벌점함수들에 비하여 상대적으로 큰 값을 보였다.
다음으로 변수의 경우 C, IC를 동시에 고려하였을 때 SCAD-MCP 방법이 가장 우수한 것으로 판단된다. SCAD-Adplasso의 경우 C값들은 (3, 3, 2)에 가장 가깝지만 IC값은 (0.
3은 동일한 표본수와 상관계수에 대한 성분1에 SCAD-Adplasso 조합을 적용한 경우의 상자그림이다. 모든 경우 성분1에 대한 회귀계수들의 추정치는 상대적으로 편의와 변동이 작았으나 성분2와 성분3에서의 추정치들의 경우 변동이 상대적으로 크게 나타났다. 특히, 회귀계수들에 Adplasso 벌점함수를 적용한 경우 성분3에 대한 계수 추정치들은 편의와 변동이 SCAD 및 MCP 벌점함수들에 비하여 매우 크게 나타났다.
SCAD-SCAD를 제외하면 성분의 수를 정확히 추정한 비율이 모두 80%를 넘었으며 SCAD-Adplasso의 조합이 가장 높았다. 모든 경우 성분의 개수를 2로 과소 추정하는 경우보다 4로 과대추정하는 빈도가 높았으며 표본수가 300인 경우 SCAD-MCP 조합에서 상대적으로 추정된 성분의 수가 5 이상으로 나타나는 경우가 많았다. SCAD-MCP 방법에서도 표본수가 300인 경우 성분의 개수를 3으로 추정한 경우가 82.
예측변수에 Adplasso를 사용하는 경우에는 표본의 수가 작은 경우 편의와 변동이 다른 벌점함수들에 비하여 크게 나타나 LASSO방법의 단점을 완벽하게 극복하지 못하는 것으로 판단된다. 모의실험 결과에 포함하지는 않았지만 성분에 LASSO 벌점함수를 적용하는 경우 알고리즘이 수렴하지 않는 경우가 빈번하였으며 MCP의 경우에는 SCAD와 큰 차이가 없어 생략하였다. 그리고 성분의 확률에 SCAD 벌점함수를 적용하는 경우 Huang 등의 지적과 달리 로그 벌점함수를 사용하지 않고 직접 벌점함수를 사용하여도 수렴 등에 문제가 없었으며 이에 대한 이론적인 부분은 추가적인 연구가 필요하다.
일반선형회귀모형은 후진제거법을 사용하여 변수선택을 하였는데, 8개의 변수(출루율, 안타수, 타점, 볼넷수, 삼진수, FA자격여부, 1991/2년도 FA자격여부, 연봉협상 자격 여부)를 선택한 것으로 나타났다. 벌점화 회귀모형은 SCAD 방법으로 추정한 결과, 6개의 변수(출루율, 득점수, 타점, 삼진수, FA자격여부, 1991/2년도 FA자격여부, 연봉협상 자격여부)를 선택하였고, 초기 성분수를 2로 두고 성분과 회귀계수에 벌점함수를 적용하지 않은 혼합회귀모형에서는 혼합 확률이(0.577, 0.423)인 두 개의 집단으로 분리하였다. SCAD-SCAD 벌점함수를 조합한 모형은 성분의 개수를 2개로 추정하였으며, 혼합 확률이 (0.
2))에 대한 추정값들의 상자그림을 포함하고 있다. 상관계수에 따른 추정값들의 평균이나 분산에는 큰 차이가 없었으나 상관계수가 큰 경우 분산이 더 컸으며 표본수가 증가하면 추정치의 변동은 줄어드는 것으로 나타났다.
성분에 대한 벌점은 성분들의 로그값에 SCAD 벌점을 주는 Huang 등 (2017)의 방법을 적용하였고 회귀계수들에는 SCAD 이외에 다양한 벌점함수들을 적용하여 가상자료와 실제자료에 대하여 비교하였다. 새로운 방법은 성분의 수에 직접 벌점함수를 적용하여 Luo 등 (2008)의 방법의 문제점인 과적합을 해결할 수 있었으며 회귀계수에 적절한 벌점함수를 사용하면 계수 추정치의 편의도 크지 않은 것으로 나타났다.
성분에 대한 벌점함수는 Huang 등 (2017)이 제시한 각각의 성분에 대한 확률의 로그변환에 SCAD 벌점함수를 적용하였으며 예측변수들에는 SCAD, Adplasso, 및 MCP 벌점함수들을 모의자료와 실제자료에 적용하고 그 결과를 비교한 결과 SCAD-SCAD 조합과 SCAD-MCP 조합에서 적절한 성분의 수와 의미있는 예측변수들을 효과적으로 선택하는 것을 확인할 수 있었다. 예측변수에 Adplasso를 사용하는 경우에는 표본의 수가 작은 경우 편의와 변동이 다른 벌점함수들에 비하여 크게 나타나 LASSO방법의 단점을 완벽하게 극복하지 못하는 것으로 판단된다.
성분의 경우 C, IC는 (7, 0)을 회귀계수의 경우에는 각각의 성분에 대하여 (3, 3, 2), (0, 0, 0)이 참값이다. 성분의 경우를 먼저 살펴보면 C의 경우 SCAD-Adplasso 방법에서 7에 가장 가까운 값을 갖는 것으로 나타났으나 IC값의 경우에는 SCAD나 MCP 방법에 비하여 0과의 차이가 컸다. Huang 등 (2017)이 이미 혼합모형에서 BIC, AIC를 이용하여 성분의 수를 탐색하는 경우 정확히 추정하는 비율이 벌점함수를 사
8인 경우에 대한 결과들이다. 성분의 경우에는 SCAD-SCAD 조합이 가장 높은 정확도를 보였으며 SCAD-MCP 조합의 경우 성분의 수를 3으로 추정한 비율이 표본수 300에서는 80%에 그리고 표본수 500에서는 90%에 미치지 못하여 다른 두 방법에 비하여 결과가 좋지 않았으며 과소 및 과대추정하는 비율도 높았다. 각 성분별 변수 선택의 경우 C, IC의 결과를 보면 C의 경우 벌점함수의 조합들 간에 큰 차이는 없었으나 MCP 방법의 결과가 가장 좋지 않았다.
혼합회귀모형에서 성분의 개수선택과 회귀계수의 선택에 동시에 벌점함수를 적용하려는 시도의 하나로 Luo 등 (2008)은 유한혼합회귀모형에서 성분의 수와 변수 선택에 벌점 함수를 적용하였다. 이 연구에서 회귀 계수 추정에 LASSO 벌점함수를 적용하고, 혼합모형의 성분 수 추정에는 추정된 회귀계수들 간의 L2-norm 거리에 벌점함수를 적용하는 방법을 시도하였으나 성분의 수와 회귀계수가 과적합 되는 경우가 빈번하게 발생하는 것으로 나타났다.
IC의 경우에는 Adplasso 방법이 다른 두 벌점함수들에 비하여 상대적으로 큰 값을 보였다. 전체적으로 C, IC를 동시에 고려하였을 때 SCAD-SCAD 방법이 정확도가 가장 높은 것으로 나타났다.
496)으로 3번째 성분에선 0이 아닌 값을 0으로 추정하는 경우가 매우 많이 나타났다. 전체적으로 n이 증가할수록 C,IC 값이 안정적으로 추정되는 것으로 보이고, 표본의 크기가 커질수록 SCAD-SCAD 방법이 정확도가 가장 높은 것으로 보였다.
2는 분석 방법별 최종 모형의 RMSEP와 REP의 값을 비교한 결과이다. 제안 모형인 SCAD-SCAD 방법과 SCAD-MCP 방법에서 RMSEP와 REP가 기존 분석 방법에 비해 작은 값을 갖는 것으로 나타나 예측력이 더 높음을 확인할 수 있었다.
모든 경우 성분1에 대한 회귀계수들의 추정치는 상대적으로 편의와 변동이 작았으나 성분2와 성분3에서의 추정치들의 경우 변동이 상대적으로 크게 나타났다. 특히, 회귀계수들에 Adplasso 벌점함수를 적용한 경우 성분3에 대한 계수 추정치들은 편의와 변동이 SCAD 및 MCP 벌점함수들에 비하여 매우 크게 나타났다. 다른 경우들에 대한 상자그림들은 위의 두 경우와 큰 차이가 없어 생략하였다.

후속연구

모의실험 결과에 포함하지는 않았지만 성분에 LASSO 벌점함수를 적용하는 경우 알고리즘이 수렴하지 않는 경우가 빈번하였으며 MCP의 경우에는 SCAD와 큰 차이가 없어 생략하였다. 그리고 성분의 확률에 SCAD 벌점함수를 적용하는 경우 Huang 등의 지적과 달리 로그 벌점함수를 사용하지 않고 직접 벌점함수를 사용하여도 수렴 등에 문제가 없었으며 이에 대한 이론적인 부분은 추가적인 연구가 필요하다.
추후 더욱 다양한 모의자료들에 적용한 결과의 비교가 필요한 것으로 보이며 선형모형 뿐만 아니라 일반화선형모형 등 일반적인 모형들에 확장하여 적용하는 것도 가능할 것이다. 본 연구에서 제시한 방법에서 얻어지는 추정치들의 일치성 및 점근적 성질들에 대한 이론적인 연구는 현재 진행중에 있다.

질의응답

핵심어	질문	논문에서 추출한 답변
	유한혼합모형이란?	Pearson (1894)에 의해 처음 제안된 유한혼합모형(finite mixture model)은 사전에 알려진 수의 모집단으로부터 얻어진 표본을 모형화하는 방법으로 생물학, 유전학, 마케팅 등 여러 분야에 사용되고 있다. 유한혼합회귀모형(finite mixture of regression; FMR)은 유한혼합모형의 관측치를 설명하는 예측변수들(predictors)을 포함하며 금융과 사회과학의 여러 분야에 적용 (Wedel과 Kamukura, 2000; Skron-dal과 Rabe-Hesketh, 2004)되고 있다.
	유한혼합모형의 단점은?	Chen (1995)에 의하면 유한혼합모형에서 성분의 수를 모르는 경우 최적 수렴비가 느려지는 것으로 알려져 있으며 과도하게 많은 수의 성분을 사용하면 자료의 과적합(over tting)에 따라 해석이 어려워질 수 있다. 반대의 경우에는 실제 내재하는 자료의 구조를 적절하게 파악하지 못하게 되며 이는 유한혼합회귀모형에서도 동일하게 적용된다.
	AIC, BIC 방법의 문제점은?	유한혼합모형에서 성분의 수를 결정하는 다양한 검정방법(McLachlan과 Peel, 2000)이 있었으나 유한혼합모형의 성분 수의 결정과 변수 선택의 방법으로 주로 전통적인 Akaike information criterion (AIC) (Akaike, 1973)와 Bayes information criterion (BIC)(Schwarz, 1978) 방법 등이 사용되었다. 그러나 이러한 방법들 또한 주어진 자료로부터 가능한 모든 후보 모형을 고려하여 최적 모형을 찾아주기 때문에 고차원(high dimension) 자료의 경우에 많은 연산 시간과 비용을 소요하는 문제가 있다. 이러한 문제를 피하는 방법으로 벌점함수를 적용하는 방법이 있다.

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증