[논문]희박한 데이터에 대한 선형판별분석에서 최적의 차원 수 결정

신가인; 김재직

doi:10.5351/kjas.2017.30.6.867

희박한 데이터에 대한 선형판별분석에서 최적의 차원 수 결정
Optimal number of dimensions in linear discriminant analysis for sparse data 원문보기

응용통계연구 = The Korean journal of applied statistics, v.30 no.6, 2017년, pp.867 - 876

초록
AI-Helper

오늘날 관찰값의 개수에 비해 변수의 개수가 큰 희박한 데이터셋은 다양한 분야에서 쉽게 찾아볼 수 있고, 통계학에서 그러한 데이터셋에 대한 분석은 하나의 도전이 되어 왔다. 그러한 희박한 데이터에 대한 분류를 위해 판별분석모형들이 최근에 개발되었다. 그러한 판별분석모형들 중 하나의 접근법은 그룹들을 잘 구분해주는 차원들을 찾기를 시도하는데, 그러한 차원들은 데이터의 변수의 개수보다 훨씬 적다. 그러한 모형에서 차원의 수는 예측과 자료의 시각화를 위해 중요한 역할을 하고 일반적으로 K-묶음 교차타당성 방법에 의해 결정된다. 하지만, 희박한 데이터의 경우 K-묶음 교차타당성 방법 적용시 각 묶음에 대한 관찰값의 개수가 매우 적을 수 있기 때문에 교차타당성에 의한 차원 수 결정은 신뢰성이 떨어질 수 있다. 따라서, 본 연구에서는 그러한 희박판별분석모형에 의해 찾아진 차원들에서 각 그룹들의 평균 간의 표준화된 거리에 근거한 측도를 사용하여 최적의 차원 수를 결정하는 방법을 제안하고, 제안된 방법은 모의실험을 통해 검증된다.

Abstract ▼ AI-Helper

Datasets with small n and large p are often found in various fields and the analysis of the datasets is still a challenge in statistics. Discriminant analysis models for such datasets were recently developed in classification problems. One approach of those models tries to detect dimensions that distinguish between groups well and the number of the detected dimensions is typically smaller than p. In such models, the number of dimensions is important because the prediction and visualization of data and can be usually determined by the K-fold cross-validation (CV). However, in sparse data scenarios, the CV is not reliable for determining the optimal number of dimensions since there can be only a few observations for each fold. Thus, we propose a method to determine the number of dimensions using a measure based on the standardized distance between the mean values of each group in the reduced dimensions. The proposed method is verified through simulations.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

예를 들어 우리는 마이크로어레이(microarray)나 차세대 염기서열(next generation sequencing) 기술에 의해 얻어진 유전자 발현 데이터(gene expression data)를 이용하여 유방암 환자들을 유방암의 유형별로 분류하고 예측하는 것을 목적으로 하는 분석을 원할 수 있다. 또한, 공장에서 품질관리를 위해 생산품들이 양품인지 불량품인지 기계에 부착된 센서에서 전송되는 정보를 설명변수로 고려하여 예측모형을 세우고 이를 바탕으로 실시간으로 생산되는 모든 생산품에 대해 불량품을 찾아내는 것을 원할지도 모른다. 이러한 예에서 사용될 분류모형으로 우리는 선형판별분석을 고려할 수 있지만, 기존의 선형판별분석은 이러한 희박 데이터에 적용될 수 없다.
본 논문에서는 희박 데이터에 대한 선형판별분석에서 최적의 차원 수를 결정하는데 있어 계산적으로 간단하고 안정적인 방법을 제안하였다. 적절한 차원의 수를 선택하는 문제는 예측의 정확도를 결정할 수 있는 하나의 요인이 될 수 있고, 자료의 구조를 파악하고 그 시각화 측면에서도 중요한 역할을 한다.
본 연구에서는 희박 데이터에 대한 적절한 판별벡터와 같은 선형결합을 구하여 판별분석을 수행하는 방법들을 고려하고, 그러한 방법들에서 최적의 차원의 수를 구하는 방법을 제안한다. 차원의 수는 곧 그러한 방법에서 판별벡터의 개수를 의미한다.
본 절에서는 Clemmensen 등 (2011)이 제안한 희박판별분석모형을 간략히 소개하고자 한다. Fisher(1936)의 판별분석은 기본적으로 그룹내 분산(within-class variance)에 비해 그룹간 분산(betweenclass variance)을 최대로 하는 설명변수들의 선형결합을 만드는 판별벡터 r개를 찾는다.
그러나, K-묶음 교차타당성 방법은 주어진 데이터에 의존하는 비모수적인 방법이고 희박데이터의 경우 각 묶음이 갖는 데이터의 개수가 매우 적을 수 있으므로 정확한 차원의 수를 선택하는데 한계가 있을 수 있다. 이 문제를 보완하고 해결하기 위해 판별벡터 또는 방향벡터에 의해 축소된 차원에서 각 그룹 간의 거리에 기반한 최대표준화거리 방법이본 연구에서 소개 되었다.
또한, 교차타당성 방법은 모형을 세우고 예측오차를 추정하는 과정을 반복적으로 요구하기 때문에 계산적으로 높은 시간과 비용을 요구한다. 이에 본 절에서는 보다 안정적이고 계산적으로 간단한 거리측도를 이용하여 희박 데이터에 대한 선형판별분석에서최적의 차원 수를 구하는 방법을 제안한다.
희박판별분석의 최적의 판별벡터의 수와 희박부분최소제곱판별분석의 최적의 방향벡터의 수를 결정하는 문제를 고려해보자. 두 방법 모두 판별벡터 또는 방향벡터를 사용하여 축소된 차원에서 관찰값들의판별분석을 진행한다.

가설 설정

부분최소제곱법에서 X는 각 열의 평균이 0인 n × p인 설명변수들의 행렬이고, Y 역시 각 열의 평균이 0인 n × q인 연속형 반응변수들의 행렬이다. 즉, p개의 설명변수와 q개의 연속형 반응변수들이 있는 것으로 가정한다. 부분최소제곱법은 설명변수와 종속변수 모두를 이용하여 잠재변수를 찾아내고 그 잠재변수들로 반응변수를 예측하는 방법이다.

제안 방법

2절에서는 Clemmensen 등 (2011)의 희박판별분석모형과 Chung과 Keles (2010)의 희박부분최소제곱판별분석모형을 각각 간단히 소개하고, 3절에서는 그룹들의 평균간 표준화 거리를 이용하여 판별분석의 차원 수를 결정하는 방법을 제안한다. 4절에서는 다양한 상황 하에서의 모의실험을 통해 교차타당성 방법과 본 연구에서 제안한 방법을 비교하고 그 방법의 성능을 검증한다.
1)의 Z로 변환시킨다. Z에 5-묶음 교차타당성 방법과 본 연구에서 제안하는 최대표준화거리 방법을 모두 적용하여 설정한 참인 차원 수를 찾는지 조사하고, 이러한 과정을 모두 1,000번 반복하여 각 방법이 참인 차원 수를 1,000번 중 몇 번 찾아내는지 비교한다. 또한, 참인 차원 수에서 실제로 예측오차가 가장 낮은지 알아보기 위해 5,000개의 관찰값을 갖는 테스트 데이터셋을 만들고 각 반복에서 만들어진 희박판별분석과 희박부분최소제곱판별분석 모형을 테스트 데이터셋에 적용하여 각 차원 수에서 오분류율(misclassification rate)을 구한다.
본 연구에서 제안하는 방법은 판별벡터에 의해 축소된 차원에서 각 그룹의 평균 간의 표준화된 거리에 근거하고, 이 방법은 판별벡터를 이용하는 모든 희박 데이터에 대한 선형판별분석모형에 적용 가능하다. 그러나, 본 연구에서는 그러한 모형 중에서 Clemmensen 등 (2011)의 희박판별분석모형과 Chung과 Keles (2010)의 희박부분최소제곱판별분석모형에 대해 제안된 차원 수 결정 방법을 적용하고 검증한다.
즉, 두 그룹의 중심이 멀리 떨어져 있어도 두 그룹의 분산이 크다면 두 집단은 잘 구분되지 않을 것이다. 따라서, 우리는 그룹들의 분산을 이용해 표준화된 차원에서 두 집단의 중심 간의 거리를 최대화하는 차원들을 식별하여 최적의 차원 수를 결정하는 방법을 제안한다. 먼저 희박판별분석의 판별벡터 또는 희박부분최소제곱판별분석의 방향벡터에 의해 축소된 차원에서의 관찰값들인 식 (3.
이는K-묶음 교차타당성 방법이 안정적으로 최적의 차원 수를 찾는데 한계가 있다는 것을 의미한다. 따라서, 이 문제를 해결하기 위해 우리는 주어진 데이터를 K 묶음으로 분할하지 않고 n개의 모든 관찰값들을 이용한 하나의 측도로 부터 최적의 차원 수를 찾는 방법을 제안한다. 본 연구에서 제안하는 방법은 판별벡터에 의해 축소된 차원에서 각 그룹의 평균 간의 표준화된 거리에 근거하고, 이 방법은 판별벡터를 이용하는 모든 희박 데이터에 대한 선형판별분석모형에 적용 가능하다.
2는 희박판별분석과 희박부분최소제곱판별분석의 두 모형에 대해 각 참인 차원 수에서 최대표준화거리방법과 5-묶음 교차타당성 방법이 찾은 차원 수를 보여준다. 또한, 두 모형을 각 차원 수에 대해 테스트 데이터셋에 적용하여 구한 오분류율을 보여준다. Table 4.
Z에 5-묶음 교차타당성 방법과 본 연구에서 제안하는 최대표준화거리 방법을 모두 적용하여 설정한 참인 차원 수를 찾는지 조사하고, 이러한 과정을 모두 1,000번 반복하여 각 방법이 참인 차원 수를 1,000번 중 몇 번 찾아내는지 비교한다. 또한, 참인 차원 수에서 실제로 예측오차가 가장 낮은지 알아보기 위해 5,000개의 관찰값을 갖는 테스트 데이터셋을 만들고 각 반복에서 만들어진 희박판별분석과 희박부분최소제곱판별분석 모형을 테스트 데이터셋에 적용하여 각 차원 수에서 오분류율(misclassification rate)을 구한다. 최종적으로 각 차원 수에서 1,000개의 오분류율값에 대한 평균을 구해 제시한다.
본 연구에서 제안된 최대표준화거리방법의 희박데이터에 대한 선형판별분석에서의 성능을 평가하기 위해 본 절에서는 모의실험을 통해 K-묶음 교차타당성 방법의 성능과 비교를 시도한다. 본 모의실험에서는 모든 그룹들을 분류하는데 필요한 최적의 차원의 수가 2차원, 3차원, 5차원인 경우들을 고려한다. 각각의 경우에 대해 관찰값의 수는 100개, 독립변수의 수는 1,000개로 (n = 100, p = 1000) 희박 데이터를 고려하고, 종속변수는 모두 동일한 크기를 갖는 10개의 집단으로 설정한다 (즉, G = 10이고n₁ = · · · = n₁₀ = 10).
본 연구에서 제안된 최대표준화거리방법의 희박데이터에 대한 선형판별분석에서의 성능을 평가하기 위해 본 절에서는 모의실험을 통해 K-묶음 교차타당성 방법의 성능과 비교를 시도한다. 본 모의실험에서는 모든 그룹들을 분류하는데 필요한 최적의 차원의 수가 2차원, 3차원, 5차원인 경우들을 고려한다.
따라서, 이 문제를 해결하기 위해 우리는 주어진 데이터를 K 묶음으로 분할하지 않고 n개의 모든 관찰값들을 이용한 하나의 측도로 부터 최적의 차원 수를 찾는 방법을 제안한다. 본 연구에서 제안하는 방법은 판별벡터에 의해 축소된 차원에서 각 그룹의 평균 간의 표준화된 거리에 근거하고, 이 방법은 판별벡터를 이용하는 모든 희박 데이터에 대한 선형판별분석모형에 적용 가능하다. 그러나, 본 연구에서는 그러한 모형 중에서 Clemmensen 등 (2011)의 희박판별분석모형과 Chung과 Keles (2010)의 희박부분최소제곱판별분석모형에 대해 제안된 차원 수 결정 방법을 적용하고 검증한다.
표준화 거리행렬 D_j는 대각요소가 모두 0이고 대칭인 행렬이므로 우리는 Dj의 상삼각 또는 하삼각만을 고려할 수 있다. 이제 최적의 차원 수를 결정하기 위해 t개의 표준화 행렬들의 상삼각의 같은 위치(같은 행과 열)의 거리들을 비교하여 최대거리를 구하고, 그 최대거리에 대응하는 축소된 차원을 찾는다. 즉,

이론/모형

먼저 p ≫ n인 상황에서 full-rank를 갖는 그룹내 공분산 행렬의 추정을 위해 벌점화 방법(regularization method)을 이용할 수 있다. Guo 등 (2007)은 p ≫ n인 상황 하에서 추정된 그룹내 공분산 행렬의 대각요소에 0과 1 사이의 적당한 값을 더해줌으로써 그 문제를 해결하였고, Hastie 등 (1995)는 그룹내공분산 행렬에 적절한 양정치 행렬(positive definite matrix)를 더하는 방법을 제안하였다.

성능/효과

결론적으로 본 연구에서는 모의실험을 통해 희박데이터의 선형판별분석에서 K-묶음 교차타당성 방법이최적의 차원 수를 결정하는데 있어 한계가 있다는 것을 보였고, 이에 대한 대안으로써 최대표준화거리방법이 보다 나은 결과를 제공할 수 있다는 것을 보였다.
데이터 내의 모든 그룹들을 분류하고 구분하는데 적절한 차원의 수보다 많거나 적을 경우 과대적합(overfitting) 또는 과소적합(underfitting) 문제가 발생하여 예측오차는 커질 수 있다 (McLachlan, 2004; Hastie 등, 2009; Clemmensen 등, 2011). 또한 판별분석의 결과로써 최적의 차원을 통해 데이터를 보여주면 데이터 내 그룹들의 구조를 효율적으로 시각화할 수 있다는 장점이 있다. 판별분석은 반응변수가 존재하는 지도학습(supervised learning)에 속하므로, 일반적으로 최적의 차원 수는 Breiman 등 (1984)에 의해 제안된 K-묶음 교차타당성(K-fold cross validation) 방법에 의해 구해질 수 있다.
2로 부터 두 모형에서 모두 참인 차원 수에서 가장 낮은 테스트 오분류율을 갖는다는 것을 알 수 있고, 이는 참인 차원 수가 최적의 차원임을 증명한다. 모의실험의 결과로 부터 우리는 본 연구에서 제안한 최대표준화거리 방법이 K-묶음 교차타당성 방법에 비해 희박 데이터에 대한 선형판별분석에서 최적의 차원 수를 더 정확하고 안정적이게 찾아준다는 것을 알 수 있다.
또한, K-묶음 교차타당성 방법은 잘못 찾은 경우에 대한 차원 수가 넓게 분포되어 있는데 반해, 최대표준화거리 방법은 잘못 찾은 경우에도 그 차원 수가 참인 차원 수 근처임을 알 수 있다. 즉, 이 결과는 최대표준화거리 방법이 K-묶음 교차타당성 방법에 비해 희박데이터에 대해서 안정적으로 참인 차원 수를 찾음을 보여준다. 또한, Table 4.

질의응답

핵심어	질문	논문에서 추출한 답변
	희박한 데이터의 경우 K-묶음 교차타당성 방법을 적용 시 문제점은?	그러한 모형에서 차원의 수는 예측과 자료의 시각화를 위해 중요한 역할을 하고 일반적으로 K-묶음 교차타당성 방법에 의해 결정된다. 하지만, 희박한 데이터의 경우 K-묶음 교차타당성 방법 적용시 각 묶음에 대한 관찰값의 개수가 매우 적을 수 있기 때문에 교차타당성에 의한 차원 수 결정은 신뢰성이 떨어질 수 있다. 따라서, 본 연구에서는 그러한 희박판별분석모형에 의해 찾아진 차원들에서 각 그룹들의 평균 간의 표준화된 거리에 근거한 측도를 사용하여 최적의 차원 수를 결정하는 방법을 제안하고, 제안된 방법은 모의실험을 통해 검증된다.
	부분최소제곱법이란?	즉, p개의 설명변수와 q개의 연속형 반응변수들이 있는 것으로 가정한다. 부분최소제곱법은 설명변수와 종속변수 모두를 이용하여 잠재변수를 찾아내고 그 잠재변수들로 반응변수를 예측하는 방법이다. s개의 잠재변수들의 행렬을 L이라 하면, L = XW에 의해 구할 수 있고, 여기서 W는 s개의방향벡터(direction vector) (w1 · · · ws)를 열로 갖는 p × s 행렬이다.
	최대표준화거리 방법의 장점은?	판별벡터 또는 방향벡터들은 그룹들을 더 잘 구분할 수 있는 차원을 제공한다. 따라서, 그룹들의 모든 쌍들이 모두 구분될 수 있는 최소 개수의 차원이 최적의 차원이라 고려될 수 있고, 축소된 차원에서 그룹 간의 표준화된 거리가 최대가 되는 차원들 모두의 집합이 곧 관찰값들을 분류하는 최적의 차원들이 될 수 있다. 또한, 계산적인 측면에서 K-묶음 교차타당성 방법은 각 차원 수에 대해 반복적인 계산을 요구하지만 최대표준화거리 방법은 한 번의 계산으로 차원 수를 결정할 수 있다는 이점이 있다.

참고문헌 (12)

Breiman, L., Friedman, J., Olshen, R. A., and Stone, C. J. (1984). Classification and Regression Trees, Wadsworth International Group.
Chun, H. and Keles, S. (2010). Sparse partial least squares regression for simultaneous dimension reduction and variable selection, Journal of Royal Statistical Society, Series B, 72, 3-25.

상세보기
Chung, D. and Keles, S. (2010). Sparse partial least squares classification for high dimensional data, Statistical Applications in Genetics and Molecular Biology, 9, 1544-6115.
Clemmensen, L., Hastie, T., Witten, D., and Ersboll, B. (2011). Sparse discriminant analysis, Technometrics, 53, 406-413.

상세보기
Efron, B. and Tibshirani, R. (1997). Improvements on cross-validation: the 632+ bootstrap method, Journal of the American Statistical Association, 92, 548-560.

상세보기
Fisher, R. A. (1936). The use of multiple measurements in taxonomic problems, Annals of Eugenics, 7, 179-188.

상세보기
Guo, Y., Hastie, T., and Tibshirani, R. (2007). Regularized linear discriminant analysis and its applications in microarrays, Biostatistics, 8, 86-100.

상세보기
Hastie, T., Buja, A., and Tibshirani, R. (1995). Penalized discriminant analysis, The Annals of Statistics, 23, 73-102.

상세보기
Hastie, T., Tibshirani, R., and Friedman, J. (2009). The Element of Statistical Learning, Springer, New York.
McLachlan, G. (2004). Discriminant Analysis and Statistical Pattern Recognition, John Wiley & Sons, New Jersey.
Witten, D. and Tibshirani, R. (2011). Penalized classification using Fisher's linear discriminant, Journal of Royal Statistical Society, Series B, 73, 753-772.

상세보기
Zou, H. and Hastie, T. (2005). Regularization and variable selection via the elastic-net, Journal of Royal Statistical Society, Series B, 67, 301-320.

상세보기

저자의 다른 논문 :

LOADING...

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증