$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

희박한 데이터에 대한 선형판별분석에서 최적의 차원 수 결정
Optimal number of dimensions in linear discriminant analysis for sparse data 원문보기

응용통계연구 = The Korean journal of applied statistics, v.30 no.6, 2017년, pp.867 - 876  

신가인 (성균관대학교 통계학과) ,  김재직 (성균관대학교 통계학과)

초록
AI-Helper 아이콘AI-Helper

오늘날 관찰값의 개수에 비해 변수의 개수가 큰 희박한 데이터셋은 다양한 분야에서 쉽게 찾아볼 수 있고, 통계학에서 그러한 데이터셋에 대한 분석은 하나의 도전이 되어 왔다. 그러한 희박한 데이터에 대한 분류를 위해 판별분석모형들이 최근에 개발되었다. 그러한 판별분석모형들 중 하나의 접근법은 그룹들을 잘 구분해주는 차원들을 찾기를 시도하는데, 그러한 차원들은 데이터의 변수의 개수보다 훨씬 적다. 그러한 모형에서 차원의 수는 예측과 자료의 시각화를 위해 중요한 역할을 하고 일반적으로 K-묶음 교차타당성 방법에 의해 결정된다. 하지만, 희박한 데이터의 경우 K-묶음 교차타당성 방법 적용시 각 묶음에 대한 관찰값의 개수가 매우 적을 수 있기 때문에 교차타당성에 의한 차원 수 결정은 신뢰성이 떨어질 수 있다. 따라서, 본 연구에서는 그러한 희박판별분석모형에 의해 찾아진 차원들에서 각 그룹들의 평균 간의 표준화된 거리에 근거한 측도를 사용하여 최적의 차원 수를 결정하는 방법을 제안하고, 제안된 방법은 모의실험을 통해 검증된다.

Abstract AI-Helper 아이콘AI-Helper

Datasets with small n and large p are often found in various fields and the analysis of the datasets is still a challenge in statistics. Discriminant analysis models for such datasets were recently developed in classification problems. One approach of those models tries to detect dimensions that dis...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 예를 들어 우리는 마이크로어레이(microarray)나 차세대 염기서열(next generation sequencing) 기술에 의해 얻어진 유전자 발현 데이터(gene expression data)를 이용하여 유방암 환자들을 유방암의 유형별로 분류하고 예측하는 것을 목적으로 하는 분석을 원할 수 있다. 또한, 공장에서 품질관리를 위해 생산품들이 양품인지 불량품인지 기계에 부착된 센서에서 전송되는 정보를 설명변수로 고려하여 예측모형을 세우고 이를 바탕으로 실시간으로 생산되는 모든 생산품에 대해 불량품을 찾아내는 것을 원할지도 모른다. 이러한 예에서 사용될 분류모형으로 우리는 선형판별분석을 고려할 수 있지만, 기존의 선형판별분석은 이러한 희박 데이터에 적용될 수 없다.
  • 본 논문에서는 희박 데이터에 대한 선형판별분석에서 최적의 차원 수를 결정하는데 있어 계산적으로 간단하고 안정적인 방법을 제안하였다. 적절한 차원의 수를 선택하는 문제는 예측의 정확도를 결정할 수 있는 하나의 요인이 될 수 있고, 자료의 구조를 파악하고 그 시각화 측면에서도 중요한 역할을 한다.
  • 본 연구에서는 희박 데이터에 대한 적절한 판별벡터와 같은 선형결합을 구하여 판별분석을 수행하는 방법들을 고려하고, 그러한 방법들에서 최적의 차원의 수를 구하는 방법을 제안한다. 차원의 수는 곧 그러한 방법에서 판별벡터의 개수를 의미한다.
  • 본 절에서는 Clemmensen 등 (2011)이 제안한 희박판별분석모형을 간략히 소개하고자 한다. Fisher(1936)의 판별분석은 기본적으로 그룹내 분산(within-class variance)에 비해 그룹간 분산(betweenclass variance)을 최대로 하는 설명변수들의 선형결합을 만드는 판별벡터 r개를 찾는다.
  • 그러나, K-묶음 교차타당성 방법은 주어진 데이터에 의존하는 비모수적인 방법이고 희박데이터의 경우 각 묶음이 갖는 데이터의 개수가 매우 적을 수 있으므로 정확한 차원의 수를 선택하는데 한계가 있을 수 있다. 이 문제를 보완하고 해결하기 위해 판별벡터 또는 방향벡터에 의해 축소된 차원에서 각 그룹 간의 거리에 기반한 최대표준화거리 방법이본 연구에서 소개 되었다.
  • 또한, 교차타당성 방법은 모형을 세우고 예측오차를 추정하는 과정을 반복적으로 요구하기 때문에 계산적으로 높은 시간과 비용을 요구한다. 이에 본 절에서는 보다 안정적이고 계산적으로 간단한 거리측도를 이용하여 희박 데이터에 대한 선형판별분석에서최적의 차원 수를 구하는 방법을 제안한다.
  • 희박판별분석의 최적의 판별벡터의 수와 희박부분최소제곱판별분석의 최적의 방향벡터의 수를 결정하는 문제를 고려해보자. 두 방법 모두 판별벡터 또는 방향벡터를 사용하여 축소된 차원에서 관찰값들의판별분석을 진행한다.

가설 설정

  • 부분최소제곱법에서 X는 각 열의 평균이 0인 n × p인 설명변수들의 행렬이고, Y 역시 각 열의 평균이 0인 n × q인 연속형 반응변수들의 행렬이다. 즉, p개의 설명변수와 q개의 연속형 반응변수들이 있는 것으로 가정한다. 부분최소제곱법은 설명변수와 종속변수 모두를 이용하여 잠재변수를 찾아내고 그 잠재변수들로 반응변수를 예측하는 방법이다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
희박한 데이터의 경우 K-묶음 교차타당성 방법을 적용 시 문제점은? 그러한 모형에서 차원의 수는 예측과 자료의 시각화를 위해 중요한 역할을 하고 일반적으로 K-묶음 교차타당성 방법에 의해 결정된다. 하지만, 희박한 데이터의 경우 K-묶음 교차타당성 방법 적용시 각 묶음에 대한 관찰값의 개수가 매우 적을 수 있기 때문에 교차타당성에 의한 차원 수 결정은 신뢰성이 떨어질 수 있다. 따라서, 본 연구에서는 그러한 희박판별분석모형에 의해 찾아진 차원들에서 각 그룹들의 평균 간의 표준화된 거리에 근거한 측도를 사용하여 최적의 차원 수를 결정하는 방법을 제안하고, 제안된 방법은 모의실험을 통해 검증된다.
부분최소제곱법이란? 즉, p개의 설명변수와 q개의 연속형 반응변수들이 있는 것으로 가정한다. 부분최소제곱법은 설명변수와 종속변수 모두를 이용하여 잠재변수를 찾아내고 그 잠재변수들로 반응변수를 예측하는 방법이다. s개의 잠재변수들의 행렬을 L이라 하면, L = XW에 의해 구할 수 있고, 여기서 W는 s개의방향벡터(direction vector) (w1 · · · ws)를 열로 갖는 p × s 행렬이다.
최대표준화거리 방법의 장점은? 판별벡터 또는 방향벡터들은 그룹들을 더 잘 구분할 수 있는 차원을 제공한다. 따라서, 그룹들의 모든 쌍들이 모두 구분될 수 있는 최소 개수의 차원이 최적의 차원이라 고려될 수 있고, 축소된 차원에서 그룹 간의 표준화된 거리가 최대가 되는 차원들 모두의 집합이 곧 관찰값들을 분류하는 최적의 차원들이 될 수 있다. 또한, 계산적인 측면에서 K-묶음 교차타당성 방법은 각 차원 수에 대해 반복적인 계산을 요구하지만 최대표준화거리 방법은 한 번의 계산으로 차원 수를 결정할 수 있다는 이점이 있다.
질의응답 정보가 도움이 되었나요?

참고문헌 (12)

  1. Breiman, L., Friedman, J., Olshen, R. A., and Stone, C. J. (1984). Classification and Regression Trees, Wadsworth International Group. 

  2. Chun, H. and Keles, S. (2010). Sparse partial least squares regression for simultaneous dimension reduction and variable selection, Journal of Royal Statistical Society, Series B, 72, 3-25. 

  3. Chung, D. and Keles, S. (2010). Sparse partial least squares classification for high dimensional data, Statistical Applications in Genetics and Molecular Biology, 9, 1544-6115. 

  4. Clemmensen, L., Hastie, T., Witten, D., and Ersboll, B. (2011). Sparse discriminant analysis, Technometrics, 53, 406-413. 

  5. Efron, B. and Tibshirani, R. (1997). Improvements on cross-validation: the 632+ bootstrap method, Journal of the American Statistical Association, 92, 548-560. 

  6. Fisher, R. A. (1936). The use of multiple measurements in taxonomic problems, Annals of Eugenics, 7, 179-188. 

  7. Guo, Y., Hastie, T., and Tibshirani, R. (2007). Regularized linear discriminant analysis and its applications in microarrays, Biostatistics, 8, 86-100. 

  8. Hastie, T., Buja, A., and Tibshirani, R. (1995). Penalized discriminant analysis, The Annals of Statistics, 23, 73-102. 

  9. Hastie, T., Tibshirani, R., and Friedman, J. (2009). The Element of Statistical Learning, Springer, New York. 

  10. McLachlan, G. (2004). Discriminant Analysis and Statistical Pattern Recognition, John Wiley & Sons, New Jersey. 

  11. Witten, D. and Tibshirani, R. (2011). Penalized classification using Fisher's linear discriminant, Journal of Royal Statistical Society, Series B, 73, 753-772. 

  12. Zou, H. and Hastie, T. (2005). Regularization and variable selection via the elastic-net, Journal of Royal Statistical Society, Series B, 67, 301-320. 

저자의 다른 논문 :

LOADING...

관련 콘텐츠

오픈액세스(OA) 유형

GOLD

오픈액세스 학술지에 출판된 논문

이 논문과 함께 이용한 콘텐츠

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로