[논문]계층적 벌점함수를 이용한 주성분분석

강종경; 박재신; 방성완

doi:10.5351/kjas.2017.30.1.135

초록
AI-Helper

주성분 분석(principal component analysis; PCA)은 서로 상관되어 있는 다변량 자료의 차원을 축소하는 대표적인 기법으로 많은 다변량 분석에서 활용되고 있다. 하지만 주성분은 모든 변수들의 선형결합으로 이루어지므로, 그 결과의 해석이 어렵다는 한계가 있다. sparse PCA(SPCA) 방법은 elastic net 형태의 벌점함수를 이용하여 보다 성긴(sparse) 적재를 가진 수정된 주성분을 만들어주지만, 변수들의 그룹구조를 이용하지 못한다는 한계가 있다. 이에 본 연구에서는 기존 SPCA를 개선하여, 자료가 그룹화되어 있는 경우에 유의한 그룹을 선택함과 동시에 그룹 내 불필요한 변수를 제거할 수 있는 새로운 주성분 분석 방법을 제시하고자 한다. 그룹과 그룹 내 변수 구조를 모형 적합에 이용하기 위하여, sparse 주성분 분석에서의 elastic net 벌점함수 대신에 계층적 벌점함수 형태를 고려하였다. 또한 실제 자료의 분석을 통해 제안 방법의 성능 및 유용성을 입증하였다.

Abstract ▼ AI-Helper

Principal component analysis (PCA) describes the variation of multivariate data in terms of a set of uncorrelated variables. Since each principal component is a linear combination of all variables and the loadings are typically non-zero, it is difficult to interpret the derived principal components....

Principal component analysis (PCA) describes the variation of multivariate data in terms of a set of uncorrelated variables. Since each principal component is a linear combination of all variables and the loadings are typically non-zero, it is difficult to interpret the derived principal components. Sparse principal component analysis (SPCA) is a specialized technique using the elastic net penalty function to produce sparse loadings in principal component analysis. When data are structured by groups of variables, it is desirable to select variables in a grouped manner. In this paper, we propose a new PCA method to improve variable selection performance when variables are grouped, which not only selects important groups but also removes unimportant variables within identified groups. To incorporate group information into model fitting, we consider a hierarchical lasso penalty instead of the elastic net penalty in SPCA. Real data analyses demonstrate the performance and usefulness of the proposed method.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

즉, 주성분 분석은 변수들의 선형변환을 통해 자료에 존재하는 원래의 변동(variation)을 가능한 한 많이 설명하는 새로운 인공 변수, 즉 주성 분을 생성하는 것을 그 목적으로 한다.
본 논문에서는 변수들이 그룹화되어 있는 다변량자료의 분석에 적용 및 활용할 수 있는 주성분 분석 기법에 관하여 연구하였다.

제안 방법

각 바다게로부터 채집된 미량원소(trace element)는 25가지이며, 따라서 48개의 세포조직 표본이 3개의 세포조직 형태에 따라 25가지의 미량 원소 종류에 대한 분석이 이루어졌다.
그룹과 그룹 내 변수 구조를 모델 적합에 동시에 이용하기 위하여, lasso 또 는 group lasso 형태의 벌점함수 대신에 계층적 벌점함수 (Kang 등, 2016; Wang 등, 2009)를 적용하는 새로운 주성분 분석 기법을 제안하였으며, 모형적합을 위한 계산 알고리즘으로 이차계획법(quadratic programming)을 이용한 반복 추정방법을 제시하였다.
Gemperline과 그의 동료들은 어떤 미량 원소들이 이 질병의 발생과 관련이 있는지를 조사하기 위하여 바다게의 아가미, 간췌장, 그리고 근육으로부터 세포를 채집하였다.
H-SPCA를 이용하여 성긴 적재를 구하기 위해서는 먼저 전통적인 주성분 분석을 실시한다.
Step 2의 반복추정의 각 단계를 살펴보면 우선 γj를 고정시킨 상태에서 θjk를 추정하고, 추정된 θjk를 고정시킨 상태에서 γj를 추정하였으며, γj와 θjk가 수렴할 때까지 이를 반복하였다.
본 연구는 변수들이 그룹화되어 있는 다변량 자료의 주성분 분석에서의 변수 선택 및 추정 방법으로 계층적 축소추정법을 제안하였다.
제안방법인 H-SPCA와의 비교를 위해 전통적인 주성분 분석과, SPCA, 그리고 G-SPCA를 이용하여 각각 자료를 분석하였다.

대상 데이터

조사 대상은 노스 캐롤라이나의 알베말만(Albermarle Sound) 지역의 바다게, 그리고 팜리코 강의 병든 바다게와 건강한 바다게 각각 16마리로, 총 48마리이다.
주성분분석을 위하여 본 연구 에서는 결측치가 있는 국가와 이산형 변수들을 제외한 72개 국가의 37개의 변수들을 이용하였다.

이론/모형

Step 2에서의 γj와 θjk의 추정을 위하여, 본 논문에서는 다음과 같은 반복적 추정방법을 이용하였다.

성능/효과

SPCA의 경우 그룹 정보를 모형적합에 반영한 G-SPCA와 제안방법인 H-SPCA 보다 많은 수의 0이 아닌 적재를 갖고도 낮은 설명력을 보였다.

질의응답

핵심어	질문	논문에서 추출한 답변
	SPCA 방법의 한계는?	하지만 주성분은 모든 변수들의 선형결합으로 이루어지므로, 그 결과의 해석이 어렵다는 한계가 있다. sparse PCA(SPCA) 방법은 elastic net 형태의 벌점함수를 이용하여 보다 성긴(sparse) 적재를 가진 수정된 주성분을 만들어주지만, 변수들의 그룹구조를 이용하지 못한다는 한계가 있다. 이에 본 연구에서는 기존 SPCA를 개선하여, 자료가 그룹화되어 있는 경우에 유의한 그룹을 선택함과 동시에 그룹 내 불필요한 변수를 제거할 수 있는 새로운 주성분 분석 방법을 제시하고자 한다.
	H-SPCA는 기존 G-SPCA의 어떠한 점을 보완하기 위해 제안되었는가?	2)는 group lasso 형태의 벌점함수를 이용하기 때문에, 변수들의 그룹구조를 모 형적합에 활용한다는 장점은 있지만, 그룹 내 개별 변수들에 대해서는 축소추정을 하지 못하는 한계가 있다. 따라서 G-SPCA는 그룹별 변수선택에는 효율적이나 선택된 그룹 내에서는 변수선택이 이루어지 지않는다. 이러한 점을 보완하기 위하여 본 논문에서는 계층적 벌점함수를 이용하여 그룹 간과 그룹 내에서의 변수선택이 동시에 이루어지는 H-SPCA를 제안하고자 한다.
	주성분의 한계는?	주성분 분석(principal component analysis; PCA)은 서로 상관되어 있는 다변량 자료의 차원을 축소하는 대표적인 기법으로 많은 다변량 분석에서 활용되고 있다. 하지만 주성분은 모든 변수들의 선형결합으로 이루어지므로, 그 결과의 해석이 어렵다는 한계가 있다. sparse PCA(SPCA) 방법은 elastic net 형태의 벌점함수를 이용하여 보다 성긴(sparse) 적재를 가진 수정된 주성분을 만들어주지만, 변수들의 그룹구조를 이용하지 못한다는 한계가 있다.

참고문헌 (11)

Bernard, A., Guinot, C., and Saporta, G. (2012). Sparse principal component analysis for multiblock data and its extension to sparse multiple correspondence analysis. In Proceedings of 20th International Conference on Computational Statistics (pp. 99-106).
Gemperline, P. J., Miller, K. H., West, T. L., Weinstein, J. E., Hamilton, J. C., and Bray, J. T. (1992). Principal component analysis, trace elements, and blue crab shell disease, Analytical Chemistry, 64, 523-531.

상세보기
Hoerl, A. E. and Kennard, R. W. (1970). Ridge regression: biased estimation for nonorthogonal problems, Technometrics, 12, 55-67.

상세보기
Kang, J., Bang, S., and Jhun, M. (2016). Hierarchically penalized quantile regression, Journal of Statistical Computation and Simulation, 86, 340-356.

상세보기
Rose, A. K. and Spiegel, M. M. (2011). Cross-country causes and consequences of the crisis: an update, European Economic Review, 55, 309-324.

상세보기
Shen, H. and Huang, J. Z. (2008). Sparse principal component analysis via regularized low rank matrix approximation, Journal of Multivariate Analysis, 99, 1015-1034.

상세보기
Tibshirani, R. (1996). Regression shrinkage and selection via the lasso, Journal of the Royal Statistical Society Series B (Methodological), 58, 267-288.

상세보기
Wang, S., Nan, B., Zhou, N., and Zhu, J. (2009). Hierarchically penalized Cox regression with grouped variables, Biometrika, 96, 307-322.

상세보기
Yuan, M. and Lin, Y. (2006). Model selection and estimation in regression with grouped variables, Journal of the Royal Statistical Society Series B (Methodological), 68, 49-67.

상세보기
Zou, H. and Hastie, T. (2003). Regularization and variable selection via the elastic net, Journal of the Royal Statistical Society Series B (Methodological), 67, 301-320.
Zou, H., Hastie, T., and Tibshirani, R. (2006). Sparse principal component analysis, Journal of Computational and Graphical Statistics, 15, 265-286.

상세보기

이 논문을 인용한 문헌

저자의 다른 논문 :

LOADING...

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

계층적 벌점함수를 이용한 주성분분석
Hierarchically penalized sparse principal component analysis 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

질의응답

참고문헌 (11)

이 논문을 인용한 문헌

저자의 다른 논문 :

연구과제 타임라인

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

계층적 벌점함수를 이용한 주성분분석 Hierarchically penalized sparse principal component analysis 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

질의응답

참고문헌 (11)

이 논문을 인용한 문헌

저자의 다른 논문 :

박재신 (1) 방성완 (18)

연구과제 타임라인

전체(0) 논문(0) 특허(0) 보고서(0)

전체(0) 논문(0) 특허(0) 보고서(0)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

계층적 벌점함수를 이용한 주성분분석
Hierarchically penalized sparse principal component analysis 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper