최소 단어 이상 선택하여야 합니다.
최대 10 단어까지만 선택 가능합니다.
다음과 같은 기능을 한번의 로그인으로 사용 할 수 있습니다.
NTIS 바로가기응용통계연구 = The Korean journal of applied statistics, v.33 no.1, 2020년, pp.61 - 74
최수진 (한국외국어대학교 통계학과) , 강기훈 (한국외국어대학교 통계학과)
Interval-valued data, one type of symbolic data, are observed in the form of intervals rather than single values. Each interval-valued observation has an internal variation. Principal component analysis reduces the dimension of data by maximizing the variance of data. Therefore, the principal compon...
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
핵심어 | 질문 | 논문에서 추출한 답변 |
---|---|---|
보통 통계적 분석 대상의 자료형태는 어떠한가? | 보통 통계적 분석 대상이 되는 자료의 형태는 하나의 값을 관측값으로 가지는 단일 값 자료(single-valued data)이다. 그러나 현대사회에서는 자료의 양이 점점 방대해지고 구조가 복잡해지면서 다양한 형태의 자료가 등장하고 있다. | |
구간형 자료에 관한 연구에는 무엇이 있었는가? | SPCA는 구간형 자료에 관한 연구로부터 시작되었다. Cazes 등 (1997)과 Chouakria (1998)가 가장 먼저 분석을 시도하였는데, 이들은 구간의 중심점을 추출하여 단일 값 자료로 변환한 뒤 주성분을 계산하는 중심점 방법(centers method; CPCA)과 구간들에 의해 형성된 초직사각형(hyperrectangle)에서 꼭짓점을 추출해 주성분을 계산하는 꼭짓점 방법(vertices method; VPCA)을 제안하였다. CPCA에서 구간의 변동성을 전혀 반영하지 않는다는 문제점을 개선하기 위해, Palumbo와 Lauro (2003)와 Lauro 등 (2008)은 구간의 중심점을 추출하는 것에서 나아가 구간의 범위의 절반값을 추출하여 이들을 두 개의 변수로 사용하는 중심점-반지름 방법(midpoint-radii method; MRPCA)을 제안하였다. VPCA의 경우는 모든 꼭짓점들이 서로 독립인 관측값이라고 가정하였는데, 동일한 초직사각형에서 추출된 꼭짓점들은 서로 독립이라고 보기 힘들다는 문제점이 있다. Chouakria 등 (2011)에서도 VPCA의 공분산 행렬은 구간의 전체 변동이 아닌 일부만 설명하고 있다는 것을 보였다. | |
주성분분석의 목적은? | 단일 값 형태가 아닌 심볼릭 자료는 관측값 내에 변동이 존재한다는 점에서 단일 값 자료와 구분되며, 이를 대상으로 한 통계적 분석기법이 개발되어 왔다. 주성분분석(principal component analysis; PCA)의 경우 자료에 내재되어 있는 분산 구조를 최대로 설명하는 것이 목적이기 때문에 심볼릭 관측값 내의 분산을 설명하기 위한 다양한 심볼릭 주성분분석(symbolic PCA; SPCA) 방법들이 연구되었다. SPCA는 구간형 자료에 관한 연구로부터 시작되었다. |
Billard, L. (2008). Sample covariance functions for complex quantitative data. In Mizuta M. and Nakano J. (Eds), Proceedings of the International Association of Statistical Computing, 157-163, Yokohama.
Billard, L. and Diday, E. (2006). Symbolic Data Analysis: Conceptual Statistics and Data Mining, Wiley, Chichester.
Cazes, P., Chouakria, A., Diday, E., and Schektman, Y. (1997). Extension de l'analyse en composantes principales a des donnees de type intervalle, Revue de statistique appliquee, 45, 5-24.
Chouakria, A. (1998). Extension des methodes d'analyse factorielles a des donnees de type intervalle, Ph.D. Dissertation, Universite Paris-Dauphine.
Chouakria, A., Billard, L., and Diday, E. (2011). Principal component analysis for interval-valued observations, Statistical Analysis and Data Mining, 4, 229-246.
Ichino, M. (2011). The quantile method for symbolic principal component analysis, Statistical Analysis and Data Mining, 4, 184-198.
Lauro, N. C., Verde, R., and Irpino, A. (2008). Principal component analysis of symbolic data described by intervals. In Diday, E. and Noirhomme-Fraiture, M. (Eds), Symbolic Data Analysis and the SODAS Software, Wiley, Chichester, 279-311.
Le-Rademacher, J. and Billard, L. (2012). Symbolic Covariance Principal Component Analysis and Visualization for Interval-Valued Data, Journal of Computational and Graphical Statistics, 21, 413-432.
Palumbo, F. and Lauro, N. C. (2003). A PCA for interval-valued data based on midpoints and radii. In Yanai, H., Okada, A., Shigemasu, K., Kano, Y. and Meulman, J. (Eds), New Developments in Psychometrics, 641-648.
Wang, H., Chen, M., Shi, X., and Li, N. (2016). Principal component analysis for normal-distribution-valued symbolic data, IEEE Transactions on Cybernetics, 46, 356-365.
*원문 PDF 파일 및 링크정보가 존재하지 않을 경우 KISTI DDS 시스템에서 제공하는 원문복사서비스를 사용할 수 있습니다.
오픈액세스 학술지에 출판된 논문
※ AI-Helper는 부적절한 답변을 할 수 있습니다.