[논문]주성분 분석을 이용한 빅데이터 분석

이승주

doi:10.5391/jkiis.2015.25.6.592

주성분 분석을 이용한 빅데이터 분석
Big Data Analysis Using Principal Component Analysis 원문보기

한국지능시스템학회 논문지 = Journal of Korean institute of intelligent systems, v.25 no.6, 2015년, pp.592 - 599

초록
AI-Helper

빅 데이터 환경에서 빅데이터를 분석하기 위한 새로운 방법의 필요성이 대두되고 있다. 데이터의 크기, 다양성, 그리고 적재 속도 등의 빅데이터 특성으로 인해 모집단의 추론에서 전체 데이터의 분석이 가능해졌기 때문이다. 그러나 전통적인 통계분석 방법은 모집단으로부터 추출된 확률표본에 초점이 맞추어져 있다. 따라서 기존의 통계적 접근방법은 빅데이터 분석에 적합하지 않은 경우가 발생한다. 이와 같은 문제점을 해결하기 위하여 본 논문에서는 빅데이터분석을 위한 새로운 접근방법에 대하여 제안하였다. 특히 대표적인 다변량 통계분석 기법인 주성분 분석을 이용하여 효율적인 빅데이터분석을 위한 방법론을 연구하였다. 제안방법의 성능평가를 위하여 통계적 모의실험을 실시하였다.

Abstract ▼ AI-Helper

In big data environment, we need new approach for big data analysis, because the characteristics of big data, such as volume, variety, and velocity, can analyze entire data for inferring population. But traditional methods of statistics were focused on small data called random sample extracted from population. So, the classical analyses based on statistics are not suitable to big data analysis. To solve this problem, we propose an approach to efficient big data analysis. In this paper, we consider a big data analysis using principal component analysis, which is popular method in multivariate statistics. To verify the performance of our research, we carry out diverse simulation studies.

주제어

AI 본문요약
AI-Helper

문제 정의

본 논문에서는 빅 데이터를 사용하여 주성분의 수를 결정할 때 전체 데이터를 사용하지 않고 표본추출 방법을 사용하여 데이터의 양을 축소하는 수량축소를 먼저 수행하고 축소된 데이터를 이용하여 보유할 주성분의 수를 결정하는 방법을 제안하고자 한다. 따라서 본 논문에서는 먼저, 주성분의 수를 결정하는 몇 가지 방법을 간단히 고찰하고, 몬테칼로 모의실험을 통하여 표본추출방법을 사용하여 수량축소를 한 후 주성분의 수를 결정하는 방법의 성능을 평가하고자 한다.

제안 방법

본 논문에서는 빅 데이터를 사용하여 주성분의 수를 결정할 때 전체 데이터를 사용하지 않고 표본추출 방법을 사용하여 데이터의 양을 축소하는 수량축소를 먼저 수행하고 축소된 데이터를 이용하여 보유할 주성분의 수를 결정하는 방법을 제안하고자 한다. 따라서 본 논문에서는 먼저, 주성분의 수를 결정하는 몇 가지 방법을 간단히 고찰하고, 몬테칼로 모의실험을 통하여 표본추출방법을 사용하여 수량축소를 한 후 주성분의 수를 결정하는 방법의 성능을 평가하고자 한다.

데이터처리

이 데이터 행렬로부터 단순확률추출법을 사용하여 비복원추출하여 주성분의 수를 추정하는데 사용하였다. 따라서 추출된 1%, 2%, 3%, 4%, 5% 표본(s )에 대하여 4가지 방법(Bartlett 검정, K1, MAP, PA)에 따라 주성분의 수를 계산하고 이와 같은 추정 단계를 100번 반복하여 주성분의 수를 100번 추정하였다. Bartlett 검정은 두 가지 유의수준 0.

성능/효과

제안방법의 성능평가를 위하여 본 연구에서는 다양한 모의실험을 실시하였다. 모의실험 결과를 통하여 빅데이터로부터 추출된 일부 표본을 분석한 후 이를 전체와 비교하는 반복된 모의실험을 통하여 제안하는 방법이 빅데이터분석에 효과적으로 적용될 수 있음을 확인하였다. 향후 연구과제에서는 주성분분석 뿐만 아니라 다양한 통계분석 기법들 전체에 적용할 수 있는 일반화된 방법론에 대하여 연구할 것이다.

후속연구

모의실험 결과를 통하여 빅데이터로부터 추출된 일부 표본을 분석한 후 이를 전체와 비교하는 반복된 모의실험을 통하여 제안하는 방법이 빅데이터분석에 효과적으로 적용될 수 있음을 확인하였다. 향후 연구과제에서는 주성분분석 뿐만 아니라 다양한 통계분석 기법들 전체에 적용할 수 있는 일반화된 방법론에 대하여 연구할 것이다.

질의응답

핵심어	질문	논문에서 추출한 답변
	전통적인 통계분석 방법은 어디에 초점이 맞추어져 있는가?	데이터의 크기, 다양성, 그리고 적재 속도 등의 빅데이터 특성으로 인해 모집단의 추론에서 전체 데이터의 분석이 가능해졌기 때문이다. 그러나 전통적인 통계분석 방법은 모집단으로부터 추출된 확률표본에 초점이 맞추어져 있다. 따라서 기존의 통계적 접근방법은 빅데이터 분석에 적합하지 않은 경우가 발생한다.
	빅데이터의 분석이 모든 분야에서 중요한 이슈로 떠오르고 있는 이유는 무엇인가?	빅데이터는 크기(volume), 다양성(variety), 그리고 속도(velocity)로 특징되며 특허, 항만교통, 내트워크 패킷 등 다양한 분야에서 생성, 분석되고 있다 [15-17]. 또한 기존의 다양한 방법과 결합되어 새로운 방법론을 제공하고 있다 [18]. 따라서 빅데이터의 분석은 모든 분야에서 중요한 이슈로 떠오르고 있다 [19-20].
	주성분 분석에서 보유할 주성분의 수 m을 결정하기 위한 방법으로는 어떤 방법들이 있는가?	몇 가지 방법은 계산하기 쉽지만 어떤 방법들은 과도한 연산 작업이 필요하다. 보유할 주성분의 수 m을 결정하기 위한 방법으로는 Bartlett의 카이제곱 검정[8-9], Kaiser 규칙[10], Cattle의 스크리(scree) 검정[11], 병렬 분석(parallel analysis)[12], MAP 검정[13], 총분산비 등 매우 많은 방법들이 존재하지만 이러한 기준들은 동일한 결과를 제공하지는 않는다[4][6-7].

참고문헌 (27)

K. Pearson, "On lines and planes of closest fit to systems of points in space", Phil Mag, vol. 2, pp. 559-572, 1901.

상세보기
J. Gower, "Some distance properties of latent root and vector methods used in multivariate analysis", Biometrika, vol. 53, pp. 325-338, 1966.

상세보기
G. Arnold and A. Collins, "Interpretation of transformed axes in multivariate analysis", Applied Statistics, vol. 42, pp. 381-400, 1993.

상세보기
I. Jolliffe, Principal component analysis, Springer, 2002.
M. Oleksiak, J. Roach, and D. Crawford, "Natural variation in cardiac metabolism and gene expression in fundulus heteroclitus", Nature Genetics, vol. 37, pp. 62-72, 2005.
Johnson, R. A. and Wichern, D. W., Applied multivariate statistical analysis, Prentice-Hall, NJ, 1982.
W. R. Zwick and W. F. Velicer, "Comparison of five rules for determining the number of components to retain", Psychological Bulletin, vol. 99, pp. 432-442, 1986.

상세보기
M. S. Bartlett, "Tests of significance in factor analysis", British Journal of Psychology, vol. 3, pp. 77-85, 1950.
M. S. Bartlett, "A further note on tests of significance in factor analysis", British Journal of Psychology, vol. 4, pp. 1-2, 1951.
H. F. Kaiser, "The application of electronic computers to factor analysis", Educational and Psychological Measurement, vol. 20, pp. 141-151, 1960.

상세보기
R. B. Cattle, "The scree test for the number of factors", Multivariate Behavioral Research, vol. 1, pp. 245-276, 1966.

상세보기
J. L. Horn, "A rationale and test for the number of factors in factor analysis", Psychometrika, vol. 30, pp. 179-185, 1965.

상세보기
W. F. Velicer, "Determining the number of components from the matrix of partial correlations", Psychometrika, vol. 41, pp. 321-327, 1976.

상세보기
J. Han and M. Kamber, Data mining: concepts & techniques, 2nd ed., Elsevier Inc., New York, 2006.
S. Jun, "A Big Data Learning for Patent Analysis", Journal of Korean Institute of Intelligent Systems, Vol. 23, No. 5, pp. 406-411, 2013.

원문보기 상세보기
B. Choi, J. Kong, and M. Han, "The Model of Network Packet Analysis based on Big Data", Journal of Korean Institute of Intelligent Systems, Vol. 23, No. 5, pp. 392-399, 2013.

원문보기 상세보기
K. Kim, J. Jeong, and G. Park, "Assessment of External Force Acting on Ship Using Big Data in Maritime Traffic", Journal of Korean Institute of Intelligent Systems, Vol. 23, No. 5, pp. 379-384, 2013.

원문보기 상세보기
S. Hong, and M. Han, "The Efficient Method of Parallel Genetic Algorithm using MapReduce of Big Data", Journal of Korean Institute of Intelligent Systems, Vol. 23, No. 5, pp. 385-391, 2013.

원문보기 상세보기
H. C. Cho, and Y. J. Jung, "Probabilistic Modeling of Photovoltaic Power Systems with Big Learning Data Sets", Journal of Korean Institute of Intelligent Systems, Vol. 23, No. 5, pp. 412-417, 2013.

원문보기 상세보기
J. H. Cho, D. J. Lee, J. I. Park and M. G. Chun, "Feature Extraction and Classification of High Dimensional Biomedical Spectral Data", Journal of Korean Institute of Intelligent Systems, Vol. 19, No. 3, pp. 297-303, 2009.

원문보기 상세보기
W. G. Cochran, Sampling techniques, 3rd ed., New York, Wiley, 1977.
W. R. Zwick and W. F. Velicer, "Factors influencing four rules for determining the number of components to retain", Multivariate Behavioral Research, vol. 17, pp. 253-269, 1982.

상세보기
N. Cliff, "The eigen value greater than one rule and the reliability of components", Psychological Bulletin, vol. 103, pp. 276-279, 1988.

상세보기
R. L. Gorsuch, Factor analysis, 2nd ed., Lawrence Erlbaum Associates, Inc., 1983.
B. P. O'Connor, "SPSS and SAS programs for determining the number og components using parallel analysis and Velicer's MAP test", Behavioral Research Methods Instruments & Computers, vol. 32, pp. 396-402, 2000.

상세보기
L. W. Glorfeld, "An improvement on Horn's parallel analysis methodology for selecting the correct number of factors to rertain", Educational and Psychological Measurement, vol. 55, pp. 377-393, 1995.

상세보기
R Development Core Team, R: A language and environment for statistical computing, R Foundation for statistical computing, http://www.R-project.org, 2011.

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증