[논문]구간형 자료의 주성분 분석에 관한 연구

최수진; 강기훈

doi:10.5351/kjas.2020.33.1.061

구간형 자료의 주성분 분석에 관한 연구
On principal component analysis for interval-valued data 원문보기

응용통계연구 = The Korean journal of applied statistics, v.33 no.1, 2020년, pp.61 - 74

최수진 (한국외국어대학교 통계학과) , 강기훈 (한국외국어대학교 통계학과)

초록
AI-Helper

심볼릭 자료 중 하나인 구간형 자료는 모든 관측값에서 단일 값이 아닌 구간을 값으로 취하며, 관측값 내에 변동이 존재한다는 특징을 갖는다. 주성분 분석은 자료의 분산을 최대로 설명하여 자료의 차원을 축소하는 방법이므로 구간형 자료의 주성분 분석은 관측값 간의 분산 뿐만 아니라 관측값 내의 분산 역시 설명하여야 한다. 본 논문에서는 구간형 자료의 세 가지 주성분 분석법을 소개하고자 한다. 또한 기존의 분위수 방법에서 균일분포를 사용하는 것이 아니라 구간의 중심점 부근이 좀 더 많은 정보를 가지고 있는 것으로 보고 절단정규분포를 사용하는 방법을 제안하였다. 모의실험과 OECD 관련 실제 통계 자료를 통하여 각 방법의 결과를 비교해 보았다. 마지막으로 분위수 방법의 경우 화살표 표현법을 통해 주성분 산점도를 그리고 분위수들의 위치와 분포를 확인하였다.

Abstract ▼ AI-Helper

Interval-valued data, one type of symbolic data, are observed in the form of intervals rather than single values. Each interval-valued observation has an internal variation. Principal component analysis reduces the dimension of data by maximizing the variance of data. Therefore, the principal component analysis of the interval-valued data should account for the variance between observations as well as the variation within the observed intervals. In this paper, three principal component analysis methods for interval-valued data are summarized. In addition, a new method using a truncated normal distribution has been proposed instead of a uniform distribution in the conventional quantile method, because we believe think there is more information near the center point of the interval. Each method is compared using simulations and the relevant data set from the OECD. In the case of the quantile method, we draw a scatter plot of the principal component, and then identify the position and distribution of the quantiles by the arrow line representation method.

주제어

표/그림 (12)

그림 Figure 3.1. Box plots of PC scores in experiment 1.
표 Table 3.1. Proportions of variance explained by the ﬁrst three principal components of each method in experiment 1
그림 Figure 3.2. Box plots of PC scores in experiment 2.
표 Table 3.2. Proportions of variance explained by the ﬁrst ﬁve principal components of each method in experiment 2
그림 Figure 3.3. Box plots of PC scores in experiment 3.
표 Table 3.3. Proportions of variance explained by the ﬁrst seven principal components of each method in experiment 3
그림 Figure 4.1. Box plots of PC scores for OECD data.
표 Table 4.1. Proportions of variance explained by the ﬁrst eight principal components of each method for OECD data
그림 Figure 4.2. Arrow line representation for OECD data by using QM-Uniform method.
그림 Figure 4.3. Arrow line representation for OECD data by using QM-TNormal method.
표 Table 4.2. Eigenvectors of PC1 for OECD data
표 Table 4.3. Eigenvectors of PC2 for OECD data

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서는 구간형 자료에 대해 앞에서 설명된 여러 주성분분석 방법을 고찰하고 분위수 방법의 변형으로 구간에서 분위수를 추출할 때 균일분포를 사용하는 것이 아니라 구간의 중심점 부근이 좀 더 많은 정보를 가지고 있는 것으로 보고 절단정규분포를 사용하는 방법을 제안하였다. 각 방법에 대한 개념 및 소개는 2장에 제시했으며, 3장에서는 모의실험을 통해 2장에서 소개하거나 제안된 방법들의 결과를 비교한다.
본 논문에서는 구간형 자료의 주성분 분석법 세 가지를 소개하고 추가적으로 절단정규분포를 이용하는 분위수 방법을 제시하였다. 세 가지 방법을 간략하게 정리하면 CPCA는 구간의 중심점을 추출하여 일반적인 주성분 분석을 적용하는 방법으로 구간의 변동성을 전혀 반영하지 못한다는 문제점이 있다.
분위수 행렬로부터 구한 상관행렬은 분위수의 단조 구조에 의해 비대각 원소의 절댓값이 1에 가깝다. 이러한 상관행렬을 이용하여 고윳값과 고유벡터를 구했을 때 큰 고윳값을 얻을 수 있으며, 이는 주성분이 설명하는 분산 크기가 증가한다는 의미이므로 자료의 분산을 더 많이 설명하는 주성분을 찾는 것이 가능하도록 한 것이다. QM-Uniform은 자료의 분포함수(distribution function)를 이용하기 때문에 히스토그램 변수, 다중 값 변수 등에서도 분포함수를 적용한다면 분위수를 추출할 수 있으며 여러 형태의 변수가 동시에 포함된 자료에도 적용이 가능하다는 장점이 있다.

가설 설정

이를 보완하는 VPCA는 자료 공간에서 구간형 관측값이 형성하는 초직사각형의 꼭짓점을 추출하여 주성분 분석을 적용하는 방법으로써 구간의 상·하한의 정보를 이용하기 때문에 구간 내 변동성을 일부 반영하고 있다. QM-Uniform과 QM-TNormal은 각각 구간에 균일분포와 절단정규분포를 가정하여 분위수를 추출하여 주성분 분석을 실시한다.
분위수 방법(QM)은 Ichino (2011)에 의해 제안된 방법으로 각 구간에서 분위수를 추출하여 주성분을 계산하는 방법이다. 분위수를 추출하기 위해 모든 구간에 대해 균일분포(uniform distribution)를 가정하여 구간 내 모든 값이 동일한 확률로 발생한다고 보았다(QM-Uniform).
이 방법은 구간형 자료로부터 분위수를 추출한다는 점에서 2.3절과 동일하지만 분위수를 추출하기 위한 분포를 균일분포가 아닌 절단정규분포(truncated normal distribution)를 가정한다(QM-TNormal). 절단정규분포는 확률변수 X가 평균이 µ, 분산이 σ²인 정규분포를 따를 때, −∞ ≤ a < b ≤ ∞인 구간 (a, b)에서 X의 조건부 분포를 의미한다.

제안 방법

2절에서 소개한 4가지 방법(CPCA, VPCA, QM-Uniform, QM-TNormal)을 모의실험을 통하여 결과를 비교해 보고자 한다. 모든 방법에서 피어슨 상관행렬을 이용하여 주성분 분석을 진행하며 특히 QM에 기반한 방법들은 스피어만 상관행렬을 이용한 경우를 추가하여 총 6가지 방법을 비교한다.
각 방법들의 성능을 비교해보기 위해 모의실험과 OECD 관련 실제 데이터에 적용하여 결과를 비교해 보았다. 주성분의 분산비율을 살펴보았을 때 PC1의 높은 분산비율과 PC2에서 매우 명확한 팔꿈치 지점이 보이는 것을 고려했을 때 QM이 적은 주성분 개수로 자료의 분산을 가장 많이 설명하는 것으로 판단된다.
모의실험을 위해 오픈 소스인 R을 사용하였으며 MASS 패키지의 mvrnorm 함수를 이용하여 다변량정규분포를 따르는 자료를 생성하였다. 각 실험에서 가정한 평균과 분산을 따르는 단일 값 자료를 먼저 생성한 뒤 이 자료를 바탕으로 구간형 자료를 생성하였다. 일반적으로 단일 값 자료는 각 관측단위의 정보를 담고 있으며 구간형 자료는 집합 단위의 정보를 담고 있기 때문에 그 결과가 완전히 일치한다고 할 수는 없다.
일반적으로 단일 값 자료는 각 관측단위의 정보를 담고 있으며 구간형 자료는 집합 단위의 정보를 담고 있기 때문에 그 결과가 완전히 일치한다고 할 수는 없다. 그러나 구간형 자료를 생성하는데 기반이 된 자료가 단일 값 자료이므로 단일 값 자료로 일반적인 주성분 분석법을 적용한 것과 구간형 자료로 2장에서 소개한 주성분분석 방법들을 비교해보기로 한다.
OECD는 세계경제의 공동 발전을 위해 설립된 경제협력개발기구로써 그 자료를 국가 단위로 분석하는 것 보다 대륙 단위로 취합하여 구간형 자료로 분석하는 것이 의미가 있을 것으로 판단된다. 따라서 36개국을 아시아, 북아메리카, 남아메리카, 유럽, 오세아니아 5개 대륙의 구간형 자료로 변형하여 분석을 진행하였다. 남아메리카의 경우 칠레 1개국의 자료만 포함되어 있어 칠레는 2015년 자료를 이용하여 전체 변수에서 단일 값이 되지 않도록 해주었다.
그러나 SPCA의 경우 각 방법별로 구간에서 추출한 단일 값 행렬이 다르기 때문에 분산비율만으로 성능을 평가하기 힘들 수 있다. 따라서 이에 더하여 주성분 점수의 분포를 상자그림을 그려 비교해보았다. 실험1의 주성분 점수는 Figure 3.
4장에서는 OECD의 실제 자료에 적용하여 그 결과를 살펴본다. 또한 단일 값 자료에서 인위적으로 변형된 구간형 자료에 대해, 주성분 분석의 결과로써 각 주성분이 설명하는 분산 크기뿐만 아니라 주성분 점수의 분포를 비교한다. 마지막으로, 5장에서는 간략하게 결론을 제시하고자 한다.
이는 QM의 경우 분위수들이 크기 순서대로 행을 구성하므로 단조 구조를 가지고 있으며 따라서 순위(rank order)를 이용한 경우와 비교해보기 위함이다. 또한 분위수는 모든 자료에서 공통적으로 사분위수를 사용하기 때문에 5-집합(min, Q1, Q2, Q3, max)을 형성하여 분위수 방법에 적용하였다.
2절에서 소개한 4가지 방법(CPCA, VPCA, QM-Uniform, QM-TNormal)을 모의실험을 통하여 결과를 비교해 보고자 한다. 모든 방법에서 피어슨 상관행렬을 이용하여 주성분 분석을 진행하며 특히 QM에 기반한 방법들은 스피어만 상관행렬을 이용한 경우를 추가하여 총 6가지 방법을 비교한다. 이는 QM의 경우 분위수들이 크기 순서대로 행을 구성하므로 단조 구조를 가지고 있으며 따라서 순위(rank order)를 이용한 경우와 비교해보기 위함이다.
모의실험을 위해 오픈 소스인 R을 사용하였으며 MASS 패키지의 mvrnorm 함수를 이용하여 다변량정규분포를 따르는 자료를 생성하였다. 각 실험에서 가정한 평균과 분산을 따르는 단일 값 자료를 먼저 생성한 뒤 이 자료를 바탕으로 구간형 자료를 생성하였다.
심사위원께서 분위수방법의 경우 분위수의 개수에 따라 결과가 차이가 있는지, 어떻게 변화하는지에 대한 확인을 요청하였고, 이를 위하여 m을 4, 5, 7, 9로 하여 5, 6, 8, 10-집합의 경우를 살펴보았다. 앞에서 서술한 바와 결과가 비슷하고 지면 관계상 구체적인 결과표를 본 논문에 수록하진 않았다.
이 절에서는 OECD 국가의 실제 자료를 이용하여 주성분 분석 결과를 비교해본다. 자료는 통계청(http://kostat.
구간형 자료의 주성분분석은 구간 내에 존재하는 변동을 설명해야 하므로 일반적인 주성분 분석 방법을 변형해서 적용해야 한다. 이를 위해 두 가지 단계를 고려할 수 있는데, 첫 번째는 구간형 자료의 변동을 완전히 설명할 수 있는 올바른 공분산 구조를 찾아 주성분을 계산하는 것이다. 두 번째는 첫 번째에서 구한 단일 값 주성분을 구간형 주성분으로 표현하는 것이다.

대상 데이터

org)에서 추가적인 지표 자료를 제공하고 있다. 본 논문에서 사용한 자료는 2016년 자료로 36개국의 국내총생산, 1인당 GDP, 경제성장률, 수출, 수입, 실업률, 소비자 물가지수, 조강생산량의 8가지 정보를 포함하고 있다. OECD는 세계경제의 공동 발전을 위해 설립된 경제협력개발기구로써 그 자료를 국가 단위로 분석하는 것 보다 대륙 단위로 취합하여 구간형 자료로 분석하는 것이 의미가 있을 것으로 판단된다.
이 절에서는 OECD 국가의 실제 자료를 이용하여 주성분 분석 결과를 비교해본다. 자료는 통계청(http://kostat.go.kr)의 국제기구통계에서 확인할 수 있으며 각 연도별로 OECD 국가의 주요통계지표를 보여주고 있다. OECD 통계(https://stats.

데이터처리

이때, 본 논문에서는 2.3절의 QM-Uniform과 비교를 하기 위해 정규분포의 평균과 분산으로써 균일분포의 평균과 분산을 사용하였다. 균일분포가 아닌 정규분포를 사용한 것은 변동성이 있는 구간형 자료에서 일반적으로 중심점 부근의 정보가 더 대표성을 띌 수 있으며, 구간의 상한과 하한은 이상값에 의해 실제 구간의 범위보다 넓어질 수 있기 때문에 구간의 끝으로 갈수록 확률이 감소하는 것이 바람직하다는 예상에 근거한 것이다.

이론/모형

3. Arrow line representation for OECD data by using QM-TNormal method.
2. Arrow line representation for OECD data by using QM-Uniform method.

성능/효과

PC1의 분산비율은 CPCA가 단일 값 자료의 분산비율과 가장 유사하였으나 PC2의 분산비율과 PC1에 비해 PC2가 설명하는 분산비율의 감소량을 종합하여 고려하면 QM이 자료의 분산을 설명하는 측면에서 가장 좋은 성능을 보인다. QM에서도 QM-Uniform(sp)과 QM-TNormal(sp)이 QM-Uniform(ps)과 QM-TNormal(ps)보다 더 많은 분산을 설명하고 있다.
CPCA는 단일 값 자료의 경우(classical)와 유사한 주성분의 분산비율을 가지며, VPCA는 PC1, PC2, PC3의 분산비율이 거의 일정하였다. QM에 기반한 4가지 경우 모두 PC1에서 매우 높은 분산비율을 가지며 PC2에서 급격히 감소하는 팔꿈치 지점(elbow point)을 보였다. 주성분분석의 목적인 자료에 내재되어 있는 소수의 주성분으로 분산을 가장 많이 설명하는 측면에서 QM이 가장 좋은 성능을 보인다고 할 수 있다.
또한 균일분포에 비해 중심점 부근의 정보를 더 포함하고 있는 절단정규분포를 이용한 경우에서 사분위수 범위가 더 좁으며 PC1점수에서 더 넓은 분포를 가지고 있었음을 확인할 수 있었다. 결론적으로 분위수를 이용한 심볼릭 주성분분석법은 우수한 성질을 보이며, 구간형 자료뿐만 아니라 히스토그램 변수, 다중값 자료 및 이들 변수가 동시에 존재하는 자료에도 적용할 수 있는 장점이 있다.
앞에서 서술한 바와 결과가 비슷하고 지면 관계상 구체적인 결과표를 본 논문에 수록하진 않았다. 다만, 여기서 확인한 것은 t-tuple에서 t를 증가시킬수록, 스피어만 상관행렬을 이용한 경우 PC1의 분산비율은 매우 소폭이지만 증가하고 PC2는 소폭 감소하였으며, 반대로 피어슨 상관행렬의 경우는 PC1에서 소폭 감소하고 PC2에서 소폭 증가하였다. 이는 t가 증가할수록 분위수 행렬의 단조성이 증가함으로 인해 스피어만 상관행렬을 이용할 때 PC1에서 더 많은 분산을 설명하고 팔꿈치 지점이 명확해지는 것으로 이해할 수 있다.
주성분 점수의 분포를 살펴보았을 때에도 PC1에서 가장 넓게 분포되어 있으며 PC2에서 매우 밀집되어 분포된 것으로 보아 자료의 분산을 잘 설명하는 것을 확인하였다. 또한 균일분포에 비해 중심점 부근의 정보를 더 포함하고 있는 절단정규분포를 이용한 경우에서 사분위수 범위가 더 좁으며 PC1점수에서 더 넓은 분포를 가지고 있었음을 확인할 수 있었다. 결론적으로 분위수를 이용한 심볼릭 주성분분석법은 우수한 성질을 보이며, 구간형 자료뿐만 아니라 히스토그램 변수, 다중값 자료 및 이들 변수가 동시에 존재하는 자료에도 적용할 수 있는 장점이 있다.
변수의 개수가 증가하여도 VPCA는 모든 주성분에서 분산비율이 동일한 수준으로 나타났다. QM은 Table 3.
전체적으로 PC1 방향에서 분위수들이 이어지는 것으로 보아 PC1이 구간 내 변동성을 가장 많이 설명하는 변수로 보이며 ‘유럽’과 ‘북아메리카’는 PC2에서도 주성분 점수의 분포가 넓게 나타났다.
주성분의 분산비율을 살펴보았을 때 PC1의 높은 분산비율과 PC2에서 매우 명확한 팔꿈치 지점이 보이는 것을 고려했을 때 QM이 적은 주성분 개수로 자료의 분산을 가장 많이 설명하는 것으로 판단된다. 주성분 점수의 분포를 살펴보았을 때에도 PC1에서 가장 넓게 분포되어 있으며 PC2에서 매우 밀집되어 분포된 것으로 보아 자료의 분산을 잘 설명하는 것을 확인하였다. 또한 균일분포에 비해 중심점 부근의 정보를 더 포함하고 있는 절단정규분포를 이용한 경우에서 사분위수 범위가 더 좁으며 PC1점수에서 더 넓은 분포를 가지고 있었음을 확인할 수 있었다.
각 방법들의 성능을 비교해보기 위해 모의실험과 OECD 관련 실제 데이터에 적용하여 결과를 비교해 보았다. 주성분의 분산비율을 살펴보았을 때 PC1의 높은 분산비율과 PC2에서 매우 명확한 팔꿈치 지점이 보이는 것을 고려했을 때 QM이 적은 주성분 개수로 자료의 분산을 가장 많이 설명하는 것으로 판단된다. 주성분 점수의 분포를 살펴보았을 때에도 PC1에서 가장 넓게 분포되어 있으며 PC2에서 매우 밀집되어 분포된 것으로 보아 자료의 분산을 잘 설명하는 것을 확인하였다.

질의응답

핵심어	질문	논문에서 추출한 답변
	보통 통계적 분석 대상의 자료형태는 어떠한가?	보통 통계적 분석 대상이 되는 자료의 형태는 하나의 값을 관측값으로 가지는 단일 값 자료(single-valued data)이다. 그러나 현대사회에서는 자료의 양이 점점 방대해지고 구조가 복잡해지면서 다양한 형태의 자료가 등장하고 있다.
	구간형 자료에 관한 연구에는 무엇이 있었는가?	SPCA는 구간형 자료에 관한 연구로부터 시작되었다. Cazes 등 (1997)과 Chouakria (1998)가 가장 먼저 분석을 시도하였는데, 이들은 구간의 중심점을 추출하여 단일 값 자료로 변환한 뒤 주성분을 계산하는 중심점 방법(centers method; CPCA)과 구간들에 의해 형성된 초직사각형(hyperrectangle)에서 꼭짓점을 추출해 주성분을 계산하는 꼭짓점 방법(vertices method; VPCA)을 제안하였다. CPCA에서 구간의 변동성을 전혀 반영하지 않는다는 문제점을 개선하기 위해, Palumbo와 Lauro (2003)와 Lauro 등 (2008)은 구간의 중심점을 추출하는 것에서 나아가 구간의 범위의 절반값을 추출하여 이들을 두 개의 변수로 사용하는 중심점-반지름 방법(midpoint-radii method; MRPCA)을 제안하였다. VPCA의 경우는 모든 꼭짓점들이 서로 독립인 관측값이라고 가정하였는데, 동일한 초직사각형에서 추출된 꼭짓점들은 서로 독립이라고 보기 힘들다는 문제점이 있다. Chouakria 등 (2011)에서도 VPCA의 공분산 행렬은 구간의 전체 변동이 아닌 일부만 설명하고 있다는 것을 보였다.
	주성분분석의 목적은?	단일 값 형태가 아닌 심볼릭 자료는 관측값 내에 변동이 존재한다는 점에서 단일 값 자료와 구분되며, 이를 대상으로 한 통계적 분석기법이 개발되어 왔다. 주성분분석(principal component analysis; PCA)의 경우 자료에 내재되어 있는 분산 구조를 최대로 설명하는 것이 목적이기 때문에 심볼릭 관측값 내의 분산을 설명하기 위한 다양한 심볼릭 주성분분석(symbolic PCA; SPCA) 방법들이 연구되었다. SPCA는 구간형 자료에 관한 연구로부터 시작되었다.

참고문헌 (10)

Billard, L. (2008). Sample covariance functions for complex quantitative data. In Mizuta M. and Nakano J. (Eds), Proceedings of the International Association of Statistical Computing, 157-163, Yokohama.
Billard, L. and Diday, E. (2006). Symbolic Data Analysis: Conceptual Statistics and Data Mining, Wiley, Chichester.
Cazes, P., Chouakria, A., Diday, E., and Schektman, Y. (1997). Extension de l'analyse en composantes principales a des donnees de type intervalle, Revue de statistique appliquee, 45, 5-24.
Chouakria, A. (1998). Extension des methodes d'analyse factorielles a des donnees de type intervalle, Ph.D. Dissertation, Universite Paris-Dauphine.
Chouakria, A., Billard, L., and Diday, E. (2011). Principal component analysis for interval-valued observations, Statistical Analysis and Data Mining, 4, 229-246.

상세보기
Ichino, M. (2011). The quantile method for symbolic principal component analysis, Statistical Analysis and Data Mining, 4, 184-198.

상세보기
Lauro, N. C., Verde, R., and Irpino, A. (2008). Principal component analysis of symbolic data described by intervals. In Diday, E. and Noirhomme-Fraiture, M. (Eds), Symbolic Data Analysis and the SODAS Software, Wiley, Chichester, 279-311.
Le-Rademacher, J. and Billard, L. (2012). Symbolic Covariance Principal Component Analysis and Visualization for Interval-Valued Data, Journal of Computational and Graphical Statistics, 21, 413-432.

상세보기
Palumbo, F. and Lauro, N. C. (2003). A PCA for interval-valued data based on midpoints and radii. In Yanai, H., Okada, A., Shigemasu, K., Kano, Y. and Meulman, J. (Eds), New Developments in Psychometrics, 641-648.
Wang, H., Chen, M., Shi, X., and Li, N. (2016). Principal component analysis for normal-distribution-valued symbolic data, IEEE Transactions on Cybernetics, 46, 356-365.

상세보기

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증