[논문]고차원 데이터에서 공분산행렬의 추정에 대한 비교연구

이동혁; 이재원

doi:10.5351/kjas.2013.26.5.747

[국내논문] 고차원 데이터에서 공분산행렬의 추정에 대한 비교연구
A Comparative Study of Covariance Matrix Estimators in High-Dimensional Data 원문보기

응용통계연구 = The Korean journal of applied statistics, v.26 no.5, 2013년, pp.747 - 758

초록
AI-Helper

공분산 행렬은 다변량 통계분석에서 중요한 역할을 하고 있으며 전통적인 다변량 분석의 경우 표본 공분산 행렬이 참공분산 행렬의 추정량으로 주로 사용되었다. 하지만 변수의 수가 표본의 크기보다 훨씬 큰 고차원 데이터와 같은 경우에는 표본 공분산 행렬은 비정칙행렬이 되어 기존의 다변량 기법을 사용하는 데 적절하지 않을 수가 있다. 최근 이러한 문제점을 해결하기 위해 축소추정, 경계추정, 수정 콜레스키 분해 추정 등의 새로운 공분산 행렬의 추정량들이 제안되었다. 본 논문에서는 추정량들의 성능에 영향을 미칠 수 있는 여러 현실적인 상황들을 가정하여 모의실험을 통해 참공분산 행렬의 추정량들의 성능을 비교하였다.

Abstract ▼ AI-Helper

The covariance matrix is important in multivariate statistical analysis and a sample covariance matrix is used as an estimator of the covariance matrix. High dimensional data has a larger dimension than the sample size; therefore, the sample covariance matrix may not be suitable since it is known to perform poorly and event not invertible. A number of covariance matrix estimators have been recently proposed with three different approaches of shrinkage, thresholding, and modified Cholesky decomposition. We compare the performance of these newly proposed estimators in various situations.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

이러한 추정량들에 대한 이론적 연구로 Bickel과 Levina (2008a, 2008b)는 경계추정(thresholding estimation)과 밴딩추정(banding estimation)에 대해 그 점근적 성질들에 대하여 연구하였고, Cai 등 (2010)은 미니맥스 관점에서 최적 수렴율(rate of convergence)에 대하여 연구하였다. 본 연구에서는 널리 사용되고 있는 분석방법들의 가정들을 고려한 여러 상황하에서 추정량들의 성능 비교를 고려하였다.
이렇게 설정된 여러 상황들 하에서 앞서 소개한 5가지 추정방법들의 성능을 비교해 보고자 한다. 비교의 측도로는 추정량과 참공분산행렬과의 프로베니우스 거리(Frobenius norm)를 이용하였고 표본 크기 100을 가정하여 각 상황에서 100번의 반복실험을 수행하였다.

제안 방법

위의 식에서 볼 수 있듯이 다변량 감마분포에서 참공분산행렬의 모든 원소는 양수이기 때문에 비대각 원소를 0에 아주 가깝게 만들어 대각행렬(Identity)에 가까운 참공분산행렬과, 서로 다른 구조를 갖는 행렬들을 블록으로 갖는 블록행렬(Block)을 고려하여 모의실험을 진행하였다. 그리고 비교를 위하여 같은 참 공분산 행렬을 가지는 다변량 정규분포에서 생성된 데이터들로 모의실험을 함께 진행하였다(변수의 개수 200). 우선 가장 크게 눈에 띄는 사항은 콜레스키 방법(MCDE)의 경우 정규분포 가정에 민감하게 반응한다는 점이다.
한편 마이크로어레이나 질량분석 데이터를 분석하는 목적 중의 하나는 서로 다른 집단을 구별하는 것이다. 따라서 전체 표본을 서로 다른 모집단이 혼합된 혼합 모형(Mixture model)으로 간주하여 상황을 설정하는 것을 고려하였다. 혼합모형 또한 고차원 데이터를 분석하는 모형화 방법으로 많은 연구가 진행되었다 (Ghosh와 Chinnaiyan, 2002; McLachlan 등, 2002; Bouveyron 등, 2007; McNicholas와 Murphy, 2010).
대체로 질량 순서대로 대사체들이 기록되기 때문에 비슷한 질량을 나타내는 인접한 대사체들 사이에 특정한 관계가 있을 것이라 생각할 수 있지만, 비슷한 질량을 가진 대사체라고 하더라도 화학적으로 구성이 전혀 다를 수 있기 때문에 대각원소에서 멀어질수록 값이 작아지는 등의 특수한 구조를 가지는 공분산행렬을 가정하기는 어렵다. 따라서 특정한 패턴이 없는 희박한 행렬로 가정하고, 선택된 변수가 17개이므로 136개의 상관분석을 수행하여 0.05/136 = 0.0004의 유의수준으로 86개의 경우에 대하여 공분산행렬의 비대각원소를 0으로 결정하였다(0.632의 희박성). 또한 다변량 정규성 검정을 위한 샤피로-윌크 검정에서 유의확률 0.
전체적으로 세 형태의 공분산 행렬을 고려하였는데, 앞 절에서와 같이 희박성의 정도에 따른 모의실험의 결과를 바탕으로 단위행렬, 70%와 40%의 희박성을 가지는 행렬을 고려하였고 33개의 표본의 크기를 갖는 세 그룹을 고려하였다. 또한 변수의 수가 작은 경우에도 의미가 있을 것이라 판단되어 변수의 수는 30, 100, 200의 경우에 대하여 모의실험을 진행하였다. Table 3.
혼합모형 또한 고차원 데이터를 분석하는 모형화 방법으로 많은 연구가 진행되었다 (Ghosh와 Chinnaiyan, 2002; McLachlan 등, 2002; Bouveyron 등, 2007; McNicholas와 Murphy, 2010). 마지막으로 다변량 정규성을 가정할 수 없는 상황을 고려하여 다변량 감마분포에서 생성된 표본으로 모의실험을 진행하였다.
본 논문에서는 공분산행렬을 추정하는 문제에 있어 추정량들의 성능을 모의실험을 통하여 비교하였다. 이를 위하여 희박성의 정도, 혼합모형, 다변량 감마분포 등을 고려하여 특정한 조건 하에서 생성된 자료들을 통해 참공분산행렬에 평균적으로 더 가까운 추정량들을 비교하여 보았다.
이렇게 설정된 여러 상황들 하에서 앞서 소개한 5가지 추정방법들의 성능을 비교해 보고자 한다. 비교의 측도로는 추정량과 참공분산행렬과의 프로베니우스 거리(Frobenius norm)를 이용하였고 표본 크기 100을 가정하여 각 상황에서 100번의 반복실험을 수행하였다. 소개된 방법들 중에서 축소추정량에 대하여 위의 세 가지 표적행렬들을 모두 고려하였고, 경계추정량에 대하여 hard, soft, adaptive lasso, SCAD 등의 경계함수를 모두 고려하였으며 수정 콜레스키 방법에서는 ridge와 lasso를 고려하였다.
비교의 측도로는 추정량과 참공분산행렬과의 프로베니우스 거리(Frobenius norm)를 이용하였고 표본 크기 100을 가정하여 각 상황에서 100번의 반복실험을 수행하였다. 소개된 방법들 중에서 축소추정량에 대하여 위의 세 가지 표적행렬들을 모두 고려하였고, 경계추정량에 대하여 hard, soft, adaptive lasso, SCAD 등의 경계함수를 모두 고려하였으며 수정 콜레스키 방법에서는 ridge와 lasso를 고려하였다. 각각의 방법들에 대하여 가장 좋은 성능을 보여주는 하위방법만을 골라 아래 결과에 표시하였다.
앞서 기술하였듯이 실제 연구 대상이 되는 자료들은 서로 다른 모집단들에서 얻어진 자료들의 혼합인 경우가 많기 때문에, 혼합모형(mixture model)을 고려하여 모의실험을 진행하였다. 참고문헌들에서도 실제 데이터의 경우 여러 클래스를 가지는 마이크로어레이 데이터를 고려하였다.
양정치행렬이면서 특별한 패턴 없이 0인 비대각원소를 가지는 참공분산행렬을 만들기 위하여 Σ = LDL′인 콜레스키 분해를 이용하였다.
이 경우에 참공분산행렬이 분포의 모수로 들어가지 않고, 모든 원소들이 양의 값을 가지기 때문에 참 공분산행렬에 특정한 구조를 부여하기 위하여 θ와 λ를 적절히 조절하였다. 위의 식에서 볼 수 있듯이 다변량 감마분포에서 참공분산행렬의 모든 원소는 양수이기 때문에 비대각 원소를 0에 아주 가깝게 만들어 대각행렬(Identity)에 가까운 참공분산행렬과, 서로 다른 구조를 갖는 행렬들을 블록으로 갖는 블록행렬(Block)을 고려하여 모의실험을 진행하였다. 그리고 비교를 위하여 같은 참 공분산 행렬을 가지는 다변량 정규분포에서 생성된 데이터들로 모의실험을 함께 진행하였다(변수의 개수 200).
이 경우에 참공분산행렬이 분포의 모수로 들어가지 않고, 모든 원소들이 양의 값을 가지기 때문에 참 공분산행렬에 특정한 구조를 부여하기 위하여 θ와 λ를 적절히 조절하였다.
setigerum)에 대하여 가스 크로마토그래피/질량 분석기(GC-MS)를 이용하여 대사체 프로파일링을 이용하여 45개의 대사체를 식별(identification)한 원자료를 얻었다. 이 데이터에 Kim 등(2011)에서 사용한 판별분석과 변수선택 방법을 이용하여 3개의 종들을 가장 잘 분류하는 17개의 생물학적 표지자 후보군을 선택하였고, 선택된 17개의 대사체를 이용하여 이들 사이의 관계를 알아보기 위해 앞서 살펴본 공분산 행렬 추정방법을 적용하였다. 이 데이터의 표본의 크기는 30으로 엄밀한 의미에서 고차원 데이터는 아니다.
본 논문에서는 공분산행렬을 추정하는 문제에 있어 추정량들의 성능을 모의실험을 통하여 비교하였다. 이를 위하여 희박성의 정도, 혼합모형, 다변량 감마분포 등을 고려하여 특정한 조건 하에서 생성된 자료들을 통해 참공분산행렬에 평균적으로 더 가까운 추정량들을 비교하여 보았다. 본 논문에서 주로 고려한 변수의 수가 더 큰 경우, 표본 공분산 행렬을 사용하는 것 보다 본 논문에서 고려한 추정량들을 사용하는 것이 평균적으로 참 공분산행렬에 더 가깝다는 것을 확인할 수 있었다.
전체적으로 세 형태의 공분산 행렬을 고려하였는데, 앞 절에서와 같이 희박성의 정도에 따른 모의실험의 결과를 바탕으로 단위행렬, 70%와 40%의 희박성을 가지는 행렬을 고려하였고 33개의 표본의 크기를 갖는 세 그룹을 고려하였다. 또한 변수의 수가 작은 경우에도 의미가 있을 것이라 판단되어 변수의 수는 30, 100, 200의 경우에 대하여 모의실험을 진행하였다.
이 데이터의 표본의 크기는 30으로 엄밀한 의미에서 고차원 데이터는 아니다. 하지만 대사체들을 일일이 식별하는 과정은 실험실에서 많은 시간이 걸리는 과정으로 본 데이터를 제외하고 대사체들이 식별된 경우가 없기 때문에 부득이하게 본 데이터에 앞의 추정방법들을 적용하여 보았다.

대상 데이터

L은 대각원소가 1인 단위 하삼각행렬로, 이 행렬의 비대각원소들 중 일정 비율을 0으로 만들게 되면 참 공분산 행렬에 원하는 만큼의 희박성을 얻을 수 있다. 본 모의실험에서 표본의 크기는 100, 변수의 수는 200을 고려하였으며 다변량 정규분포에서 데이터를 생성하였다.
앞서 기술하였듯이 실제 연구 대상이 되는 자료들은 서로 다른 모집단들에서 얻어진 자료들의 혼합인 경우가 많기 때문에, 혼합모형(mixture model)을 고려하여 모의실험을 진행하였다. 참고문헌들에서도 실제 데이터의 경우 여러 클래스를 가지는 마이크로어레이 데이터를 고려하였다. 실제 데이터의 경우 드문 상황들을 제외하고 예산 등의 문제로 많은 수의 표본을 확보하지 못하는 경우가 많다.

이론/모형

632의 희박성). 또한 다변량 정규성 검정을 위한 샤피로-윌크 검정에서 유의확률 0.001미만으로 정규분포를 가정할 수 없기 때문에 콜레스키 방법(MCDE)을 제외하고 경계 추정방법과 축소 추정방법을 적용하였다.
본 연구에서는 다변량 감마분포를 고려하였는데, 다변량 감마 분포를 생성하기 위하여 Palmiesta와 Provasi(unpublished manuscript) 알고리즘을 이용하였다: 서로 독립이고 모수가 각각 θi > 0, λi > 0인 일변량 감마 확률변 수 V0, V1, . . . , Vp를 이용하여, 다음과 같이 정의하였다.

성능/효과

1의 그래프로 표현하였다. SCAD 경계함수를 갖는 적응적 경계 추정량(ATE)과 표본 공분산으로 이루어진 표적행렬을 갖는 축소추정량(Fisher와 Sun 방법; FSE), lasso 벌점이 고려된 콜레스키 방법(MCDE)가 각 추정량들에서 가장 좋은 성능을 보여주었다. 우선 데이터가 정규분포에서 생성되었기 때문에 정규성을 가정하는 Fisher와 Sun 추정량(FSE)과 콜레스키 방법(MCDE)의 성능이 희박성의 정도와 관계없이 우수함을 알 수 있다.
우선 데이터가 정규분포에서 생성되었기 때문에 정규성을 가정하는 Fisher와 Sun 추정량(FSE)과 콜레스키 방법(MCDE)의 성능이 희박성의 정도와 관계없이 우수함을 알 수 있다. 경계추정량에 대하여 살펴보면, 희박성의 정도가 0.4 미만이 되면 표본공분산행렬보다 성능이 뒤쳐지는 것을 확인할 수 있지만 희박성의 정도가 0.8 이상인 경우에는 미세하지만 다른 추정량보다 좋은 성능을 보여주었다. 경계 추정방법의 경우, 희박한 행렬들을 고려한 집합에서 최적 수렴율(optimal rate of convergence)을 달성한다고 한다(Cai와 Liu, 2011).
다음으로 무상관인 변수들이 많아지게 되면 경계 추정방법이 가장 좋은 성능을 보여주지만, 변수들 사이에 이러한 가정을 할 수 없다면 좋지 못한 결과를 보여주게 된다. 그리고 분포에 무관하고 희박성의 정도가 크지 않다면, 즉 많은 비대각 원소들을 0이라고 할 수 없는 경우에는 축소 추정 방법(SSE, FSE)을 사용하는 것이 좋은 결과를 보여주었다. 마지막으로 동일 공분산 행렬을 가지는 가우스 혼합모형의 경우 공통 공분산행렬을 비교적 잘 추정하는 것으로 보여지며, 변수의 수가 작은 경우 경계 추정량(GTE, ATE)이 좋은 성능을 보여주었다.
2의 콜레스키 방법(MCDE)의 수치들이 비정상적으로 보이는데 그 이유는 벌점함수의 파라미터를 교차타당성(cross validation) 분석으로 정해야 하는데, 정규분포에서 멀어지는 경우 최적의 파라미터를 잘 찾아주지 못하므로 이를 바탕으로 계산한 프로베니우스 거리가 비정상적으로 보이기 때문이다. 또한 참 공분산행렬로 대각행렬을 설정하더라도 정규분포가 아니면 추정치와 참 공분산행렬의 차이가 심하게 커진다는 점을 확인할 수 있다. 이러한 현상의 한 가지 가능한 설명은 콜레스키 방법(MCDE)이 콜레스키 분해에 기초하게 되는데, T와 D행렬의 많은 원소들을 추정해야 한다.
그리고 분포에 무관하고 희박성의 정도가 크지 않다면, 즉 많은 비대각 원소들을 0이라고 할 수 없는 경우에는 축소 추정 방법(SSE, FSE)을 사용하는 것이 좋은 결과를 보여주었다. 마지막으로 동일 공분산 행렬을 가지는 가우스 혼합모형의 경우 공통 공분산행렬을 비교적 잘 추정하는 것으로 보여지며, 변수의 수가 작은 경우 경계 추정량(GTE, ATE)이 좋은 성능을 보여주었다. 하지만 희박성을 고려하였을 때 낮은 정도(40%)에서는 축소 추정량이, 중간 정도(70%)에서는 콜레스키 방법(MCDE)이, 단위행렬의 경우 경계추정량이 좋은 성능을 보여주었다.
하지만 변수의 수가 증가하면, 참 공분산행렬의 구조에 따라 가장 좋은 성능을 보여주는 추정량이 달라지는 것을 확인할 수 있다. 먼저 40% 희박성을 보이는 참 공분산행렬에서는 Fisher와 Sun 추정량(FSE)이 좋은 성능을 보여주었고, 70% 희박성을 보이는 경우에는 lasso 벌점의 콜레스키 방법(MCDE)이 좋은 성능을 보여주었다. 그리고 마지막으로 단위행렬의 경우, 경계 추정량들이 대체로 좋은 성능을 보여주었다.
우선, 전체적으로 표본공분산행렬과 비교하였을 때 대체로 좋은 성능들을 보여준다. 모의실험에 사용된 세 그룹 모두 동일한 공분산 구조를 가지고 있기 때문일 수도 있겠지만, 변수의 수가 200 이 될 때 추정량과 참공분산행렬과의 차이는 표본공분산행렬과의 차이에 비해 70%의 희박성을 갖는 경우는 약 50%, 단위행렬에서는 90% 정도 줄어든다.
변수의 수가 표본의 크기보다 작은 경우, adaptive lasso 경계함수를 사용한 적응적 경계 추정량(ATE)이 전체적으로 가장 좋은 성능을 보여주었다. 하지만 변수의 수가 증가하면, 참 공분산행렬의 구조에 따라 가장 좋은 성능을 보여주는 추정량이 달라지는 것을 확인할 수 있다.
이를 위하여 희박성의 정도, 혼합모형, 다변량 감마분포 등을 고려하여 특정한 조건 하에서 생성된 자료들을 통해 참공분산행렬에 평균적으로 더 가까운 추정량들을 비교하여 보았다. 본 논문에서 주로 고려한 변수의 수가 더 큰 경우, 표본 공분산 행렬을 사용하는 것 보다 본 논문에서 고려한 추정량들을 사용하는 것이 평균적으로 참 공분산행렬에 더 가깝다는 것을 확인할 수 있었다. 특히, 표본의 수가 변수의 수보다 더 많은 일반적인 다변량 데이터의 경우에도 참 공분산 행렬과의 거리만을 고려한다면 본 논문에서 고려한 추정량들이 표본 공분산 행렬보다 평균적으로 참 공분산행렬에 더 가까웠다.
1에서 한가지 더 알 수 있는 사실은 희박성이 낮은 경우 추정량들의 편차가 커진다는 점이다. 이와 반대로 희박한 구조를 가질수록 추정된 행렬들도 안정적인 결과를 보여주는 것을 확인할 수 있다.
2절에서 언급된 다른 추정방법들도 군집 내에서 대사체들의 위치에만 변화가 있을뿐 군집으로 묶인 대사체들은 큰 차이가 없었다. 최종적으로 선택된 17개의 변수들에 대하여 크게 3개의 군집으로 나누어볼 수 있었고, 이중에서 좌측 군집은 P. somniferum과 다른 종을 구별할 수 있는 대사체 집단, 중앙의 군집은 Papaver rhoeas을, 우측의 군집은 P. setigerum을 구별할 수 있는 대사체 집단이다. 선택된 생물학적 표지자 후보군을 이용하여 생물학적으로 유의미하게 나누어진 군집들을 확인할 수 있었고, 이를 통해 단일 표지자(single marker)가 아닌 표지자 집단(marker group)을 찾아낼 수 있을 것으로 기대된다.
추정량의 성능을 결정하는 요인으로 분포 가정과 희박성의 정도가 중요하다는 것을 확인할 수 있었다. 우선, 콜레스키 방법(MCDE)의 경우 서로 다른 분산을 가지는 대각행렬에 대하여 가장 좋은 성능을 보여주었지만, 분포가정에 민감하였다.
본 논문에서 주로 고려한 변수의 수가 더 큰 경우, 표본 공분산 행렬을 사용하는 것 보다 본 논문에서 고려한 추정량들을 사용하는 것이 평균적으로 참 공분산행렬에 더 가깝다는 것을 확인할 수 있었다. 특히, 표본의 수가 변수의 수보다 더 많은 일반적인 다변량 데이터의 경우에도 참 공분산 행렬과의 거리만을 고려한다면 본 논문에서 고려한 추정량들이 표본 공분산 행렬보다 평균적으로 참 공분산행렬에 더 가까웠다.
변수의 수가 표본의 크기보다 작은 경우, adaptive lasso 경계함수를 사용한 적응적 경계 추정량(ATE)이 전체적으로 가장 좋은 성능을 보여주었다. 하지만 변수의 수가 증가하면, 참 공분산행렬의 구조에 따라 가장 좋은 성능을 보여주는 추정량이 달라지는 것을 확인할 수 있다. 먼저 40% 희박성을 보이는 참 공분산행렬에서는 Fisher와 Sun 추정량(FSE)이 좋은 성능을 보여주었고, 70% 희박성을 보이는 경우에는 lasso 벌점의 콜레스키 방법(MCDE)이 좋은 성능을 보여주었다.
마지막으로 동일 공분산 행렬을 가지는 가우스 혼합모형의 경우 공통 공분산행렬을 비교적 잘 추정하는 것으로 보여지며, 변수의 수가 작은 경우 경계 추정량(GTE, ATE)이 좋은 성능을 보여주었다. 하지만 희박성을 고려하였을 때 낮은 정도(40%)에서는 축소 추정량이, 중간 정도(70%)에서는 콜레스키 방법(MCDE)이, 단위행렬의 경우 경계추정량이 좋은 성능을 보여주었다.

후속연구

하지만 이러한 과정에서 전체 변수들 또는 선택된 변수들 간의 관계에 대한 고려가 부족하다는 것은 한가지 아쉬움으로 남았다. 고차원 데이터가 가지는 근본적인 복잡성에 의하여 변수들 사이의 관계를 파악하는 것이 쉬운 문제는 아니지만, 본 논문에서 살펴본 추정 방법을 통해 변수들 사이의 관계에 대한 해답을 부분적으로라도 제공해 줄 수 있을 것이다.
또한 다른 연구들의 모의실험 대부분은 다변량 정규분포에서 수행되었다. 따라서 다른 다변량 분포를 가정한 모의실험을 통해 소개된 추정량들의 로버스트성(robustness)을 확인할 수 있을 것이다. 본 연구에서는 다변량 감마분포를 고려하였는데, 다변량 감마 분포를 생성하기 위하여 Palmiesta와 Provasi(unpublished manuscript) 알고리즘을 이용하였다: 서로 독립이고 모수가 각각 θ_i > 0, λ_i > 0인 일변량 감마 확률변 수 V₀, V₁, .
setigerum을 구별할 수 있는 대사체 집단이다. 선택된 생물학적 표지자 후보군을 이용하여 생물학적으로 유의미하게 나누어진 군집들을 확인할 수 있었고, 이를 통해 단일 표지자(single marker)가 아닌 표지자 집단(marker group)을 찾아낼 수 있을 것으로 기대된다.

질의응답

핵심어	질문	논문에서 추출한 답변
	적응적 경계 추정량이란 무엇인가?	적응적 경계 추정량(Adaptive Thresholding Estimator; ATE)은 표본 공분산행렬의 각 원소마다 다른 파라미터의 경계함수를 적용하는 방법이다. 일반화 경계 추정량이 하나의 경계함수를 표본공분산행렬의 모든 원소에 적용하는 방법이라면 적응적 경계 추정량은 원소마다 다른 경계함수를 적용시키는 방법이다.
	공분산행렬은 주로 무엇으로 이용되는가?	이러한 통계적 방법들은 기본적으로 기존의 전통적인 다변량 방법들에 바탕을 두고 있다. 보통의 다변량 통계분석 방법에서 공분산행렬(covariance matrix)은 중요한 역할을 담당하고 있으며 주성분 분석, 인자분석, 군집분석, 판별분석 등에서 표본공분산행렬은 참공분산행렬의 추정량으로 이용된다. 그러나 고차원 데이터에서는 역행렬과 관련된 문제들 (Ledoit과 Wolf, 2004), 고유값 구조 등의 문제 (Sch¨afer와 Strimmer, 2005)로 표본공분산행렬을 그대로 사용할 수 없다.
	공분산행렬의 한계점은 무엇인가?	그러나 고차원 데이터에서는 역행렬과 관련된 문제들 (Ledoit과 Wolf, 2004), 고유값 구조 등의 문제 (Sch¨afer와 Strimmer, 2005)로 표본공분산행렬을 그대로 사용할 수 없다. 또한 SAM (Tusher 등, 2001)과 PAM (Tibshirani 등, 2002) 등과 같은 방법들에서 변수들 사이의 독립을 가정한 분류분석 방법이 제안되어 현재까지 많이 쓰이고 있지만, 독립성 가정이 성립하지 않는 경우 정보의 손실 등으로 인해 분류오차가 늘어날 소지가 있다. 고차원 데이터에서 표본공분산행렬을 대체할 수 있는 추정량들의 연구는 Ledoit와 Wolf (2004)에 의해서 표본공분산행렬과 단위행렬과의 볼록 선형결합(convex linear combination)인 축소추정(shrinkage estimation)이 연구되었고, Sch¨afer와 Strimmer (2005)는 단위행렬 이외의 다른 구조를 가지는 표적행렬과의 볼록 선형결합에 대한 연구로 확장하였다.

참고문헌 (26)

Bickel, P. J. and Levina, E. (2008a). Covariance regularization by thresholding, The Annals of Statistics, 36, 2577-2604.

상세보기
Bickel, P. J. and Levina, E. (2008b). Regularized estimation of large covariance matrices, The Annals of Statistics, 36, 199-227.

상세보기
Bouveyron, C., Girard, S. and Schmid, C. (2007). High-dimensional data clustering, Computational Statistics & Data Analysis, 52, 502-519.

상세보기
Cai, T. and Liu, W. (2011). Adaptive thresholding for sparse covariance matrix estimation, Journal of the American Statistical Association, 106, 672-6684.

상세보기
Cai, T., Zhang, C. H. and Zhou, H. H. (2010). Optimal rates of convergence for covariance matrix estimation, The Annals of Statistics, 38, 2118-2144.

상세보기
Choe, S., Kim, S., Lee, C., Yang, W., Park, Y., Choi, H., Chung, H., Lee, D. and Hwang, B. Y. (2011). Species identification of Papaver by metabolite profiling, Forensic Science International.
Chun, H. and Keles, S. (2010a). Sparse partial least squares regression for simultaneous dimension reduction and variable selection, Journal of the Royal Statistical Society: Series B (Statistical Methodology), 72, 3-25.

상세보기
Chung, D. and Keles, S. (2010b). Sparse partial least squares classification for high dimensional data, Statistical Applications in Genetics and Molecular Biology, 9, 17.

상세보기
Clemmensen, L., Hastie, T., Witten, D. and Ersboll, B. (2011). Sparse discriminant analysis, Technometrics, 53, 406-413.

상세보기
Fisher, T. J. and Sun, X. (2011). Improved Stein-type shrinkage estimators for the high-dimensional multivariate normal covariance matrix, Computational Statistics & Data Analysis, 55, 1909-1918.

상세보기
Ghosh, D. and Chinnaiyan, A. M. (2002). Mixture modelling of gene expression data from microarray experiments, Bioinformatics, 18, 275-286.

상세보기
Huang, J. Z., Liu, N., Pourahmadi, M. and Liu, L. (2006). Covariance matrix selection and estimation via penalised normal likelihood, Biometrika, 93, 85-98.

상세보기
Kim, N., Kim, K., Choi, B. Y., Lee, D. H., Shin, Y. S., Bang, K. H., Cha, S. W., Lee, J. W., Choi, H. K., Jang, D. S. and Lee, D. (2011). Metabolomic approach for age discrimination of Panax ginseng using UPLC-Q-Tof MS, Journal of Agricultural and Food Chemistry, 59, 10435-10441.

상세보기
Ledoit, O. and Wolf, M. (2004). A well-conditioned estimator for large-dimensional covariance matrices, Journal of Multivariate Analysis, 88, 365-411.

상세보기
Levina, E., Rothman, A. and Zhu, J. (2008). Sparse estimation of large covariance matrices via a nested Lasso penalty, The Annals of Applied Statistics, 245-263.
Mai, Q., Zou, H. and Yuan, M. (2012). A direct approach to sparse discriminant analysis in ultra-high dimensions, Biometrika, 99, 29-42.

상세보기
McLachlan, G. J., Bean, R. and Peel, D. (2002). A mixture model-based approach to the clustering of microarray expression data, Bioinformatics, 18, 413-422.

상세보기
McNicholas, P. D. and Murphy, T. B. (2010). Model-based clustering of microarray expression data via latent Gaussian mixture models, Bioinformatics, 26, 2705-2712.

상세보기
Palmitesta, P. and Provasi, C. (n.d.). Computer Generation of Random Vectors from Continuous Multivariate Distributions. Available from: http://www.econpol.unisi.it/dmq/pdf/DMQ WP34.pdf.
Rothman, A. J., Levina, E. and Zhu, J. (2009). Generalized thresholding of large covariance matrices, Journal of the American Statistical Association, 104, 177-186.

상세보기
Rothman, A. J., Levina, E. and Zhu, J. (2010). A new approach to Cholesky-based covariance regularization in high dimensions, Biometrika, 97, 539-550.

상세보기
Schafer, J. and Strimmer, K. (2005). A shrinkage approach to large-scale covariance matrix estimation and implications for functional genomics, Statistical Applications in Genetics and Molecular Biology, 4, 32.

상세보기
Shen, H. and Huang, J. Z. (2008). Sparse principal component analysis via regularized low rank matrix approximation, Journal of Multivariate Analysis, 99, 1015-1034.

상세보기
Tibshirani, R., Hastie, T., Narasimhan, B. and Chu, G. (2002). Diagnosis of multiple cancer types by shrunken centroids of gene expression, Proceedings of the National Academy of Sciences, 99, 6567-6572.

상세보기
Tusher, V. G., Tibshirani, R. and Chu, G. (2001). Significance analysis of microarrays applied to the ionizing radiation response, Proceedings of the National Academy of Sciences, 98, 5116-5121.

상세보기
Zou, H., Hastie, T. and Tibshirani, R. (2006). Sparse principal component analysis, Journal of Computational and Graphical Statistics, 15, 265-286.

상세보기

저자의 다른 논문 :

LOADING...

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증