본 논문에서는 온라인 학습 자료의 비선형 특징(feature) 추출을 위한 새로운 온라인 비선형 주성분분석(OL-NPCA : On-line Nonlinear Principal Component Analysis) 기법을 제안한다. 비선형 특징 추출을 위한 대표적인 방법으로 커널 주성분방법(Kernel PCA)이 사용되고 있는데 기존의 커널 주성분 분석 방법은 다음과 같은 단점이 있다. 첫째 커널 주성분 분석 방법을 N 개의 학습 자료에 적용할 때 N${\times}$N크기의 커널 행렬의 저장 및 고유벡터를 계산하여야 하는데, N의 크기가 큰 경우에는 수행에 문제가 된다. 두 번째 문제는 새로운 학습 자료의 추가에 의한 고유공간을 새로 계산해야 하는 단점이 있다. OL-NPCA는 이러한 문제점들을 점진적인 고유공간 갱신 기법과 특징 사상 함수에 의해 해결하였다. Toy 데이타와 대용량 데이타에 대한 실험을 통해 OL-NPCA는 다음과 같은 장점을 나타낸다. 첫째 메모리 요구량에 있어 기존의 커널 주성분분석 방법에 비해 상당히 효율적이다. 두 번째 수행 성능에 있어 커널 주성분 분석과 유사한 성능을 나타내었다. 또한 제안된 OL-NPCA 방법은 재학습에 의해 쉽게 성능이 항상 되는 장점을 가지고 있다.
본 논문에서는 온라인 학습 자료의 비선형 특징(feature) 추출을 위한 새로운 온라인 비선형 주성분분석(OL-NPCA : On-line Nonlinear Principal Component Analysis) 기법을 제안한다. 비선형 특징 추출을 위한 대표적인 방법으로 커널 주성분방법(Kernel PCA)이 사용되고 있는데 기존의 커널 주성분 분석 방법은 다음과 같은 단점이 있다. 첫째 커널 주성분 분석 방법을 N 개의 학습 자료에 적용할 때 N${\times}$N크기의 커널 행렬의 저장 및 고유벡터를 계산하여야 하는데, N의 크기가 큰 경우에는 수행에 문제가 된다. 두 번째 문제는 새로운 학습 자료의 추가에 의한 고유공간을 새로 계산해야 하는 단점이 있다. OL-NPCA는 이러한 문제점들을 점진적인 고유공간 갱신 기법과 특징 사상 함수에 의해 해결하였다. Toy 데이타와 대용량 데이타에 대한 실험을 통해 OL-NPCA는 다음과 같은 장점을 나타낸다. 첫째 메모리 요구량에 있어 기존의 커널 주성분분석 방법에 비해 상당히 효율적이다. 두 번째 수행 성능에 있어 커널 주성분 분석과 유사한 성능을 나타내었다. 또한 제안된 OL-NPCA 방법은 재학습에 의해 쉽게 성능이 항상 되는 장점을 가지고 있다.
The purpose of this study is to propose a new on-line nonlinear PCA(OL-NPCA) method for a nonlinear feature extraction from the incremental data. Kernel PCA(KPCA) is widely used for nonlinear feature extraction, however, it has been pointed out that KPCA has the following problems. First, applying K...
The purpose of this study is to propose a new on-line nonlinear PCA(OL-NPCA) method for a nonlinear feature extraction from the incremental data. Kernel PCA(KPCA) is widely used for nonlinear feature extraction, however, it has been pointed out that KPCA has the following problems. First, applying KPCA to N patterns requires storing and finding the eigenvectors of a N${\times}$N kernel matrix, which is infeasible for a large number of data N. Second problem is that in order to update the eigenvectors with an another data, the whole eigenspace should be recomputed. OL-NPCA overcomes these problems by incremental eigenspace update method with a feature mapping function. According to the experimental results, which comes from applying OL-NPCA to a toy and a large data problem, OL-NPCA shows following advantages. First, OL-NPCA is more efficient in memory requirement than KPCA. Second advantage is that OL-NPCA is comparable in performance to KPCA. Furthermore, performance of OL-NPCA can be easily improved by re-learning the data.
The purpose of this study is to propose a new on-line nonlinear PCA(OL-NPCA) method for a nonlinear feature extraction from the incremental data. Kernel PCA(KPCA) is widely used for nonlinear feature extraction, however, it has been pointed out that KPCA has the following problems. First, applying KPCA to N patterns requires storing and finding the eigenvectors of a N${\times}$N kernel matrix, which is infeasible for a large number of data N. Second problem is that in order to update the eigenvectors with an another data, the whole eigenspace should be recomputed. OL-NPCA overcomes these problems by incremental eigenspace update method with a feature mapping function. According to the experimental results, which comes from applying OL-NPCA to a toy and a large data problem, OL-NPCA shows following advantages. First, OL-NPCA is more efficient in memory requirement than KPCA. Second advantage is that OL-NPCA is comparable in performance to KPCA. Furthermore, performance of OL-NPCA can be easily improved by re-learning the data.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
같다. Tipping⑸은 선형 주성분분석 기법을 결합한 MPCA(mixture PCA)방법으로 비선형 문제를 해결하고자 하였다. 또 다른 접근방법으로 복원오차(reconstruction error)를 최소화 하는 자동연상(autoassociative) 다층 퍼셉트론 등이 제안되었다[6, 7].
따라서 본 논문에서는 K0CA의 일괄처리 방식의 문제점은 Hall이 제안한 온라인 PCA기법올 적용하여 해결하고, 선형 자료에만 적용이 가능한 문제는 다항식 커널 함수에서 구해진 특징 사상함수를 온라인 PCA에 적용하여 비선형이면서 온라인 학습 자료에 대해서도 적용할 수 있는 온라인 비선형 주성분분석 알고리즘을 제안한다.
본 논문에서는 비선형 특징(feature) 추출을 위한 새로운 OL-NPCA 기법을 제안한다. 제안된 OL-NPCA 기법은 다음과 같은 의미를 가진다.
본 논문에서는 앞에서 열거한 기존의 KPCA의 단점을 해결하기 위해 Hall에 의해 제한된 고유공간 갱신기법과 특징사상 함수를 사용한 온라인 비선형 PCA (OL-NPCA) 방법을 제안한다. 논문의 구성은 다음과 같다.
제안 방법
따라서 실험은 먼저 toy 자료에 대해 OL-NPCA와 KPCA와의 주성분값, 재구성 오차 (reconstruction error), 고유벡터의 비교 등을 통해 제안된 OL-NPCA의 정확도를 검중한다, 이때 사용하는 데이타는 Scholkopf[7]7} 그의 논문에서 사용한 비선형자료를 사용한다. Toy 데이타에 대해 OL-NPCA의 타당성을 검정한 후 대용량 데이타에 대한 OL-NPCA의메모리 효율성, 정확도 및 학습의 유연함을 검증하기 위해 기계학습 분야에서 많이 사용하는 바나나 학습 자료 및 UCI machine learning repository 자료에 대해 적용한다.
것이 문제가 된다. 따라서 실험은 먼저 toy 자료에 대해 OL-NPCA와 KPCA와의 주성분값, 재구성 오차 (reconstruction error), 고유벡터의 비교 등을 통해 제안된 OL-NPCA의 정확도를 검중한다, 이때 사용하는 데이타는 Scholkopf[7]7} 그의 논문에서 사용한 비선형자료를 사용한다. Toy 데이타에 대해 OL-NPCA의 타당성을 검정한 후 대용량 데이타에 대한 OL-NPCA의메모리 효율성, 정확도 및 학습의 유연함을 검증하기 위해 기계학습 분야에서 많이 사용하는 바나나 학습 자료 및 UCI machine learning repository 자료에 대해 적용한다.
제안된 OL NPCA 방법의 메모리 효율성 및 정확도를 검증하기 위해 대용량의 학습 자료에 대한 실험을 수행하였다. 학습 자료는 기계학습에서 학습 알고리즘의 성능을 평가 하는 벤치마킹 자료로 많이 사용되는 바나나학습 데이타이다(http://www.
이러한 해결책들은 모두 비선형 최적화 기법을 요구할 뿐 아니라 목적함수(objective function)가 종종 지역 최소화에 빠질 가능성이 있다. 최근에 제안된 방법 중 Scholkopf⑻는 커널함수(kernel function)를 이용한 커널 주성분 분석(KPCA) 방법을 제안하였다. 이는 선형 주성분 분석 방법에서와 유사한 방법으로 고유치eigenvalue) 문제를 해결함으로써 비선형 특징올 추출한다.
표 3에 KPCA와 OL-KPCA와의 메모리 요구량을 비교하였다. 표 3에서 메모리 효율성이란 OL-KPCA가필요로 하는 메모리를 1로 설정하였을 때 K3CA를 수행하기 위해 필요한 메모리의 상대적인 값이다.
대상 데이터
갑상선 자료는 972개의 자료로 구성되어 있으며 각 학습 자료는 29개의 속성으로 구성되어 있다. 학습 자료는 3개의 그룹으로 분류되어 있으며 자료에 대한 자세한 설명은 http://ftp.
제안된 방법의 현실문제에의 적용을 위해 UCI ma-사line learning repository 중에서 갑상선자료에 대해 실험하였다. 갑상선 자료는 972개의 자료로 구성되어 있으며 각 학습 자료는 29개의 속성으로 구성되어 있다.
바나나 학습 자료는 2개의 클래스로 구성된 비선형 자료이며 학습 알고리즘의 성능을 평가하기 위해 학습용 자료 400 개와 테스트 자료 4900개로 분리되어 있다. 하지만 본 논문에서는 분류가 아닌 특징 추출이 목적이므로 두 개를 합친 5300개의 학습 자료에 대해 실험을 하였다. 학습자료의 분포는 그림 4에 나타나 있다.
학습 자료는 기계학습에서 학습 알고리즘의 성능을 평가 하는 벤치마킹 자료로 많이 사용되는 바나나학습 데이타이다(http://www.first.gmd.de广raetsch). 바나나 학습 자료는 2개의 클래스로 구성된 비선형 자료이며 학습 알고리즘의 성능을 평가하기 위해 학습용 자료 400 개와 테스트 자료 4900개로 분리되어 있다.
이론/모형
행렬 £)(为+1)。+1)를 구성하는 몇 가지 방법이 제안되었는데 Hall이 제안한 방법만이 평균을 갱신할 수 있도록 제공하는데 이 기법은 평균의 갱신을 허용하지 않는 기법에 비해 성능이 우수한 것으로 알려져 있다[4]. 따라서 OL-NPCA 방법에서는 Hall이 제안한 평균의 갱신을 허용하는 방법을 이용한다.
주성분의 개수를 어느 정도까지 유지해야 하는지에 대한 명확한 기준은 없다. 본 논문에서는 JoliffeW에의해 제안된 방법을 사용하며 식 (10)과 같다.
성능/효과
즉 두 벡터가 같다는 것을 의미한다. 고유벡터를 비교한 결과에서도 일괄처리 커널주성분 방법과 OL-NPCA 성능이 같음을 알 수 있다.
둘째 기존의 비선형 추출 기법에 비해 메모리 사용 면에서 효율적이다. 기존의 커널 주성분 분석방법의 경우 학습 자료의 개수가 N개 일 때 고유공간(eigenspace) 올 계산하기 위해 O(N2) 만큼의 메모리가 필요하다.
첫째 비선형 자료의 특징 추출 성능에서는 OL-NPCA 방법이 기존의 일괄처리 KPCA와 유사한 성능을 나타내었다.
표 3에서 메모리 효율성이란 OL-KPCA가필요로 하는 메모리를 1로 설정하였을 때 K3CA를 수행하기 위해 필요한 메모리의 상대적인 값이다. 표에서 알 수 있듯이 학습 자료의 개수가 클수록 OL-NPCA이매우 유용한 기법임을 보여주고 있다. 바나나 학습 자료에 대해서도 OL-NPCA는 재학습에 의해 성능이 개선되는 것을 장점으로 보여주고 있으며 이는 그림 5에 나타나 있다.
참고문헌 (16)
I.T. Jolliffe, 'Principal Component Analysis,' New York Springer-Verlag, 1986
H. Murakami, B.V.K.V Kumar., 'Efficient calculation of primary images from a set of images,' IEEE PAMI, 4(5), pp.511-515, 1982
J. Winkeler, B.S. Manjunath and S. Chandrasekaran., 'Subset selection for active object recognition,' In CVPR, volume 2, pp.511-516, IEEE Computer Society Press, June 1999
P. Hall, D. Marshall, and R. Martin., 'Incremental eigenalysis for classification,' In British Machine Vision Conference, volume 1, pp. 286-295, September 1998
M.E. Tipping and C.M. Bishop., 'Mixtures of probabilistic principal component analyser's,' Neural Computation 11(2), pp.443-482, 1998
P. Moerland, 'An on-line EM algorithm applied to kernel PCA,' IDlAP Research Report. 2000
B. Scholkopf, S. Mika, C. Burges, P. Knirsch, K.R. Miller, G. Ratsch and A.J. Smola., 'Input Space versus Feature Space in Kernel-based Methods:' IEEE Transactions on Neural Networks, vol. 10, pp.1000-1017, September 1999
A.J. Smola, O.L. Mangasarian, and B. Scholkopf., 'Sparse kernel feature analysis,' Technical Report 99-03, University of Wisconsin, Data Mining Institute, Madison, 1999
Cover, 'Geometrical and statistical properties of system of linear inequalities with applications in pattern recognition,' IEEE Transactions on Electronic Computers, Vol. EC-14, 326-334. 1965
J. Mercer., 'Functions of positive and negative type and their connecrion with the theory of integral equations,' Philos. Trans. Roy. Soc. London, Vol. 209, pp.415-446, 1909
※ AI-Helper는 부적절한 답변을 할 수 있습니다.