[논문]미분류 데이터의 초기예측을 통한 군집기반의 부분지도 학습방법

김응구; 전치혁

문제 정의

본 연구는 다양한 부분지도 군집분석 중 제 약식에 기반한 새로운 부분지도 군집분석 방법을 제안한다. 제 2장에서는 기존의 부분지도 군집분석 방법에 대한 연구 결과들을 소개하며, 제 3장에서 새로운 부분지도 군집분석 방법을 제안하고 있다.
본 연구에서는 5-fold 교차타당성 (Cross validation) 검증을 통해 적절한 A값을 설정하고자 한다. 5-fold 교차타당성 검증은 우선 분류 데이터를 5개의 집단으로 나눈 다음 4개 집단만을 분류 데이터로 간주하고 나머지 한 집단의 범주는 감춰 미분류 데이터와 동일하게 취급하여 제안된 방법을 통해 예측을 실시한다.
그러나 미분류 데이터에 대한 범주를 예측하고 이를 동시에 활용하면 군집성능이 좋아질 것으로 예상된다. 본 연구에서는 이러한 아이디어를 바탕으로 [그림 1]과 같은 제약기반의 부분지도 군집분석을 위한 프레임워크를 마련하였다. 우선 전통적인 지도학습 방법을 사용하여 분류 데이터로부터 분류기를 생성하고 이를 미분류 데이터에 적용하여 범주의 초기치를 예측한다.

제안 방법

부분지도 군집분석은 /로부터 생성된 제 약식의 만족을 위해 목적식에서 (史, X", K)를 사용하고 있다 [2, 7, 13], 본 연구에서 제안하는 방법은 목적식에서 기존 연구들에서 사용한 尸뿐만 아니라 r 을 추가적으로 사용하고자 한다.
3개의 방법과 비교 하였다. LDS와 semi-SVC는 Lee and Lee [10]의 실험에서 가장 분류 성능이 좋은 것으로 보고된 방법이다.
본 연구에서는 5-fold 교차타당성 (Cross validation) 검증을 통해 적절한 A값을 설정하고자 한다. 5-fold 교차타당성 검증은 우선 분류 데이터를 5개의 집단으로 나눈 다음 4개 집단만을 분류 데이터로 간주하고 나머지 한 집단의 범주는 감춰 미분류 데이터와 동일하게 취급하여 제안된 방법을 통해 예측을 실시한다. 감춘 범주와 예측범주를 비교하여 예측오차를 계산하며, 이때 예즉오차를 최소화 하는 入값을 최적값으로 선정하도록 한다.
5-fold 교차타당성 검증은 우선 분류 데이터를 5개의 집단으로 나눈 다음 4개 집단만을 분류 데이터로 간주하고 나머지 한 집단의 범주는 감춰 미분류 데이터와 동일하게 취급하여 제안된 방법을 통해 예측을 실시한다. 감춘 범주와 예측범주를 비교하여 예측오차를 계산하며, 이때 예즉오차를 최소화 하는 入값을 최적값으로 선정하도록 한다.
Basu 등 (2)은 분류 데이터를 제약식뿐만 아니라 초기 군집중심을 설정하는 과정에서도 사용할 것을 제안하였다. 그리고 Constraint K-Means에 적용하여 EM 알고리즘 수행 시군 집 중심은 갱신 되지만 분류 데이터의 소속 군집은 변경하지 않도록 하였다.
우선 분류 데이터로부터 'Must-link'와 , Cannotlink'5] 두 종류 제약 조건을 고려하였다. 그리고 EM (Expectation-Maximization) 알고리즘을 통한 군집화 과정에서 각 관측치를 군집에 할당할 때 위 두 종류의 제약 조건을 적용하도록 한다. Demiriz 등 [기과의 차이점은 Wagstaff 등 [13]이 제안한 제 약식이 각 관측치 단위로 계산되는데 반해 지니 지수는 군집단위로 계산된다는 점이다.
제 2장에서는 기존의 부분지도 군집분석 방법에 대한 연구 결과들을 소개하며, 제 3장에서 새로운 부분지도 군집분석 방법을 제안하고 있다. 기존의 제약기반 접근법들이 직접적으로 분류 데이터의 범주 정보만을 사용한 것과 달리 제안하는 새로운 방법에서는 미분류 데이터에 대한 범주의 초기 예측 결과를 추가적으로 반영한 군집방법을 사용한다. 또한, 제안된 방법은 모든 분류 데이터를 초기 군집 중심으로 사용함으로써 하나의 범주에 대하여 다수의 군집을 형성하는 것이 가능하다는 특징이 있다.
우선 전통적인 지도학습 방법을 사용하여 분류 데이터로부터 분류기를 생성하고 이를 미분류 데이터에 적용하여 범주의 초기치를 예측한다. 다음 단계에서 분류 데이터 범주와 미분류 데이터의 범주에 대한 초기 예측 결과를 추가로 목적식에 반영한 부분지도 군집분석을 실시한다. 마지막으로 부분 지도 군집 분석을 통한 군집형성 결과로부터 미분류 데이터의 최종 범주를 예측 한다.
다음 단계에서 분류 데이터 범주와 미분류 데이터의 범주에 대한 초기 예측 결과를 추가로 목적식에 반영한 부분지도 군집분석을 실시한다. 마지막으로 부분 지도 군집 분석을 통한 군집형성 결과로부터 미분류 데이터의 최종 범주를 예측 한다.
모든 데이터는 실제 범주가 알려져 있으나 본 실험을 목적으로 학습데이타의 경우에 선정된 분류데이터 수만 범주를 알고 나머지는 모르는 것으로 간주하였으며, 테스트 데이터의 경우 모든 범주를 모르는 것으로 설정하였다.
본 연구는 미분류 데이터의 범주에 대한 초기 예측치를 추가로 목적식에 반영한 부분지도 군집 분석 방법을 제안하고 이를 다양한 실제 데이터에 적용하였다. 부분지도학습의 근본 목적은 대량의 미분류 데이터를 사용하여 분류데이터 만을 이용하는 것보다 좋은 분류기를 생성하는데 있다.
따라서 미분류 데이터 범주에 대한 예측은 동일한 군집에 속한 분류 데이터를 이용할 수 있다. 본 연구에서는 단순한 방법으로 각 군집에 속한 분류 데이터 중 가장 다수의 범주를 해당 군집내의 미분류데이터의 범주로 최종 예즉하는 방법을 사용한다.
본 연구에서는 분류 데이터와 미분류 데이터의 초기 예측결과를 목적식에 추가로 반영하는 방법을 새로이 제안하며 목적식은 식 (5)와 같다. 이 목적식에는 군집별 입력값들의 거리 뿐만 아니라 출력값의 거리가 포함되어 있다.
이때, 예측하고자 하는 데이터와의 거리를 이용하여 가중치를 부여함으로써 예측 결과가 K에 덜 민감하게 할 수 있다. 본 연구에선 유클리드 거리를 가중치로 사용하여 식 (6)과 같이 입력패턴 X를 같는 미분류데이터의 범주를 예측한다.
제안하였다. 우선 분류 데이터로부터 'Must-link'와 , Cannotlink'5] 두 종류 제약 조건을 고려하였다. 그리고 EM (Expectation-Maximization) 알고리즘을 통한 군집화 과정에서 각 관측치를 군집에 할당할 때 위 두 종류의 제약 조건을 적용하도록 한다.
본 연구에서는 이러한 아이디어를 바탕으로 [그림 1]과 같은 제약기반의 부분지도 군집분석을 위한 프레임워크를 마련하였다. 우선 전통적인 지도학습 방법을 사용하여 분류 데이터로부터 분류기를 생성하고 이를 미분류 데이터에 적용하여 범주의 초기치를 예측한다. 다음 단계에서 분류 데이터 범주와 미분류 데이터의 범주에 대한 초기 예측 결과를 추가로 목적식에 반영한 부분지도 군집분석을 실시한다.
이를 위하여 기존의 다양한 분류 방법들이 사용 가능하나 단순히 미분류 데이터의 범주 예측이 아닌 범주별 사후확률(Posterior probability) 을 부여할 수 있는 방법을 사용하도록 한다. 그리고 분류 데이터와 미분류 데이터의 출력값인 범주 정보는 다음과 같이 벡터 형태로 변환 한다.
제안된 방법은 우선 분류방법을 사용하여 학습데이터 중 분류 데이터로부터 분류기를 생성하며 이를 미분류 데이터에 적용하여 범주의 초기치를 예측한다. 이를 위하여 기존의 다양한 분류 방법들이 사용 가능하나 단순히 미분류 데이터의 범주 예측이 아닌 범주별 사후확률(Posterior probability) 을 부여할 수 있는 방법을 사용하도록 한다.
제안된 방법은 초기 군집중심 설정 과정에서 모든 분류 데이터의 개별 관측치를 별도의 잠재적 군집 중심으로 사용한다. 따라서 알고리즘 초기 단계에서 군집 수는 분류 데이터의 수와 동일하다.

대상 데이터

정리하였다. coil20과 uspst는 Chapelle and Zien [5]의 연구에서 사용된 실제 사례 데이터들이다. coil20은 20개의 서로 다른 대상을 여러 각도에서 촬영한 흑백 이미지 데이터이며 uspst는 필기체 숫자 인식에서 널리 사용되는 USPS(United States Postal Service) 데이터의 테스트 데이터 부분이다.
sonar의 경우 변수 간 척도의 차이가 심하기 때문에 입력패턴에 대한 정규화를 하였으며 나머지 데이터는 그대로 사용하였다. tae와 g50c는 인공적으로 생성된 데이터들로 tae는 Lee and Lee [10]의 연구에서 사용 되었으며 g50c는 Chapelle and Zien [5] 에서 사용되었다.
가용한 분류 데이터의 수에 따른 제안된 방법의 성능을 분석하기 위하여 coil20과 uspst 두 개의 데이터를 사용하여 추가적으로 실험을 수행하였다. [그림 4]는 분류 데이터의 수에 따른 오 분류율의 변화를 보여준다.
따라서 본 연구에서 제안한 방법과 다른 연구 문헌의 결과를 비교하기 위하여 실험에 사용한 분류데 이 터 관측 수는 Lee and Lee [10]의 실험과 동일하게 설정하였다. 그리고 테스트 데이터는 미분류 데이터에 대한 예측 완료 후 새로운 입력패턴에 대한 분류 성능을 평가하기 위한 데이터로 사용 되었다. 모든 데이터는 실제 범주가 알려져 있으나 본 실험을 목적으로 학습데이타의 경우<표 1>에 선정된 분류데이터 수만 범주를 알고 나머지는 모르는 것으로 간주하였으며, 테스트 데이터의 경우 모든 범주를 모르는 것으로 설정하였다.
본 연구에서 대상으로 하는 학습데이터는 총 N 개의 관측치로 구성된다. 이 중 일부는 분류 데이터이며 나머지는 미분류 데이터이다.
제안된 방법의 성능, 특히 미분류 데이터의 범주예측 성능을 평가하기 위하여 6개 종류의 데이터가 실험에 사용 되었으며 이를에 정리하였다.

데이터처리

방법별로 유의차가 있는 경우 작은 순으로 나열하였으며, 유의차가 없는 경우 괄호로 묶어서 표시하였다. LDS와 semi-SVC의 경우 Le氏 and Lee [10]의 실험에서 보고된 오분류율의 평균과 표준편차 값을 이용하여 정규분포를 따르는 수를 100 개 생성하여 던컨 통계량을 산출하였다.
각 방법의 성능평가를 위해 학습데이터 중 분류데이터를에서 선정된 갯수만큼 무작위로 추출하여 실험을 수행하되 이런 과정을 100번 반복하여 학습데이터(train) 및 테스트 데이터(test)의 미분류 데이터에 대한 오분류율의 평균과 표준편차를 계산하였으며 이를에 정리 하였다.
한편, 제안 방법과 관련된 파라미터 '의 최적값을 구하기 위하여 0부터 0.01 단위로 증가 시켜가면서 5-fold 교차타당성 검증을 사용실시 하였다.<표 2>는 교차타당성 검증 결과 구해진 최적 '값을 데이터 별로 정리한 결과이다.

이론/모형

군집과정은 기본적으로 EM 알고리즘을 사용한다. 따라서 제안된 부분지도 군집방법의 알고리즘을 다음과 같이 단계별로 정리할 수 있다.
하더라도 분류 데이터의 양에 따라 예측 성능이 다르게 나타난다. 따라서 본 연구에서 제안한 방법과 다른 연구 문헌의 결과를 비교하기 위하여 실험에 사용한 분류데 이 터 관측 수는 Lee and Lee [10]의 실험과 동일하게 설정하였다. 그리고 테스트 데이터는 미분류 데이터에 대한 예측 완료 후 새로운 입력패턴에 대한 분류 성능을 평가하기 위한 데이터로 사용 되었다.
미분류 데이터의 범주를 초기 예즉을 위해 사용하는 분류방법은 범주별 사후확률 부여만 가능하다면 어떤 방법을 사용하여도 무방하나, 본 연구에선 wKNN(weighted K-Nearest Neighbor) [12] 방법을 사용하였다. KNN 방법은 미분류 데이터의 입력패턴과 거리가 가장 가까운 K개의 이웃을 분류 데이터 중에서 선정하고, 이에 속한 데이터들의 분류정보를 이용하여 미분류 데이터의 범주를 예즉하는방법이다.

성능/효과

시간을 보여준다. Constrained K-Means는 분류데이터의 수와 관계없이 거의 일정한 시간이 소요되는 반면에 wKNN과 제안된 방법의 경우 분류 데이터의 수가 증가할수록 알고리즘 수행시간이 증가하고 있으며 특히 제안된 방법이 wKNN 보다 수행 시간의 증가 정도가 크다. 이러한 현상은 제안된 방법의 경우 전체 데이터의 수가 일정하더라도 분류데이터의 수가 증가하면 알고리즘 수행시간이 증가할 수 있음을 의미한다.
semi-SVC와 제안된 방법은 서로 6개 데이터 중 3개 데이터에서 좋은 예측 성능을 보이고 있으며 전반적으로 비슷한 예측 성능을 보여준다. 실제 사례 데이터(coil20, uspst)와 UCI Repository 로부터얻은 데이터(sonar, segment)의 경우 범주당 분류데이터의 수가 많고 차원수가 작은 경우 제안된 방법의 성능이 좋지만 반대의 경우 semi-SVC의 성
분류 데이터의 수가 늘어남에 따라 제안된 방법뿐만 아니라 wKNN, Constrained K-Means 모두 분류 성능이 향상됨을 확인할 수 있다. 또한 분류 데이터의 수가 적은 경우 각 방법들 간의 성능 차이가 적은 편이지만 분류 데이터의 수가 늘어 날수록 제안된 방법의 성능 향상 정도가 다른 방법들보다 큼을 확인할 수 있다.
기존의 제약기반 접근법들이 직접적으로 분류 데이터의 범주 정보만을 사용한 것과 달리 제안하는 새로운 방법에서는 미분류 데이터에 대한 범주의 초기 예측 결과를 추가적으로 반영한 군집방법을 사용한다. 또한, 제안된 방법은 모든 분류 데이터를 초기 군집 중심으로 사용함으로써 하나의 범주에 대하여 다수의 군집을 형성하는 것이 가능하다는 특징이 있다. 제 4장에서는 다양한 실험 데이터를 통해 본 연구에서 제안된 방법과 기존 연구들의 분류성능을 비교하고 마지막으로 제 5장에선 이에 대한 결론을 내릴 것이다.
또한, 제안된 방법은 인공 데이터인 g50c의 경우를 제외하고 Constrained K-Means 보다 항상 좋은 분류성능을 보여준다. g50c는 변수들이 다변량 정규분포를 따르도록 인공적으로 생성된 데이터로서 Qjnstrained K-Means와 같이 실제 범주수와 동일한 수의 혼합 모델을 사용하는 방법이 가장 적합하다’ 하지만 다른 실제 사례 데이터들이나 정규분포를 따르지 않는 인공 데이터의 경우 Constrained K-Means는 다른 방법들과 비교하여 성능이 떨어짐을 확인할 수 있다.
반면에 제안된 방법은 최소한 초기추정에 사용된 분류 방법보다는 우월한 성능을 제공한다는 점에서 가치가 있다. 또한, 제안된 방법은대체적으로 Constrained K-Means 보다 좋은 분류성능을 보여준다.
그러나 많은 기존 방법들이 데이터 특성에 따라서는 분류 데이터만을 사용한 분류 방법보다 낮은 성능을 보이는 경우가 있다. 반면에 제안된 방법은 최소한 초기추정에 사용된 분류 방법보다는 우월한 성능을 제공한다는 점에서 가치가 있다. 또한, 제안된 방법은대체적으로 Constrained K-Means 보다 좋은 분류성능을 보여준다.
[그림 4]는 분류 데이터의 수에 따른 오 분류율의 변화를 보여준다. 분류 데이터의 수가 늘어남에 따라 제안된 방법뿐만 아니라 wKNN, Constrained K-Means 모두 분류 성능이 향상됨을 확인할 수 있다. 또한 분류 데이터의 수가 적은 경우 각 방법들 간의 성능 차이가 적은 편이지만 분류 데이터의 수가 늘어 날수록 제안된 방법의 성능 향상 정도가 다른 방법들보다 큼을 확인할 수 있다.
Constrained K-Means는 분류데이터의 수와 관계없이 거의 일정한 시간이 소요되는 반면에 wKNN과 제안된 방법의 경우 분류 데이터의 수가 증가할수록 알고리즘 수행시간이 증가하고 있으며 특히 제안된 방법이 wKNN 보다 수행 시간의 증가 정도가 크다. 이러한 현상은 제안된 방법의 경우 전체 데이터의 수가 일정하더라도 분류데이터의 수가 증가하면 알고리즘 수행시간이 증가할 수 있음을 의미한다. 이는 제안된 방법이 모든 분류 데이터를 초기 군집 중심으로 사용하기 때문에 알고리즘 수행시간이 분류 데이터의 수에 민감하게 영향을 받는 것이다.
제안된 방법은 모든 분류 데이터를 초기 군집 중심으로 사용함으로써 하나의 범주에 대하여 다수의 군집을 형성하는 것이 가능하다. 이러한 특성은 하나의 범주가 여러 개의 하위 범주로 구성되어 있는 경우 각 하위범주 별로 별도의 군집을 형성하게 함으로써 분류성능을 향상 시킬 수 있다.

후속연구

이와 관련하여, 분류 데이터의 수가 많은 경우 모든 분류 데이터를 초기 군집 중심으로 사용하지 않고 일부만을 사용하거나 분류데이터에 대한 초기 군집화를 통해 적은 수의 초기군집 중심을 선택하는 등의 연구가 추가적으로 이루어질 필요가 있다. 또한, 본 연구에서는 미분류데이터의 초기 예측을 위하여 wKNN 방법을 사용하였으나, 사용되는 분류방법에 따라서 전체 성능이 영향을 받을 수 있으므로 다양한 다른 분류 방법에 따른 범주 초기예측을 적용한 실험이 필요하다.
우려가 있다. 이와 관련하여, 분류 데이터의 수가 많은 경우 모든 분류 데이터를 초기 군집 중심으로 사용하지 않고 일부만을 사용하거나 분류데이터에 대한 초기 군집화를 통해 적은 수의 초기군집 중심을 선택하는 등의 연구가 추가적으로 이루어질 필요가 있다. 또한, 본 연구에서는 미분류데이터의 초기 예측을 위하여 wKNN 방법을 사용하였으나, 사용되는 분류방법에 따라서 전체 성능이 영향을 받을 수 있으므로 다양한 다른 분류 방법에 따른 범주 초기예측을 적용한 실험이 필요하다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

미분류 데이터의 초기예측을 통한 군집기반의 부분지도 학습방법
A Clustering-based Semi-Supervised Learning through Initial Prediction of Unlabeled Data 원문보기

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

참고문헌 (16)

이 논문을 인용한 문헌

저자의 다른 논문 :

연구과제 타임라인

관련 콘텐츠

원문 보기

원문 URL 링크

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

미분류 데이터의 초기예측을 통한 군집기반의 부분지도 학습방법 A Clustering-based Semi-Supervised Learning through Initial Prediction of Unlabeled Data 원문보기

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

참고문헌 (16)

이 논문을 인용한 문헌

저자의 다른 논문 :

김응구 (1) 전치혁 (36)

연구과제 타임라인

전체(0) 논문(0) 특허(0) 보고서(0)

전체(0) 논문(0) 특허(0) 보고서(0)

관련 콘텐츠

원문 보기

원문 URL 링크

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

미분류 데이터의 초기예측을 통한 군집기반의 부분지도 학습방법
A Clustering-based Semi-Supervised Learning through Initial Prediction of Unlabeled Data 원문보기

AI 본문요약
AI-Helper