[논문]다구찌 디자인을 이용한 데이터 퓨전 및 군집분석 분류 성능 비교

신형원; 손소영

문제 정의

이처럼 주어진 데이터의 특성에 따라 적절한 앙상블 또는 군집분석 방법을 선택하는 일종의 메타모형은 그 중요성에도 불구하고 연구가 많이 되어 있지 않은 상황이다. 따 라서 본 연구에서는 Monte Carlo Simulation 을 이용하여 데이터 의 특성을 나타내는 인자들과 앙상블, Clustering 방 법간의 교호작용을 분류정확성의 관점에서 분석하 고자 한다. 이를 위하여 데이터의 특성을 (1)입력변 수간의 상관관계 (2)데이터의 분산 (3)데이터의 크기 (4) 입출력변수간의 함수로 나누고 (5)분류방법(로지 스틱 회귀분석, Bagging, Variable Selection Bagging, Parameter Combining, Clustering)0!] 따라 이진 출력값 에 대한 분류정확성을 비교하였다.
이는 데이터의 특성이 입력변수간에 강한 상관관계를 가 지는 경우 모든 변수를 이용하지 않아도 분류정확성 을 저해하지 않는 것을 의미한다. 따라서 교통량 추 정, 품질 예측문제에 있어서 센서의 설치비용을 절 감할 수 있는 가능성을 제시한다. 또한 Parameter Combining 방법은 입력변수간 상관관계가 약할 때 나머지 네 가지 방법에 비하여 분류정확성이 떨어지 는 것으로 나타났다.
그 러나 이상의 다양한 앙상블 방법에 대한 연구들은 데이터의 특성을 중심으로 된 것이라기 보다는 경험 적(empirical) 연구의 측면이 강하다. 따라서 본 논문 은 기존의 연구에서 수행된 Bagging, Variable Selection Bagging, Parameter Combining 방법 과 더 불어 , 여러 분류기 예측 결과를 융합하는 기존의 앙상블 방법과는 반대로, 데이터를 특성에 따라 군집으로 나누고 각 군집별 분류를 하는 Clustering 방법의 성 능을 평가하고자 한다. 분류 방법에 따른 성능평가 의 현실성을 높이기 위하여 다구찌 디자인을 바탕으 로 데이터로부터 성격을 파악할 수 있는 제어인자와 파악할 수 없는 비제어 인자를 동시에 고려한 시뮬 레이션 성능을 연구하였다卩0][13].
또한 로지스틱 회귀분석은 범주형 자료 분석에 오랜 기간 이용해 온 전통적 통계분석 기법 이다. 본 연구에서는 로지스틱 회귀분석을 바탕으로 분류정확성 향상을 위한 여러가지 앙상블 기법을 비 교하였다. 앙상블 기법이란 다중 분류기들로부터 얻 은 예측값들을 결합하는 방법으로써 많은 연구자들 이 하나의 분류기를 사용하는 경우보다 높은 분류성 능을 얻기 위한 노력을 해왔다.

가설 설정

5 개 입력변수간 상관관계가 약할 때의 피어슨 상관 계수는 각각 0.05-0.09 사이이며 강할때의 피어슨 상관계수는 0.95-0.99 사이로 가정하였다.
Ha2: 데이터의 분산은 분류정확성에 영향을 미친다. Ha3: 데이터의 크기는 분류정확성에 영향을 미친다.
Ha2: 데이터의 분산은 분류정확성에 영향을 미친다. Ha3: 데이터의 크기는 분류정확성에 영향을 미친다. Ha4: 분류모형의 사용방법은 분류정확성에 영향을 미친다.
Ha3: 데이터의 크기는 분류정확성에 영향을 미친다. Ha4: 분류모형의 사용방법은 분류정확성에 영향을 미친다.
Ha5: 입력변수간의 상관관계가 크면 Variable Selection Bagging 방법 은 로지 스틱 회 귀 분석 과 분류성능에 차이가 없다.
Ha6: 데이터의 분산이 크면 Clustering 방법은 다른 네 가지 방법보다 분류정확성 이 높다.
Ha6: 데이터의 분산이 크면 Parameter Combining 방 법은 다른 네 가지 방법보다 분류정확성이 높다.
Ha7: 입력변수간의 상관관계가 높고 데이터의 분산 이 크면 Variable Bagging 이 나 Bagging 은로지스틱 회귀분석보다 분류정확성이 높다.
Hal: 입력변수간의 상관관계는 분류정확성에 영향을 미친다.

제안 방법

따 라서 본 연구에서는 Monte Carlo Simulation 을 이용하여 데이터 의 특성을 나타내는 인자들과 앙상블, Clustering 방 법간의 교호작용을 분류정확성의 관점에서 분석하 고자 한다. 이를 위하여 데이터의 특성을 (1)입력변 수간의 상관관계 (2)데이터의 분산 (3)데이터의 크기 (4) 입출력변수간의 함수로 나누고 (5)분류방법(로지 스틱 회귀분석, Bagging, Variable Selection Bagging, Parameter Combining, Clustering)0!] 따라 이진 출력값 에 대한 분류정확성을 비교하였다. 이들 요인중 입 력변수와 출력변수간의 함수는 주어진 데이터에서 실제 알 수 없는 성격이므로 다구찌 실험계획법을 이용하여 비제어 인자로 간주하였다.
다섯개 입력 변수의 평균을 0, 분산 공분산 행렬은 *-의 상관행렬 (Correlation Matrix)에 각 각 1 과 100 을 곱하여 다중 정규(Multivariate Normal) 분포를 따 르도록 하였다.
본 연구에서는 로지스틱 회귀분석, Bagging , Varia비 e selection bagging, Parameter combining, Clustering 방법을 이용하여 분류분석을 할 때 분류 성능에 잠재적으로 영향을 미치는 데이터의 특성에 따라 적합한 분류 방법을 알아보았다. 분류 정확성에 영향을 미치는 인자로 네 가지를 선택하고, 이 중 입출력 변수 간의 연결함 수는 주어진 자료에서 파악할 수 없는 성격이므로 다 구찌 디자인을 이용하여 비제어 인자로 간주하고 실험하였다.
따라서 본 논문 은 기존의 연구에서 수행된 Bagging, Variable Selection Bagging, Parameter Combining 방법 과 더 불어 , 여러 분류기 예측 결과를 융합하는 기존의 앙상블 방법과는 반대로, 데이터를 특성에 따라 군집으로 나누고 각 군집별 분류를 하는 Clustering 방법의 성 능을 평가하고자 한다. 분류 방법에 따른 성능평가 의 현실성을 높이기 위하여 다구찌 디자인을 바탕으 로 데이터로부터 성격을 파악할 수 있는 제어인자와 파악할 수 없는 비제어 인자를 동시에 고려한 시뮬 레이션 성능을 연구하였다卩0][13].
본 연구에서는 로지스틱 회귀분석, Bagging , Varia비 e selection bagging, Parameter combining, Clustering 방법을 이용하여 분류분석을 할 때 분류 성능에 잠재적으로 영향을 미치는 데이터의 특성에 따라 적합한 분류 방법을 알아보았다. 분류 정확성에 영향을 미치는 인자로 네 가지를 선택하고, 이 중 입출력 변수 간의 연결함 수는 주어진 자료에서 파악할 수 없는 성격이므로 다 구찌 디자인을 이용하여 비제어 인자로 간주하고 실험하였다. 일부 요인 실험 계획 결과, 유의 수준 10%에서 가설검정 결과 입력 변수 간의 상관관 겨】, 데이터의 분산은 분류 정확성에 영향을 주며 데이터의 크기는 분류 정확성에 유의한 영향을 주지 않는 것으로 나타났다.
시뮬레이션을 위하여 실제 모델로 사용한 입출력 변 수간의 함수는 모수의 관점에서 로지스틱 선형인 경 우와 로지스틱 비선형인 경우로 나누었다.
이 중, 입출력 함수는 주어진 데이터에서 알 수 없는 성격이므로 비제어인자로 간주하였다. 실험 과정은, 2」'x5' 일부 요인 실험계 획 법을 사용하여 20 개 의 treatment 마다 각 인자와 수준을 고려 하여 난 수 발생시켜 얻은 데이터를 학습용 데이터에 60%, 검증용 데이터에 40% 할당하고 분류 정확성의 신호 대 잡음비(Signal to Noise Ratio)를 즉정하였다.
본 장에서는 데이터의 특성에 비추어 예측능력이 높 은 분류기법을 찾기 위한 실험의 인자 (Factor)와 수 준(Level)을 정하였다. 실험에 사용된 모든 데이터는 5 개의 입력변수 이진값(Binary)을 가지는 출력변수 를 가지고 있으며 그 특성을 (1)입력 변수간의 상 관관계 (2) 데이터의 분산 (3)데이터의 크기 (4)입력 과 출력변수사이의 함수로 나누고 각 시나리오 별로 (5) 앙상블모형에 따른 분류정확성을 분석하였다. 디자인에 사용된 각 요인별 수준을 자세히 살펴 보면 다음과 같다.
다음은 앞서 언급된 <-~。요인과 각각의 수준 을 고려하여 실험계획법을 이용한 가설검정을 하였 다. 이 중, 입출력 함수는 주어진 데이터에서 알 수 없는 성격이므로 비제어인자로 간주하였다. 실험 과정은, 2」'x5' 일부 요인 실험계 획 법을 사용하여 20 개 의 treatment 마다 각 인자와 수준을 고려 하여 난 수 발생시켜 얻은 데이터를 학습용 데이터에 60%, 검증용 데이터에 40% 할당하고 분류 정확성의 신호 대 잡음비(Signal to Noise Ratio)를 즉정하였다.

대상 데이터

데이터 크기의 첫번째 수준은 “상대적으로 작은” 2000 개의 관측치를 가진 경우와 “상대적으로 많은” 10000 개의 관측치를 가진 데이터로 나누었다. 전체 데이터의 60%는 학습용 자료로, 40%는 검증용 자 료로 사용하였다.
본 실험에서는 16 개의 부트스트랩 샘플로 16 개의 로지스틱 분류기를 Bagging 하였다[1].
데이터 크기의 첫번째 수준은 “상대적으로 작은” 2000 개의 관측치를 가진 경우와 “상대적으로 많은” 10000 개의 관측치를 가진 데이터로 나누었다. 전체 데이터의 60%는 학습용 자료로, 40%는 검증용 자 료로 사용하였다.

데이터처리

이 방법은 학습용 데이터를 K-평균법을 이용하여 4 개의 군집으로 나누고 각 군집별로 로지스틱 회귀분 석을 이용한 학습을 하는 방법이다[2][14]. 분류정확 성의 측정은 검증용 데이터를 학습용 데이에 근거하 여 4 개의 군집으로 나누고 군집별 로지스틱 회귀분 석으로 측정했다.
다음은 앞서 언급된 <-~。요인과 각각의 수준 을 고려하여 실험계획법을 이용한 가설검정을 하였 다. 이 중, 입출력 함수는 주어진 데이터에서 알 수 없는 성격이므로 비제어인자로 간주하였다.
한편 모형사용방법X 입력변수간의 상관관계, 모형사용방법X 데이터의 분 산, 모형사용방법X 입력변수간의 상관관계X 데이터 간에는 교호작용이 있는 것으로 나타났다. 유의한 주효과와 교호작용을 바탕으로 데이터의 특성에 따른 적합한 분류방법을 선택하기 위하여 고차 교호 작용을 중심으로 던칸 검정을 하였다.

이론/모형

실험에 사용된 분류방법은 전통적 통계분석 방법으 로 오랜 기간 사용된 로지스틱 회귀분석과 앙상블 방법으로 가장 널리 알려진 Bagging, 일부 변수만을 번갈아 사용하므로 경제적인 분류 방법인 Variable Selection Bagging, Shanon&Banks[ 11 ]°l] 의 하여 제안된 Parameter Combining , 데이터의 분산이 클 때 효과적 일 수 있는 Clustering 방법 을 사용하였다.
이를 위하여 데이터의 특성을 (1)입력변 수간의 상관관계 (2)데이터의 분산 (3)데이터의 크기 (4) 입출력변수간의 함수로 나누고 (5)분류방법(로지 스틱 회귀분석, Bagging, Variable Selection Bagging, Parameter Combining, Clustering)0!] 따라 이진 출력값 에 대한 분류정확성을 비교하였다. 이들 요인중 입 력변수와 출력변수간의 함수는 주어진 데이터에서 실제 알 수 없는 성격이므로 다구찌 실험계획법을 이용하여 비제어 인자로 간주하였다.

성능/효과

일부 요인 실험 계획 결과, 유의 수준 10%에서 가설검정 결과 입력 변수 간의 상관관 겨】, 데이터의 분산은 분류 정확성에 영향을 주며 데이터의 크기는 분류 정확성에 유의한 영향을 주지 않는 것으로 나타났다. Clustering 방법은 입력변수 간의 상관관계가 약하고 데이터의 분산이 크면 나머지 네 가지 분류 방법보다 분류 정확성이 높은 것으로 나타났으며 입력변수 간의 상관 정도가 강할 경우는 Variable Bagging 방법이로지스틱 회귀분석 보다 분류 정확성이 높은 것으로 나타났다. 이 결과는 여러 입력값을 동시에 감지하는 데 많은 비용을 소요되는 분야에서 유용히 활용할 수 있을 것으로 보인다.
따라서 교통량 추 정, 품질 예측문제에 있어서 센서의 설치비용을 절 감할 수 있는 가능성을 제시한다. 또한 Parameter Combining 방법은 입력변수간 상관관계가 약할 때 나머지 네 가지 방법에 비하여 분류정확성이 떨어지 는 것으로 나타났다.
이는 데이터가 분산이 클 경우, 같은 특성을 가진 군집별로 학습을 하는 것이 효과가 있음을 의미한다. 또한 입력변수 간 상관관계가 강하고 데이터의 분산이 큰 경우는 Variable Bagging 과 Bagging 이 로지 스틱 회 귀 분석 보 다 다소 높은 분류정확성을 나타내기는 했으나 통계 적으로 유의한 차이는 나지 않았다. 이는 기존의 많 은 연구에서 'Bagging 을 비롯한 앙상블 방법이 분류 정확성을 향상시킨다는 결과가 통계적으로 유의한 성능 차이를 보이는 것이지 검증해볼 필요가 있음을 제시한다.
예를 들어 교통량 예즉 분야에서는 여러 도로 상황 변수를 동시에 센싱하기 위하여 한 지점의 다량 에 센서를 설치함으로써 발생하는 비용 문제를 해결할 수 있는 대안이 될 수 있을 것이다. 또한 입력변수간 상관관계가 강하고 데이터의 분산이 큰 경우는 Bagging 방법이 단일 모형을 사용한 로지스틱 회귀분석과 비교하여 분류 정확성이 다소 높게는 나타났으나 유의 수준 10%에서 유의한 성능 차이는 나지 않았다. 향후 연구방향으로, 본 연구에서 상대적으로 높은 분류 정확성을 보인 Clustering 방법의 군집 개수를 다양하게 변화시켜 실험함으로써 더욱 분 류성능을 높일 수 있는 가 검증하고, 로지스틱 회귀분석이외에 신경망, Decision Tree 사용한 결과와 비교할 것을 과제로 하고 있다.
<표 1>에 나타난 던칸 검정결과에 의하면 입력 변수간의 상관정도가 강할 경우 Variable Bagging 방 법이 로지스틱 회귀분석 보다 분류정확성이 높은 것 으로 나타났다. 반면에 입력변수간의 상관관계가 약 할 경우는 Variable Bagging 이 로지스틱 회귀분석에 비하여 유의하게 낮은 분류정확성을 보였다. 이는 데이터의 특성이 입력변수간에 강한 상관관계를 가 지는 경우 모든 변수를 이용하지 않아도 분류정확성 을 저해하지 않는 것을 의미한다.
본 장에서는 위와 같은 Hal~:Ha7 의 가설검정 을 위한 들을 실험결과를 바탕으로 분산분석을 하여 유의수준 10%에서 가설검정 결과 모형사용방법, 입 력변수간의 상관관계, 데이터의 분산이 주효과가 있 으며 데이터의 크기는 분류 정확성에 유의한 영향을 주지 않는 것으로 나타났다. 한편 모형사용방법X 입력변수간의 상관관계, 모형사용방법X 데이터의 분 산, 모형사용방법X 입력변수간의 상관관계X 데이터 간에는 교호작용이 있는 것으로 나타났다.
<표 2>에 나타난 던칸 검정 결과에 의하면 입력 변수간의 상관관계가 약하고 데이터의 분산이 크면 Clustering 방법은 나머지 네 가지 분류방법보다 분 류정확성이 높은 것으로 나타났다. 이는 데이터가 분산이 클 경우, 같은 특성을 가진 군집별로 학습을 하는 것이 효과가 있음을 의미한다.
분류 정확성에 영향을 미치는 인자로 네 가지를 선택하고, 이 중 입출력 변수 간의 연결함 수는 주어진 자료에서 파악할 수 없는 성격이므로 다 구찌 디자인을 이용하여 비제어 인자로 간주하고 실험하였다. 일부 요인 실험 계획 결과, 유의 수준 10%에서 가설검정 결과 입력 변수 간의 상관관 겨】, 데이터의 분산은 분류 정확성에 영향을 주며 데이터의 크기는 분류 정확성에 유의한 영향을 주지 않는 것으로 나타났다. Clustering 방법은 입력변수 간의 상관관계가 약하고 데이터의 분산이 크면 나머지 네 가지 분류 방법보다 분류 정확성이 높은 것으로 나타났으며 입력변수 간의 상관 정도가 강할 경우는 Variable Bagging 방법이로지스틱 회귀분석 보다 분류 정확성이 높은 것으로 나타났다.
본 장에서는 위와 같은 Hal~:Ha7 의 가설검정 을 위한 들을 실험결과를 바탕으로 분산분석을 하여 유의수준 10%에서 가설검정 결과 모형사용방법, 입 력변수간의 상관관계, 데이터의 분산이 주효과가 있 으며 데이터의 크기는 분류 정확성에 유의한 영향을 주지 않는 것으로 나타났다. 한편 모형사용방법X 입력변수간의 상관관계, 모형사용방법X 데이터의 분 산, 모형사용방법X 입력변수간의 상관관계X 데이터 간에는 교호작용이 있는 것으로 나타났다. 유의한 주효과와 교호작용을 바탕으로 데이터의 특성에 따른 적합한 분류방법을 선택하기 위하여 고차 교호 작용을 중심으로 던칸 검정을 하였다.

후속연구

Clustering 방법은 입력변수 간의 상관관계가 약하고 데이터의 분산이 크면 나머지 네 가지 분류 방법보다 분류 정확성이 높은 것으로 나타났으며 입력변수 간의 상관 정도가 강할 경우는 Variable Bagging 방법이로지스틱 회귀분석 보다 분류 정확성이 높은 것으로 나타났다. 이 결과는 여러 입력값을 동시에 감지하는 데 많은 비용을 소요되는 분야에서 유용히 활용할 수 있을 것으로 보인다. 예를 들어 교통량 예즉 분야에서는 여러 도로 상황 변수를 동시에 센싱하기 위하여 한 지점의 다량 에 센서를 설치함으로써 발생하는 비용 문제를 해결할 수 있는 대안이 될 수 있을 것이다.
또한 입력변수간 상관관계가 강하고 데이터의 분산이 큰 경우는 Bagging 방법이 단일 모형을 사용한 로지스틱 회귀분석과 비교하여 분류 정확성이 다소 높게는 나타났으나 유의 수준 10%에서 유의한 성능 차이는 나지 않았다. 향후 연구방향으로, 본 연구에서 상대적으로 높은 분류 정확성을 보인 Clustering 방법의 군집 개수를 다양하게 변화시켜 실험함으로써 더욱 분 류성능을 높일 수 있는 가 검증하고, 로지스틱 회귀분석이외에 신경망, Decision Tree 사용한 결과와 비교할 것을 과제로 하고 있다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

[국내논문] 다구찌 디자인을 이용한 데이터 퓨전 및 군집분석 분류 성능 비교
Comparison Study for Data Fusion and Clustering Classification Performances 원문보기

Abstract ▼ AI-Helper

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

[국내논문] 다구찌 디자인을 이용한 데이터 퓨전 및 군집분석 분류 성능 비교 Comparison Study for Data Fusion and Clustering Classification Performances 원문보기

Abstract ▼ AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

[국내논문] 다구찌 디자인을 이용한 데이터 퓨전 및 군집분석 분류 성능 비교
Comparison Study for Data Fusion and Clustering Classification Performances 원문보기

AI 본문요약
AI-Helper