[논문]데이터 불균형 해결을 위한 Under-Sampling 기반 앙상블 SVMs

강필성; 조성준

문제 정의

앞 절의 경우처럼 소수 범주 데이터의 수가 충분한 경우에는 데이터 분포의 왜곡이 심하게 일어나지 않지만 소수 범주 데이터의 수가 매우 적은 경우에는 데이터 분포의 왜곡이 핵심적인 문제가 될 가능성이 매우 크다. 따라서 이 절에서는 소수 범주 데이터의 수가 매우 적은 인공 데이터를 생성하여 Under-Sampling 방법이 야기하는 데이터 분포 왜곡 현상이 어느 정도인지를 알아보기로 한다. 이를 위하여 [표 3]과 같이 소수 범주 데이터의 수가 80개이며 불균형의 비율이 1:5, 1:10, 1:30, 1:50, 1:100인 5개의 4X 4 Checker Board 데이터(Set B)를 생성하였다.
데이터 불균형 문제는 패턴 인식과 기계 학습 분야에서 지속적으로 연구되어온 중요한 이슈 중의 하 나이다. 본 논문에는 소수 범주에 속하는 데이터가 매우 적은 경우, 데이터 불균형이 실제로 분류기의 성능에 미치는 영향을 2차원 인공 데이터를 통하여 알아보고 지금까지 제안된 방법들의 단점을 극복하기 위하여 랜덤 샘플링 기반 앙상블 SVM(RSBE SVM)을 제안하였다. 제안된 RSBE SVM을 두 가지의 인공 데이터에 적용하여 실험을 수행하고 기존의 기법들에 비하여 우수한 성능을 나타내는 것을 확인하였다.
본 논문에서는 데이터 불균형이 나타나는 2 범주 분류 문제에서 SVM을 사용하여 분류기를 구축할 때, Under-Sampling과 Over-Sampling, 그리고 Modifying Cost 기법들의 효과를 2차원 인공 데이터를 통하여 알아본다. 그리고 현존하는 방법들의 단점을 극복하기 위하여 Under-Sampling 기반 앙상블 SVM(EUS SVMs: Ensemble of Under-Sampled SVMs)을 제안하였다.
그리고 Over-Sampling의 단점인 소수 범주를 다수 범주의 수만큼 샘플링 함으로써 발생하는 긴 학습 시간 또한 어느 정도 극복할 수 있다. 본 논문에서는 데이터 불균형이 나타나는 2차원 인공데이터에 EUS SVMs를 적용하여 실험을 수행하고 그 결과를 분석함으로써 EUS SVMs의 효과를 입증하고 자 한다.
본 논문에서는 앞에서 언급된 데이터의 불균형이 심하고, 소수 범주에 속하는 데이터의 수가 매우 적은 경우 Under-Sampling이 가지는 단점을 극복하기 위하여 Ensemble of Under-Sampled SVMs (EUS SVMs)를 제안하였다. [그림 이와 [그림 "은 EUS SVMs의 Algorithm을 설명한 것이다.
본 연구의 후속으로 다음과 같은 연구들이 진행될 수 있다. 본 연구에서는 다수 범주의 데이터를 랜덤하게 샘플링하여 앙상블에 필요한 학습 데이터들을 구축하였다. 따라서 다수 범주의 데이터를 랜덤하게 샘플링하지 않고, K-Means 클러스터링이 나 SOM(Self Organizing Map) 등의 기법을 사용하여 비슷한 특징을 가지고 있는 군집을 이룬 후 이를 앙상블 학습 데이터로 구축할 수 있을 것이다.
2장에서는 우선 단 순 정확도로는 측정하기 어려운 불균형 데이터의 성능 척도에 대해서 언급하고 이를 해결할 수 있는 성능 척도를 선정한다. 이어서 2차원 인공 데이터를 통하여 데이터의 불균형과 적은 소수 범주 데이터의 수가 실제로 분류기의 성능에 어떠한 영향을 끼치는가를 알아본다. 3장에서는 EUS SVMs에 대한 설명을 하고 4장에서는 EUS SVMs의 성능 비교 실험을 위한 비교 방법론들과 실험 디자인에 대하여 설명한다.

제안 방법

본 논문에서는 데이터 불균형이 나타나는 2 범주 분류 문제에서 SVM을 사용하여 분류기를 구축할 때, Under-Sampling과 Over-Sampling, 그리고 Modifying Cost 기법들의 효과를 2차원 인공 데이터를 통하여 알아본다. 그리고 현존하는 방법들의 단점을 극복하기 위하여 Under-Sampling 기반 앙상블 SVM(EUS SVMs: Ensemble of Under-Sampled SVMs)을 제안하였다. EUS SVMs는 앙상블 기법을 도입함으로써, 소수 범주 데이터의 수가 매우 적은 경우, Under-Sampling이 갖는 단점을 보완해 줄 수 있다.
3장에서는 EUS SVMs에 대한 설명을 하고 4장에서는 EUS SVMs의 성능 비교 실험을 위한 비교 방법론들과 실험 디자인에 대하여 설명한다. 또한 실험 결과를 토대로 EUS SVMs의 효과를 알아보도록 한다. 마지막으로 5장에서는 결론과 함께 추후 연구 방향을 알아보도록 하겠다.
EUS SVMs는 앙상블 기법에 기반한 방법이므로 개별 분류기의 결과를 취합하여 앙상블의 전체 결과를 도출하는 방법에 따라 결과가 달라지게 된다. 본 실험에서는 세 가지의 앙상블 결합 방식을 사용하여 각 방식 간의 성능을 비교하였다. 첫 번째는 앙상블을 취합하는데 가장 널리 사용되는 Majority Voting 방식이다.
실제로 소수 범주의 데이터가 충분하면서 데이터가 불균형을 나타내는 경우 SVM의 성능이 어떠한 영향을 받는지 알아보기 위하여 인공 데이터를 생성하여 그 영향을 알아보았다. [표 2]과 같이 소수 범주 데이터의 수가 320개이며 불균형의 비율이 1:1, 1:3, 1:5, 1:10, 1:30, 1:50인 6개의 4 × 4 Checker Board 데 이 터 (Set A)를 생성 하였다.

대상 데이터

EUS SVMs의 효과를 알아보기 위하여 3장에서 언급된 4 × 4 Checker Board Data(Set B)와 2차원의 Spiral 데이터를 생성하여 실험을 수행하였다. 두 데이터에서 다수 범주와 소수 범주의 비율, 각 범주
실제로 소수 범주의 데이터가 충분하면서 데이터가 불균형을 나타내는 경우 SVM의 성능이 어떠한 영향을 받는지 알아보기 위하여 인공 데이터를 생성하여 그 영향을 알아보았다. [표 2]과 같이 소수 범주 데이터의 수가 320개이며 불균형의 비율이 1:1, 1:3, 1:5, 1:10, 1:30, 1:50인 6개의 4 × 4 Checker Board 데 이 터 (Set A)를 생성 하였다. 이 데 이 터 셋에 대하여 SVM을 기본 분류기로 하여 분류를 한 결과는 [그림 1]과 같다.
따라서 이 절에서는 소수 범주 데이터의 수가 매우 적은 인공 데이터를 생성하여 Under-Sampling 방법이 야기하는 데이터 분포 왜곡 현상이 어느 정도인지를 알아보기로 한다. 이를 위하여 [표 3]과 같이 소수 범주 데이터의 수가 80개이며 불균형의 비율이 1:5, 1:10, 1:30, 1:50, 1:100인 5개의 4X 4 Checker Board 데이터(Set B)를 생성하였다. 이 데이터와 소수 범주의 수가 충분한 4 × 4 Checker Board 데이터(Set A)에 UnderSampling 을 적용한 결과의 비교는 [그림 5]과 같다.

이론/모형

에서 제안된 다수 범주의 정확도와 소수 범주의 정확도를 모두 고려한 Geometric Mean을 사용한다. 이는 소수 범주와 다수 범주의 정확도를 동등하게 고려하는 방법이다.

성능/효과

실제로 학습이 잘 되어 있는 분류기는 학습 데이터에 과적 합할 확률이 높다. 그러나 이러한 개별 분류기들을 앙상블 하여 결과를 취합 함으로써, 일반화 성능을 향상시키고 높은 안정성을 보장할 수 있다.
이러한 경우, 어떠한 데이터들이 추출되는가에 따라서 다수 범주와 소수 범주의 영역이 큰 영향을 받을 수 있고, 이는 분류기의 불안정성의 원인이 될 수 있다. 그러나 제안된 방법에서는 앙상블의 인구수와 같은 수의 학습 데이터 셋을 구성하기 때문에 다수 범주에 속한 데이터가 추출될 확률이 Under-Sampling 방법에 비하여 높아지고, 따라서 전체 데이터의 분포를 왜곡할 확률은 낮아지게 된다. 둘째, 제안된 방법은 앙상블을 사용함으로써, 개별 분류기의 성능 편차를 줄일 수 있다.
이는 EUS SVMs로 하여금 Under-Sampling 방법에 비하여 다수 범주의 분포를 왜곡시킬 확률을 줄임으로써, 분류기가 소수 범주에 비정상적으로 집중하는 것을 방지한다. 둘째, EUS는 일반적으로 단일 분류기보다 일반화 성능이 높다고 알려진 앙상블을 사용함으로써, Under- Sampling에서 사용되는 개별 분류기들에 비하여 성능의 편차를 줄일 수 있고, 이는 높은 분류 성능을 가능하게 한다.
특히 데이터의 불균형이 심해질수록 No-Sampling과의 성능 차이가 많이 나타나는 것으로 볼 때, 심한 데이터 불균형의 상황에서 두 방법은 모두 효과적인 대처방 안이 될 수 있다. 둘째, Under-Sampling과 EUS SVMs를 비교해보면 10가지의 모든 상황에 대하여 EUS SVMs가 우월한 성능을 나타낸다. 또한 데이터의 불균형이 심해짐에 따른 성능의 차이에 편차가 없으므로, EUS SVMs는 데이터 불균형의 정도에 상관 없이 Under- Sampling 방법에 비하여 높은 성능을 보장할 수 있다.
그러나 제안된 방법에서는 앙상블의 인구수와 같은 수의 학습 데이터 셋을 구성하기 때문에 다수 범주에 속한 데이터가 추출될 확률이 Under-Sampling 방법에 비하여 높아지고, 따라서 전체 데이터의 분포를 왜곡할 확률은 낮아지게 된다. 둘째, 제안된 방법은 앙상블을 사용함으로써, 개별 분류기의 성능 편차를 줄일 수 있다. 실제로 학습이 잘 되어 있는 분류기는 학습 데이터에 과적 합할 확률이 높다.
둘째, Under-Sampling과 EUS SVMs를 비교해보면 10가지의 모든 상황에 대하여 EUS SVMs가 우월한 성능을 나타낸다. 또한 데이터의 불균형이 심해짐에 따른 성능의 차이에 편차가 없으므로, EUS SVMs는 데이터 불균형의 정도에 상관 없이 Under- Sampling 방법에 비하여 높은 성능을 보장할 수 있다. 마지막으로 앙상블의 결과 취합 방법에 따른 차이를 보면, 4 × 4 Checker Board
[그림 3]에서 확인할 수 있듯이 Modifying Cost 기법은 나머지 두 기법에 비하여 성능의 향상이 미미하다. 또한 불균형이 매우 심한 경우에는 원래의 SVM과 비교하여 성능의 향상을 보여주지 못할 뿐만 아니라, 최적의 파라미터 조건 하에서 수행 시간이 매우 길게 나타나는 것을 확인할 수 있다. Geometric Mean의 즉면으로 보면, Under-Sampling과 Over-Sampling 모두 데이터 불균형을 상당히 해소시킬 수 있으며, 그중에서도 Over-Sampling이 높은 수치를 나타낸다.
이는 앙상블 내의 각 분류기는 학습 에러가 다르게 나타날 수 있으므로 이를 고려하여 학습 에러가 적게 나타나는 분류기에 보다 높은 가중치를 두어 결과를 취합하는 방식이다. 본 실험에서의 즉정 지표는 Geometric Mean이므로 학습 과정에서 Geometric Mean이 높은 분류기에 가중치를 높게 주어 결과를 취합하였다. 세 번째로 사용된 방법(Function Values Aggregation)은 SVM의 함수 값을 사용하는 것이다.
실험 결과에서 알 수 있듯이, EUS SVMs는 Under-Sampling SVM에 비하여 높은 성능을 나타낸다. 이는 EUS SVMs가 가지고 있는 두 가지의 특성에 기인한다.
본 논문에는 소수 범주에 속하는 데이터가 매우 적은 경우, 데이터 불균형이 실제로 분류기의 성능에 미치는 영향을 2차원 인공 데이터를 통하여 알아보고 지금까지 제안된 방법들의 단점을 극복하기 위하여 랜덤 샘플링 기반 앙상블 SVM(RSBE SVM)을 제안하였다. 제안된 RSBE SVM을 두 가지의 인공 데이터에 적용하여 실험을 수행하고 기존의 기법들에 비하여 우수한 성능을 나타내는 것을 확인하였다. 본 연구의 후속으로 다음과 같은 연구들이 진행될 수 있다.
이를 통하여 다음과 같은 결과를 도출할 수 있다. 첫째, Under-Sampling과 EUS SVMs 모두 데이터의 불균형을 해소하는데 있어 No-Sampling보다 효과적인 방법이다. 특히 데이터의 불균형이 심해질수록 No-Sampling과의 성능 차이가 많이 나타나는 것으로 볼 때, 심한 데이터 불균형의 상황에서 두 방법은 모두 효과적인 대처방 안이 될 수 있다.
EUS SVMs가 다른 방법에 비하여 높은 안정성을 나타낼 수 있는 이유는 다음 두 가지로 설명될 수 있다. 첫째, 데이터 분포의 왜곡이 가져오는 문제점을 감소시킬 수 있다. 기존의 Under-Sampling 방법은 다수 범주에서 소수 범주의 데이터의 수만큼을 샘플링한 하나의 학습 데이터만을 사용한다.

후속연구

본 연구에서는 다수 범주의 데이터를 랜덤하게 샘플링하여 앙상블에 필요한 학습 데이터들을 구축하였다. 따라서 다수 범주의 데이터를 랜덤하게 샘플링하지 않고, K-Means 클러스터링이 나 SOM(Self Organizing Map) 등의 기법을 사용하여 비슷한 특징을 가지고 있는 군집을 이룬 후 이를 앙상블 학습 데이터로 구축할 수 있을 것이다. 또한 소수 범주의 데이터가 매우 적기 때문에 본 논문에서는 이를 처리하는 방법을 다루지 않았으나, 소수 범주가 가지고 있는 정보의 활용을 극대화하기 위하여 이 데이터들을 Noise Addition 등의 기법을 통하여 효과적으로 샘플링하여 다수 범주의 데이터와 결합하는 연구가 진행될 수 있을 것이다.
따라서 다수 범주의 데이터를 랜덤하게 샘플링하지 않고, K-Means 클러스터링이 나 SOM(Self Organizing Map) 등의 기법을 사용하여 비슷한 특징을 가지고 있는 군집을 이룬 후 이를 앙상블 학습 데이터로 구축할 수 있을 것이다. 또한 소수 범주의 데이터가 매우 적기 때문에 본 논문에서는 이를 처리하는 방법을 다루지 않았으나, 소수 범주가 가지고 있는 정보의 활용을 극대화하기 위하여 이 데이터들을 Noise Addition 등의 기법을 통하여 효과적으로 샘플링하여 다수 범주의 데이터와 결합하는 연구가 진행될 수 있을 것이다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

데이터 불균형 해결을 위한 Under-Sampling 기반 앙상블 SVMs
EUS SVMs: Ensemble of Under-Sampled SVMs for Data Imbalance Problems 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

데이터 불균형 해결을 위한 Under-Sampling 기반 앙상블 SVMs EUS SVMs: Ensemble of Under-Sampled SVMs for Data Imbalance Problems 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

데이터 불균형 해결을 위한 Under-Sampling 기반 앙상블 SVMs
EUS SVMs: Ensemble of Under-Sampled SVMs for Data Imbalance Problems 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper