[논문]유전자 알고리즘을 활용한 데이터 불균형 해소 기법의 조합적 활용

장영식; 김종우; 허준

문제 정의

본 논문에서는 데이터 불 균형 문제를 해 소하기 위 한기 법들의 결합적 활용의 유용성을 살펴보고자 한다. 여기서 결합적 활용이란, 두 가지 이상의 불균형해소 기법들을 동시에 활용하여 데이터의 균형을 맞추는 것을 의미한다.
[표 3]의 Confusion Matrix는 F-value 계산에사용 되며 본논 문의 경우 소수 범주에관 심을 가지고 있으므로 소수범주를 positive class로 다른 class는 negative class로 간주하였다. 본 논문에서는 소수범주 집단에 대한 예측력과 정확성을 높이기 위한 목적올 가지고 있으므로 소수범주 오분류율(FP rate), 소수범주 집단에 대한 F-value 그리고 다수집단에 대한 Fwahie를 고려하여 성능을 측정하도록 한다.
본 논문에서는 의사결정나무 추론을 사용한 데이터마이닝 문제에서 데이터 불균형문제를 해소하기 위한 기법들의 결합적 활용의 유용성을 검증하고, 합리적인 결합 비율을 결정하기 위한 방법으로 유전자 알고리즘의 사용 방안에 대하여 연구하도록 한다. 구체적으로 다음과 같은 연구 질문들을 고찰해 보고자 한다.
본 연구에서는 불균형 문제를 가진 데이터에서 최상의 의사결정 모형을생성하기 위해 불균형해소기법들의 결합 비율을 결정하기 위한 방법으로 유전자 알고리즘을 사용하고자 한다. 즉 다수의 sampling 방식을 사용하여 새로운 학습 데이터를 생성하거나 오분류 비용을 조정하는 방법을 병행하여 활용하고 유전자 알고리즘을 통해 결합 비율을 결정하는 결합적 활용 방안을 제시하고 그 유용성을 검증해 보고자 한다.
같다. 본 연구에서는 일반적인 단순 샘플링 기법을 사용하였지만 SMOTE 등과 같은 데이터 불균형을 해결하기 위한 다양한 샘플링 방식이 연구되었다. 따라서 기존에 연구된 다양한 샘플링 방식을 구현하여 그 결과를 비교하는 것이 필요하다.
Phoneme 데이터 집합은 ELENA 프로젝트】 데이터이다. 이 데이터의 목적은 콧소리(이ass 0) 와입에서 나는 소리(class 1)을 구별하기 위한 것이다. 5개의 속성을 가지고 class 0 은 3, 818개, class 1은 1, 586개(29 %) 이 다
알고리즘을 사용하고자 한다. 즉 다수의 sampling 방식을 사용하여 새로운 학습 데이터를 생성하거나 오분류 비용을 조정하는 방법을 병행하여 활용하고 유전자 알고리즘을 통해 결합 비율을 결정하는 결합적 활용 방안을 제시하고 그 유용성을 검증해 보고자 한다. 본 논문에서 제시하고 있는 데이터 불 균형 해 소를위한 기법들의 결합적 활용 흐름도는[그림 1]과 같다.

가설 설정

3. Satimage 데이터 집합[14]은 원래 6개의 클래스를 가진다. 본 연구에서는 이항형으로 만들기 위해 소수 범주로서 가장 적은 클래스를 사용하고 나머지 클래스들은 하나의 클래스 즉 다수 범주로 사용하였다[34].
본 연구에서 불균형 데이터는 기본적으로 이 항형의 형태를 가정하고 있으며, 이항형 데이터는 그분 포에 따라서 소수범주와 다수범주로 나누어진다. 데이터 불균형을 해소하기 위한 기법으로는 sampling 기법과 오분류를 조정하는 기법이 대표적이다.

제안 방법

성과 평가는 소수범주오분류율, 소 수범주에 대한 F・value와 다수 범주에 대한 Fwalue 로 나타내었다. Pima 데이터의 결합 비율과 오분류 비용을 유전자 알고리즘을 통해 결정하고 초기 개체군의 수를 750으로 하여 20세대까지 진화 시키면서 Best Fitness, 즉 소수범주에 대한 Fwahie의 값이 가장 커지는 비율을 찾도록 하였다. 그 결과 소수범주에 대한 F・value는 13.
② 4가지 기법들의 비율을[표 4]의 범위 내에서 각각 무작위 추출한 750개를 개체군으로 하여 20세대까지 유전자 알고리즘을 실행한다. 단, 각기 법의 비율(또는 오분류 비용)은 기법을 적용하지 않는 경우를 포함하여 101가지 중 하나로 한다.
와 방안을 제시하였다. 기존 단일 기법들의 위 해 임의의 비율에 의한 결합 성과를 비교하기주에 격자표를 작성하여 비교하였다.또한 소수한 대 대한 정확성을 높이기 위해 소수 범주에 F・v하ue 를 유전자 알고리 즘의 적 합도함수 (Fitness function)^.
본 연구에서는 새로운 학습 데이터를 생성하기 위해 사용되는 방법으로 소수범주에 대한 Over Sampling, 다수 범주에 대한 Under Sampling, 이상치 제거 후 Under Sampling의 3가지 기법을 사용한다. 또한 samp加g에 의珈 생성된 새로운 학습 집합을 학습하는 과정에서 예측력을 높이기 위해오분류 비용의 조정을 추가하였다, 현 실 세계에서오분류 비용을 미리 알고 있는 경우는 매우 드물기 때문에 오분 류 비용 을 얼 마로 설 정할 지 를 결정하는 것은 매우 힘든 일이다、따라서 본 논문에서는 sampling 기법들의 결합 비율, 즉 sampling 퍼센트와오분류 비용을 결정하기 위해 유전자 알고리즘을 사용하게 된다. 또한 예측력을 평가하기 위해서 소수범주에 대한 F・value를 적 합도 함 수로 사용한다.
본 연구에서는 (1) 데이터 불균형 해소 기법의 단독 활용, (2) 데이터 불균형 해소 기법들의 결합적 사용(결합 비율을 둥간격으로 부여), (3) 유전자 알고리즘을 활용한 데이터 불균형 해소기법의 결합 비율 결 정의 3가지 형태의실 험이 이루어 졌다.
본 연구에서는 기존에 제시되었던 불균형 데이터 해소 기법들, 즉 다수의 샘플링 방식을 사용하여 새로운 학습 데이터를 생성하거나 오분류 비용을 조정하는 방법을 병행하여 활용하고 유전자 알고리즘을 통해 결합비율을 결정하는 결합적 활용과 와 방안을 제시하였다. 기존 단일 기법들의 위 해 임의의 비율에 의한 결합 성과를 비교하기주에 격자표를 작성하여 비교하였다.
데이터 불균형을 해소하기 위한 기법으로는 sampling 기법과 오분류를 조정하는 기법이 대표적이다.본 연구에서는 새로운 학습 데이터를 생성하기 위해 사용되는 방법으로 소수범주에 대한 Over Sampling, 다수 범주에 대한 Under Sampling, 이상치 제거 후 Under Sampling의 3가지 기법을 사용한다. 또한 samp加g에 의珈 생성된 새로운 학습 집합을 학습하는 과정에서 예측력을 높이기 위해오분류 비용의 조정을 추가하였다, 현 실 세계에서오분류 비용을 미리 알고 있는 경우는 매우 드물기 때문에 오분 류 비용 을 얼 마로 설 정할 지 를 결정하는 것은 매우 힘든 일이다、따라서 본 논문에서는 sampling 기법들의 결합 비율, 즉 sampling 퍼센트와오분류 비용을 결정하기 위해 유전자 알고리즘을 사용하게 된다.
Satimage 데이터 집합[14]은 원래 6개의 클래스를 가진다. 본 연구에서는 이항형으로 만들기 위해 소수 범주로서 가장 적은 클래스를 사용하고 나머지 클래스들은 하나의 클래스 즉 다수 범주로 사용하였다[34]. 따라서 다수 범수의 수는 5, 809 개 이며 소수 범주의 수는 626개(10 %)이다.
실험방법 (3) 은 유전자 알고리즘을 통하여 결합 비율 및 오분류 비용을 결정하는 실험을 하였다. 실험방법(3)은 개체군의 수를 750개로 하여 20세대까지 총 15000개의 경우의 수를 가진다.
실험방법(1)과 실험방법(2), 실험방법(3)을 통해 단일 기법의 단독 사용보다 결합적 사용이 더 유용한지, 그리고 결합적 사용이 더 성과가 높다면 그 결합 비율을 유전자 알고리즘을 통해 결정 하는 것이 더 효과적인지 살펴 보고자 3가지 실험 방법의 성과 를 비교 분석하였다. 이를 구현하기 위한 프로그램의 기본 API는 JAVA를 기반으로 한 WEKA 2와 Java GALib(Genetic Algorithm Library) 3 를 활용하였다.
실험방법(2)는 첫째, 각 기법들의 비율을 조합한다고 가정하고 일정한 간격의 결합을 보여주는 격자표를 작성하여 그 결과를 비교하는 실험을 하였다. 실험방법 (2)에서 격자표의 경우의 수는 기법을 사용하지 않는(100 또는 0) 경우를포함하여 11가지 이며 따라서 고려한 총 경우의 수는 ll(ROS) X ll(RUS) x 11 (USWO) xll(COST) = 14, 641 가지이다.
또한 소수한 대 대한 정확성을 높이기 위해 소수 범주에 F・v하ue 를 유전자 알고리 즘의 적 합도함수 (Fitness function)^. 하여 불균형 해소 기법들의 결합 비율을 유전자 알고리즘을 이용하여 결정하고 그 성과를 측정하였다. 4개의 공개된 데이터 집합을 활용하여 분석한 결과, 전체적으로 기존 단일 기법들의 성과보다는 격자표에 의한 결합에 따른 성과가 더 높게 나타났으며 활용할만한 성과를 보였다.

대상 데이터

2. Phoneme 데이터 집합은 ELENA 프로젝트】 데이터이다. 이 데이터의 목적은 콧소리(이ass 0) 와입에서 나는 소리(class 1)을 구별하기 위한 것이다.
따라서 기존에 연구된 다양한 샘플링 방식을 구현하여 그 결과를 비교하는 것이 필요하다. 또한 본 연구에서는 일반적으로 데이터 불균형 문제를 해결하기 위해 사용되는 4개의 공개 데이터 집합을 활용하였다. 하지 만, 좀 더 다양한 분포를 가지 는데이터를 통한 추가적인 실험이 요구된다.
본 논문에서는 일반적으로 데이터 불균형 문제를 해결하기 위해 많이 사용되는 UCI repository 데이터, Mammography 데이터와 ELENA 프로젝트 데이터를 활용하였다. 본 연구에서 사용한 데이터 집합은[표 1]과 같다.
구체적으로 다음과 같은 연구 질문들을 고찰해 보고자 한다. 첫째, 기 존에 제시되었던 불균형 데이터 해소 기법들의 조합적인 활용을 통해서 생성되는 의사결정나무의 성과를 높일 수 있는가? 둘째, 만일 불균형 해소 기법들의 조합적 활용이 유용하다면, 임의적으로 조합 비율을 결정하는 것보다 유전자 알고리즘을 활용하여 조합 비율을 결정하는 것이 더 좋은 성과를 제공하는가? 본 연구에서는 이러한 연구 질문에 답하기 위해서 일반적으로 데이터 불균형 문제에 많이 사용되는 4개의 데이터 집합을 활용하여 분석을 수행하였다. 본 논문의 구성은 다음과 같다.
하였다. 실험방법(3)은 개체군의 수를 750개로 하여 20세대까지 총 15000개의 경우의 수를 가진다. 그러나, 교배율이 90%이고 돌연변이율이 5% 이므로 각 세대의 5%는 다음세대에 생존하게 된다.
Pima Indian Diabetes[14]는 2개의 범주와 768 개의 샘플을 가진다. 이 데이터는 Arizona Phoenix 근처 사람들의 당뇨병 진단 결과를 확인하기 위해 사용되었다. 양성 범주의 수는 268(35 %)이다.

데이터처리

[표 5]을 보면 먼저 4가지 방법에 따른 3개의 지표의 차이가 있는지에 대하여 One-way ANOVA를 이용하여, 검정한 결과 유의수준 5%에서 유의한 것으로 나타났다. 귀무가설은 4가지 방법의 소수범주 오분류율, 소수범주에 대한 F-value, 다수범주에 대한 Fwahie의 평균값이 같다는 것이며, 검정 결과 소수범주 오분류율의 F 값이 47.
성과 평가는 소수범주 오분류율(FP), 소수범주에 대한 F-vakie와다수 범주에 대한 F-value로 나타내었다. 또한 각 집합 간의 차이를 분석하기 위해 One-way ANOVA를 이용하여 검정하였고 사후 분석으로 Duncan Test를 수행하였다.

이론/모형

선택법에는 기본적으로 적합도 비례 룰렛 휠 선택법(proportionate selection roulette selection), 엘리트보존 선택법 (Elitism), 기대치 선택법 (expected・vahie selection), 순幡 선택법(ranking selection)이 있으며, 본 논문에서는 순위 선택법 (ranking selection) 을 사용하였다. 순위 선택법은 미리 순위와 선택할 개체 수와의 관계를 결정해 둔다.
분석하였다. 이를 구현하기 위한 프로그램의 기본 API는 JAVA를 기반으로 한 WEKA 2와 Java GALib(Genetic Algorithm Library) 3 를 활용하였다. WEKA는 Waikato Environment for Analysis의 약어로, 와이카토 대학에서 개 발하여 공개된 시바 기반 의 데이터 마 이닝 도구이다.
적합도 함수는 데이터 불 균형 문 제에서 성과 측 정방안으로 많이 사용되는 Fwalue 를 사용하며 그 결과로서 결합비율을 결정하여 성과를 평가한다[15, 26].[표 3]의 Confusion Matrix는 F-value 계산에사용 되며 본논 문의 경우 소수 범주에관 심을 가지고 있으므로 소수범주를 positive class로 다른 class는 negative class로 간주하였다.

성능/효과

1. Pima Indian Diabetes[14]는 2개의 범주와 768 개의 샘플을 가진다. 이 데이터는 Arizona Phoenix 근처 사람들의 당뇨병 진단 결과를 확인하기 위해 사용되었다.
4가지 실험 결과를 불균형해소 기법을 사용하지 않고 학습의 한 경우(Baseline)와 비교해 볼 때([표 6] 참조) 4가지 모든 기법이 소수범주 오 분류율을 낮추는 것으로 나타났다.
하여 불균형 해소 기법들의 결합 비율을 유전자 알고리즘을 이용하여 결정하고 그 성과를 측정하였다. 4개의 공개된 데이터 집합을 활용하여 분석한 결과, 전체적으로 기존 단일 기법들의 성과보다는 격자표에 의한 결합에 따른 성과가 더 높게 나타났으며 활용할만한 성과를 보였다.또 한 유전자 알고리즘을 통해 데이터 불균형 해소기법들의 결합 비율 결정 방법이 격자표에 의한 결합보다 성과가 더 좋다는 것을 확인하였다.
3절에서 언급한 임의로 격자표를 통해 단독기법을 결합한 실험을 수행한 결과이다. Phoneme 데이터의 경우 격자표를 통한 단독 기법의 결합이 Baseline보다 소수범주 오분류율이 5.91% 감소하였고 소수범주에 대한 F.value 와 다수 범주에 대한 F-value 값은 각각 0.9% 증가, 0.537% 감소로 성과의 변동이 크지 않음을 알 수 있다.
결과이다.[표 10]에서 알 수 있듯이, 유전자 알고리즘을 사용하여 결합비 율을결 정한경 우격자표를 통한 임의 비율의 결합보다 소수범주 오분류율은 4.94%, 소수범주에 대한 F.value는 6.739%의 성과가 향상되었음을 알 수 있다. 또한 다수 범주에 대한 F-vahie도 감소되지않았음을 알 수 있다.
Mammography 데이터의 경우 다수범주와 소수범주의 분포는 98:2로서 데이터 불균형 정도가 아주 심한 경우이며 본 논문에서 가장 관심이 되는 경우이다. [표 11]에서 알 수 있듯이, One-way ANOVA를 이용하여, 검정한 결과 유의수준 5%에서 유의한 것으로 나타났다. 이는 4가지 방법의 성과가 차이가 난다 는것으로 볼 수 있다.
Satimage 데이터의 경우 다수범주와 소수범주의 분포는 90:10로서 데이터 불균형 정도가 앞의 두 데이터 집합보다는 심한 경우이다. [표 9]에서 볼 수 있듯이, 측정결과 소수범주오분류율의 F값이 62.870, 소수범주에 대한 Fwalue 의 F 값이 26.537, 다수범주에 대한 F・value의 F값이 87.711이고 p 값이 모두 0.000 이어서 귀무가설은 기각되었다. 이는 4가지 방법의 성과가 차이가 난다는 것으로 볼 수 있다.
나타났다. 귀무가설은 4가지 방법의 소수범주 오분류율, 소수범주에 대한 F-value, 다수범주에 대한 Fwahie의 평균값이 같다는 것이며, 검정 결과 소수범주 오분류율의 F 값이 47.181, 소수범주에 대한 F.vahie 의 F 값이 53.258, 다수범주에 대한 F-value 값이 459.6기이고 p 값이 모두 0.000이어서 귀무가설은 기각되었다. 이는 4가지 방법의 성과가 차이가 난다는 것으로 볼 수 있다.
Pima 데이터의 결합 비율과 오분류 비용을 유전자 알고리즘을 통해 결정하고 초기 개체군의 수를 750으로 하여 20세대까지 진화 시키면서 Best Fitness, 즉 소수범주에 대한 Fwahie의 값이 가장 커지는 비율을 찾도록 하였다. 그 결과 소수범주에 대한 F・value는 13.18% 증가하였고, 소수범주 오분류율은 26.877% 감소하였다. 또한[표 6]의 실험방법(2) 격자 표를 통한 임의비율의 결합에 대한 결과와는 달리 다수범주에 대한 F.
즉, 43절에서 언급한 격자 표를 통해 임의비율로 단독기법들을 결합하는 실험을 수행한 결과이다. 그 결과, 격자표를 통한 단독기법의 결합이 기법을 적용하지 않은 경 우 (Baseline) 보다 소수 범주 오분류율을 23.442% 낮추었으며 소수범주에 대한 F-value 값은 5.06% 증가하고 다수 범주에 대한 F-value 값은 8.06% 감소하였음을 알 수 있다. 이는 데이터 불균형 해소기 법의 결 합이 다 수 범 주에 대한 F-value는 낮추지 만 소수범주 오분류율을 낮추고 소수범주에 대한 Rvalue는높 일 수 있다고 해석할 수 있다.
둘째, 격자표를 통해 임의적으로 조합 비율을 결정하는 것보다 유전자 알고리즘을 활용하여 조합 비율을 결정하는 것이 더 좋은 성과를 제공하는 것으로 나타났다. 본 논문에서는 모든 데이터 집합에서 격자표에 의한 임의 비율보다는 유전자 알고리즘을 이용한 조합 비율에서 소수범주와 다수범주에 대한 F-value, 그리고 소수범주 오 분류율이 높게 나 타남을 보였다.
구체적으로 다음과 같은 연구 질문들을 고찰해 보고자 한다. 첫째, 기 존에 제시되었던 불균형 데이터 해소 기법들의 조합적인 활용을 통해서 생성되는 의사결정나무의 성과를 높일 수 있는가? 둘째, 만일 불균형 해소 기법들의 조합적 활용이 유용하다면, 임의적으로 조합 비율을 결정하는 것보다 유전자 알고리즘을 활용하여 조합 비율을 결정하는 것이 더 좋은 성과를 제공하는가? 본 연구에서는 이러한 연구 질문에 답하기 위해서 일반적으로 데이터 불균형 문제에 많이 사용되는 4개의 데이터 집합을 활용하여 분석을 수행하였다. 본 논문의 구성은 다음과 같다.
또 한 유전자 알고리즘을 통해 데이터 불균형 해소기법들의 결합 비율 결정 방법이 격자표에 의한 결합보다 성과가 더 좋다는 것을 확인하였다. 따라서 데이터 불균형 해소를 위해 단일 기법 의사용보다는 결합적으로 활용하는 것이 유용하며 단일 기 법들의 결합 비 율을 유전자 알고리즘을 통 해 결정하는 것이 성과를 더 높일 수 있음을 확인하였다.
그러나, 교배율이 90%이고 돌연변이율이 5% 이므로 각 세대의 5%는 다음세대에 생존하게 된다. 따라서 실제 총 경우의 수는 실험방법(2)의 경우의 수보다 작은 750 X 0.95 X 20세대 = 14250개의 경우의 수를 가진다. 또한 각 기법의 경우의 수는 기법을 사용하지 않는 경우(0 or 100)을 포함하여 101로 설정하였으며 적합 도 함수는 소수 범주 집 단에 대 한 F.
31% 증가하였고, 다수범주에 대한 F-value 값은 1% 증가하였다. 따라서 이 경우도 유전자 알고리즘을 사용하여 비율을 결정하는 것이 격자표를 통한 임의 비율의 결합보다 성과가 좋다는 것을 알 수 있었다.
하지만 FP Rate의 경우, 실험방법(3)의 결과가 가장 좋으나, 실헙방법(2)의 결과가 실험방법(1)에 비해서 못하는 경우가 발생하였다. 따라서[그림 2]의 실험 결과를 종합해 보면, 격자표를 통해 임의 비율로 데이터 불균 형 해소 기 법들을 결 합하는 것은 한 계가 있으며 유전자 알고리즘을 이용하여 기법들의 결합 비율을 결정하는 것이 성과가 더 높다는 것을 확인할 수 있다.
4개의 공개된 데이터 집합을 활용하여 분석한 결과, 전체적으로 기존 단일 기법들의 성과보다는 격자표에 의한 결합에 따른 성과가 더 높게 나타났으며 활용할만한 성과를 보였다.또 한 유전자 알고리즘을 통해 데이터 불균형 해소기법들의 결합 비율 결정 방법이 격자표에 의한 결합보다 성과가 더 좋다는 것을 확인하였다. 따라서 데이터 불균형 해소를 위해 단일 기법 의사용보다는 결합적으로 활용하는 것이 유용하며 단일 기 법들의 결합 비 율을 유전자 알고리즘을 통 해 결정하는 것이 성과를 더 높일 수 있음을 확인하였다.
2%가더 좋게 나왔음을 알 수 있다. 또한 소수범주에 대한 F-value는 3.31% 증가하였고, 다수범주에 대한 F-value 값은 1% 증가하였다. 따라서 이 경우도 유전자 알고리즘을 사용하여 비율을 결정하는 것이 격자표를 통한 임의 비율의 결합보다 성과가 좋다는 것을 알 수 있었다.
그리고 각 개체를 적합도 순으 로 나열 하고 선택 할 개체 를 결정 해 가 는 것이다[8]. 본 논문에서 랜덤 선택 확률이 5%라는것은 순위가 높은 것이 재생에 선택될 확률이 95%라는 것을 의미한다.
나타났다. 본 논문에서는 모든 데이터 집합에서 격자표에 의한 임의 비율보다는 유전자 알고리즘을 이용한 조합 비율에서 소수범주와 다수범주에 대한 F-value, 그리고 소수범주 오 분류율이 높게 나 타남을 보였다.
실험을 수행한 결과이다. 실험 결과 Baseline보다 소수범주 오분류율이 5.35% 감소하는 것 외에 다른 지표에서는 거의 비슷한 성과를 보이는 것으로 나타났다.
한인구 등은 도산 예측 문제의 다양한 분류 기법들의 통합을 지원하기 위하여 유전자 알고리즘을 사용하였는데 이 연구에서 판별분석, 인공신경망, 사례기반 추론의 선형결합오분류 비용을 최소화시키기 위해 유전자 알고리즘을 적용하였다 [9]. 실험 결과, 유전자 알고리즘을 이용한 모형對 성과가 휴리스틱한 결합 방법보다 높은 예측률을 보여 주었다. 또한, 신경식 등은 채권 둥급 예측을 위해 사용한 사례기반추론에서 가중치 값을 탐색하기 위해 유전자 알고리즘을 사용하여 예측력을 향상시킬 수 있음을 보여 주였다[4].
실험방법(1)보다는 실험방법(2)가, 실험 방법(2)보다는 실험 방법(3)의 성과가 더 높은 것을 볼 수 있다. 실험방법(1)에서 오분류 비용 조정과 Over Sampling 기법을 사용하는 것이 가장 예측력이 높은 것으로 나타났으며 전체적으로 볼 때 소수범주 오분류율은 Baseline보다 좋게 나타났다.[그림 2]의 Satimage Data 에 대한 각 실험결과를 보면, 소수범주오분류율과 소수 범주에 대한 Fwalue를 고려할 때, 실험방법(1)보다는 실험방법(2)가, 실험 방법(2)보다는 실험 방법(3)의 결과값이 더 높다는 것을 알 수 있다.
또한 Huang et al. 은 오 분류 기각 역의 변화에 따른 불 균형 데 이터의 해결 을 위 해, 가장 낮은 영역의 실제 정확성올 직접 통제하는 BMPM(Biased Minmax Probability Machine) 을제시하였다[24]・ 김지현과 정종빈은 오분류 비용의 비를 이용한 소수범주에 대한 복원 sampling 과 가중치 부여 방식이 단순한 sampling 균형보다 기대비용 기준에서 더 좋은 성과를 내며 부스팅 기법 적용 시에는 주어진 자료를 그대로 이용하는 것이 좋 다는 결과를 보였다[2].
자세히 살펴보면, 이상치를 제거한 후 Under Sampling을 한 경우가 소수범주 오분류율이 가장 좋은 것으로 나타났고, 다음으로 Under Sampling 과오분류 비용을 조정하는 방법이 좋은 것으로 나타났다, 소 수범주에 대한 F-value 지표는 오분류비용을 조정하는 방법이 가장 좋은 것으로 나타났으며, 다수범주에 대한 F-value 지표는 Under Sampling 방법이 가장 좋은 것으로 나타났다. 4가지 실험 결과를 불균형해소 기법을 사용하지 않고 학습의 한 경우(Baseline)와 비교해 볼 때([표 6] 참조) 4가지 모든 기법이 소수범주 오 분류율을 낮추는 것으로 나타났다.
예를 들면, 정제균 등은 유전자 프로그래밍을 학습 알고리즘으로 이용하여 학습 속도를 향상시키기 위한 방법을 제시하였다[7]. 즉, 훈련데이터를 여러 개의 부분집합으로 분할하여 학습 시간을 단 축시키면서 일반 화 능력 을 향상 할 수 있다는 것을 의료진단 데이터에 대한 실험을 통해 확인하였다. 홍승현 등은 기업부도 예측 모형을 중심으로 인공신경망 기법의 최적 변수 선정을 위하여 유전자 알고리즘 기법을 이용한 최적화를 통하여 입력변수군을 도출하는 방법론을 제시하였고 이 방법론이 다른 통계 기법이나 전문가에 의한 변수 선택 방법론에 비해 우수함을 보여주었다 [12].
구체적으로 다음과 같은 연구 질문들을 고찰해 보고자 한다. 첫째, 기 존에 제시되었던 불균형 데이터 해소 기법들의 조합적인 활용을 통해서 생성되는 의사결정나무의 성과를 높일 수 있는가? 둘째, 만일 불균형 해소 기법들의 조합적 활용이 유용하다면, 임의적으로 조합 비율을 결정하는 것보다 유전자 알고리즘을 활용하여 조합 비율을 결정하는 것이 더 좋은 성과를 제공하는가? 본 연구에서는 이러한 연구 질문에 답하기 위해서 일반적으로 데이터 불균형 문제에 많이 사용되는 4개의 데이터 집합을 활용하여 분석을 수행하였다. 본 논문의 구성은 다음과 같다.
첫째, 기존에 제시되었던 불균형 데이터 해소기법들의 조합적인 활용을 통해서 생성되는 의사결정 나무의 성과를 높일 수 있는 것으로 나타났다. 모든 데이터 집합에서 단일 기법을 사용하는 경우보다 격자표를 사용하는 경우에 소수범주에 대한 F.

후속연구

또한 본 연구에서는 일반적으로 데이터 불균형 문제를 해결하기 위해 사용되는 4개의 공개 데이터 집합을 활용하였다. 하지 만, 좀 더 다양한 분포를 가지 는데이터를 통한 추가적인 실험이 요구된다. 또한 유전자 알고리즘의 성과가 매개변수의 결정에 따라서 영향을 받으므로, 매개변수를 다양하게 변화시켜서 성 과를 비교 평가하는 것도 필요하다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

유전자 알고리즘을 활용한 데이터 불균형 해소 기법의 조합적 활용 원문보기

Abstract ▼ AI-Helper

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

유전자 알고리즘을 활용한 데이터 불균형 해소 기법의 조합적 활용 원문보기

Abstract ▼ AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

AI 본문요약
AI-Helper