[논문]사례기반추론의 유사 임계치 및 커버리지 최적화

안현철

doi:10.3745/ktsde.2013.2.8.535

문제 정의

이에 기존 문헌을 검토하게 될 본 절에서는 우선 CBR의 기본적인 개념과 원리에 대해 먼저 살펴보고, 이어 CBR과 GA를 결합하고자 시도한 다른 기존 연구들을 살펴보도록 한다. 그리고 끝으로, CBR 시스템에서 결합할 유사사례의 개수나 구성을 최적화 하고자 시도했던 기존 연구들을 살펴보고, 그 한계점을 살펴보고자 한다.
만약 이러한 매개변수 값들이 적절하게 설정되지 않은 경우, SVM은 과적합화(overfitting)나 혹은 불충분적합(underfitting) 될 수 있기 때문이다. 때문에, 본 연구에서는 상기 매개변수들의 값을 다양하게 바꾸어가면서 실험하여, 가장 우수한 성과를 보이는 매개변수 값들을 최종적으로 선택하고자 하였다. SVM 실험을 위한 실험도구로는 공개 소프트웨어인 LIBSVM version 2.
본 논문에서는 이른바 '절대적 유사 임계치'와 '커버리지' 개념을 도입하여, 사용자가 요구하는 정확도 수준에 따라 예측결과를 생성하는 새로운 개념의 CBR 시스템을 제안하였다.
상기 두 변수의 동시 최적화 방법으로는, 전통적으로 많이 적용되어 온 유전자 알고리즘(GA, Genetic Algorithms)을 적용하였다. 본 연구는 이 모형의 우수성을 검증하기 위해, 국내 한 온라인 쇼핑몰의 특정 상품에 대한 표적 마케팅 대상 고객 발굴을 위한 데이터에 제안 모형을 적용해 보고, 과연 CBR 성과의 개선을 도모하는지 실증분석하였다.
1씩 설정하였으며, 은닉층과 출력층의 노드들은 시그모이드 전이함수(sigmoid transfer function)를 사용하게끔 설계하였다. 은닉층의 노드수와 관련해서는 7, 14, 21, 28등 4가지 경우를 모두 대입해 보고 실험해 보았으며, 그 중에서 가장 우수한 결과를 보이는 은닉층의 노드수를 설정하고자 하였다. 아울러, 학습중지조건으로는 총 150차례 전체 학습데이터에 대한 학습을 반복하게끔 설정하였다.
본 연구에서 제안하는 모형은 기본적으로 CBR과 GA가 결합된 형태로 구성되어 있다. 이에 기존 문헌을 검토하게 될 본 절에서는 우선 CBR의 기본적인 개념과 원리에 대해 먼저 살펴보고, 이어 CBR과 GA를 결합하고자 시도한 다른 기존 연구들을 살펴보도록 한다. 그리고 끝으로, CBR 시스템에서 결합할 유사사례의 개수나 구성을 최적화 하고자 시도했던 기존 연구들을 살펴보고, 그 한계점을 살펴보고자 한다.
이에 본 연구에서는 '다이어트 보조식 제품에 대한 표적 마케팅'에 적절한 대상 고객을 산출할 수 있도록, 본 연구의 제안모형을 적용해 보고자 하였다.
이에 본 연구에서는 0에서 1사이의 값을 갖는 절대적 유사 임계치(similarity threshold)에 기반한 새로운 CBR 모형을 제안하고자 한다. 그런데, 절대적 유사 임계치는 값이 너무 작게 설정되면, 예측결과의 생성이 과도하게 이루어지지 않을 수 있다.
그런데, 절대적 유사 임계치는 값이 너무 작게 설정되면, 예측결과의 생성이 과도하게 이루어지지 않을 수 있다. 이에, 본 연구에서는 커버리지(coverage) 변수도 모형에 함께 반영함으로서, 사용자가 원하는 수준의 커버리지는 유지한 상태에서 가장 최적의 절대적 유사 임계치를 탐색하도록 하였다. 상기 두 변수의 동시 최적화 방법으로는, 전통적으로 많이 적용되어 온 유전자 알고리즘(GA, Genetic Algorithms)을 적용하였다.
제안모형이 앞서 제안한 비교모형들에 비해 얼마나 우수한 예측결과를 생성하는지에 대한 확인은 검증용 데이터에 대한 구매 예측 정확도를 비교해 보는 방식을 통해 수행하고자 한다. 이 때, 예측 정확도(Hit)는 다음의 식 (7)을 통해 산출된다.
즉, 절대적 유사 임계치를 기준으로 적용할 때, 유사한 사례가 하나도 나오지 않으면, 그 경우에는 예측결과를 생성하지 않고 '모름(don't know)'으로 결과를 회신할 수 있는 CBR 시스템을 제안하고자 하는 것이다.

제안 방법

CBR을 위한 실험용 소프트웨어는 Microsoft Excel 2010과 그 안에 내장된 Visual Basic for Application(VBA)를 이용해 개발하였다. 전통적인 CBR(k-NN) 모형의 경우에는 IBM SPSS Statistics 20.
Fig. 2에서 볼 수 있듯이, 본 연구는 GA를 CBR 파라미터 최적화에 적용한 기존 연구를 참고하여 4개의 단계로 제안 모형을 구성하고 있다[21].
즉, CBR에서 유사 사례 탐색 시, 사용자가 원하는 수준의 커버리지는 유지한 상태에서 가장 효과적인 유사 사례를 찾아, 추론을 수행할 수 있도록 하였다. 그리고, 이러한 서로 다른 특성을 가진 두 변수인 절대적 유사 임계치와 커버리지를 동시에 최적화하기 위해서, 전통적으로 최적화에 많이 적용되어 온 GA를 적용하였다.
이렇게 코드화된 염색체는 특정 적합도 함수(fitness function)를 최대화 하는 방향으로 진화해 나가게 된다. 본 연구에서 염색체는 유사 임계치가 1/10,000의 정확도를 갖는 0에서 1사이의 값을 가질 수 있도록, 14비트의 이진수로 모델링하였다. 적합도 함수는 CBR연구에서 일반적으로 가장 많이 적용되는 실험용 데이터(test data)에 대한 평균 예측 정확도로 설정하였다.
본 연구에서 제안하는 모형은 기본적으로 CBR과 GA가 결합된 형태로 구성되어 있다. 이에 기존 문헌을 검토하게 될 본 절에서는 우선 CBR의 기본적인 개념과 원리에 대해 먼저 살펴보고, 이어 CBR과 GA를 결합하고자 시도한 다른 기존 연구들을 살펴보도록 한다.
≤1을 만족하므로, 어떤 경우에도 유사도 값은 0에서 1사이의 값을 갖게 된다. 본 연구에서는 최적의 결합 유사사례에만 관심을 갖고 있는 상황이므로, 입력변수의 가중치 등과 같은 다른 CBR의 설계요소들은 대부분의 CBR 시스템에서 적용하는 것과 같이 동일 가중치를 적용하였다[9].
본 연구의 제안모형은 이진분류 문제에서, 확실한 예측결과를 생성하기 어려운 경우, '모름'으로 회신함으로서 보다 확실한 경우에 대해서만 결과를 생성하는 것이 가능하도록 설계되어 있다.
아울러 본 연구에서는 제안모형을 구축, 검증하기 위해 전체 수집된 데이터를 참조용, 테스트용, 검증용 사례기반 등 총 3개의 그룹으로 구분하였다. 이 3가지 사례기반(데이터셋)은 각각 전체 데이터의 60%(588건), 20%(196건), 20%(196건)의 비중을 차지하도록 적절하게 배분되었다.
박윤주[14]는 앞서 살펴본 Sun과 Hui[20]와 유사하지만, 다소 차이가 있는 상대적 유사 임계치 사용을 제안하였다. 앞의 연구가 최대 유사도 거리 대비 상대적 비율을 유사 임계치로 사용했다면, 이 연구에서는 전체 학습 사례수 대비 상대적 비율을 유사 임계치로 제안하였다. 예를 들어, 이 연구모형에서는 유사 임계치를 5%로 설정할 경우, 전체 학습 사례 중 대상 사례와 가장 유사한 상위 5%의 결과를 참조해 예측결과를 생성하게 된다.
이 단계에서 기설정된 목표 커버리지를 달성하지 못하는 유사 임계치들 역시 선택에서 제외되게 된다. 여러 유전 조작 기법 중 본 연구에서는 선택(selection), 교배(crossover), 돌연변이(mutation)의 3가지를 적용하며, 사전에 설정한 중지 조건이 만족될 때까지 2단계, 3단계 작업을 계속 반복한다.
우선 전통적인 CBR 실험을 위해, 우리는 k-NN의 k값으로 1에서 9사이의 홀수값을 모두 대입해 본 다음, 가장 우수한 성과를 보이는 k를 선택하고자 하였다. 그 결과, Table 2에 제시되어 있듯이, 3-NN이 가장 우수한 성과를 보임을 확인할 수 있었다.
이러한 상황에서 본 연구가 제안하는 새로운 CBR 알고리즘은 이른바 '절대적 유사 임계치'와 '커버리지' 개념을 도입하여, 사용자가 요구하는 정확도 수준에 따라 예측결과를 생성하는 유연한 방법론을 제안하고 있다.
그런데, 이처럼 절대적 유사 임계치를 사용할 경우, 그 값이 너무 작아지면 예측결과의 생성이 과도하게 이루어지지 않을 가능성이 있다. 이러한 한계를 보완하기 위해, 본 연구에서는 전체 학습사례들 중에서 예측결과가 생성된 사례의 비중을 의미하는 커버리지(coverage) 개념을 기반으로, 결과의 정밀도와 서로 상충(trade-off) 관계에 있는 커버리지(coverage) 변수를 모형에 함께 반영하였다. 즉, CBR에서 유사 사례 탐색 시, 사용자가 원하는 수준의 커버리지는 유지한 상태에서 가장 효과적인 유사 사례를 찾아, 추론을 수행할 수 있도록 하였다.
제안모형의 경우, 제약조건으로 최소 충족 커버리지를 얼마로 설정하는가에 따라 결과값이 달라질 수 있다. 이에 본 연구에서는 제안모형을 모형 A ～ C로 구분하고, 각각 최소 충족 커버리지를 80%와 50%, 그리고 20%로 나누어 설정한 뒤 실험을 수행하였다.
본 연구에서 절대적 유사 임계치를 적용하기 위해서는, 유사도 값이 어떤 경우에도 0에서 1사이의 절대값을 갖도록 산출하는 것이 기본적으로 요구된다. 이에, 본 연구에서는 모든 입력변수들(ak)에 최소-최대 정규화(min-max normalization)를 적용한 뒤, 아래 Equation (3)과 같이 유클리드 거리(Euclidean distance) 기반의 유사도를 계산하였다.
인공신경망에 대해서는 입력층과 출력층 사이에 은닉층을 1개 포함하는 3계층 역전파 망을 적용하였다. 인공신경망의 학습율과 모멘텀율은 각각 0.
인공신경망에 대해서는 입력층과 출력층 사이에 은닉층을 1개 포함하는 3계층 역전파 망을 적용하였다. 인공신경망의 학습율과 모멘텀율은 각각 0.1씩 설정하였으며, 은닉층과 출력층의 노드들은 시그모이드 전이함수(sigmoid transfer function)를 사용하게끔 설계하였다. 은닉층의 노드수와 관련해서는 7, 14, 21, 28등 4가지 경우를 모두 대입해 보고 실험해 보았으며, 그 중에서 가장 우수한 결과를 보이는 은닉층의 노드수를 설정하고자 하였다.
본 연구에서 염색체는 유사 임계치가 1/10,000의 정확도를 갖는 0에서 1사이의 값을 가질 수 있도록, 14비트의 이진수로 모델링하였다. 적합도 함수는 CBR연구에서 일반적으로 가장 많이 적용되는 실험용 데이터(test data)에 대한 평균 예측 정확도로 설정하였다.
제안된 연구모형의 유용성을 검증하기 위해, 본 연구에서는 국내 한 다이어트 인터넷 쇼핑몰의 고객 분류 모형 구축 사례에 제안 모형을 적용하였다. 본 연구의 대상이 된 쇼핑몰은 다이어트와 관련한 정보 제공, 커뮤니티 서비스, 쇼핑몰 등 원스톱(one-stop) 서비스를 제공하는 다이어트 전문 포털 사이트이다.
제안모형이 기존의 다른 통계 및 인공지능 기법들에 비해 얼마나 더 개선된 성과를 보여줄 수 있는지 검증하기 위해, 동일한 데이터셋에 로지스틱 회귀모형(logistic regression), 다중판별분석(multiple discriminant analysis), 인공신경망 (artificial neural network), SVM(support vector machine) 등 총 4개의 비교모형을 확보된 데이터에 적용하였다. 전통적인 CBR, 즉 k-NN 역시 적용해 보고, 그 성과를 제안모형과 비교했다[5].
본 연구를 위해 정제한 데이터는 구매 및 비구매고객이 1:1의 비율로 혼합된 총 980건의 데이터였다. 종속변수는 대상업체에게 가장 높은 마진을 제공하는 다이어트 보조식품 관련 상품의 구매여부 변수로서, 구매한 고객의 경우 1을, 구매하지 않은 고객의 경우 0을 값으로 부여하였다. 종속변수를 예측하기 위해 활용한 독립변수로는 회원 가입시 입력되는 성별, 나이, 체중, 키 등 다이어트와 관련한 인구통계적인 변수들 중 총 46개가 수집되었다.
이러한 한계를 보완하기 위해, 본 연구에서는 전체 학습사례들 중에서 예측결과가 생성된 사례의 비중을 의미하는 커버리지(coverage) 개념을 기반으로, 결과의 정밀도와 서로 상충(trade-off) 관계에 있는 커버리지(coverage) 변수를 모형에 함께 반영하였다. 즉, CBR에서 유사 사례 탐색 시, 사용자가 원하는 수준의 커버리지는 유지한 상태에서 가장 효과적인 유사 사례를 찾아, 추론을 수행할 수 있도록 하였다. 그리고, 이러한 서로 다른 특성을 가진 두 변수인 절대적 유사 임계치와 커버리지를 동시에 최적화하기 위해서, 전통적으로 최적화에 많이 적용되어 온 GA를 적용하였다.

대상 데이터

GA 탐색을 위한 제어 파라미터들과 관련해서는 개체군의 규모를 50개체(organisms)로 설정하였으며, 교배 및 돌연변이 비율에 대해서는 각각 0.7, 0.1로 설정하였다. 아울러 중지 조건으로는 1000회 반복, 즉 20세대만큼 탐색을 반복하도록 설정하였다.
본 연구를 위해 정제한 데이터는 구매 및 비구매고객이 1:1의 비율로 혼합된 총 980건의 데이터였다. 종속변수는 대상업체에게 가장 높은 마진을 제공하는 다이어트 보조식품 관련 상품의 구매여부 변수로서, 구매한 고객의 경우 1을, 구매하지 않은 고객의 경우 0을 값으로 부여하였다.
제안된 연구모형의 유용성을 검증하기 위해, 본 연구에서는 국내 한 다이어트 인터넷 쇼핑몰의 고객 분류 모형 구축 사례에 제안 모형을 적용하였다. 본 연구의 대상이 된 쇼핑몰은 다이어트와 관련한 정보 제공, 커뮤니티 서비스, 쇼핑몰 등 원스톱(one-stop) 서비스를 제공하는 다이어트 전문 포털 사이트이다. 이러한 다이어트 사이트의 경우, 보다 정확하고 맞춤화된 서비스를 받기 위해 고객이 본인에 대한 상세한 정보를 입력해야만 하는데다, 대체로 사이트에 대한 이용 목적이 분명한 고객들이 주로 방문하기 때문에, 많은 고객들이 양적인 측면이나 질적인 측면에서 우수한 본인의 개인정보를 서비스 제공업체에 기꺼이 제공하는 경향이 있다.
종속변수는 대상업체에게 가장 높은 마진을 제공하는 다이어트 보조식품 관련 상품의 구매여부 변수로서, 구매한 고객의 경우 1을, 구매하지 않은 고객의 경우 0을 값으로 부여하였다. 종속변수를 예측하기 위해 활용한 독립변수로는 회원 가입시 입력되는 성별, 나이, 체중, 키 등 다이어트와 관련한 인구통계적인 변수들 중 총 46개가 수집되었다. 이러한 입력변수 중 종속변수의 예측에 관련성이 없는 변수를 사전에 제거하기 위해 독립표본 t검정(independent samples t-test)과 카이제곱 검정(chi-square test)을 적용해 총 14개의 변수를 CBR의 입력변수로 최종 선정하였다.

데이터처리

종속변수를 예측하기 위해 활용한 독립변수로는 회원 가입시 입력되는 성별, 나이, 체중, 키 등 다이어트와 관련한 인구통계적인 변수들 중 총 46개가 수집되었다. 이러한 입력변수 중 종속변수의 예측에 관련성이 없는 변수를 사전에 제거하기 위해 독립표본 t검정(independent samples t-test)과 카이제곱 검정(chi-square test)을 적용해 총 14개의 변수를 CBR의 입력변수로 최종 선정하였다. 다음의 Table 1은 선택된 입력변수에 대한 상세한 정보를 설명하고 있다.
아울러, 학습중지조건으로는 총 150차례 전체 학습데이터에 대한 학습을 반복하게끔 설정하였다. 인공신경망과 관련한 실험은 상용 인공신경망 소프트웨어인 Neuroshell R4.0을 활용해 실험을 수행하였다.

이론/모형

때문에, 본 연구에서는 상기 매개변수들의 값을 다양하게 바꾸어가면서 실험하여, 가장 우수한 성과를 보이는 매개변수 값들을 최종적으로 선택하고자 하였다. SVM 실험을 위한 실험도구로는 공개 소프트웨어인 LIBSVM version 2.8을 활용하였다.
다중판별분석의 경우, Wilks' lambda를 활용한 입력변수의 단계별 선택방법을 활용하였는데, 이 때 변수의 입력 혹은 제거의 기준으로는 F값을 사용하였다.
로지스틱 회귀분석의 경우, 전진선택법(forward selection procedure)을 사용하였으며, 이 때, 단계별 변수입력 확률은 0.05로 설정하였다. 다중판별분석의 경우, Wilks' lambda를 활용한 입력변수의 단계별 선택방법을 활용하였는데, 이 때 변수의 입력 혹은 제거의 기준으로는 F값을 사용하였다.
이에, 본 연구에서는 커버리지(coverage) 변수도 모형에 함께 반영함으로서, 사용자가 원하는 수준의 커버리지는 유지한 상태에서 가장 최적의 절대적 유사 임계치를 탐색하도록 하였다. 상기 두 변수의 동시 최적화 방법으로는, 전통적으로 많이 적용되어 온 유전자 알고리즘(GA, Genetic Algorithms)을 적용하였다. 본 연구는 이 모형의 우수성을 검증하기 위해, 국내 한 온라인 쇼핑몰의 특정 상품에 대한 표적 마케팅 대상 고객 발굴을 위한 데이터에 제안 모형을 적용해 보고, 과연 CBR 성과의 개선을 도모하는지 실증분석하였다.

성능/효과

본 연구의 제안 모형은 절대적 유사 임계치를 기준으로 참조할 유사 사례를 선정하기 때문에, 매번 참조하는 사례의 수(k-NN의 k)가 변화하게 된다. 각 제안모형의 유형별로 그 평균값을 구해보면, 검증용 데이터셋을 기준으로 모형 A에서는 약 7.9개, B에서는 2.9개, C에서는 0.6개를 참조하고 있음을 알 수 있다. 결국, 목표 커버리지가 낮아질수록 가장 유사한 것으로 판단되는 엄선된 소수의 사례만으로 예측결과를 생성하고 있음을 알 수 있다.
우선 전통적인 CBR 실험을 위해, 우리는 k-NN의 k값으로 1에서 9사이의 홀수값을 모두 대입해 본 다음, 가장 우수한 성과를 보이는 k를 선택하고자 하였다. 그 결과, Table 2에 제시되어 있듯이, 3-NN이 가장 우수한 성과를 보임을 확인할 수 있었다.
이 표에서 볼 수 있듯이, 절대 유사 임계치를 낮게 가져갈수록 커버리지는 감소하지만, 정확도는 대체로 상승하는 패턴을 보임을 알 수 있다. 그리하여, 목표 커버리지를 20% 이상으로 설정할 경우, 제안모형이 검증용 데이터 기준으로 대략 36% 정도의 대상 고객에 대해 약 71.74% 수준의 높은 정확도로 고객의 구매 여부를 예측할 수 있음을 확인할 수 있다. 본 연구의 제안 모형은 절대적 유사 임계치를 기준으로 참조할 유사 사례를 선정하기 때문에, 매번 참조하는 사례의 수(k-NN의 k)가 변화하게 된다.
하지만, 본 연구에서 제안하는 절대적 유사임계치를 적용하게 되면, 기존 모형과 대등하거나 훨씬 향상된 예측성과를 나타냄을 확인할 수 있다. 본 연구의 실험결과를 보면, 본 연구의 제안모형이 최대 70% 초반대까지 예측정확도를 향상시킬 수 있음을 확인할 수 있다. 물론 비교모형과 달리, 본 연구의 제안모형은 100% 모든 예측대상에 대해 예측결과를 제시한 것은 아니라는 한계점이 있지만, 본 연구의 적용대상이 되고 있는 마케팅(CRM) 분야라든가, 의료분야 등 일부 특수한 분야의 경우 오히려 이러한 특징이 더 유익하게 활용될 수 있을 것으로 기대된다.
비단 표적 마케팅 분야 뿐 아니라, 확실한 위험 환자를 식별, 관리해야 하는 의료분야나 확실한 주가 상승 또는 하락 패턴 발견 시 거래를 수행하는 것이 바람직한 트레이딩 시스템과 관련된 금융 분야에서도 제안 알고리즘을 적용하는 것이 가능하다. 예를 들어 질병 예측 분야에 적용할 경우, 확실하게 그 질병에 감염된 경우 바로 집중적인 치료 조치단계를 취하고, 거의 확실하게 감염되지 않은 것으로 확인되는 경우는 그 사람이 일상생활을 자유롭게 즐길 수 있도록 보장하며, 감염 여부가 불확실한 경우 일단 대상자의 일상생활을 보장하지만 보다 상세한 검사를 실시하는 등의 보완책을 구사할 수 있다[23].
학술적으로, 본 연구는 기존에 존재하지 않았던 새로운 CBR 방법론을 제시한다는 의의가 있다. 앞서 소개된 실증분석 결과를 통해 확인했듯이, 제안된 알고리즘을 이용해 보다 정밀하게 CBR의 유사 결합사례를 찾아낼 경우, CBR의 예측력 개선에 크게 기여할 수 있다. 일반적으로 CBR은 적용이 쉽고 간편하며, 적은 수의 학습용 자료만으로도 예측결과 생성이 가능할 뿐만 아니라, 예측결과에 대한 설명력(explainability)도 갖고 있어 상당히 매력적인 인공지능 기법이다.
아울러 본 연구에서는 제안모형을 구축, 검증하기 위해 전체 수집된 데이터를 참조용, 테스트용, 검증용 사례기반 등 총 3개의 그룹으로 구분하였다. 이 3가지 사례기반(데이터셋)은 각각 전체 데이터의 60%(588건), 20%(196건), 20%(196건)의 비중을 차지하도록 적절하게 배분되었다.
다음의 Table 4에는 제안 모형 A ～ C에 대한 보다 구체적인 실험결과가 제시되어 있다. 이 표에서 볼 수 있듯이, 절대 유사 임계치를 낮게 가져갈수록 커버리지는 감소하지만, 정확도는 대체로 상승하는 패턴을 보임을 알 수 있다. 그리하여, 목표 커버리지를 20% 이상으로 설정할 경우, 제안모형이 검증용 데이터 기준으로 대략 36% 정도의 대상 고객에 대해 약 71.
이 표에서 확인할 수 있듯이, 전통적인 CBR은 예측성과가 56%대로 나타나, 60% 초반대 성과를 나타내는 ANN, SVM은 물론 통계기반의 다른 비교모형들과 비교해도 상대적으로 낮은 예측성과를 보이고 있다. 즉, 연구의 배경과 목적에서 설명했던 바와 같이, 전통적인 CBR을 예측의 용도로 활용할 경우, 낮은 정확도로 인한 손실은 불가피함을 본 연구의 실험결과를 통해서도 다시 한 번 확인할 수 있다.
하지만, 본 연구에서 제안하는 절대적 유사임계치를 적용하게 되면, 기존 모형과 대등하거나 훨씬 향상된 예측성과를 나타냄을 확인할 수 있다. 본 연구의 실험결과를 보면, 본 연구의 제안모형이 최대 70% 초반대까지 예측정확도를 향상시킬 수 있음을 확인할 수 있다.
본 연구의 한계는 다음과 같다. 현재 제안된 모형은 전통적인 CBR에 비해 예측성과를 크게 개선시키고 있음을 알 수 있지만, 절대적 관점에서 볼 때 아주 획기적으로 개선시키지는 못하고 있는 것으로 판단된다. 특히, 본 연구의 제안 모형은 전체 모든 사례에 대해 해답을 제공하지 못하고 커버리지에 포함되는 일부에 대해서만 해답을 제공하는데, 이러한 손실 대비 예측성과의 개선효과는 기대에 못 미치게 나타나고 있는 것이 사실이다.

후속연구

Kim 등[19]은 유사사례의 수를 찾기 위해 교차검정방법 (cross validation method)를 사용하여 학습용 자료에서의 평균제곱오차를 최소화하는 방식을 이용하였는데, 이 연구에서 제안한 방식은 최적유사사례의 수를 탐색하는 공간이 한정적이므로 전역 최적화된 유사사례 수를 제시할 수 없다는 한계를 가지고 있다. 이에 Ahn 등[6]은 상기 두 연구의 한계점을 극복하기 위해, GA를 활용한 유사사례 수 최적화 모형을 제안한 바 있다.
유사 임계치에 의한 유사사례 선정이 의미를 갖기 위해서는 기본적으로 모든 참조사례(학습사례)가 대표성을 갖는 정제된 사례라는 가정이 선행되어야 하는데, 현실세계의 참조사례들은 소위 이상치(outlier)들을 상당수 포함하고 있을 가능성이 있다. 때문에 앞으로 현 모형에 이와 같은 결점을 보완할 수 있는 요소를 결합하여, 모형을 보완하는 연구가 추후 이루어져야 할 것으로 예상된다.
이러한 상황에서 본 연구가 제안하는 새로운 CBR 알고리즘은 이른바 '절대적 유사 임계치'와 '커버리지' 개념을 도입하여, 사용자가 요구하는 정확도 수준에 따라 예측결과를 생성하는 유연한 방법론을 제안하고 있다. 때문에 이러한 본 연구의 제안 알고리즘은 확실한 예측 대상을 발굴하는 것이 중요한 의미를 지니는 표적 마케팅 분야에 상당히 유용하게 활용될 수 있을 것으로 전망된다.
본 연구의 실험결과를 보면, 본 연구의 제안모형이 최대 70% 초반대까지 예측정확도를 향상시킬 수 있음을 확인할 수 있다. 물론 비교모형과 달리, 본 연구의 제안모형은 100% 모든 예측대상에 대해 예측결과를 제시한 것은 아니라는 한계점이 있지만, 본 연구의 적용대상이 되고 있는 마케팅(CRM) 분야라든가, 의료분야 등 일부 특수한 분야의 경우 오히려 이러한 특징이 더 유익하게 활용될 수 있을 것으로 기대된다.
우선, 이훈영과 박기남[13]의 연구는 k-NN의 k를 최적화하려고 시도하였는데, 유사도 분포에 따른 최적화 수리모형 기법을 제시하였다. 이 연구는 k-NN의 k 최적화를 시도한 첫번째 연구라는 측면에서는 의의가 있으나, 목표사례가 변화할 때마다 최적화 모형이 변화해 새로운 k값을 계속 계산해야 한다는 구조적 한계를 안고 있다.
또한, 주가지수에 대한 등락 예측에 제안모형을 적용할 경우, 익일 지수가 확실하게 오를 것으로 예상되는 경우에는 콜옵션 매입 포지션을 취하고, 익일 지수가 확실하게 내릴 것으로 예상되는 경우에는 풋옵션 매도 포지션을 취하며, 익일 지수 향방이 불확실한 경우 특별한 액션을 취하지 않도록 함으로서 수익 극대화를 추구할 수 있다[24]. 이러한 관점에서 볼 때, 본 연구의 실무적 기대효과는 매우 높으며, 향후 타 경영분야의 적용 연구로 자연스럽게 확장, 발전될 수 있을 것으로 기대된다.
본 연구의 제안모형은 이진분류 문제에서, 확실한 예측결과를 생성하기 어려운 경우, '모름'으로 회신함으로서 보다 확실한 경우에 대해서만 결과를 생성하는 것이 가능하도록 설계되어 있다. 이러한 본 연구의 제안모형은 확실한 예측 대상을 발굴하는 것이 중요한 의미를 지니는 표적 마케팅 분야나 의료 분야에 특히 유익할 것으로 전망된다.

핵심어	질문	논문에서 추출한 답변
	전세계 유수의 기업들이 고객의 프로필 및 구매 행태를 분석해 고객 분류 모형을 구축하는데 많은 노력을 기울이고 있는 이유는?	분석 고객관계관리(Analytic CRM)에 있어 중요한 이슈 중 하나는 기업에서 팔고자 하는 상품을 구매할 가능성이 높은 잠재 구매자를 발굴하는 고객 분류 모형(customer classification model)을 구축하는 것이다. 고객 분류 모형은 다양한 마케팅 기회 창출에 활용될 수 있는데, 예를 들어 일대일 마케팅이나 DM(direct mailing) 발송을 통한 표적 마케팅, 전화나 이메일 등을 이용한 판매 촉진(sales promotion) 등에 있어 대상 고객을 선별하는데 유용하게 활용될 수 있다. 때문에 Ford와 같은 자동차 제조업체나 Allstate와 같은 보험사, 그리고 1-800-flowers.
	고객 분류 모형을 구축하는데는 어떤 방법들이 적용되는가?	이러한 고객 분류 모형을 구축하는데에는 전통적으로 로지스틱 회귀분석(LR, Logistic Regression), 인공신경망(ANN, Artificial Neural Networks), 사례기반추론(CBR, Case-based Reasoning) 등 다양한 방법들이 적용되어 왔다[2-8]. 그 중에서도 특히 CBR은 적용이 쉽고, 유지보수가 상대적으로 편리하며, 실시간으로 연속해서 학습이 이루어진다는 장점으로 인해, 고객 분류 모형 구축[2,3]을 비롯한 여러 경영문제 해결에 널리 활용되어 왔다[9-11].
	고객 분류 모형을 구축하는데 있어서 사례기반추론은 어떤 장점을 가지는가?	이러한 고객 분류 모형을 구축하는데에는 전통적으로 로지스틱 회귀분석(LR, Logistic Regression), 인공신경망(ANN, Artificial Neural Networks), 사례기반추론(CBR, Case-based Reasoning) 등 다양한 방법들이 적용되어 왔다[2-8]. 그 중에서도 특히 CBR은 적용이 쉽고, 유지보수가 상대적으로 편리하며, 실시간으로 연속해서 학습이 이루어진다는 장점으로 인해, 고객 분류 모형 구축[2,3]을 비롯한 여러 경영문제 해결에 널리 활용되어 왔다[9-11].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

사례기반추론의 유사 임계치 및 커버리지 최적화
Optimizing Similarity Threshold and Coverage of CBR 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (24)

이 논문을 인용한 문헌

저자의 다른 논문 :

연구과제 타임라인

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

사례기반추론의 유사 임계치 및 커버리지 최적화 Optimizing Similarity Threshold and Coverage of CBR 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (24)

이 논문을 인용한 문헌

저자의 다른 논문 :

안현철 (68)

연구과제 타임라인

전체(0) 논문(0) 특허(0) 보고서(0)

전체(0) 논문(0) 특허(0) 보고서(0)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

사례기반추론의 유사 임계치 및 커버리지 최적화
Optimizing Similarity Threshold and Coverage of CBR 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper