$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

생명보험사의 개인연금 보험예측 사례를 통해서 본 의사결정나무 분석의 설명변수 축소에 관한 비교 연구
A study on the comparison of descriptive variables reduction methods in decision tree induction: A case of prediction models of pension insurance in life insurance company 원문보기

Journal of the Korean Data & Information Science Society = 한국데이터정보과학회지, v.20 no.1, 2009년, pp.179 - 190  

이용구 (중앙대학교 수학통계학부) ,  허준 (SPSS Korea (주)데이타솔루션 컨설팅팀)

초록
AI-Helper 아이콘AI-Helper

금융 산업에서, 의사결정나무 분석분류분석을 위해서 널리 사용되는 분석기법이다. 그러나 금융 산업에서 실제로 의사결정나무 분석을 적용할 때, 발생하는 문제점 중 하나는 설명변수의 수가 너무 많다는 점이다. 따라서 모형의 결과에 별 영향을 미치지 않으면서 설명변수의 수를 줄이는 효과적인 방법을 연구할 필요가 있다. 본 연구에서는 의사결정 나무 분석에서 모형의 정확성에 근거한 최선의 변수 선택 방법을 구하기 위하여 다양한 변수 선택방법들을 비교 분석 하였다. 이를 위하여 본 연구에서는 한 보험회사의 연금 보험 상품 자료에 다양한 설명변수 축소방법을 적용하여, 가장 적은 수의 설명변수를 가지고 가장 높은 정확도를 제공하여 주는 설명변수 축소방법을 구하는 실증적인 연구를 시행하였다. 이러한 실험결과, 신경망의 민감도 분석을 이용하여 변수를 축소하고, 그 축소된 변수를 이용하여 의사결정나무 분석 모델을 생성하는 경우가 가장 효율적인 설명변수 축소방법임을 알 수 있었다.

Abstract AI-Helper 아이콘AI-Helper

In the financial industry, the decision tree algorithm has been widely used for classification analysis. In this case one of the major difficulties is that there are so many explanatory variables to be considered for modeling. So we do need to find effective method for reducing the number of explana...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 그리고 기업의 입장에서는 수집된 정보는 모두 활용하고 싶어 하는 측면도 있어서, 변수 선택을 하는데 더욱 어려움이 따른다. 본 논문에서는 다양한 방법으로 설명변수 데이터를 축소하는 방법들 중 가장 성능이 우수한 방법을 찾기 위해, 비교연구를 수행하는 것이 목적이다. 이를 위해, 본 논문의 구성은 1장의 서론에 이어서, 2장에서는 논문과 관련된 문헌 연구를 수행하였고, 3장에서는 본 논문에서 사용할 데이터의, 설명과 실험을 위한 설계를 정리하였다.
  • 본 논문에서는 사례 보험사의 자료를 이용하여, 표 3.2에서 제시한 4개의 설명변수 축소방법과 전체 데이터를 전부 사용하는 경우에 대하여, 검증용 데이터를 이용한 정확도의 평가를 통해서, 설명변수를 어떻게 축소시키는 것이 가장 좋은 예측 정확도를 나타내는지, 그리고 가장 적은 수의 데이터를 이용하여, 가장 효율적인 모델을 만들 수 있는 방법은 무엇인지를 실험을 통해서 확인하고자 한다.
  • 1에서 3단계는, 앞의 1, 2단계에서 기본적으로 정리가 된 데이터 중 설명변수를 선택하는 단계이다. 본 논문의 목적은 이 단계의 축소 변화 (요인 분석을 통한 변수 축약이나 또는 별도의 변수 선택 방법)를 통해서, 전체 데이터를 이용한 것과 유사하게 모델 정확도가 나오는지 비교하여, 현재 사례의 모델에서 가장 효과적인 데이터 축소 방안을 찾고자 하는 것이다. 표 3.
  • 본 논문의 사례가 되는 생명보험사는 국내 중위권 회사로, 기존 고객들의 개인연금보험으로의 추가 판매 방법을 통해서 타사와 대비되는 CRM 경쟁력을 달성하고자 한다 (Kang, 2004). 기존 고객들에게 개인연금보험 추가 판매를 위해서 사례의 보험사가 선택한 방법으로, 데이터 마이닝의 지도학습 기법 중 의사결정 나무 (Decision Tree Induction)를 이용하여, 기존 다른 보험 상품가입자의 개인연금보험 추가 가입 가능성을 예측하고, 가능성과 불가능성의 규칙을 만드는 것이다.
  • 앞에서, 서술한 본 논문의 목적을 다시 정리하면, 사례의 생명보험회사에서 기존 고객들 중 개인연금보험을 추천할 가능성이, 높은 고객을 선정하는 의사결정나무 분석 모델을 개발할 때, 많은 수의 설명 변수를 최소화하면서, 정확도는 가장 높은 그러한 의사결정나무 분석 모델을 만드는 것이다. 이를 위한, 실험 결과 변수 선택 방법으로, 신경망의 민감도 분석을 수행하여, 상위 10개의 변수를 선택하는 방법이 가장 효과적인 것으로 나타났으며, 의사결정나무 분석 기법 중에서는 C5.

가설 설정

  • 2를 기준으로, 사용하는 기법에 따라 별도의 옵션을 설정하지 않고, 기본설정으로 하여 분석을 수행하였다. 두 번째 가정은 실험결과에 대한 평가방법이다. 설명변수를 축소하여, 정보가 유실이 되었는데도 불구하고, 정확도가 거의 유사하거나 혹은 더 좋아진다는 것은, 축소 방법이 매우 효과적이었다는 것을 증명하기 때문에, 이를 평가하기 위한 검증용 데이터의 정확도 계산법은 다음의 표 3.
  • 실험을 수행하기 전에, 2가지의 가정이 있다. 첫 번째 가정은 본 논문에서 활용되는 여러 분석방법들은 SPSS Clementine 12.0.2를 기준으로, 사용하는 기법에 따라 별도의 옵션을 설정하지 않고, 기본설정으로 하여 분석을 수행하였다. 두 번째 가정은 실험결과에 대한 평가방법이다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
개인연금보험을 판매하는 대상은 어떻게 나누어지는가? 이렇게 모든 보험사가 개인연금보험의 판매에 총력을 기울이는 시점에서, 개인연금보험을 판매하는 대상은 2가지 종류로 나눌 수 있다. 첫 번째는 신규 고객을 대상으로, 보험설계사 및 홈쇼핑 등의 판매 채널을 통해서, 개인연금보험을 판매하는 것이고, 두 번째는 기존의 다른 보험 가입고객들에게, 추가 판매를 하는 것이다.
변수 선택이란 무엇을 의미하는가? 그러나 실제로 의사결정나무 기법을 적용함에 있어, 많은 문제점이 나타나게 되는데, 그 중 하나가 많은 수의 설명변수 중 의미 있는 변수를 선택하는 문제이다. 변수 선택이란, 의사결정나무 분석과 같은 지도학습 기법에 사용되는 설명변수들 중에서, 모델에 활용성이 적거나 또는 활용할 때 문제가 되는 변수를 파악하여, 제거하는 것을 의미한다. 실제 금융권의 경우 유사한 성격의 데이터가 매우 많으며, 고객의 다양한 정보를 보유하고 있어, 많은 수의 설명 변수를 가지게 된다.
생명보험 시장에서 가장 화두가 되고 있는 것은 무엇인가? 현재 생명보험 시장에서, 가장 화두가 되고 있는 것이 바로 개인연금보험 또는 개인은퇴보험 시장이라고 할 수 있다. 개인연금보험 또는 개인은퇴보험이란 직장에서의 은퇴 또는 일을 더 이상할 수 없는 연령에 처한 사람들에게 일종의 노후의 생계유지를 지원하는 상품으로 우리 사회의 고령화 문제 및 각종 퇴직 후 생활불안 심리와 맞물려서 큰 인기를 끌고 있다.
질의응답 정보가 도움이 되었나요?

참고문헌 (21)

  1. 강부식, 박상찬 (2001). 신경망의 민감도 분석을 이용한 귀납적 학습 기법의 변수 부분 집합 선정. , 7, 51-63. 

  2. 권철신, 홍순욱 (2001). 유사상관계수의 개념을 도입한 범주형 변수의 축약에 관한 연구. , 14, 79-83. 

  3. 박성민, 박영준 (2005). 회귀분석변수선택 절차를 이용한 인터넷 네트워크 품질 특성과 고객 만족도와의 관계 실증분석. , 822-828. 

  4. 송문섭, 윤영주 (2001). 데이터 마이닝 패키지에서 변수 선택 편의에 관한 연구. , 14, 475-486. 

  5. 정석훈, 서용무 (2008). Rough Set 기법을 이용한 신용카드 연체자 분류. Entrue Journal of Information Technology,7, 141-150. 

  6. 허명회, 임용빈, 이용구 (2008). 다목적 다변량 자료분석을 위한 변수선택. , 21, 141-149. 

  7. 허문열, 박영석 (2005). 상호정보를 사용한 변수선택의 동적 모델링. , 13, 57-74. 

  8. 허준, 김종우 (2007). 불균형 데이터 집합에서의 의사결정나무 추론: 종합병원의 건강 보험료 청구 심사 사례. Information Systems Review, 9, 45-65. 

  9. Anand, S. S., Patrick, A. R., Hughes, J. G., and Bell, D. A. (1998). A data mining methodology for cross-sales. Knowledge-Based Systems, 10, 449-461. 

  10. Battiti, R. (1994). Using mutual information for selecting features in supervised neural net learning. IEEE Transactions on Neural Networks, 5, 537-550. 

  11. Brieman, L. (1996). Bagging predictors. Machine Learning, 24, 123-140. 

  12. Chung, S. S., Lee, K. H. and Lee, S. S. (2005). A study on split variable selection using transformation of variables in decision trees. Journal of Korean Data & Information Science Society, 16, 195-205. 

  13. Engelbrecht, A.P. and Cloete, I. (1996). A sensitivity analysis algorithm for pruning feedforward neural networks, neural networks. 1996, IEEE International Conference, 2, 1274-1278. 

  14. Kang, J. (2004). A study on factors associated with the success of CRM in the insurance company. Journal of Korean Data & Information Science Society, 15, 141-172. 

  15. Kass, G. (1980). An exploratory technique for investigating large quantities of categorical data. Applied Statistics, 29, 119-127. 

  16. Krzanowski, W. J. (1987). Selection of variables to preserve multivariate data structure, using principal component. Applied Statistics, 36, 22-33. 

  17. Krzanowski, W. J. (1996). A stopping rule for structure-preserving variable selection. Statistics and Computing, 6, 51-56. 

  18. Loh, W. and Shih, Y. (1997). Split selection methods for classification trees. Statistica Sinica, 7, 815-840. 

  19. Lu, H., Setiono, R. and Liu, H. (1996). Effective data mining using neural networks. IEEE Transactions on Knowledge and Data Engineering, 8, 957-961. 

  20. Quinlan, J. R. (1993). C4.5 Programs for machine Learning, San Mateo: Morgan Kaufmann. 

  21. SPSS Inc., (2007). Clementine 12.0 User’s Guide, SPSS Inc. 

저자의 다른 논문 :

관련 콘텐츠

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로