[논문]잠재 고객 예측을 위한 능동 학습 기법

박상욱; 장병탁

문제 정의

실험 데이터는 CoIL Challenge 2000에서 사용된 것으로 이동식 주택을 위한 보험의 잠재 고객에 관한 정보로 이루어져 있고, 구매자들의 정보보다 비구매자들의 정보가 더 많은 불균형 데이터 집합이다. 따라서 이 데이터는 벳치학습 방법으로는 성능이 좋지 않기 때문에 능동 학습 기법을 이용하여 예측의 정확도를 향상시키고자 한다.
본 논문에서는 상거래상에서 얻을 수 있는 잠재적 고객 데이터에 대해서 실제 구매자를 예측하는 실험을 하였다. 이 데이터는 실제 구매자보다는 비구매자들이 훨씬 많이 포함되어 있는 불균형 데이타이기 때문에 단순히 데이터를 한꺼번에 학습하는 경우에 어려움이 있다.
둘째, 주어진 모든 입력 속성을 이용하는 대신에, 가장 중요한 속성으로 알려진 4개의 속성만을 이용해서 앞에서와 같은 방법으로 실험을 하였다. 이 실험을 통하여 CoIL Challenge 2000 데이터처럼 복잡한 문제에서 데이터 특징 추출이 중요함을 보이고자했다. 표 2에서는 이러한 실험의 결과를 보여준다.
첫째, 전체 85개의 입력 속성을 모두 이용하여 능동 학습을 이용하는 경우와 그렇지 않은 경우에 대해서 실험을 하였다. 이 실험을 통하여 능동 학습을 이용하여 성능이 좋아짐을 보이고자 했다. 둘째, 주어진 모든 입력 속성을 이용하는 대신에, 가장 중요한 속성으로 알려진 4개의 속성만을 이용해서 앞에서와 같은 방법으로 실험을 하였다.

가설 설정

따라서, 신경망의 학습은 신경망의 자유 변수들의 조정에 초점을 맞추게 된다. 반면에 능동 학습에서는 학습자가 자신의 학습 데이터를 스스로 선택하거나 혹은 자신이 학습 데이터에 어떤 영향력을 행사할 수가 있다고 가정한다[1]. 일반적으로 학습의 문제는 훈련데이터에 기반하여 그 입력과 출력 사이의 대응 관계를 찾아내는 것으로 생각할 수 있다.
전통적인 신경망 알고리즘에서는 학습 데이터가 외부환경이나 외부 실험자에 의해 모두 주어진다고 가정한다. 따라서, 신경망의 학습은 신경망의 자유 변수들의 조정에 초점을 맞추게 된다.

제안 방법

이 실험을 통하여 능동 학습을 이용하여 성능이 좋아짐을 보이고자 했다. 둘째, 주어진 모든 입력 속성을 이용하는 대신에, 가장 중요한 속성으로 알려진 4개의 속성만을 이용해서 앞에서와 같은 방법으로 실험을 하였다. 이 실험을 통하여 CoIL Challenge 2000 데이터처럼 복잡한 문제에서 데이터 특징 추출이 중요함을 보이고자했다.
본 논문에서는 현재까지 학습된 신경망에서 학습이 가장 어려운 데이터를 새로운 학습 데이터로 선택하는 방법을 사용한다. 이는 은닉 뉴런을 스스로 증가시키는 RBF 신경망인 ARAN(Active RAN)으로 구현되었다[6].
실험은 다음과 같이 두가지로 하였다. 첫째, 전체 85개의 입력 속성을 모두 이용하여 능동 학습을 이용하는 경우와 그렇지 않은 경우에 대해서 실험을 하였다. 이 실험을 통하여 능동 학습을 이용하여 성능이 좋아짐을 보이고자 했다.
임의의 초기 신경망을 구성한다. 학습에 사용할 데이터는 학습에 사용되지 않은 데이터로 이루어진 후보 집합과 학습에 사용된 훈련 집합으로 나누어 지는데, 후보 집합의 모든 데이터에 대한 에러를 계산한다. 그 후에 가장 큰 에러를 가지는 데이터를 일정 개수 선택하고, 그 에러의 크기가 크고, 기존 은닉 뉴런과 선택된 데이터 사이의 거리가 큰 경우에 은닉 뉴런을 생성한다.

대상 데이터

이는 은닉 뉴런을 스스로 증가시키는 RBF 신경망인 ARAN(Active RAN)으로 구현되었다[6]. 실험 데이터는 CoIL Challenge 2000에서 사용된 것으로 이동식 주택을 위한 보험의 잠재 고객에 관한 정보로 이루어져 있고, 구매자들의 정보보다 비구매자들의 정보가 더 많은 불균형 데이터 집합이다. 따라서 이 데이터는 벳치학습 방법으로는 성능이 좋지 않기 때문에 능동 학습 기법을 이용하여 예측의 정확도를 향상시키고자 한다.
실험은 Coi1 challenge 2000 데이터를 이용한다[8]. 이 데이터는 실제 비즈니스 데이터로서 이동식 주택을 위한 보험의 잠재 고객에 관한 정보로 이루어져 있다.
한편, 가장 좋은 선택은 800명 중에서 실제 고객 238명을 전부 예측하는 것이지만, 실제로는 121명을 예측한 참가자가 우승을 하였다. 임의로 800명을 선택한다면 평균 42명이 포함되어 있을 것이다. 아래 표 1에 대회 결과가 나와있다.
하나의 잠재 고객에 대한 전체 86개의 속성이 있고, 그중 43개가 고객의 우편 번호를 통해 알아낼 수 있는 사회인구 통계 정보이고, 나머지는 이 보험 상품 구매와 관련된 상품의 구매 정보이다. 학습 데이터는 5822명의 구매자와 비구매자로 이루어져 있고, 테스트 데이터는 4000명의 잠재 고객으로 이루어져 있다.
이는 어떤 회사가 상품 광고 메일 보내는 경우에, 원하지 않는 고객에게 메일을 보내는 것을 피하고, 구매할 가능성이 높은 고객에게만 메일을 보내려고 하는 경우에 유용할 수 있다. 한편, 가장 좋은 선택은 800명 중에서 실제 고객 238명을 전부 예측하는 것이지만, 실제로는 121명을 예측한 참가자가 우승을 하였다. 임의로 800명을 선택한다면 평균 42명이 포함되어 있을 것이다.

성능/효과

이 데이터는 실제 구매자보다는 비구매자들이 훨씬 많이 포함되어 있는 불균형 데이타이기 때문에 단순히 데이터를 한꺼번에 학습하는 경우에 어려움이 있다. 여기서는 능동학습 방법을 적용함으로써 예측의 정확도를 향상시킬 수 있음을 보였다.
실제로 CoIL Challenge 2000 결과 보고서의 대부분이 데이터의 속성중에서 중요한 속성을 골라내는 것에 치중을 하였으며, 속성 파악을 잘한 참가자가 좋은 성적을 낼 수 있었다. 우리의 실험 결과에서도 주어진 입력 속성 85개를 다 사용하는 것보다 중요한 4개의 속성을 사용한 것이 결과가 더 좋아지는 것을 보면, 데이터의 특징 파악이 중요함을 알 수 있었다. 따라서 더 좋은 예측 성능을 얻기 위해서는 이러한 데이터들에 대해 그 특징을 잘 파악할 수 있는 연구가 이루어져야 할것이다.
표 2를 보면 예상한 바와 같이, 85개의 속성을 사용한 경우와 4개의 속성을 사용한 경우 모두 능동 학습 방법을 이용했을 때, 더 좋은 성능을 보인다. 이는 실제 구매자에 대한 정보가 훨씬 적은 불균형한 데이터에서 실제 구매자에 대해 더 가중치를 줌으로써 더 좋은 성능을 보이는 것으로 보인다.

후속연구

우리의 실험 결과에서도 주어진 입력 속성 85개를 다 사용하는 것보다 중요한 4개의 속성을 사용한 것이 결과가 더 좋아지는 것을 보면, 데이터의 특징 파악이 중요함을 알 수 있었다. 따라서 더 좋은 예측 성능을 얻기 위해서는 이러한 데이터들에 대해 그 특징을 잘 파악할 수 있는 연구가 이루어져야 할것이다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

잠재 고객 예측을 위한 능동 학습 기법
Active Learning for Prediction of Potential Customers 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

성능/효과

후속연구

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

잠재 고객 예측을 위한 능동 학습 기법 Active Learning for Prediction of Potential Customers 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

성능/효과

후속연구

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

잠재 고객 예측을 위한 능동 학습 기법
Active Learning for Prediction of Potential Customers 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper