$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

Filter Method와 Classification 알고리즘을 이용한 전자상거래 블랙컨슈머 탐지에 대한 연구
Black Consumer Detection in E-Commerce Using Filter Method and Classification Algorithms 원문보기

情報保護學會論文誌 = Journal of the Korea Institute of Information Security and Cryptology, v.28 no.6, 2018년, pp.1499 - 1508  

이태규 (고려대학교 정보보호대학원) ,  이경호 (고려대학교 정보보호대학원)

초록
AI-Helper 아이콘AI-Helper

빠른 속도로 성장하고 있는 전자상거래 시장이 기업들에게 고객층을 넓혀나갈 좋은 기회를 제공하고 있는 반면에 블랙컨슈머로 인한 기업들의 피해 사례 또한 늘어나고 있다. 본 연구는 전자상거래 고객 데이터를 통해 전자상거래상의 블랙컨슈머를 탐지해내는 머신 러닝 모델을 구축하고 최적화하는 것을 목표로 한다. Feature selection의 filter method와 4개의 classification 알고리즘을 이용한 실험을 통해 F-measure 0.667의 정확도로 블랙컨슈머를 탐지하는 모델을 구축하였으며 F-measure에서 11.44%, AURC에서 10.51%, TPR에서 22.87%의 성능 향상을 확인 할 수 있었다.

Abstract AI-Helper 아이콘AI-Helper

Although fast-growing e-commerce markets gave a lot of companies opportunities to expand their customer bases, it is also the case that there are growing number of cases in which the so-called 'black consumers' cause much damage on many companies. In this study, we will implement and optimize a mach...

주제어

표/그림 (11)

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 본 연구는 이렇게 급증하고 있는 전자상거래상의 블랙컨슈머를 탐지하기 위해 고객 주문 데이터를 이용해 지도 학습 머신러닝 모델을 구축하고 filter method와 classification 알고리즘을 이용한 실험을 통해 최적화하는 것을 목표로 한다.
  • 본 연구에서 구축하고자 하는 모델의 목적은 새로운 주문 고객 데이터가 입력되었을 때 기업에 의해분류 되어있는 블랙컨슈머와 같은 고객 type으로 예측되는 잠재적 블랙컨슈머를 탐지해 내는 것이다. 그러므로 해당 기업이 과거에 어떤 기준으로 블랙컨슈머를 분류했는가에 따라 탐지 모델의 잠재적 블랙컨슈머 예측 결과도 달라진다.
  • 본 연구에서는 WEKA에서 제공하는classification 알고리즘 4가지의 실험 결과를 비교하여 최적의 모델을 구축하고자 한다. 실험에 사용할 알고리즘은 random forest, J48, naive bayes, SMO이다.
  • 본 연구에서는 filter method로 측정한 feature의 중요도 랭킹에 따라 feature를 하나씩 줄여가며 각 classification 알고리즘에서의 최적의 feature set을 찾아가는 방식으로 filter method와classification 알고리즘을 이용한 머신 러닝 모델의 최적화 방법을 블랙컨슈머 탐지 모델에 적용해볼 것 이다.
  • 신용 카드 사기 탐지 연구들에서 사용된 데이터들은 전자상거래 플랫폼 상에서의 고객의 행동이나 주문 특성들은 포함하기 어려운 점이 있다. 본 연구에서는 고객의 행동과 주문 상의 특성을 포함한 데이터 셋을 이용하여 어떤 특성을 갖고 있는 데이터들이 블랙컨슈머로 분류되었는지 학습하여 탐지하는 지도 학습 머신러닝 모델을 구축하고자 한다. Clustering을 사용한 비지도 학습 탐지 모델은 전체의 데이터 중에 anomaly를 찾아내는 데에는 좋은 방법일 수 있지만 과거에 수집된 데이터에 대해 비슷한 데이터를 탐지해 내기 위해서는 labeled된 아웃풋이 존재하는 데이터 셋을 이용한 지도 학습 classification알고리즘을 사용하는 것이 더 적합하다.
  • 본 연구에서는 과대적합 문제가 덜 발생하고 러닝알고리즘으로부터 독립적인 filter method를 이용해 각 feature의 연관성을 측정한다. 연관성 랭킹이 낮은 순으로 feature 개수를 하나씩 제외하며 각 알고리즘에서의 머신 러닝 결과 값을 비교해 최적의feature set을 찾아내도록 할 것이다.
  • Precision은 positive로 예측된 모든 값 중에 실제 positive 데이터의 비율을 나타낸다. 본 연구에서는 블랙컨슈머로 예측된 고객 중에 실제 블랙컨슈머의 비율을 나타낸다.
  • Recall은 실제 positive 데이터 중에 제대로positive로 예측된 데이터의 비율을 나타낸다. 본 연구에서는 실제 블랙컨슈머 중에 어느 정도의 비율을 모델이 탐지했는지를 나타낸다.
  • 본 연구에서는 실험 결과 값의 F-measure, AURC, TPR 값을 비교하여 모델의 성능을 평가할 것이다. 평가 항목의 priority(우선순위)는 탐지 능력을 가장 잘 보여주는 F-measure, 효율성을 보여주는 AURC, 블랙컨슈머 중에 실제 탐지된 비율을 보여주는 TPR 순으로 평가하여 가장 높은 성능을 보이는 최적화된 모델을 찾도록 한다.
  • 본 연구에서는 지도 학습 머신러닝 알고리즘을 이용해 고객 타입을 분류하여 블랙컨슈머를 탐지해내는 머신러닝 모델을 구축하였다. Filter method를 이용하여 주요한 feature들을 추려낼 수 있었고 4가지의 classification 알고리즘의 성능을 비교하여 더 효과적이고 정확한 모델을 구축할 수 있었다.
  • , Verstraeten, G.의 연구에서는 고객 이탈 예측 모델 구축에서의 data preparation 기술에 대해 분석하였다. 이전 연구들이 알고리즘의 성능에 집중을한 반면에 이 연구는 data preparation 기술이 예측 모델 성능에 어떠한 영향을 주는지 실험하였다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
블랙컨슈머란? 반면에 이러한 상황을 악용하는 블랙컨슈머라 불리는 소비자들 또한 늘어나고 있다. 악성을 뜻하는 블랙과 소비자를 뜻하는 컨슈머의 합성어로 고의적, 상습적으로 기업에 피해를 주는 소비자를 뜻하는 말이다[1]. 전자상거래에서도 신용카드 차지백 악용, 환불 정책 악용 등 비정상적인 행위를 통해 기업에 큰 피해를 끼치는 블랙컨슈머 들이 늘어나고 있다.
filter, wrapper, embedded method 각각 방법을 설명하라 Filter method는 각 feature의 중요도를 평가한 랭킹을 기반으로 가장 중요도가 낮은 feature 부터 하나씩 제거해 나가며 가장 좋은 feature set을 찾아내는 방법이다. 비교적으로 과대적합 문제가 발생할 가능성이 더 낮으며 더 큰 규모의 데이터 셋에도 적합한 방법이다. Wrapper method처럼 해당러닝 알고리즘에서의 최고의 성능을 내는 feature subset을 결과로 주는 방식이 아닌 러닝 알고리즘과 독립적으로 각 feature의 중요도를 측정해내는 방법으로 러닝 알고리즘에 종속되지 않는다. Wrapper method는 각 러닝 알고리즘에서 어떠한 feature subset이 가장 좋은 성능을 갖는지 찾아내는 방식으로 모든 subset의 성능을 평가해 가장 좋은 subset을 찾아내는 방법이다. 특정 알고리즘에서는 높은 정확도의 결과를 주지만 데이터의feature 수가 많고 규모가 클 경우 비효율적이며 과대적합 문제가 잘 발생하는 단점이 있다. Embedded method는 filter method와wrapper method의 장점을 결합한 방법이다.Wrapper method와 같이 각 러닝 알고리즘에서의 최적의 feature set을 구해내지만 보다 더 효율적으로 찾아내는 방법이다.
Feature selection이란? Feature selection은 데이터 셋의 여러 가지 항목 중 머신 러닝 모델이 학습하고 결과 값을 도출 해낼 때에 가장 큰 연관성을 갖고 있는 항목을 골라내는 과정이다. 연관성이 적은 항목을 제외시키고 연관성이 큰 항목들을 골라내 데이터 셋의 차원수를 줄여 학습 성능을 향상시키고 불필요한 데이터를 없애 과대적합(overfitting)문제를 해결할 수 있다[13].
질의응답 정보가 도움이 되었나요?

참고문헌 (24)

  1. Jae Wook Shin, Min Cheol Shin, "The Effects of Consumers' Psychological Characteristics on Dysfunctional Consumer Behavior and Life Satisfaction", The Korean Journal of Consumer and Advertising Psychology, 15(3), pp. 409-433, Aug. 2014 

  2. Chandola, V., Banerjee, A. and Kumar, V., "Anomaly detection: A survey", ACM computing surveys (CSUR), vol. 41, no. 3, p.15, Jul. 2009 

  3. Tae-ho Kim and Kyung-ho Lee, "Feature Selection Optimization in Unsupervised Learning for Insider Threat Detection", KSII The 13th Asia Pacific International Conference on Information Science and Technology (APIC-IST), June 2018 

  4. Stafford, Richard G., et al., "Application of neural networks as an aid in medical diagnosis and general anomaly detection", U.S. Patent No 5,331,550, 1994 

  5. Ahmed, M., Mahmood, A. N., & Hu, J., "A survey of network anomaly detection techniques. Journal of Network and Computer Applications", vol. 60, pp. 19-31., Jan. 2016 

  6. Lee, Hojin, et al., "Feature Selection Practice For Unsupervised Learning of Credit Card Fraud Detection", Journal of Theoretical & Applied Information Technology, vol. 96, no. 2, pp. 408-417, Jan, 2018 

  7. Maes, S., Tuyls, K., Vanschoenwinkel, B. and Manderick, B., "Credit card fraud detection using Bayesian and neural networks", In Proceedings of the 1st international naiso congress on neuro fuzzy technologies, pp. 261-270, Jan. 2002 

  8. Srivastava, A., Kundu, A., Sural, S. and Majumdar, A., "Credit card fraud detection using hidden Markov model", IEEE Transactions on dependable and secure computing, vol. 5, no. 1, pp.37-48, Jan. 2008 

  9. Guo-en Xia, Wei-dong Jin, "Model of customer churn prediction on support vector machine", Systems Engineering-Theory & Practice, vol.28, no.1, pp. 71-77, Sep. 2008 

  10. Vafeiadis, T., Diamantaras, K. I., Sarigiannidis, G., Chatzisavvas, K. C., "A comparison of machine learning techniques for customer churn prediction", Simulation Modelling Practice and Theory, vol. 55, pp. 1-9, Jun. 2015 

  11. Coussement, K., Lessmann, S., Verstraeten, G., "A comparative analysis of data preparation algorithms for customer churn prediction: A case study in the telecommunication industry", Decision Support Systems, vol. 95, pp. 27-36, Mar. 2017 

  12. Garner, Stephen R., "Weka: The waikato environment for knowledge analysis", In Proceedings of the New Zealand computer science research students conference, pp. 57-64. May 1995 

  13. Vipin K., et al., "Feature selection : a literature review", SmartComputing Review, vol. 4, no. 3, Jun. 2014 

  14. Guyon, Isabelle, and Andre Elisseeff., "An introduction to feature extraction", Feature extraction, Studies in Fuzziness and Soft Computing, vol, 207, pp. 1-25, 2006 

  15. Ghahramani, Zoubin, and Michael I. Jordan., "Supervised learning from incomplete data via an EM approach", In Advances in neural information processing systems, pp. 120-127, 1994 

  16. Breiman, L., "Random forests", Machine learning, vol.45, no.1, pp.5-32, Oct. 2001 

  17. Bhargava, N., Sharma, G., Bhargava, R., & Mathuria, M., "Decision tree analysis on j48 algorithm for data mining", Proceedings of International Journal of Advanced Research in Computer Science and Software Engineering, vol. 3, no. 6, Jun 2013 

  18. Patil, T.R. and Sherekar, S.S., "Performance analysis of Naive Bayes and J48 classification algorithm for data classification", International journal of computer science and applications, vol. 6, no. 2, pp.256-261, Apr. 2013 

  19. Dimitoglou, G., Adams, J.A. and Jim, C.M., "Comparison of the C4. 5 and a Naive Bayes classifier for the prediction of lung cancer survivability", arXiv preprint arXiv: 1206.1121, Jun. 2012 

  20. Platt, J.C., "12 fast training of support vector machines using sequential minimal optimization", Advances in kernel methods, pp.185-208, Aug. 1999 

  21. Kohavi, R., "A study of cross-validation and bootstrap for accuracy estimation and model selection", the International Joint Conference on Articial Intelligence (Ijcai), vol. 14, no. 2, pp. 1137-1145, Aug. 1995 

  22. Davis, J. and Goadrich, M., "The relationship between Precision-Recall and ROC curves", In Proceedings of the 23rd international conference on Machine learning, pp. 233-240, Jun. 2006 

  23. Hanley, J.A. and McNeil, B.J., "The meaning and use of the area under a receiver operating characteristic (ROC) curve", Radiology, vol. 143, no. 1, pp.29-36, Apr. 1982 

  24. Sasaki, Y., "The truth of the F-measure", Teach Tutor mater, vol.1, no.5, pp.1-5, Oct. 2007 

저자의 다른 논문 :

관련 콘텐츠

오픈액세스(OA) 유형

FREE

Free Access. 출판사/학술단체 등이 허락한 무료 공개 사이트를 통해 자유로운 이용이 가능한 논문

이 논문과 함께 이용한 콘텐츠

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로