$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

[국내논문] 이질성 학습을 통한 문서 분류의 정확성 향상 기법
Improving the Accuracy of Document Classification by Learning Heterogeneity 원문보기

지능정보연구 = Journal of intelligence and information systems, v.24 no.3, 2018년, pp.21 - 44  

윌리엄 (국민대학교) ,  현윤진 (국민대학교) ,  김남규 (국민대학교)

초록
AI-Helper 아이콘AI-Helper

최근 인터넷 기술의 발전과 함께 스마트 기기가 대중화됨에 따라 방대한 양의 텍스트 데이터가 쏟아져 나오고 있으며, 이러한 텍스트 데이터는 뉴스, 블로그, 소셜미디어 등 다양한 미디어 매체를 통해 생산 및 유통되고 있다. 이처럼 손쉽게 방대한 양의 정보를 획득할 수 있게 됨에 따라 보다 효율적으로 문서를 관리하기 위한 문서 분류의 필요성이 급증하였다. 문서 분류는 텍스트 문서를 둘 이상의 카테고리 혹은 클래스로 정의하여 분류하는 것을 의미하며, K-근접 이웃(K-Nearest Neighbor), 나이브 베이지안 알고리즘(Naïve Bayes Algorithm), SVM(Support Vector Machine), 의사결정나무(Decision Tree), 인공신경망(Artificial Neural Network) 등 다양한 기술들이 문서 분류에 활용되고 있다. 특히, 문서 분류는 문맥에 사용된 단어 및 문서 분류를 위해 추출된 형질에 따라 분류 모델의 성능이 달라질 뿐만 아니라, 문서 분류기 구축에 사용된 학습데이터의 질에 따라 문서 분류의 성능이 크게 좌우된다. 하지만 현실세계에서 사용되는 대부분의 데이터는 많은 노이즈(Noise)를 포함하고 있으며, 이러한 데이터의 학습을 통해 생성된 분류 모형은 노이즈의 정도에 따라 정확도 측면의 성능이 영향을 받게 된다. 이에 본 연구에서는 노이즈를 인위적으로 삽입하여 문서 분류기의 견고성을 강화하고 이를 통해 분류의 정확도를 향상시킬 수 있는 방안을 제안하고자 한다. 즉, 분류의 대상이 되는 원 문서와 전혀 다른 특징을 갖는 이질적인 데이터소스로부터 추출한 형질을 원 문서에 일종의 노이즈의 형태로 삽입하여 이질성 학습을 수행하고, 도출된 분류 규칙 중 문서 분류기의 정확도 향상에 기여하는 분류 규칙만을 추출하여 적용하는 방식의 규칙 선별 기반의 앙상블 준지도학습을 제안함으로써 문서 분류의 성능을 향상시키고자 한다.

Abstract AI-Helper 아이콘AI-Helper

In recent years, the rapid development of internet technology and the popularization of smart devices have resulted in massive amounts of text data. Those text data were produced and distributed through various media platforms such as World Wide Web, Internet news feeds, microblog, and social media....

Keyword

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 이에 본 연구는 새로운 알고리즘을 제안하거나 기존 알고리즘을 수정하는 접근이 아닌, 분류 모델 구축에 필요한 학습데이터의 활용 방식을 개선하여 문서 분류의 정확도를 향상 시키는 방안을 제안하고자 한다.
  • 대부분의 연구는 노이즈가 문서 분류에 미치는 부정적인 영향을 최소화 하기 위한 방안에 집중하고 있으나, 본 연구에서는 노이즈를 인위적으로 삽입하여 문서 분류기의 견고성을 강화하고 이를 통해 분류의 정확도를 향상시킬 수 있는 방안을 제안하고자 한다.
  • 본 연구에서는 문서 분류기의 학습 과정에서 이질적 데이터소스를 추가한 이질성 학습을 위해 준지도학습(Semi-Supervised Learning)의 자기 훈련(Self-Training) 기법을 활용하고자 한다. 구체적으로는 분류 및 학습의 대상이 되는 원 데이터를 분류 데이터로 사용하고, 이질적 데이터소스로부터 발췌한 데이터를 미분류 데이터로 적용하여 자기훈련을 수행함으로써 이질성 학습을 실현하고자 한다.
  • 따라서 본 연구에서는 이형질 학습을 위해 준지도학습을 활용하되, 위에서 소개한 준지도학 습의 한계를 극복하기 위해 규칙 선별 기반의 앙상블 준지도학습(Rule Selection-based Ensemble Semi-supervised Learning: RSESL) 알고리즘을 제안한다. 구체적으로는 (1) 이질적 데이터인 뉴스, 블로그, 트위터 데이터로부터 형질을 추출하여 이질성 학습을 수행하고, (2) 도출된 분류 규칙 중 문서 분류기의 정확도 향상에 기여하는 분류 규칙만을 추출하여 적용하는 방식으로 문서 분류의 성능을 향상시키고자 한다.
  • 하지만 이러한 이질적 데이터를 활용하여 문서 분류기의 성능을 향상시키고자 하는 시도는 찾아보기 힘들다. 이에 본 연구에서는 문서 분류의 성능을 향상시키기 위해 서로 다른 특징을 갖는 이질적 데이터를 학습데이터로 사용하고자 한다. 특히, 텍스트 데이터의 경우에는 문서에 포함된 어휘들에 의해 형질이 결정되기 때문에 데이터의 관점에 따라 서로 다른 형질을 갖게 되며, 이는 의미적 이질성의 특징을 갖는다고 볼 수 있다.
  • 특히, 자기훈련은 레이블이 없는 미분류 데이터를 점진적 학습을 통해 레이블을 부여하고 추가 학습데이터로 사용하기 때문에 분류기의 성능 저하를 초래할 수 있다. 따라서 본 연구에서는 이를 극복하기 위해 규칙 선별 기반의 앙상블 준지도학습 알고리즘을 제안하고, 이를 활용하여 이질성 학습을 수행한다.
  • , 1991; Jordam and Jacobs, 1994; Jordan and Xu, 1995)등이 있다. 이에 본 연구에서는 이질적 데이터인 뉴스, 블로그, 트위터 데이터로부터 형질을 추출 하여 이질성 학습을 수행한 후 도출된 분류 규칙 중 분류기의 정확도 향상에 기여하는 분류 규칙만을 추출하여 적용하는 방식의 규칙 선별 기반의 앙상블 준지도학습 알고리즘을 제안한다.
  • 본 절에서는 이질적 데이터를 활용한 규칙 선별 기반의 앙상블 준지도학습 방법론을 통해 문서 분류의 성능을 향상시키는 방안에 대해 소개 한다. 여기서 이질적 데이터란 레이블이 없는 미분류 데이터를 의미한다.
  • 따라서 분류 규칙에 의해 대체된 레이블을 원 데이터의 실제 레이블과 비교 분석하여 레이블 정확도를 산출할 필요가 있다. 따라서 본 연구에서는 문서 분류의 성능 향상을 위한 분류 규칙을 생성하기 위해 (1) 예측값의 차이에 따른 임계값과 (2) 대체된 레이블이 정확도를 활용한 규칙 선별 알고리즘을 제안한다. 규칙 선별 알고리즘은 다음과 같이 수행된다.
  • 본 연구는 문서 분류의 정확도를 향상시키기 위한 방안으로 규칙 선별 기반의 앙상블 준지도 학습 알고리즘을 제안하였다. 제안 방법론은 이질적 데이터인 뉴스, 블로그, 트위터 데이터로부터 새로운 형질을 추출하여 이질성 학습을 수행함으로써 원 데이터에 이질성을 주입하고, 이를 활용하여 도출된 분류 규칙 중 문서 분류기의 정확도 향상에 기여하는 분류 규칙만을 추출하여 적용하는 방식으로 이루어지며, 전통적 기계학습 기반 문서 분류기에 비해 예측 정확도가 1.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
문서 분류란 무엇인가? 이처럼 손쉽게 방대한 양의 정보를 획득할 수 있게 됨에 따라 보다 효율적으로 문서를 관리하기 위한 문서 분류의 필요성이 급증하였다. 문서 분류는 텍스트 문서를 둘 이상의 카테고리 혹은 클래스로 정의하여 분류하는 것을 의미하며, K-근접 이웃 (K-Nearest Neighbor), 나이브 베이지안 알고리즘 (Naïve Bayes Algorithm), SVM(Support Vector Machine), 의사결정나무(Decision Tree), 인공신 경망(Artificial Neural Network) 등 다양한 기계학습 기술들이 문서 분류에 활용되고 있다.
기계학습 알고리즘은 레이블이 없는 미분류 데이터에 대응하기 위하여 어떤 알고리즘이 각광받고 있는가? 기존의 기계학습 알고리즘은 충분한 수의 레이블을 갖고 있는 분류 데이터가 있을 때 효과 적인 방법이나, 레이블이 없는 미분류 데이터에 레이블을 부여하기 위한 전문가의 판단이 필요할 뿐만 아니라 레이블을 갖는 분류 데이터를 확보를 위해 상대적으로 많은 비용과 시간을 필요로 한다는 어려움이 있다. 반면 레이블이 없는 미분류 데이터의 경우에는 상대적으로 적은 비용과 시간을 투자하여 손쉽게 수집이 가능하기 때문에 이를 활용할 수 있는 준지도학습 알고리즘이 각광을 받고 있다. 준지도학습은 레이블을 갖는 분류 데이터 수가 충분하지 않을 경우, 레이블이 없는 미분류 데이터를 학습데이터로 사용함으로써 더 높은 정확도를 갖는 양질의 분류기를 구축한다.
문서분류를 위한 기계학습 기술들은 어떠한 것들이 있는가? 이처럼 손쉽게 방대한 양의 정보를 획득할 수 있게 됨에 따라 보다 효율적으로 문서를 관리하기 위한 문서 분류의 필요성이 급증하였다. 문서 분류는 텍스트 문서를 둘 이상의 카테고리 혹은 클래스로 정의하여 분류하는 것을 의미하며, K-근접 이웃 (K-Nearest Neighbor), 나이브 베이지안 알고리즘 (Naïve Bayes Algorithm), SVM(Support Vector Machine), 의사결정나무(Decision Tree), 인공신 경망(Artificial Neural Network) 등 다양한 기계학습 기술들이 문서 분류에 활용되고 있다.
질의응답 정보가 도움이 되었나요?

참고문헌 (46)

  1. Ando, R. K. and T. Zhang, "A Framework for Learning Predictive Structures from Multiple Tasks and Unlabeled Data," Journal of Machine Learning Research, Vol. 6 (2005), 1817-1853. 

  2. Angelova, R. and G. Weikum, "Graph-Based Text Classification: Learn from Your Neighbors," Proceedings of the 29th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, (2006), 485-492. 

  3. Belkin, M., P. Niyogi, and V. Sindhwani, "Manifold Regularization: A Geometric Framework for Learning from Labeled and Unlabeled Examples," Journal of Machine Learning Research, Vol. 7(2006), 2399-2434. 

  4. Bennett, K. P. and A. Demiriz, "Semi-Supervised Support Vector Machines," Advances in Neural Information Processing Systems, Vol. 11(1999), 368-374. 

  5. Blei, D.M., A. Y. Ng, and M. I. Jordan, "Latent Dirichlet Allocation," Journal of Machine Learning Research, Vol. 3, No. Jan(2003), 993-1022. 

  6. Blum, A. and T. Mitchell, "Combining Labeled and Unlabeled Data with Co-Training," Proceedings of the eleventh annual conference on Computational learning theory, (1998), 92-100. 

  7. Breiman, L., "Bagging Predictors," Machine learning, Vol. 24, No. 2(1996), 123-140. 

  8. Dasarathy, B. V. and B. V. Sheela, "A Composite Classifier System Design: Concepts and Methodology," Proceedings of the IEEE, Vol. 67, No. 5(1979), 708-713. 

  9. Dietterich, T.G., "Ensemble Methods in Machine Learning," Multiple Classifier Systems, Vol. 1857(2000), 1-15. 

  10. Freund, Y. and R. E. Schapire, "Experiments with a New Boosting Algorithm," Proceedings of the Thirteenth International Conference on International Conference on Machine Learning, (1996),148-156. 

  11. Freund, Y. and R. E. Schapire, "A Decision-Theoretic Generalization of On-Line Learning and an Application to Boosting," Journal of Computer and System Sciences, Vol. 55, No. 1(1997), 119-139. 

  12. Hansen, L. K. and P. Salamon, "Neural Network Ensembles," IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 12, No. 10(1990), 993-1001. 

  13. Hofmann, T., "Unsupervised Learning by Probabilistic Latent Semantic Analysis," Machine learning, Vol. 42, No. 1-2(2001), 177-196. 

  14. Jacobs, R. A., M. I. Jordan, S. J. Nowlan, and G. E. Hinton, "Adaptive Mixtures of Local Experts," Neural Computation, Vol. 3, No. 1(1991), 79-87. 

  15. Joachims, T., "Transductive Inference for Text Classification using Support Vector Machines," International Conference on Machine Learning, Vol. 99(1999), 200-209. 

  16. Jordan, M. I. and L. Xu, "Convergence Results for the EM Approach to Mixtures of Experts Architectures," Neural Networks, Vol. 8, No. 9(1995), 1409-1431. 

  17. Jordan, M. I. and R. A. Jacobs, "Hierarchical Mixtures of Experts and the EM Algorithm," Neural Computation, Vol. 6, No. 2(1994), 181-214. 

  18. Kim, M., "Ensemble Learning with Support Vector Machines for Bond Rating," Journal of Intelligence and Information Systems, Vol. 18, No. 2(2012), 29-45. 

  19. Kim, D., and N. Kim, "Mapping Categories of Heterogeneous Sources using Text Analytics," Journal of Intelligence and Information Systems, Vol. 22, No. 4(2016), 193-215. 

  20. Kim, S., H. Zhang, R. Wu, and L. Gong, "Dealing with Noise in Defect Prediction," Proceedings of the 33rd International Conference on Software Engineering, (2011), 481-490. 

  21. L'Heureux, A., K. Grolinger, H. F. ElYamany, and M. Capretz, "Machine Learning with Big Data: Challenges and Approaches," IEEE Access, Vol. 5(2017), 7776-7797. 

  22. Li, M. and Z. H. Zhou, "SETRED: Self-Training with Editing," Pacific-Asia Conference on Knowledge Discovery and Data Mining, Vol. 3518(2005), 611-621. 

  23. Liu, W., S. Liu, Q. Gu, X. Chen, and D. Chen, "Fecs: A Cluster based Feature Selection Method for Software Fault Prediction with Noises," IEEE 39th Annual Computer Software and Applications Conference (COMPSAC), Vol. 2(2015), 276-281. 

  24. Mallapragada, P. K., R. Jin, A. K. Jain, and Y. Liu, "Semiboost: Boosting for Semi-Supervised Learning," IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 31, No. 11(2009), 2000-2014. 

  25. Maulik, U. and D. Chakraborty, "A Self-Trained Ensemble with Semisupervised SVM: An Application to Pixel Classification of Remote Sensing Imagery," Pattern Recognition, Vol. 44, No. 3(2011), 615-623. 

  26. McClosky, D., E. Charniak, and M. Johnson, "Effective Self-Training for Parsing," Proceedings of the Main Conference on Human Language Technology Conference of the North American Chapter of the Association of Computational Linguistics, (2006), 152-159. 

  27. Min, S., "Bankruptcy Prediction using an Improved Bagging Ensemble," Journal of Intelligence and Information Systems, Vol. 20, No. 4(2014), 121-139. 

  28. Mitra, V., C. J. Wang, and S. Banerjee, "Text Classification: A Least Square Support Vector Machine Approach," Applied Soft Computing, Vol. 7, No. 3(2007), 908-914. 

  29. Nigam, K., A. K. McCallum, S. Thrun, and T. Mitchell, "Text Classification from Labeled and Unlabeled Documents using EM," Machine Learning, Vol. 39, No. 2(2000), 103-134. 

  30. Provost, F. and T. Fawcett, Data Science for Business: What You Need to Know About Data Mining and Data-Analytic Thinking, O'Reilly Media, Inc., California, 2013. 

  31. Polikar, R., "Ensemble based Systems in Decision Making," IEEE Circuits and Systems Magazine, Vol. 6, No. 3(2006), 21-45. 

  32. Rosenberg, C., M. Hebert, and H. Schneiderman, "Semi-Supervised Self-Training of Object Detection Models," Seventh IEEE Workshops on Application of Computer Vision, Vol. 1(2005), 29-36. 

  33. Saez, J.A., M. Galar, J. Luengo, and F. Herrera, "Tackling the Problem of Classification with Noisy Data using Multiple Classifier Systems: Analysis of the Performance and Robustness," Information Sciences, Vol. 247(2013), 1-20. 

  34. Salton, G. and C. Buckley, "Term Weighting Approaches in Automatic Text Retrieval," Technical Report, Cornell University, 1987. 

  35. Schapire, R.E., "The Strength of Weak Learnability," Machine Learning, Vol. 5, No. 2(1990), 197-227. 

  36. Shahshahani, B.M. and D. A. Landgrebe, "The Effect of Unlabeled Samples in Reducing the Small Sample Size Problem and Mitigating the Hughes Phenomenon," IEEE Transactions on Geoscience and Remote Sensing, Vol. 32, No. 5(1994), 1087-1095. 

  37. Tanha, J., M. van Someren, and H. Afsarmanesh, "Disagreement-based Co-Training," 23rd IEEE International Conference on Tools with Artificial Intelligence (ICTAI), (2011), 803-810. 

  38. Tanha, J., M. van Someren, and H. Afsarmanesh, "Semi-Supervised Self-Training for Decision Tree Classifiers," International Journal of Machine Learning and Cybernetics, Vol. 8, No. 1(2017), 355-370. 

  39. Triguero, I., J. A. Saez, J. Luengo, S. Garcia, and F. Herrera, "On the Characterization of Noise Filters for Self-Training Semi-Supervised in Nearest Neighbor Classification," Neurocomputing, Vol. 132(2014), 30-41. 

  40. Triguero, I., S. Garcia, and F. Herrera, "Self-Labeled Techniques for Semi-Supervised Learning: Taxonomy, Software and Empirical Study," Knowledge and Information Systems, Vol. 42, No. 2(2015), 245-284. 

  41. Wolpert, D.H., 1992. "Stacked Generalization," Neural Networks, Vol. 5, No. 2(1992), 241-259. 

  42. Wu, X. and X. Zhu, "Mining with Noise Knowledge: Error-Aware Data Mining," IEEE Transactions on Systems, Man, and Cybernetics-Part A: Systems and Humans, Vol. 38, No. 4(2008), 917-932. 

  43. Yarowsky, D., "Unsupervised Word Sense Disambiguation Rivaling Supervised Methods," Proceedings of the 33rd Annual Meeting on Association for Computational Linguistics, (1995), 189-196. 

  44. Zhu, X., "Semi-Supervised Learning Literature Survey," Computer Sciences TR 1530, University of Wisconsin, 2008. Available at http://pages.cs.wisc.edu/;jerryzhu/pub/ssl_survey.pdf 

  45. Zhu, X. and A. B. Goldberg, "Introduction to Semi-Supervised Learning," Synthesis Lectures on Artificial Intelligence and Machine Learning, Vol. 3, No. 1(2009), 1-130. 

  46. Zhu, X., J. Lafferty, and R. Rosenfeld, "Semi-Supervised Learning with Graphs," Doctoral Dissertation, Language Technologies Institute, Carnegie Mellon University, 2005. 

저자의 다른 논문 :

LOADING...

활용도 분석정보

상세보기
다운로드
내보내기

활용도 Top5 논문

해당 논문의 주제분야에서 활용도가 높은 상위 5개 콘텐츠를 보여줍니다.
더보기 버튼을 클릭하시면 더 많은 관련자료를 살펴볼 수 있습니다.

관련 콘텐츠

오픈액세스(OA) 유형

BRONZE

출판사/학술단체 등이 한시적으로 특별한 프로모션 또는 일정기간 경과 후 접근을 허용하여, 출판사/학술단체 등의 사이트에서 이용 가능한 논문

유발과제정보 저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로