$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

텍스트 문서 분류에서 범주간 유사도와 계층적 분류 방법의 성과 관계 연구
A Study on the Relationship between Class Similarity and the Performance of Hierarchical Classification Method in a Text Document Classification Problem 원문보기

한국전자거래학회지 = The Journal of Society for e-Business Studies, v.25 no.3, 2020년, pp.77 - 93  

장수정 (Graduate School(Big Data Analytics), Ewha Womans University) ,  민대기 (School of Business, Ewha Womans University)

초록
AI-Helper 아이콘AI-Helper

비정형 텍스트 문서를 다중 범주로 분류하는 문제에 있어서, 계층적 분류 방법이 비계층적 분류 방법에 비하여 분류 성능이 우수한 것으로 알려져 있다. 기존 문헌과 다르게 본 연구에서는 사전에 범주들의 계층 구조가 정의된 상황에서 계층적 분류 방법과 비계층적 분류 방법의 성능을 비교하였다. 수자원 분야 기후변화 적응기술과 관련한 논문 분류 데이터와 20NewsGroup 오픈 데이터를 대상으로 계층적/비계층적 분류 방법의 성능을 비교하였다. 본 연구결과 기존 문헌과 다르게 계층적 분류 방법이 비계층적 분류 방법에 비하여 언제나 성능이 우수한 것은 아님을 확인하였다. 계층 구조의 상위/하위 수준에서의 상대적 유사도에 따라서 계층적/비계층적 분류 방법의 성능에 차이가 있음을 확인하였다. 즉, 상위 수준의 유사도가 하위 수준보다 상대적으로 낮은 경우 상위 수준에서의 오분류 감소로 계층적 분류 방법의 성능이 개선됨을 확인하였다.

Abstract AI-Helper 아이콘AI-Helper

The literature has reported that hierarchical classification methods generally outperform the flat classification methods for a multi-class document classification problem. Unlike the literature that has constructed a class hierarchy, this paper evaluates the performance of hierarchical and flat cla...

주제어

표/그림 (9)

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 국가별 기후변화 적응기술 수요를 분석함에 있어 광범위한 정보 원천인 대용량 문서 자료를 많은 인적자원을 이용하여 수작업으로 정리함으로써 정합성과 효율성이 낮은 문제가 발생한다. 따라서 UNFCCC TNA와 같이 비정형 텍스트 문서로 제시되는 다수의 수요 자료를 수작업으로 분류, 분석, 정리하는 과정에서 발생하는 비용을 회피하고 효과적인 수요 자료 확보와 정합성 판단을 위하여 비정형 자료 분석의 대표적인 기법인 텍스트 분석을 이용하고자 한다. UNFCCC에서 정의하는 기후변화 적응 기술의 분류 체계에 따라서 TNA 보고서와 같은 텍스트 기반 수요 문서를 효율적으로 분류하는 것은 추가적인 수요 분석을 위한 중요한 연구 주제로 판단된다.
  • UNFCCC에서 정의하는 기후변화 적응 기술의 분류 체계에 따라서 TNA 보고서와 같은 텍스트 기반 수요 문서를 효율적으로 분류하는 것은 추가적인 수요 분석을 위한 중요한 연구 주제로 판단된다. 본 논문에서는 기후변화 적응기술의 계층 구조와 같이 사전에 정의된 계층 구조를 활용하여 텍스트 문서를 분류하기 위한 문제를 고려하도록 한다.
  • 본 연구는 범주의 계층 구조가 사전에 정의된 상황에서 텍스트 문서의 다중 범주 분류를 위한 방법을 고려하였다. 일반적으로 계층적 분류 방법을 이용한 텍스트 문서의 분류 성과가 비계층적 분류 방법과 비교하여 우수한 분류 성능을 나타내는 것으로 알려져 있다.
  • 본 연구에서는 계층 구조가 사전에 정의된 상황에서 비계층적 분류 대비 계층적 분류 방법의 텍스트 문서 분류 성능을 평가하고자 한다. 이때 Blocking 문제의 특성을 고려하여 계층의 상위 수준과 하위 수준에서의 범주간 유사도를 비교하여 계층 구조를 두 가지 유형으로 구분하고 유형별로 계층적 분류와 비계층적 분류 방법의 성능을 비교하도록 한다.
  • 본 연구에서는 범주의 계층 구조를 유사도에 근거하여 새롭게 생성하는 대신에 기후변화 적응기술의 분류 체계와 같이 범주들 사이의 계층 구조가 사전에 정의된 상황에서 계층 구조를 활용한 텍스트 문서의 분류 문제를 고려한다. 사전에 정의된 계층 구조를 이용한 문서 분류 방법과 관련한 선행 연구에서는 앞서 언급한 문서 분류 연구와 유사하게 비계층적 방법과 비교하여 계층적 방법이 상대적으로 우수한 분류 성능을 보임을 제시하고 있다.
  • 본 연구의 목적은 범주의 계층 구조가 사전에 정의된 상황에서 텍스트 문서를 범주별로 분류함에 있어 비계층적 분류와 계층적 분류 방법의 성능을 비교·평가하는데 있다.
  • 일반적으로 계층적 분류 방법을 이용한 텍스트 문서의 분류 성과가 비계층적 분류 방법과 비교하여 우수한 분류 성능을 나타내는 것으로 알려져 있다. 하지만 계층적 분류 방법이 갖는 Blocking 문제의 특성을 고려하여 본 연구에서는 계층의 상위 수준과 하위 수준에서의 범주간 유사도를 비교하여 정의한 계층 구조의 두 가지 유형에 따라서 계층적 분류와 비계층적 분류 방법의 성능에 차이가 발생함을 검증하고자 하였다. 본 연구 목적을 위하여 텍스트 데이터의 전처리와 Feature 집합의 구성, SVM을 이용한 분류 모형을 제시하고, 두 가지 데이터를 이용한 수치 실험을 수행하였다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
비정형 텍스트 문서 분류는 무엇을 의미하는가? 비정형 텍스트 문서 분류(unstructured text document classification)는 텍스트 문서가 어떤 종류의 범주(class)에 속하는지를 구분하는 작업을 의미한다. 최근 사회적으로 대용량 데이터의 증가로 그에 대한 분석이 다양한 방면에서 사용되고 있다[4].
본 논문에서 텍스트 문서 분류를 위해 어떤 분류기를 사용하였는가? 데이터의 전처리 과정에서는 문서 집합으로부터 단어들을 추출하기 위해 TF-IDF(Term Frequency-Inverse Document Frequency)와 같은 빈출 단어 기반의 방법을 이용하여 분류를 위한 Feature 집합을 구성한다[18]. 분류기는 텍스트 문서 분류와 관련한 선행연구에서 광범위하게 사용하고 있는 SVM을 사용하였다.
SVM이 다중 분류 문제에서 많이 이용되는 이유는 무엇인가? 최근 SVM이 다중 분류 문제에서 많이 이용되는 이유는 다음과 같이 3가지로 요약할 수 있다. 첫째, 확실한 이론적 근거에 기반을 두는 기법으로 결과를 해석하는 것이 용이하다[5]. 둘째, SVM을 사용하여 도출한 결과가 인공신경망을 통해 도출한 결과 성능과 유사하거나 그 이상으로 개선된 결과를 도출한다. 마지막으로 적은 학습 데이터로 짧은 시간 내에 분류 결과를 도출할 수 있으며, 불균형 데이터 집합에 대해서 우수한 성능을 보인다[21].
질의응답 정보가 도움이 되었나요?

참고문헌 (35)

  1. Agnihotri, D., Verma, K., and Tripathi, P., "Variable global feature selection scheme for automatic classification of text documents," Expert Systems with Applications, Vol. 81, pp. 268-281, 2017. 

  2. Bertule, M., Appelquist, L. R., Spensley, J., Traerup, S. L. M., and Naswa, P., "Climate change adaptation technologies for water: A practitioner's guide to adaptation technologies for increased water sector resilience," CTCN publications, Copenhagen, Denmark, 2018. 

  3. Beyan, C. and Fisher, R., "Classifying imbalanced data sets using similarity based hierarchical decomposition," Pattern Recognition, Vol. 48, pp. 1653-1672, 2015. 

  4. Byun, J. H., "Current Status and Perspectives of Fintech Innovation," Journal of New Industry and Business, Vol. 26, No. 2, pp. 35-48, 2018 

  5. Chen, Y., Craword, M. M., and Ghosh, J., "Integrating support vector machines in a hierarchical output space decomposition framework," IEEE International Geoscience and Remote Sensing Symposium, Vol. 2, pp. 949-952, 2004. 

  6. Cristianini, N. and Shawe-Taylor, J., "An introduction to support vector machines and other kernel-based leartning methods", Cambridge University Press, MA, 2000. 

  7. Du, Y., Liu, J., Ke, W., and Gong, X., "Hierarchy construction and text classification based on the relaxation strategy and least information model," Expert Systems with Applications, Vol. 100, pp. 157-164, 2018. 

  8. Duan, K. B. and Keerthi, S. S., "Which is the best multiclass SVM method? An empirical study," International Workshop on Multiple Classifier Systems, Vol. 3531, pp. 278-285, 2005. 

  9. Gargiulo, F., Silvestri, S., Ciampi, M., and De Pietro, G., "Deep neural network for hierarchical extreme multi-label text classification," Applied Soft Computing, Vol. 79, pp. 125-138, 2019. 

  10. Kang, S., Cho, S., and Kang, P., "Constructing a multi-class classier using one-against-one approach with different binary classifiers," Neurocomputing, Vol. 149, pp. 677-682, 2015. 

  11. Kim, P. J. and Lee, J. Y., "An experimental study on the performance improvement of automatic classification for the articles of korean journals based on controlled keywords in international database," Journal of the Korean Society for Library and Information Science, Vol. 48, No. 3, pp. 491-510, 2014 

  12. Kim, P. J., "An analytical study on automatic classification of domestic journal articles based on machine learning," Journal of the Korean Society for information Management, Vol. 35, No. 2, pp. 37-62, 2018. 

  13. Kim, Y. S. and Lee, B. Y., "Multi-class support vector machines model based clustering for hierarchical document categorization in big data environment," The Journal of the Korea Contents Association, Vol. 17, pp. 600-608, 2017. 

  14. Kowsari, K., Jafari Meimandi, K., Heidarysafa, M., Mendu, S., Barnes, L., and Brown, D,, "Text classification algorithms: A survey," Information, Vol. 10, No. 4, 2019. 

  15. Lee, J. H., Yi, J. S., and Son, J. W., "Unstructured construction data analytics using R programming: Focused on overseas construction adjudication cases", Journal of the Architectural Institute of Korea Structure & Construction, Vol. 32, No. 5, pp. 37-44, 2016. 

  16. Lee, J. S. and Kwon, J. G., "A hybrid SVM classifier for imbalanced data sets," Journal of Intelligence and Information Systems, Vol. 19, pp. 125-140, 2013. 

  17. Lee, S. K. and Kim, K., "Academic Conference Categorization According to Subjects Using Topical Information Extraction from Conference Websites," The Journal of Society for e-Business Studies, Vol. 22, No. 2, pp. 61-77, 2017. 

  18. Lee, S. J. and Kim, H. J., "Keyword extraction from news corpus using modified TF-IDF," The Journal of Society for e-Business Studies, Vol. 14, No. 4, pp, 59-73, 2009. 

  19. Lorena, A. C., De Carvalho, A. C., and Gama, J. M. P., "A review on the combination of binary classifiers in multiclass problems," Artificial Intelligence Review, Vol. 30, No. 19, 2008. 

  20. Madzarov, G., Gjorgjevikj, D., and Chorbev, I., "A multi-class SVM classifier utilizing binary decision tree," Informatica, Vol. 33, 2009. 

  21. Min, J. H. and Lee, Y. C., "Bankruptcy prediction using support vector machine with optimal choice of kernel function parameters," Expert Systems with Applications, Vol. 28, pp. 603-614, 2005. 

  22. Naik, A. and Rangwala, H., "Improving large-scale hierarchical classification by rewiring: A data-driven filter based approach," Journal of Intelligent Information Systems, Vol. 52, pp. 141-164, 2019 

  23. Park, J. H. and Kim, J. S., "A text classification system for hierarchical categories," The Korean Institute of Information Scientists and Engineers, Vol. 27, No. 2, pp. 128-130, 2000. 

  24. Silla, C. N. and Freitas, A. A., "A survey of hierarchical classification across different application domains," Data Mining and Knowledge Discovery, Vol. 22, pp. 31-72, 2011 

  25. Silva-Palacios, D., Ferri, C., and Ramirez-Quintana, M. J., "Probabilistic class hierarchies for multiclass classification," Journal of Computational Science, Vol. 26, pp. 254-263, 2018 

  26. Sun, A., Lim, E. P., Ng, W. K., and Srivastava, J., "Blocking reduction strategies in hierarchical text classification," IEEE Transactions on Knowledge and Data Engineering, Vol. 16, pp. 1305-1308, 2004 

  27. Tegegnie, A. K., Tarekegn, A. N., and Alemu, T. A., "A comparative study of flat and hierarchical classification for amharic news text using SVM," Information Engineering and Electronic Business, Vol. 3, pp. 36-42, 2017. 

  28. UNEP, "Technologies for climate change mitigation," UNEP, 2011. 

  29. Vapnik, V., "Estimation of Dependences Based on Empirical Data." Nauka, Moscow, 1979. 

  30. Vapnik, V., "The nature of statistical learning theory", Chapter 5. Springer-Verlag, New York, 1995. 

  31. Williams, T. P. and Gong, J., "Predicting construction cost overruns using text mining, numericaldata and ensemble classifiers," Automation in Construction, Vol. 43, pp. 23-29, 2014 

  32. Yoon, Y. W. Lee, C. K., and Lee, G. B., "Hierarchical text categorization using support vector machine," Annual Conference on Human and Language Technology, pp. 7-13, 2013. 

  33. Zhang, L., Shah, S. K., and Kakadiaris, I. A., "Hierarchical multi-label classification using fully associative ensemble learning," Pattern Recognition, Vol. 70, pp. 89-103, 2017. 

  34. Zhao, Z., Wang, X., and Wang, T., "A novel measurement data classification algorithm based on SVM for tracking closely spaced targets," IEEE Transactions on Instrumentation and Measurement, Vol. 68, No. 4, pp. 1089-1100, 2019. 

  35. Zheng, J., Guo, Y., Feng, C., and Chen., H., "A hierarchical neural network based document representation approach for text classification," Mathematical Problems in Engineering, Vol. 2018, 2018. 

저자의 다른 논문 :

관련 콘텐츠

오픈액세스(OA) 유형

GOLD

오픈액세스 학술지에 출판된 논문

이 논문과 함께 이용한 콘텐츠

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로