$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

전통문화 콘텐츠 표준체계를 활용한 자동 텍스트 분류 시스템
A System for Automatic Classification of Traditional Culture Texts 원문보기

한국융합학회논문지 = Journal of the Korea Convergence Society, v.8 no.12, 2017년, pp.39 - 47  

허윤아 (고려대학교 컴퓨터학과) ,  이동엽 (고려대학교 컴퓨터학과) ,  김규경 (고려대학교 컴퓨터학과) ,  유원희 (고려대학교 컴퓨터학과) ,  임희석 (고려대학교 컴퓨터학과)

초록
AI-Helper 아이콘AI-Helper

한국 문화의 역사, 전통과 관련된 디지털 웹 문서가 증가하게 되었다. 하지만 창작자 또는 전통 문화와 관련된 소재를 찾는 사용자들은 정보를 검색해도 결과가 충분하지 않았으며 원하는 정보를 얻지 못하는 경우가 나타나고 있다. 이런 효과적인 정보를 접하기 위해서는 문서 분류가 필요하다. 과거에 문서 분류는 작업자가 수작업으로 문서 분류하여 시간과 비용이 많이 소비하는 어려움이 있었지만, 최근 기계학습 기반으로 한 자동 문서 분류를 통해 효율적인 문서 분류가 이루어진다. 이에 본 논문은 전통문화 콘텐츠를 체계적인 분류체계로 구성한 한민족정보문화마당 데이터를 기반으로 전통문화 콘텐츠 자동 텍스트 분류 모델을 개발한다. 본 연구는 한민족정보문화마당 텍스트 데이터에 대해 단어 빈도수를 추출하기 위해 TF-IDF모델, Bag-of-Words 모델, TF-IDF/Bag-of-Words를 결합한 모델을 적용하여 각각 SVM 분류 알고리즘을 사용하여 전통문화 콘텐츠 자동 텍스트 분류 모델을 개발하여 성능평가를 확인하였다.

Abstract AI-Helper 아이콘AI-Helper

The Internet have increased the number of digital web documents related to the history and traditions of Korean Culture. However, users who search for creators or materials related to traditional cultures are not able to get the information they want and the results are not enough. Document classifi...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 본 연구에서는 각 텍스트 문서에서 출현하는 핵심 단어를 파악하며, 각 핵심 단어를 추출한다. 그 후 각 핵심 단어의 빈도수를 TF-IDF와 Bag-of-Words를 이용하여 계산한다.
  • 본 연구에서는 검증용 데이터를 통해 전통문화 콘텐츠 자동 텍스트 분류 모델에 대한 성능평가를 실시하였다. 또한 단어 빈도를 추출하기 위해 사용된 TF-IDF모델, Bag-of-Words 모델, TF-IDF/Bag-of-Words를 결합한 3가지 모델에 각각 분류 알고리즘인 SVM을 적용하여 각각의 모델에 대한 성능을 비교하였다.
  • 본 연구에서는 전통문화 콘텐츠에 대해 창작자와 연구자 또는 사용자가 쉽게 활용하기 위해 전통문화 콘텐츠에 정확한 이해를 바탕으로 만든 전통문화 콘텐츠의 체계적인 데이터가 필요하다. 따라서 한국 문화 정보원의 전통문화 콘텐츠를 관리하고 수행하고 있는 한민족정보문화마당 데이터를 본 연구에서 사용하였다.
  • 본 연구에서는 한민족정보문화마당 데이터를 기반으로 전통문화 콘텐츠를 장르·시대 등의 조건에 따라 연결하고, 인물, 사건, 문화재 등을 확장 검색할 수 있는 검색기술 중 하나인 텍스트(문서) 분류 모델을 개발한다.
  • 이에 본 논문에서는 전통 문화 콘텐츠를 기반으로 우리나라의 역사와 전통문화를 효율적으로 관리하며 검색하도록 자동 문서 분류 시스템을 개발하였다. 자동 문서분류의 효율성을 높이기 위해 전통 문화 콘텐츠에서의 표준체계를 기반으로 정해진 범주(Category)를 구축하고, 정해진 범주를 통해 기계학습 기법을 적용하여 정확성과 효율성을 높이는 자동 문서 분류 시스템을 개발하였다.
  • 이에 본 논문은 전통문화 콘텐츠의 체계적인 분류체계를 정립한 한민족정보문화마당 데이터를 기반으로 하여 전통문화 콘텐츠 자동 텍스트 분류 모델을 개발한다. 본 연구에서 한민족정보마당의 90%는 훈련용 데이터(Training Data)로 사용하였고, 나머지 10%는 검증용 데이터(Test Data)로 사용하여 개발된 모델에 대한 객관적인 성능평가를 하였다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
과거의 문서분류 방법의 문제점은 무엇인가? 문서 분류(Document Classification)란 문서의 내용을 읽고 분류하고자 하는 작업자가 미리 정해진 범주(Category)로 분류하며, 각 문서들을 가장 적합한 범주로 분류되어 집단화하는 작업을 의미한다[5]. 과거에는 문서분류를 작업자에 의해 수작업으로 이루어졌기 때문에 시간이 오래 걸리고, 비용도 많이 들었으며, 또한 방대한 자료를 일일이 사람이 분류해야 하는 문제점이 있었다. 이러한 문제점은 자동 분류 시스템을 이용하거나 보조시스템을 활용하면서 문서 분류 작업의 효율성을 증진시킨다.
문서 분류란 무엇인가? 이러한 문제점을 해결하고자 웹 문서에 따라 알맞은 범주에 맞게 분류하는 문서 분류 도구가 집중되고 있다[1]. 문서 분류(Document Classification)란 문서의 내용을 읽고 분류하고자 하는 작업자가 미리 정해진 범주(Category)로 분류하며, 각 문서들을 가장 적합한 범주로 분류되어 집단화하는 작업을 의미한다[5]. 과거에는 문서분류를 작업자에 의해 수작업으로 이루어졌기 때문에 시간이 오래 걸리고, 비용도 많이 들었으며, 또한 방대한 자료를 일일이 사람이 분류해야 하는 문제점이 있었다.
자동 문서 분류 기법의 장점은 무엇인가? 일반적으로 문서 분류에 적용되는 기계학습 방법으로는 SVM(Support Vector Machine), 인공신경망(Neural Network), 나이브 베이즈(Naive Bayes), k-최단 인접 기법(K-nearest Neighbor), 의사 결정 트리(Decision Tree)등이 있다[8]. 이를 통해 자동 문서 분류는 보다 정확하고 빠르게 분류하며 방대한 문서에서도 효율적으로 분류를 수행한다[9].
질의응답 정보가 도움이 되었나요?

참고문헌 (21)

  1. J. U. Kim, H. J. Kim, S. G. Lee, "An Active Learning-based Method for Composing Train Document Set in Bayesian Text Classification Systems ," Journal of KISS : Software and Applications, Vol. 29, No 11-12, pp. 996-978, 2002. 

  2. J. H. Park, J. S. Kim, "A Text Classification System for Hierarchical Categories," Korean Institute on Information Scientists Engineers, Vol. 27, No. 2, pp.128-130, 2000. 

  3. J. H. Lee, S. H. Cheon, S. H. Kim, "Efficient Document Classification for Web Document Collection," Korean Institute on Information Scientists Engineers, Vol. 33, No. 2, pp. 397-401, 2006. 

  4. K. H. Park, "The development of culture contents appling record heritage," Korea Institute for National Unification, Vol. 12. pp.313-341, 2008. 

  5. S. H. Kim, J. E. Eom, "A Study on the Document's Automatic Classification Using Machine Learning," Journal of Information Science Theory and Practice, vol.39, no.4 pp.47-66, 2008. 

  6. J. H. Roh, H. J. Kim, J. Y. Chang, "A WordNet-based Feature Engineering Method for Text Classification," Society for e-business studies, Vol.2012, No.4, pp.96-102, 2012 

  7. S. S. Lee, J. M. Choi, C. Gun, B. S. Lee, "Empirical Analysis & Comparisons of Web Document Classification Methods," Korean Institute on Information Scientists Engineers, Vol.29, No.2, pp.154-156, 2002. 

  8. D. H. Park, W. S. Choi, H. J. Kim, S. L. Lee, "Web Document Classification System Using the Text Analysis and Decision Tree Model," Korean Institute on Information Scientists Engineers, Vol.38, No.2, pp.248-251, 2011. 

  9. J. S. Hong, N. G. Kim, S. W. Lee, "A Methodology for Automatic Multi - Categorization of Single - Categorized Documents," Journal of Intelligence and Information System Society, Vol.20, No.3, 2014 

  10. J. H. Her, S. J. Ko, T. Y. Kim, J. H. Choi, Jung-Hyun Lee, "An Automatic Classification of Korean Documents Using Weight for Keywords of Document and Corpus : Bayesian classifier," Korean Institute on Information Scientists Engineers, Vol.26, No.2, pp.154-156, 1999. 

  11. K. G. Cho, J. H. Kim, "Automatic Text Categorization on Hierarchical Category Structure by using ICF(Inverted Category Frequency) Weighting," Korean Institute on Information Scientists Engineers, Vol.24, No.1, pp.507-510, 1997 

  12. Thorsten Joachims, "Transductive Inference for Text Classification using Support Vector Machines," ICML '99 Proceedings of the Sixteenth International Conference on Machine Learning, pp.200-209, 1999. 

  13. Simon Tong, Daphne Koller, "Support Vector Machine Active Learning with Applications to Text Classification," Journal of Machine Learning Research, Vol.2, pp.45-66, 2002 

  14. M. Sahami, S. Dumais, D. Heckerman, E. Horvitz, "A Bayesian approach to filtering junk e-mail," AAAI'98 Workshop on Learning for Text Categorization.,1998. 

  15. P. J. Kim, "A Study on automatic assignment of descriptors using machine learning," Journal of the Korean Society for Information Management, Vol.23 No.1, pp.279-299, 2006. 

  16. Y. D. Yun, Y. W. Yang, H. S. Ji, H. S. Lim, "Development of Smart Senior Classification Model based on Activity Profile Using Machine Learning Method," Journal of the Korea Convergence Society, Vol.8, No.1, pp.25-34, 2017. 

  17. Li Fei-Fei, Rob Fergues, Antonio Torralba, "Recognizing and Learning Object Categories," ICCV, 2005. 

  18. G. Csurka, C. Dance, L.X. Fan, J. Willamowski, and C. Bray. "Visual categorization with bags of keypoints," ECCV, 2004. 

  19. Lazebnik, S., Schmid, C., Ponce, J., "Beyond Bags of Features: Spatial Pyramid Matching for Recognizing Natural Scene Categories," CVPR, 2006. 

  20. C. H. Lampert, M. M. Blaschko, and T. Hofmann, "Beyond Sliding Windows: Object Localization by Efficient Subwindow Search," CVPR, 2008. 

  21. Niculescu-Mizil, A., Caruana, R., "Predicting good probabilities with supervised learning", In Proceedings of the 22nd international conference on Machine learning(ACM), pp. 625-632. 2005 

저자의 다른 논문 :

LOADING...

관련 콘텐츠

오픈액세스(OA) 유형

BRONZE

출판사/학술단체 등이 한시적으로 특별한 프로모션 또는 일정기간 경과 후 접근을 허용하여, 출판사/학술단체 등의 사이트에서 이용 가능한 논문

섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로