$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

준지도 학습 기반의 자동 문서 범주화
Automatic Text Categorization based on Semi-Supervised Learning 원문보기

정보과학회논문지. Journal of KIISE. 소프트웨어 및 응용, v.35 no.5, 2008년, pp.325 - 334  

고영중 (동아대학교 컴퓨터공학과) ,  서정연 (서강대학교 컴퓨터학과)

초록
AI-Helper 아이콘AI-Helper

자동 문서 범주화란 문서의 내용에 기반하여 미리 정의되어 있는 범주에 문서를 자동으로 할당하는 작업이다. 자동 문서 범주화에 관한 기존의 연구들은 지도 학습 기반으로서, 보통 수작업에 의해 범주가 할당된 대량의 학습 문서를 이용하여 범주화 작업을 학습한다. 그러나, 이러한 방법의 문제점은 대량의 학습 문서를 구축하기가 어렵다는 것이다. 즉, 학습 문서 생성을 위해 문서를 수집하는 것은 쉬우나, 수집된 문서에 범주를 할당하는 것은 매우 어렵고 시간이 많이 소요되는 작업이라는 것이다. 본 논문에서는 이러한 문제점을 해결하기 위해서, 준지도 학습 기반의 자동 문서 범주화 기법을 제안한다. 제안된 기법은 범주가 할당되지 않은 말뭉치와 각 범주의 핵심어만을 사용한다. 각 범주의 핵심어로부터 문맥간의 유사도 측정 기법을 이용한 부스트래핑(bootstrapping) 기법을 통하여 범주가 할당된 학습 문서를 자동으로 생성하고, 이를 이용하여 학습하고 문서 범주화 작업을 수행한다. 제안된 기법은 학습 문서 생성 작업과 대량의 학습 문서 없이 적은 비용으로 문서 범주화를 수행하고자 하는 영역에서 유용하게 사용될 수 있을 것이다.

Abstract AI-Helper 아이콘AI-Helper

The goal of text categorization is to classify documents into a certain number of pre-defined categories. The previous studies in this area have used a large number of labeled training documents for supervised learning. One problem is that it is difficult to create the labeled training documents. Wh...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 본 논문에서는 기존의 지도 학습 기반의 문서 범주화 기법과는 달리 수작업에 의한 대량의 학습 문서 생성작업 없이, 각 범주의 핵심어의 입력만으로 문서를 자동으로 분류해내는 준지도 학습 기반의 새로운 기법을 제안한다. 그리고, 지도 학습 기반의 문서 범주화 기법과의 실험 결과를 살펴보면, 제안된 방법은 지도 기반의 문서 범주화 시스템과 근소한 성능 차이를 보이고 있다.
  • 이들을 추출하기 위해서 전처리 과정에서 추출되어진 각 문맥의 내용어 중에 각 범주의 핵심어를 직접 포함하고 있는 문맥을 추출하는데, 이때 두 가지 이상의 범주에 해당하는 내용어를 가진 문맥은 대표 문맥의 중의성을 해결하기 위하여 제외시킨다. 논문에서는 이렇게 추출되어진 대표 문맥들을 각 범주의 특성을 가장 잘 나타내는 문맥으로 고려한다. 그러나, 살제로는 어떤 범주의 핵심어를 포함하고 있는 문맥이라 할지라도 그 범주의 특성올 잘 나타내지 못하는 문맥들이 있다.
  • 본 논문에서는 학습 문서를 생성하기 위한 작업 없이 각 범주의 핵심어(keyword)의 입력만으로, 범주가 할당되지 않은 학습 문서를 사용하는 준지도 학습(semi- supervised learning) 기반으로 한 새로운 문서 범주화 기법을 제안한다. 제안된 기법은 핵심어로부터 범주가 할당된 학습문서를 부스트래핑(bootstrapping) 기법을 사용하여 자동으로 생성한다.
  • 본 연구에서는 [13]의 연구에서 발생한 핵심어 추출의 어려움과 문장 단위의 부스트래핑의 한계를 극복하고자 했다.
  • 본 절에서는 선택된 핵심어와 문맥 간 유사도 측정기법을 사용하여 단순 베이지안 문서 분류기를 학습하기 위한 학습 문맥 집합을 생성하는 부스트래핑 기법을 기술한다. 먼저, 핵심어를 사용하여 각 범주의 핵심어를 직접 포함하고 있는 문맥을 그 범주의 특성을 가장 잘 내포하고 있는 문맥으로 고려하고, 전처리 단계에서 생성되어진 수집된 문맥의 내용어 중에 미리 정의된 핵심어를 직접 포함하고 있는 문맥을 각 범주의 대표 문맥으로 추출한다.
본문요약 정보가 도움이 되었나요?

참고문헌 (23)

  1. D. D. Lewis. "Naive (bayes) at forty: The independence assumption in information retrieval," European Conference on Machine Learning, 1998 

  2. A. McCallum and K. Nigram, "A comparison of Event Models for Naive Bayes Text Classification," AAAI '98 workshop on Learning for Text Categorization, 1998 

  3. D. D. Lewis and M. Ringuette, "A comparison of Two Learning Algorithms for Text categorization," Proceedings of the 3rd Annual Symposium on Document Analysis and Information Retrieval, 1994 

  4. C. Cortes and V. Vapnik. "Support vector networks," Machine Learning, 20:273-297, 1995 

  5. T. Joachims. "Text Categorization with Support Vector Machines: Learning with Many Relevant Features," European Conference on Machine Learning (ECML), 1998 

  6. Y. Yang. "Expert netword: Effective and efficient learning from human decisions in text categorizatin and retrieval," 17th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR'94), pp. 13-22, 1994 

  7. D. D. Lewis, R. E. Schapire, J. P. Callan and R. Papka, "Training Algorithms for Linear Text Classifiers," Proceedings of the 19th International Conference on Research and Development in Information Retrieval (SIGIR'96), pp. 289-297, 1996 

  8. E. Wiener, J. O. Pedersen, and A. S. Weigend. "A neural network approach to topic spotting," Proceedings of the Fourth Annual Symposium on Document Analysis and Information Retrieval (SDAIR'95), 1995 

  9. Y. Yang and J. O. Pederson, "A Comparative study on feature selection in text categorization," Proceedings of the 14th International Conference on Machine Learning, 1997 

  10. K. Nigam, A. McCallum, S. Thrun, T. Mitchell, "Learning to Classify Text from Labeled and Unlabeled Documents," Proceedings of 15th National Conference on Artificial Intelligence (AAAI-98), 1998 

  11. C. Languillon, Partially Supervised Text Categorization: Combining Labeled and Unlabeled Documents Using an EM-like Scheme, Proceedings of the 11th Conference on Machine Learning, (ECML 2000), Vol.1810, LNCS, Springer Verlag, pp. 229- 237, 2000 

  12. A. McCallum, K. Nigam, J. Rennie, and K. Seymore, Automatic the Construction of Internet Portals with Machine Learning, Information Retrieval, Vol.3, No.2, pp. 127-163, 2000 

  13. 고영중, 비지도 학습을 기반으로 한 자동 문서 범주화, 서강대 석사학위 논문, 1999 

  14. D. Yarowsky, "Unsupervised word sense disambiguation rivaling supervised methods," Proceeding of the 33rd Annual Meeting of the Association for Computational Linguistics, pp. 189-196 

  15. Y. Maarek, D. Berry, and G. Kaiser, "An Information Retrieval Approach for Automatically Construction Software Libraires," IEEE Transaction On Software Engineering, Vol.17, No,8, pp. 800- 813, August 1991 

  16. 조광제, 김준태. "역카테고리 빈도에 의한 계층적 분류체계에서의 문서의 자동분류", 한국 정보과학회 봄 학술발표논문집(B), pp. 507-510, 1997 

  17. Y. Karov and S. Edelman, "Similarity-based Word Sense Disambiguation," Computational Lin- guistics, Vol.24, No.1, pp. 41-60, March 1998 

  18. S. Park, H. Kim, Y. Ko, and J. Seo, "Implementation of an efficient requirements analysis supporting system using similarity measure techniques," Information and Software Technology, Elseviser, Vol.42, No.6, pp. 429-438, 15 April, 2000 

  19. 김상범, 윤보현, 백대호, 한경수, 임해창, "문서 범주화를 위한 선형 분류기와 kNN의 결합 모델", 한국 인지 과학회 춘계 학술대회 논문집, pp. 255-231, 1999 

  20. M. Craven, D. DiPasquo, D. Freitag, A. McCallum, T. Mitchell, K. Nigam, and S. Slattery, "Learning to Extract Symbolic Knowledge from the World Wide Web," Proceedings of the International Workshop on AAAI'98, 1998 

  21. 오효정, 임정묵, 이만호, 맹성현, "점진적으로 계산되는 분류정보와 링크정보를 이용한 하이퍼텍스트 문서 분류 모델", 한글 및 한국어 정보처리 학술 대회 논문집, pp. 89-96. 1999 

  22. Y. Ko, J. Park, and J. Seo, "Automatic Text Categorization using the Importance of Sentences," Proceedings of the 19th International Conference on Computational Lin- guistics (COLING'2002), pp. 474-480, 2002 

  23. Y. Yang, "An Evaluation of statistical approaches to text categorization," Information Retrieval Journal, May, 1999 

저자의 다른 논문 :

섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로