$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

[국내논문] 베이지언 문서분류시스템을 위한 능동적 학습 기반의 학습문서집합 구성방법
An Active Learning-based Method for Composing Training Document Set in Bayesian Text Classification Systems 원문보기

정보과학회논문지. Journal of KIISE. 소프트웨어 및 응용, v.29 no.12, 2002년, pp.966 - 978  

김제욱 (대우정보시스템 기술연구소) ,  김한준 (서울대학교 공과대학 컴퓨터공학부) ,  이상구 (서울대학교 공과대학 컴퓨터공학부)

초록
AI-Helper 아이콘AI-Helper

기계학습 기법을 이용한 문서분류시스템의 정확도를 결정하는 요인 중 가장 중요한 것은 학습문서 집합의 선택과 그것의 구성방법이다. 학습문서집합 선택의 문제란 임의의 문서공간에서 보다 정보량이 큰 적은 양의 문서집합을 골라서 학습문서로 채택하는 것을 말한다. 이렇게 선택한 학습문서집합을 재구성하여 보다 정확도가 높은 문서분류함수를 만드는 것이 학습문서집합 구성방법의 문제이다. 전자의 문제를 해결하는 대표적인 알고리즘이 능동적 학습(active learning) 알고리즘이고, 후자의 경우는 부스팅(boosting) 알고리즘이다. 본 논문에서는 이 두 알고리즘을 Naive Bayes 문서분류 알고리즘에 적응해보고, 이때 생기는 여러 가지 특징들을 분석하여 새로운 학습문서집합 구성방법인 AdaBUS 알고리즘을 제안한다. 이 알고리즘은 능동적 학습 알고리즘의 아이디어를 이용하여 최종 문서분류함수룰 만들기 위해 임시로 만든 여러 임시 문서분류함수(weak hypothesis)들 간의 변이(variance)를 높였다. 이를 통해 부스팅 알고리즘이 효과적으로 구동되기 위해 필요한 핵심 개념인 교란(perturbation)의 효과를 실현하여 문서분류의 정확도를 높일 수 있었다. Router-21578 문서집합을 이용한 경험적 실험을 통해, AdaBUS 알고리즘이 기존의 알고리즘에 비해 Naive Bayes 알고리즘에 기반한 문서분류시스템의 정확도를 보다 크게 향상시킨다는 사실을 입증한다.

Abstract AI-Helper 아이콘AI-Helper

There are two important problems in improving text classification systems based on machine learning approach. The first one, called "selection problem", is how to select a minimum number of informative documents from a given document collection. The second one, called "composition problem", is how t...

Keyword

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 이 중에서도 기계학습기법은 최근까지 매우 활발한 연구가 진행되고 있으며, 문서분류시스템의 문서분류 정확도(accuracy)를 크게 향상시키는데 기여하고 있다. 본 논문에서는 기계학습기법 올 이용한 문서분류의 문제를 다룬다. 이 기법에서는 학습 방법이 문서분류의 정확도를 크게 좌우하기 때문에 이에 대한 연구는 문서분류의 문제에 있어 상당히 중요하다.
  • 본 논문에서는 학습문서집합 구성방법의 대표적인 방법인 능동적 학습 알고리즘과 부스팅 알고리즘을 다룬다. 전자는 학습문서를 선택하는데 초점을 맞춘 알고리즘이고, 후자는 학습문서집합을 재구성하여 더욱 정확도가 큰 문서분류함수를 만들어내기 위한 알고리즘이다.
  • 그리고 이때 생기는 여러 가지 이슈들을 분석하여, 새로운 학습문서집합 구성 방법인 AdaBUS(Adaptive Boosting with Uncertaintybased Sampling) 알고리즘을 제안한다. 알고리즘은 보다 더 적은 학습문서로 문서분류시스템의 정확도를 높이는 것을 목표로 한다.
  • 이를 자세히 살펴보자. 먼저 전체문서 집합으로부터 일정한 개수의 문서를 선택한 후에 이에 대한 카테고리를 전문가가 부여하여 학습문서집합을 구성한다.
  • 본 논문은 Naive Bayes 문서분류 알고리즘에 제공하는 학습문서집합을 지능적으로 구성하여 Naive Bayes 문서분류 알고리즘이 추정하는 문서분류함수의 문서분류 정확도를 보다 향상시키는 것을 목표로 한다.
  • 첫째는 전체 문서집합으로부터 학습문서집합을 골라내는 작업이다. 둘째는 그리고 이렇게 주어진 학습문서집합을 재구성하여 문서분류 추정 알고리즘에 제공하는 것이다. 셋째는 이러한 과정을 여러 번 거쳐 여러 개의 문서분류함수들을 만든 후에 이들을 이용하여 하나의 새로운 문서분류함수를 만드는 것이다.
  • 이를 통해 문서분류함수의 정확도를 높이는 것이 이 알고리즘의 목적이다.
  • 본 절에서는 321절에서 개략적으로 설명한 불확실성 기반 샘플링 알고리즘올 자세히 살펴본다. 그림 4는 이 알고리즘의 의사코드를 보여준다.
  • 불확실성은 문서의 카테고리를 예측하고, 이 예측에 대한 확신을 수치로 나타낼 수 있는 문서분류 알고리즘에서는 모두 정의가 가능하다. 여기서는 Naive Bayes 문서분류 알고리즘에서 불확실성을 측정하는 두 가지 측정치를 소개한다.
  • 첫 번째로 신뢰도(confidence) 측정치를 살펴보자. 문서 人가 카테고리 g로 할당되는 경우의 신뢰도는 다음과 같이 정의된다[4, 8].
  • 무작위 샘플링이란 라벨이 없는 문서집합으로부더 임의로 문서를 선택하여 학습문서를 추가하는 방법을 말한다. 이제 각 알고리즘의 실험결과를 차례대로 분석해보자.
  • 이제 불확실성 기반 샘플링 알고리즘의 결과를 살펴보자. 이 알고리즘은 무작위 샘플링보다 분류정확도 면에서 우수하다.
  • 마지막으로 AdaBUS 알고리즘의 실험결과를 살펴보자. 그림 13에서 볼 个 있듯이, AdaBUS 알고리즘의 문서분류 정확도는 모든 알고리즘 중 가장 높다 그 이유는 4.
  • 요인이다. 본 논문에서는 문서분류함수 추정 알고리즘인 Naive Bayes 문서분류 알고리즘에 기존의 학습문서집합 구성방법울 적용해본 후에 그들의 장단점을 분석하여 AdaBUS 알고리즘이라는 새로운 학습문서집합 구성방법을 제안하였다. 그리고 실험을 통해 AdaBUS 알고리즘을 적용한 Naive Bayes 문서분류시스템의 정확도가 다른 알고리즘을 적용한 것에 비해 높다는 사실을 입증하였다.

가설 설정

  • 청의 2. 문서집합 본 논문에서 가정하는 문서분류시스템에서는, 시스템 내에 수 많은 문서가 존재한다고 가정한다 문서집합은 문서분류함수를 형성하는 기초가 되고 문서 분류시스템 의 정 확도를 측정 하는데 사용되는 시스템내의 모든 문서들의 집합이다. 문서분류함수를 만드는데 사용되는 문서집합올 학습문서집합이라 하고, 정확도 측정에 사용되는 문서집합올 테스트 문서집합이라고 한다.
  • 따라서 P(x\c) 는 다시 P(<W1, W2, …, Sxl>IQ로 나타낼 수 있다. Naive Bayes 문서분류 알고리즘은 P(<wi, W2, …, lSx|기 Q의 계산을 좀 더 쉽게 하기 위해, 문서 내에 존재하는 모든 단어들인 Wl, W2, I仞如가 서로 독립 (independent)이고, 문서 내의 단어 위치와 그 단어의 출현 확률사이에도 독립성이 존재한다고 가정한다. 이 가정에 따르면 는 다음과 같은 식으로 표현된다.
  • 3.3.1 절에서 보았듯이 부스팅 알고리즘의 핵심은 교란과 합성이다、특히 교란이 적절히 실현되지 않으면, 부스팅 알고리즘의 효과논 기대할 수가 없다. 皿란이 적절히 실현된다는 말의 의미는 만들어낸 여러 개의 임시 문서분류함수 돌 간의 이질성이 크다라는 것을 말한다.
본문요약 정보가 도움이 되었나요?

참고문헌 (19)

  1. Tom M. Mitchell. Machine Learning. McGraw-Hill International Editions, chapter 6, 1997 

  2. R. Agrawal, R. Bayardo, and R. Srikant. Athena: Mining-based Interactive Management of Text Databases. In Proceedings of the 7th International Conference on Extending Database Technology, pages 365-379, 2000 

  3. Pedro Domingos and Michael Pazzani. Beyond Independence: Conditions for the Optimality of the Simple Bayesian Classifier. In Proceedings of the 13th International Conference on Machine Learning, pages 105-112, 1996 

  4. 김제욱, 김한준, 이상구, Naive Bayes 문서 분류기를 위한 점진적 학습 모델 연구, 정보기술과 데이타베이스 저널, 8(1), pages 95-104, 2001 

  5. David D. Lewis and William A. Gale. A Sequential Algorithm for Training Text Classifiers. In Proceedings of the 17th Annual International ACMSIGIR Conference on Research and Development in Information Retrieval, pages 3-12, 1994 

  6. Yoav Freund and Robert E. Schapire. Experiments with a New Boosting Algorithm. In Proceedings of the 13th International Conference on Machine earning, pages 148-156, 1996 

  7. David D. Lewis and Jason Catlett. Heterogeneous Uncertainty Sampling for Supervised Learning. In Proceedings of the 11th international Conference on Machine Learning, pages 148-156, 1994 

  8. M. Trensh, N. Palmer, and A. Luniewski. Type Classification of Semi-structured Documents. In Proceedings of the 21st ACM SIGMOD International Conference on Management of Data, 1995 

  9. Yoav Freund and Robert E. Schapire, A Decisiontheoretic Generalization of On-line Learning and an Application to Boosting. Journal of Computer and System Sciences, 55(1), pages 119-139, 1997 

  10. J. R. QuinJan. Bagging, Boosting, and c4.5. In Proceedings of the 13th National Conference on Artificial Intelligence, pages 725-730. 1996 

  11. Robert E. Schapire. The Strength of Weak Learnability, Machine Learning, 5(2), pages 197-227, 1990 

  12. Robert E. Schapire and Yoram Singer. Boos Texter: A Boosting-based System for Text Categorization. Machine Learning, 39(2), pages 135-168, 2000 

  13. Robert E. Schapire and Yoram Singer. Improved Boosting Algorithms Using Confidence-orated Predictions. Machine Learning, 37(3), pages 297-336, 1999 

  14. Leo Breiman. Arcing Classifiers. The Annals of Statistics, 26(3), pages 801-849, 1998 

  15. Kai Ming Ting and Zijian Zheng. Improving the Performance of Boosting for Naive Bayesian Classification. In Proceedings of the 3rd Pacific-Asia Conference on Knowledge Discovery and Data Mining, 1999 

  16. Zijian Zheng. Naive Bayesian Classifier Committees. In Proceedings of European Conference on Machine Learning, pages 196-207, 1998 

  17. Ron Kohavi, David H. Wolpert. Bias Plus Variance Decomposition for Zero-One Loss Functions. In Proceedings of the 13th International Conference on Machine Learning, pages 275-283, 1996 

  18. Yiming Yang. An Evaluation of Statistical Approaches to Text Categorization. Journal of Information Retrieval, 1(1), pages 67-88, 1999 

  19. Yiming Yang and J. O. Pedersen. A Comparative Study on Feature Selection in Text Categorization. In Proceedings of the 14th International Conference on Machine Learning, pages 42-420, 1997 

저자의 다른 논문 :

활용도 분석정보

상세보기
다운로드
내보내기

활용도 Top5 논문

해당 논문의 주제분야에서 활용도가 높은 상위 5개 콘텐츠를 보여줍니다.
더보기 버튼을 클릭하시면 더 많은 관련자료를 살펴볼 수 있습니다.

관련 콘텐츠

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로