$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

Okapi BM25 단어 가중치법 적용을 통한 문서 범주화의 성능 향상
A Research on Enhancement of Text Categorization Performance by using Okapi BM25 Word Weight Method 원문보기

한국산학기술학회논문지 = Journal of the Korea Academia-Industrial cooperation Society, v.11 no.12, 2010년, pp.5089 - 5096  

이용훈 (단국대학교 전자계산학과) ,  이상범 (단국대학교 전자계산학과)

초록
AI-Helper 아이콘AI-Helper

문서 범주화는 정보검색 시스템의 중요한 기능중의 하나로 문서들을 어떤 기준에 의해 그룹화를 하는 것을 말한다. 범주화의 일반적인 방법은 대상 문서에서 중요한 단어들을 추출하고 가중치를 부여한 후에 분류 알고리즘에 따라 문서를 분류한다. 따라서 성능과 정확성은 분류 알고리즘에 의해 결정됨으로 알고리즘의 효율성이 중요하다. 본 논문에서는 단어 가중치 계산 방법을 개선하여 문서분류 성능을 향상시키는 것을 소개하였다. Okapi BM25 단어 가중치법은 일반적인 정보검색분야에서 사용되어 검색 결과에 좋은 결과를 보여주고 있다. 이를 적용하여 문서 범주화에서도 좋은 성능을 보이는지를 실험하였다. 비교한 단어 가중치법에는 가장 일반적인 TF-IDF법와 문서분류에 최적화된 가중치법 TF-ICF법, 그리고 문서요약에서 많이 사용되는 TF-ISF법을 이용하여 4가지 가중치법에 따라 결과를 측정하였다. 실험에 사용한 문서로는 Reuter-21578 문서를 사용하였으며 분류기 알고리즘으로는 Support Vector Machine(SVM)와 K-Nearest Neighbor(KNN)알고리즘을 사용하여 실험하였다. 사용된 가중치법 중 Okapi BM25 법이 가장 좋은 성능을 보였다.

Abstract AI-Helper 아이콘AI-Helper

Text categorization is one of important features in information searching system which classifies documents according to some criteria. The general method of categorization performs the classification of the target documents by eliciting important index words and providing the weight on them. Theref...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 본 논문에서는 문서 범주화의 성능을 높이는 방법에 대해서 논하였다. 대부분의 문서 범주화의 연구는 자질축소 방법과 분류기 알고리즘의 특성에 따른 분류기 선택 문제로 연구되고 있다.
  • 본 논문에서는 문서에서 자질의 가중치에 따른 문서 분류의 성능에 관하여 논의한다. Okapi BM25 단어 가중치법은 정보검색분야에서 사용되어 지는 가중치 법으로써 검색 결과에 좋은 성능을 보이는 방법이다.
  • 대부분의 문서 범주화의 연구는 자질축소 방법과 분류기 알고리즘의 특성에 따른 분류기 선택 문제로 연구되고 있다. 본 논문에서는 범주화에 있어서 가장 근본적인 문제라고 할 수 있는 문서의 자질을 어떻게 더 잘 표현하는가에 대한 문제에 대하여 연구하였다. Okapi BM25 단어 가중치법은 정보검색분야에서 사용되며 검색 결과에 좋은 결과를 보이는 방법이며 문서 범주화에서도 더 나은 성능을 보이는지를 실험하였다.
  • 본 논문은 [5]에서 연구한 단어 가중치법에 따른 범주화의 성능을 평가하는 방법과 유사하다 정보검색에서 질의어 가중치로 사용한 Okapi BM25법은 검색 결과에 좋은 성능을 보였으며 이 가중치법이 문서를 표현하는데 더 적합한 방법이라면 범주화 실험에서도 좋은 성능을 보일 것이라고 판단하여 실험해 보고자 하였다.
  • 본 실험에서 분류 범주에 더 높은 가중치를 부여하는 법을 소개한 [5]논문의 TF-ICF 가중치법 보다. 정보검색에서 질의어에 가중치를 부여하는 Okapi BM25 가중치법이 더 좋은 성능을 보이는 것으로 나타났다.
  • 학습문서에서만 추출된 단어의 수는 수십에서 수만까지 추출되어지며 많은 자질의 수는 분류과정에서 많은 시간비용을 요하게 된다. 자질선택을 통하여 단어 중에 중요한 내용어를 선택하여 자질의 개수를 줄이는 동시에 문서분류의 성능 저하 없이 분류 할 수 있는 방법이 자질 선택의 목적이다. 문서범주화에서 사용하는 유명한 자질 선택 방법은 카이제곱 통계량과 정보 획득량이 있다[3].
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
자질선택이란 무엇인가? 자질선택이란 문서 분류 과정에서 자질의 개수를 축소하여 분류과정에서 발생하는 계산량을 줄이기 위한 방법이다. 학습문서에서만 추출된 단어의 수는 수십에서 수만까지 추출되어지며 많은 자질의 수는 분류과정에서 많은 시간비용을 요하게 된다.
역범주 빈도 가중치법은 소수의 범주에 나온 자질과, 여러 범주에 고르게 나오는 자질에 대해 어떻게 가중치를 주는가? 역범주 빈도 가중치법은 문서 간의 분리도가 높은 자질에 더 높은 가중치를 부여하는 방법이다. 즉 소수의 범주에 많이 나온 자질에 대해서는 더 높은 가중치를 주고, 여러 범주에 고르게 나오는 자질에 대해서는 낮은 가중치를 주는 방법이다[5]. 가중치 값은 단어빈도수(TF)와 역범주 빈도수(ICF)를 곱한 값으로 표현되며 ICF값은 아래의 식과 같다.
일반적으로 자동화 문서 범주화는 학습 문서로부터 무엇을 먼저 추출하는가? 일반적으로 자동화 문서 범주화는 학습 문서로부터 자질을 먼저 추출하고 추출된 자질에 따라 범주화에 대한 정보가 분류기 알고리즘에 의해 학습된다. 학습된 정보를 토대로 테스트 문서에 대한 범주가 결정된다.
질의응답 정보가 도움이 되었나요?

참고문헌 (16)

  1. Sebastiani. "Machine learning in automated text categorization." Techinical report, Consigilo Nazionale delle Rieche, Italy. 1999. 

  2. T.Mitchell. "Machine Learning." MCGraw Hill, NY, US, 1996. 

  3. Yang, Y. and J. O. Pderson. "A comparative study on feature selection in text categorization." Proceedings of the 14th International Conference on Machine Learning. 1997. 

  4. Gerard Salton and Michael J. McGill. "Introduction to Modern Information Retrieval." McGraw-Hill Book Company, New York, 1983. 

  5. 조광제, 김준태. "역카테고리 빈도에 의한 계층적 분류체계에서의 문서의 자동분류." 한국정보과학회 봄학술발표논문집(B), 507-510. 1997. 

  6. Larocca Neto, Joel. "A Text Mining Tool for Document Clustering and Text Summarization.", Proceedings of The Text Mining Tool for Document Clustering and Text Summarization Fourth International Conference on The Practical Application of Knowledge Discovery and Data Mining, 41-56.Manchester, UK. Apr, 2000. 

  7. Osuna, E., Freund R., and Girosi, F. "Training support vector machines: An application to face detection", Proceedings of Compuer Vision and Pattern Recognition, pp. 130-136, 1997. 

  8. Dasarathy, Belur V. "Nearest Neighbor(NN) Norms: NN Pattern Classificatioin Techniques." McGraw-Hill Computer Science Series, CA: IEEE Computer Society Press. 1991. 

  9. 리청화, "BPNN의 효율적인 개선방법 및 개념에 기초한 문서분류 시스템 응용" 전북대학교 대학원 박사논문. 2009 

  10. 정은경, "문서 범주화 효율성 제고를 위한 정보원평가에 관한 연구 ", 한국정보관리학회, 제24권, 제4호, pp. 305-321, 12월, 2007. 

  11. David D. Lewis. "Distribution 1.0 readme file (v1.2) for reuters-21578", AT&T Labs - Research, 1997. 

  12. GSalton, "Automatic Information Organization and Retrieval." New York:McGraw-Hill, 1968. 

  13. M. F. Porter. "An algorithm for suffix stripping." Program, Vol. 14 no.3 130-137. 1980. 

  14. Stephen E. Robertson, Steve Walker, Susan Jones, Micheline Hancock-Beaulieu, and Mike Gatford. (1994) "Okapi at TREC-3". In Proceedings of the Third Text REtrieval Conference (TREC 1994). 

  15. Chin-Chung Chang and Chih-Jen Lin, LIBSVM: a library for SVM, URL : http://www.csie.ntu.edu.tw/-cjlin/libsvm 

  16. D.D.Lewis, "Evaluating text categorization", in Proceedings of the Speech and Natural Language Workshop, 1991. 

저자의 다른 논문 :

관련 콘텐츠

오픈액세스(OA) 유형

FREE

Free Access. 출판사/학술단체 등이 허락한 무료 공개 사이트를 통해 자유로운 이용이 가능한 논문

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로