최소 단어 이상 선택하여야 합니다.
최대 10 단어까지만 선택 가능합니다.
다음과 같은 기능을 한번의 로그인으로 사용 할 수 있습니다.
NTIS 바로가기한국산학기술학회논문지 = Journal of the Korea Academia-Industrial cooperation Society, v.11 no.12, 2010년, pp.5089 - 5096
이용훈 (단국대학교 전자계산학과) , 이상범 (단국대학교 전자계산학과)
Text categorization is one of important features in information searching system which classifies documents according to some criteria. The general method of categorization performs the classification of the target documents by eliciting important index words and providing the weight on them. Theref...
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
핵심어 | 질문 | 논문에서 추출한 답변 |
---|---|---|
자질선택이란 무엇인가? | 자질선택이란 문서 분류 과정에서 자질의 개수를 축소하여 분류과정에서 발생하는 계산량을 줄이기 위한 방법이다. 학습문서에서만 추출된 단어의 수는 수십에서 수만까지 추출되어지며 많은 자질의 수는 분류과정에서 많은 시간비용을 요하게 된다. | |
역범주 빈도 가중치법은 소수의 범주에 나온 자질과, 여러 범주에 고르게 나오는 자질에 대해 어떻게 가중치를 주는가? | 역범주 빈도 가중치법은 문서 간의 분리도가 높은 자질에 더 높은 가중치를 부여하는 방법이다. 즉 소수의 범주에 많이 나온 자질에 대해서는 더 높은 가중치를 주고, 여러 범주에 고르게 나오는 자질에 대해서는 낮은 가중치를 주는 방법이다[5]. 가중치 값은 단어빈도수(TF)와 역범주 빈도수(ICF)를 곱한 값으로 표현되며 ICF값은 아래의 식과 같다. | |
일반적으로 자동화 문서 범주화는 학습 문서로부터 무엇을 먼저 추출하는가? | 일반적으로 자동화 문서 범주화는 학습 문서로부터 자질을 먼저 추출하고 추출된 자질에 따라 범주화에 대한 정보가 분류기 알고리즘에 의해 학습된다. 학습된 정보를 토대로 테스트 문서에 대한 범주가 결정된다. |
Sebastiani. "Machine learning in automated text categorization." Techinical report, Consigilo Nazionale delle Rieche, Italy. 1999.
T.Mitchell. "Machine Learning." MCGraw Hill, NY, US, 1996.
Yang, Y. and J. O. Pderson. "A comparative study on feature selection in text categorization." Proceedings of the 14th International Conference on Machine Learning. 1997.
Gerard Salton and Michael J. McGill. "Introduction to Modern Information Retrieval." McGraw-Hill Book Company, New York, 1983.
조광제, 김준태. "역카테고리 빈도에 의한 계층적 분류체계에서의 문서의 자동분류." 한국정보과학회 봄학술발표논문집(B), 507-510. 1997.
Larocca Neto, Joel. "A Text Mining Tool for Document Clustering and Text Summarization.", Proceedings of The Text Mining Tool for Document Clustering and Text Summarization Fourth International Conference on The Practical Application of Knowledge Discovery and Data Mining, 41-56.Manchester, UK. Apr, 2000.
Osuna, E., Freund R., and Girosi, F. "Training support vector machines: An application to face detection", Proceedings of Compuer Vision and Pattern Recognition, pp. 130-136, 1997.
Dasarathy, Belur V. "Nearest Neighbor(NN) Norms: NN Pattern Classificatioin Techniques." McGraw-Hill Computer Science Series, CA: IEEE Computer Society Press. 1991.
리청화, "BPNN의 효율적인 개선방법 및 개념에 기초한 문서분류 시스템 응용" 전북대학교 대학원 박사논문. 2009
정은경, "문서 범주화 효율성 제고를 위한 정보원평가에 관한 연구 ", 한국정보관리학회, 제24권, 제4호, pp. 305-321, 12월, 2007.
David D. Lewis. "Distribution 1.0 readme file (v1.2) for reuters-21578", AT&T Labs - Research, 1997.
GSalton, "Automatic Information Organization and Retrieval." New York:McGraw-Hill, 1968.
M. F. Porter. "An algorithm for suffix stripping." Program, Vol. 14 no.3 130-137. 1980.
Stephen E. Robertson, Steve Walker, Susan Jones, Micheline Hancock-Beaulieu, and Mike Gatford. (1994) "Okapi at TREC-3". In Proceedings of the Third Text REtrieval Conference (TREC 1994).
Chin-Chung Chang and Chih-Jen Lin, LIBSVM: a library for SVM, URL : http://www.csie.ntu.edu.tw/-cjlin/libsvm
D.D.Lewis, "Evaluating text categorization", in Proceedings of the Speech and Natural Language Workshop, 1991.
*원문 PDF 파일 및 링크정보가 존재하지 않을 경우 KISTI DDS 시스템에서 제공하는 원문복사서비스를 사용할 수 있습니다.
출판사/학술단체 등이 한시적으로 특별한 프로모션 또는 일정기간 경과 후 접근을 허용하여, 출판사/학술단체 등의 사이트에서 이용 가능한 논문
※ AI-Helper는 부적절한 답변을 할 수 있습니다.