$\require{mediawiki-texvc}$
  • 검색어에 아래의 연산자를 사용하시면 더 정확한 검색결과를 얻을 수 있습니다.
  • 검색연산자
검색연산자 기능 검색시 예
() 우선순위가 가장 높은 연산자 예1) (나노 (기계 | machine))
공백 두 개의 검색어(식)을 모두 포함하고 있는 문서 검색 예1) (나노 기계)
예2) 나노 장영실
| 두 개의 검색어(식) 중 하나 이상 포함하고 있는 문서 검색 예1) (줄기세포 | 면역)
예2) 줄기세포 | 장영실
! NOT 이후에 있는 검색어가 포함된 문서는 제외 예1) (황금 !백금)
예2) !image
* 검색어의 *란에 0개 이상의 임의의 문자가 포함된 문서 검색 예) semi*
"" 따옴표 내의 구문과 완전히 일치하는 문서만 검색 예) "Transform and Quantization"
쳇봇 이모티콘
안녕하세요!
ScienceON 챗봇입니다.
궁금한 것은 저에게 물어봐주세요.

논문 상세정보

SVM을 이용한 디렉토리 기반 기술정보 문서 자동 분류시스템 설계

Design of Automatic Document Classifier for IT documents based on SVM

초록

인터넷 상의 정보가 급증하여 필요한 정보를 찾고 관련된 정보를 조직화하는데 많은 시간이 소요된다. 따라서 정보접근 부하를 줄일 수 있는 자동적인 문서 분류의 중요성과 필요성이 증가하고 있다. 본 논문에서는 웹 문서의 자동 분류 시스템의 설계와 구현을 기술한다. 디렉터리 내의 학습 문서 집합을 기반으로 구성된 대표 단어 집합을 이용하여 문서 분류 모델을 학습하기 위해 SVM을 사용하였다. 본 시스템에서는 정보통신 웹 디렉터리 내의 문서로부터 추출된 단어 집합을 기반으로 SVM을 학습 시킨 후 신규 문서에 대해 문서 분류를 수행한다. 또한 TFiDF를 기반으로 특성을 표현하기 위해 벡터공간 모델을 사용하였고 학습 데이터는 가중치를 갖는 특성 집합으로 표현되어진 긍정 및 부정 집합으로 구성하였다. 실험에서는 문서분류의 결과 및 벡터길이의 관련성을 보인다.

Abstract

Due to the exponential growth of information on the internet, it is getting difficult to find and organize relevant informations. To reduce heavy overload of accesses to information, automatic text classification for handling enormous documents is necessary. In this paper, we describe structure and implementation of a document classification system for web documents. We utilize SVM for documentation classification model that is constructed based on training set and its representative terms in a directory. In our system, SVM is trained and is used for document classification by using word set that is extracted from information and communication related web documents. In addition, we use vector-space model in order to represent characteristics based on TFiDF and training data consists of positive and negative classes that are represented by using characteristic set with weight. Experiments show the results of categorization and the correlation of vector length.

저자의 다른 논문

참고문헌 (16)

  1. Sift - A Tool for Wide-Area Information Dissemination , Yan, Tak W.;Garcia-Molina, Hector , Proceedings of the 1995 USENIX Technical Conference / v.,pp.177-186, 1995
  2. Automatic Text Processing: The Transformation, Analysis and Retrieval of Information by Computer , Salton, G. , / v.,pp., 1989
  3. SVM for histogram-based image classification , Chapelle, O.;Haffner, P.;Vapnik, V. , IEEE Trans. on Neural Networks / v.10,pp.1055-1065, 1999
  4. Connectionist models and information retrieval , Doszkocs, T.;Reggia, J.;Lin, X. , Annual Review of Information Science & Technology / v.25,pp.209-260, 1990
  5. A Comparative Study on Feature Selection in Text Categorization , Yang, Y.;Pdedersen, J.O. , Proc. Of the 14th Internatinal Conference on Machine Learning ICML-97 / v.,pp.412-429, 1997
  6. Text categorization with support vector machines: learning with many relevant features , Joachims, T. , Proc. European Conference on Machine Learning (ECML) / v.,pp.137-142, 1998
  7. SVMLight , Joachims, T. , / v.,pp., 1998
  8. Clustering full test documents , Martin, J. , Proc. IJCAI-95 workshop on Data Engineering for Inductive Learning / v.,pp., 1995
  9. A neural network approach to topic spotting , Wiener, E.;Pedersen, J.O.;Weigend, A.S. , Proc. SDAIR '95 / v.,pp.317-332, 1995
  10. A sequential algorithm for training text classifiers , Lewis, D.;Gale, W.A. , Proc. SIGIR '94 / v.,pp.3-12, 1994
  11. Agents that reduce work and information overload , Maes, Pattie , Communications of the ACM / v.37,pp., 1994
  12. Training Algorithms for Linear Text Classifiers , Lewis, D.;Schapire, R.;Callan, J.;Papka, R. , Proceedings of ACM SIGIR / v.,pp.298-306, 1996
  13. Feature selection, perceptron learning and a usability case study for text categorization , Ng, T.H.;Goh, W.B.;Low, K.L. , 20th ACM SIGIR Conference / v.,pp., 1997
  14. Exploration of text collections with hierarchical feature maps , Merkl, D.;Merkl, D.(ed.) , Proceedings of the Int'l ACM SIGIR Conference on R&D in Information Retrieval / v.,pp.186-195, 1997
  15. Automatic essay grading using text categorization techniques , Larkey, Leah , Proceedings of the 21st ACM/SIGIR (SIGIR-98) / v.,pp.90-96, 1998
  16. Feature selection in statistical learning of test categorization , Yang, Y.;Pederson, J.O. , / v.,pp., 1997

이 논문을 인용한 문헌 (0)

  1. 이 논문을 인용한 문헌 없음

원문보기

원문 PDF 다운로드

  • ScienceON :

원문 URL 링크

원문 PDF 파일 및 링크정보가 존재하지 않을 경우 KISTI DDS 시스템에서 제공하는 원문복사서비스를 사용할 수 있습니다. (원문복사서비스 안내 바로 가기)

상세조회 0건 원문조회 0건

DOI 인용 스타일