[논문]한글 형태소 및 키워드 분석에 기반한 웹 문서 분류

박단호; 최원식; 김홍조; 이석룡

doi:10.3745/kipstd.2012.19d.4.263

한글 형태소 및 키워드 분석에 기반한 웹 문서 분류
Web Document Classification Based on Hangeul Morpheme and Keyword Analyses 원문보기

정보처리학회논문지. The KIPS transactions. Part D. Part D, v.19D no.4, 2012년, pp.263 - 270

박단호 (한국외국어대학교 산업경영공학과) , 최원식 (한국외국어대학교 산업경영공학과) , 김홍조 (한국외국어대학교 산업경영공학과) , 이석룡 (한국외국어대학교 산업경영공학과)

초록
AI-Helper

최근 초고속 인터넷과 대용량 데이터베이스 기술의 발전으로 웹 문서의 양이 크게 증가하였으며, 이를 효과적으로 관리하기 위하여 문서의 주제별 자동 분류가 중요한 문제로 대두되고 있다. 본 연구에서는 한글 형태소 및 키워드 분석에 기초한 문서 특성 추출 방법을 제안하고, 이를 이용하여 웹 문서와 같은 비구조적 문서의 주제를 예측하여 문서를 자동으로 분류하는 방법을 제시한다. 먼저, 문서 특성 추출을 위하여 한글 형태소 분석기를 사용하여 용어를 선별하고, 각 용어의 빈도와 주제 분별력을 기초로 주제 분별 용어인 키워드 집합을 생성한 후, 각 키워드에 대하여 주제 분별력에 따라 점수화한다. 다음으로, 추출된 문서 특성을 기초로 상용 소프트웨어를 사용하여 의사 결정 트리, 신경망 및 SVM의 세 가지 분류 모델을 생성하였다. 실험 결과, 제안한 특성 추출 방법을 이용한 문서 분류는 의사 결정 트리 모델의 경우 평균 Precision 0.90 및 Recall 0.84 로 상당한 정도의 분류 성능을 보여 주었다.

Abstract ▼ AI-Helper

With the current development of high speed Internet and massive database technology, the amount of web documents increases rapidly, and thus, classifying those documents automatically is getting important. In this study, we propose an effective method to extract document features based on Hangeul morpheme and keyword analyses, and to classify non-structured documents automatically by predicting subjects of those documents. To extract document features, first, we select terms using a morpheme analyzer, form the keyword set based on term frequency and subject-discriminating power, and perform the scoring for each keyword using the discriminating power. Then, we generate the classification model by utilizing the commercial software that implements the decision tree, neural network, and SVM(support vector machine). Experimental results show that the proposed feature extraction method has achieved considerable performance, i.e., average precision 0.90 and recall 0.84 in case of the decision tree, in classifying the web documents by subjects.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

">있다[1]. 본 논문에서는 주제 분류에 대한 사전 정의가 이루어진 경우, 새로운 웹 문서를 어떠한 주제로 분류할 것인가에 대한 판단에 기초하여 문서를 자동으로 분류하는 문서 범주화 방식을 다룬다. 본 논문에서 사용하는 용어 중 '주제'는 문서를 분류하기 위하여 사전에 정의된 문서의 이에 따라 문서를 자동으로 분류하는 과정은 문서의 효율적 관리 측면에서 매우 중요하다. 본 논문은 문서 범주화의 핵심 요소 중 특성 추출 방법에 초점을 두고 있으므로 이에 관한 국내외관련 연구를 주로 살펴보고, 분류 모델 생성에 관해서는 간단히 언급하기로 한다.
본 연구에서는 한글 웹 문서에 사용된 한글 형태소 및 키워드의 빈도에 기초하여 문서의 특성을 추출하는 방법을 제시하였고, 이를 기초로 비구조적인 문서의 주제를 예측하여 자동적으로 웹 문서를 분류하는 효과적인 방법을 제시하였다.
제안 방법
- 후)3개의">3 개의 주제에 대한 분류 모델은 이전 절에서 성능이 우수한 것으로 평가된 의사 결정 트리를 이용하여 생성하였고, 실험에 사용된 웹 문서의 배정은 4 개의 주제에 대한 실험과 동일하게 하였다.
- SPSS Clementine의 의사 결정 트리 (c5.0)와 신경망 기법 및 SVM을 통하여 분류 모델을 생성한다. 생성된 분류 모델을 평가용 집합으로 평가하여 결과가 수준 이하일 경우 데이터의 전처리 과정의 0 알고리즘을 사용하였고, 신경망 모델은 다층 퍼셉트론 (multi-layer perceptron, MLP) 기법을 적용하였다. SVM 방법에서는 커널 함수를 선택하는 것이 성능에 결정적인 영향을 미치며, 본 연구에서는 문서 분류에서 높은 성능을 보이는 RBF (radial basis function) 커널을 사용하여 분류 모델을 생성하였다. 다음으로, 생성된 분류 모델에 대하여 학습용 집합 중 모델 생성에 이용되지 않은 나머지 데이터를 사용하여 모델을 평가하며, 평가 결과가 최적이 되도록 반복하여 1 을 사용하였다. 각각의 방법에 의해 생성된 모델에 대하여 평가 및 검증 수행하고, 이를 통해 우수한 성능을 보이는 모델을 선택하여 최종 모델을 확정한다.
- 후)용어집합을">용어 집합을 구성한다. 그리고 모델 생성용 집합에서 나타나는 주제 분별 용어의 빈도와 분별력을 기초로 각 주제 분별 용어에 대하여 점수화하여 주제 분별 용어 점수표(score table)를 생성한다.
- 본 논문에서는 먼저, 문서 특성 추출을 위하여 한글 형태소 분석기를 사용하여 문서로부터 용어를 선별하고, 각 용어의 빈도와 주제 분별력을 기초로 주제 분별 용어인 키워드 집합을 생성한다. 다음으로, 각 키워드에 대하여 해당 주제의 문서들에서 나타나는 누적 빈도를 고려한 주제 분별력을 기초로 이를 점수화하여 문서 특성을 추출한다. 마지막으로, 추출된 문서 특성을 기초로 상용 소프트웨어를 사용하여 정확한 분류 방법으로 널리 알려진 후)커널을 사용하여">커널을 사용하여 분류 모델을 생성하였다. 다음으로, 생성된 분류 모델에 대하여 학습용 집합 중 모델 생성에 이용되지 않은 나머지 데이터를 사용하여 모델을 평가하며, 평가 결과가 최적이 되도록 반복하여 입력 파라미터들을 튜닝 (tuning)하는 과정을 거친다.
- 후)평균적으로">평균적으로 의사 결정 트리 모델, 신경망 모델, SVM 모델의 순으로 나타났다. 따라서 본 연구에서는 최종적인 모델로서 의사 결정 트리 모델을 선택하기로 한다. 그러나 이러한 결론은 경제, 사회, 스포츠, 정치 등에 관한 웹 문서 분류에 있어서 다음으로, 각 키워드에 대하여 해당 주제의 문서들에서 나타나는 누적 빈도를 고려한 주제 분별력을 기초로 이를 점수화하여 문서 특성을 추출한다. 마지막으로, 추출된 문서 특성을 기초로 상용 소프트웨어를 사용하여 정확한 분류 방법으로 널리 알려진 의사 결정 트리, 신경망 및 SVM의 세 가지 분류 모델을 생성하여 문서를 분류하였다.
- 학습용 집합을 이용한 분류 모델의 생성 및 평가 절차는 다음과 같다. 먼저, 3.4 절에서 구한 각 문서 별 주제 분별 용어 점수를 입력 변수로 하고 주제 필드를 출력 변수로 설정한 후, 상용 소프트웨어 SPSS Clementine 에 포함된 의사 결정 트리와 신경망 모델 및 SVM 방법을 이용하여 각각의 분류 모델을 생성한다. 주제 분별 용어 점수표가 만들어지면 이를 이용하여 주제 분류 모델을 생성한다. 먼저, 학습용 집합을 이용하여 분류 모델을 생성하고 평가한다. 학습용 집합을 이용한 분류 모델의 생성 및 평가 절차는 다음과 같다.
- 본 논문에서는 먼저, 문서 특성 추출을 위하여 한글 형태소 분석기를 사용하여 문서로부터 용어를 선별하고, 각 용어의 빈도와 주제 분별력을 기초로 주제 분별 용어인 키워드 집합을 생성한다. 다음으로, 각 키워드에 대하여 해당 주제의 문서들에서 나타나는 누적 빈도를 고려한 주제 분별력을 기초로 이를 점수화하여 문서 특성을 추출한다.
- 본 논문에서는 주제 분별력이라는 개념을 도입하여 키워드 집합을 생성하고, 각 키워드에 대하여 누적 빈도를 고려하여 점수화함으로서 문서 특성을 표현하였다. 또한, 용어 선정에 있어서는 개체명과 키워드를 본 논문은 문서 특성 추출 방법의 개발에 초점을 두었으며, 분류 모델 생성은 기존의 상용 소프트웨어를 사용하였다. 기존의 문서 특성 추출 방법들은 주로 문서에서 사용된 색인어 또는 표제어 등의 중요 용어에 대하여 각각의 빈도를 파악하고, 중요성에 따라 가중치를 부여하는 방식을 많이 사용한다.
- 본 연구에서 제안한 문서 특성 추출은 먼저, 한글 형태소분석기를 사용하여 각각의 문서 집합에서 사용되는 용어를 추출하고 각 용어의 빈도를 파악한 후, 각각의 문서의 크기를 고려하여 용어의 빈도를 정규화한다. 다음으로 추출한 용어 중 주제를 정확하게 분류할 수 없는 용어를 제외함으로써 주제 분별 후)임계값">임계 값 이하로 나타날 경우에는 해당 분류 방법은 최종 모델에서 배제한다. 본 연구에서는 임계 정확도를 70%로 설정하였다. 최종 평가 결과, 분류 모델의 검증의 경우에도 모델 생성의 경우와 마찬가지로 검증용 집합의 데이터에 대하여 용어 추출 및 용어 빈도 정규화 등의 과정을 거쳐 주제 분별 용어를 추출하고 점수표를 작성한 후, 의사 결정 트리와 신경망 모델 및 SVM 방법을 이용하여 생성된 각 분류 모델의 정확도를 검증한다.
- 후)임계값">임계 값 이상이므로 모두 채택된다. 생성된 분류 모델의 분석을 위하여 널리 사용되는 이득 도표 (gain chart)를 사용하여 의사 결정 트리와 신경망 모델 및 SVM 방법을 비교하였다. 이 두 개의 클래스는 학습용 데이터와 검증용 데이터 모두에 적용된다. 세 번째 SeekKeyword 클래스는 학습용 데이터에만 적용되며 TextNorm 클래스의 결과 파일을 입력 데이터로 사용하여 주제 분별 용어를 추출하고, 각각의 주제 분별 용어별 주제 분별력을 계산한다. 해당 클래스에서는 수식(2)를 이용하여 주제별로 정규화된 후)앞절에서">앞 절에서 보인 경제, 사회, 스포츠, 정치의 4개의 주제에 대한 웹 문서 분류 실험에 부가하여, 3개의 주제 (경제+정치, 사회, 스포츠)에 대한 분류 실험을 추가적으로 시행하였 다. 이는 '경제와 정치', 또는 '경제, 정치 및 사회' 주제의 경우, 많은 기사 내용이 명확한 주제로 분류하기에 모호하여 오분류되거나 후)웹문서">웹 문서 분류 결과를 좀 더 구체적으로 분석하기 위하여 문서 검색 분야에서 널리 사용되고 있는 측정 지표인 Precision과 Recall의 지표를 이용하여 분류 결과를 제시한다. Precision은 분류 모델이 후)정규화해야">정규화 해야 한다. 이를 위해 각 문서 별로 출현 용어의 총 누적 빈도를 분석하고, 다음으로 각 해당 용어의 빈도를 구해 문서 크기에 따라 정규화된 문서별 용어 빈도 TN_ijk를 각각의 용어에 대하여 도출한다. 즉, TN_ijk는 주제 i에 속하는
  한국어 형태소 분석기[13]를 이용하여 그림 2와 같은 텍스트 결과물을 얻은 후, 이러한 결과 파일을 이용하여 수식(2) 와 수식(3)의 값을 구하고, 그 값을 통해 주제 분별 용어 집합과 주제 분별 용어 점수표를 생성하는 과정을 수행하는 주제 분별 용어 분석기를 개발하였다. 이 분석기는
  대상 데이터
  
  후)웹문서를">웹 문서를 임의로 선택하였다. 720개의 웹 문서는 경제, 사회, 스포츠, 정치의 4가지 주제별 기사를 포함하며, 각각의 주제는 180개의 기사를 포함한다. 이 중 또한 전문가가 '경제'라는 주제 범주로 분류해놓은 80개의 웹 문서 중에서 모델이 맞게 분류한 웹 문서가 72개이다.
  
  모델의 생성, 평가 및 검증을 위한 자료 집합을 구성하기 위해, 2009년 10월 1일부터 2011년 7월 11일 사이의 동아, 조선, 경향 신문의 기사 중 720개의 웹 문서를 임의로 선택하였다. 720개의 후)웹문서는">웹 문서는 경제, 사회, 스포츠, 정치의 4가지 주제별 기사를 포함하며, 각각의 주제는 180개의 기사를 포함한다. 이 중 400 개는 분류 모델을 생성하고 평가하기 위한 학습용집합으로 사용하고, 나머지 320개는 분류 모델의 성능 검증을 위한 검증용 집합으로 사용하였다. 학습용 집합 중 ">호출된다. 첫 번째 ConverTermFreq 클래스를 이용하여 형태소 분석기 결과 파일에서 용어와 빈도, 문서명, 주제 정보로 이루어진 데이터를 생성한다. 두 번째 TextNorm 클래스는 ConvertTermFreq 클래스의 결과 파일을 입력 데이터로 사용하여 각각의 문서의 크기에 따른 용어 빈도를 후)성능검증을">성능 검증을 위한 검증용 집합으로 사용하였다. 학습용 집합 중 짝수 번째웹 문서 200 개를 이용하여 모델을 생성하고, 모델 생성에 사용되지 않은 홀수 번째 문서 200 개를 이용하여 모델을 평가 하였다. 일반적으로, 720개의 문서는 분류 모델의 생성 및 검증에 충분한 양은 아니지만, 기존에 이미 정제되어 제공되고 있는 대량의 웹 문서를 사용하는 대신, 직접 구성한 최근의
  데이터처리
  
  분류 모델의 성능은 320개의 웹 문서를 포함하고 있는 검증용 집합을 사용하여 검증하였으며, 다음 표 2~4는 각각 경제, 사회, 스포츠, 정치의 4가지 주제에 대하여 의사 결정 트리와 신경망 분석 및 SVM을 통한 분류 모델의 성능 검증 결과를 나타낸 것이다. 검증 후)정규화값을">정규화 값을 얻는다. 즉, 같은 주제 상의 모든 문서에 출현하는 각 단어들의 정규화된 빈도 값을 가지고 평균과 표준편차를 이용하여 정규화된 값 ZCTN_ij을 구할 수 있다.
이론/모형
- 이러한 한글의 용어 분석은 상당한 노력을 요구하게 되므로 이를 기계적으로 처리할 수 있는 방법에 대한 연구가 많이 진행되고 있다. 본 연구에서는 문서 내의 용어를 추출하기 위해서 한국어 형태소 분석기[13]를 이용하였다. 이를 통해서 각 문서 내에 포함되어 있는 용어와 각각의 빈도를 파악할 수 있다.
- 분류 모델 생성은 주제 분별 용어 점수표에 기초하여 높은 성능을 보이는 것으로 알려진 기존의 의사 결정 트리 및 신경망 기법, 그리고 SVM 을 구현한 상용 소프트웨어 SPSS Clementine 14.1 을 사용하였다. 각각의 방법에 의해 생성된 모델에 대하여 평가 및 검증 수행하고, 이를 통해 우수한 성능을 보이는 모델을 선택하여 최종 모델을 확정한다.
- 후)의사결정">의사 결정 트리의 경우 C5.0 알고리즘을 사용하였고, 신경망 모델은 다층 퍼셉트론 (multi-layer perceptron, MLP) 기법을 적용하였다. SVM 방법에서는 후)표현되며 [3],">표현되며[3], 문서의 주제 판단에 유용하게 사용될 수 있는 용어를 나타낸다. 이러한 특성 추출 과정에는 TF-IDF (term frequency-inverse document frequency), 상호 정보 (mutual information), 카이 제곱 통계량(_X2), 정보 획득량 (information gain) 등의 방법이 사용된다[4]. 특성 추출 과정을 통해 파악된 특성들을 기반으로
  성능/효과
  
  후)바와 같이">바와 같이 신경망 모델과 SVM 모델에 비하여 의사 결정 트리 모델이 경제, 사회, 스포츠, 정치 등 모든 주제에 대하여 Precision과 Recall 비율이 우수한 결과로 나타났다. Precision과 Recall 의 평균을 보면 의사 결정 트리 모델의 경우, 각각 0.90 및 0.84 이며, 신경망 모델의 경우에는 각각 0.76, 0.77, SVM 모델의 경우에는 각각 0.73, 0.69 로서 평균적으로 의사 결정 트리 모델, 신경망 모델, SVM 모델의 순으로 나타났다. 따라서 본 연구에서는 최종적인 모델로서 의사 결정 트리 모델을 선택하기로 한다.
  
  후)의사결정">의사 결정 트리와 신경망 분석 및 SVM을 통한 분류 모델의 성능 검증 결과를 나타낸 것이다. 검증 결과 표 2~4에서 볼 수 있는 바와 같이 의사 결정 트리의 분류 결과가 84.06%의 정확도를 보여 신경망 분류의 정확도(77.19%)와 SVM 분류의 정확도(69.06%)보다 높은 것을 알 수 있다. 후)3에서">3 에서 왼쪽 아래에서 오른쪽 위로 이어지는 대각선은 모델 비교의 기준선으로서, 모델의 성능이 나쁠수록 이 기준선에 가까워지는 특성이 있다. 도표에서 관찰할 수 있는 바와 같이 의사 결정 트리, 신경망 모델, 그리고 SVM 순으로 성능이 좋은 것으로 나타났다.
  
  84로서 상당한 수준의 정확도를 달성하였다. 또한, 3 가지 주제에 대한 실험에서는 평균 Precision과 Recall 비율이 각각 0.92, 0.92, 로서 주제 간의구분이 명확할수록 검색의 정확도는 증가함을 보였다. 이는 주제 간의 구분을 가능한 한 명확하게 유지해야 하며, 주제 분별 용어의 선택이 중요함을 의미한다.
  
  본 논문에서는 주제 분별력이라는 개념을 도입하여 키워드 집합을 생성하고, 각 키워드에 대하여 누적 빈도를 고려하여 점수화함으로서 문서 특성을 표현하였다. 또한, 용어 선정에 있어서는 개체명과 키워드를 구분 짓지 않음으로서 기존 연구의 단점을 극복하였고, 분류 성능을 높였다.
  
  후)문서분류">문서 분류 모델로서 성능이 검증된 의사 결정 트리, 신경망 모델 및 SVM 방법을 사용하였으며, 의사 결정 트리의 경우 평균 Precision과 Recall 비율은 4 가지 주제의 분류체계에서 각각 0.90 및 0.84로서 상당한 수준의 정확도를 달성하였다. 또한, 배원식 외 2인의 연구[2]는 문서 내에서 동시에 출현하는 단어 쌍을 특성 추출 단위로 하는 문서 범주화 시스템에 대하여 연구하였다. 실험 결과, 문서 범주화 시스템의 성능이 향상되는 것을 보여주었으나 동시 출현 단어 쌍을 단위로 특성 후보를 생성하면 단일 단어에 비해 훨씬 많은 특성 후보가 생성되어 계산 비용이 증가하는 문제점이 있다.
  
  후)의사결정">의사 결정 트리의 분류 결과는 모델 평가 시 나타났던 84%와 근소한 차이를 보이고 있는 반면, 신경망 분류와 SVM 분류의 경우 정확도가 모델의 평가시보다 저하됨을 알 수 있다.
  
  축소 기준 C를 수식으로 표현하면 식(6)과 같다. 즉, mSTD에임의의 배수 x 를 곱한 값이 각 용어의 주제 분별력 V_j보다 크면 그 용어는 제거됨을 의미한다. 그렇게 함으로써 주제를 정확하게 분류할 수 없는 용어를 제거하여 주제 분별 용어만을 추출하고, 동시에 차원을 축소하여 효율적인 처리가 가능하게 할 수 있다.
  
  후)임계정확도를">임계 정확도를 70%로 설정하였다. 최종 평가 결과, 의사 결정 트리 및 신경망 모델이 각각 200개의 웹 문서 중 168개를 정확하게 분류하여 84%의 정확도를 보였으며. SVM의 경우 79%의 정확도를 후)주제(경제+정치,">주제 (경제+정치, 사회, 스포츠)에 대한 분류 실험 에서 도출한 교차표와 Precision 및 Recall 의 계산 결과가 각각 표 8 및 표 9에 나타나 있다. 표 8에서 볼 수 있는 바와 같이 320개의 웹 문서 중 294개를 정확히 분류하여 정확도가 91.88% 이고, 26개를 오분류하여 8.12%의 오류율를 나타내었다. 3개의 주제로 분류 시 사회를 정치로 오분류하는 경우가 많았다.
  
  후)표에서">표 에서 관찰할 수 있는 바와 같이 신경망 모델과 SVM 모델에 비하여 의사 결정 트리 모델이 경제, 사회, 스포츠, 정치 등 모든 주제에 대하여 Precision과 Recall 비율이 우수한 결과로 나타났다. Precision과 Recall 의 평균을 보면
  후속연구
  
  이는 주제 간의 구분을 가능한 한 명확하게 유지해야 하며, 주제 분별 용어의 선택이 중요함을 의미한다. 따라서 보다 정교한 주제 분별 용어의 선택 방법에 대한 추가적인 연구가 필요하다.
  
  후)용어가 출현할">용어가출현할 경우 분류 성능이 저하된다는 문제점을 극복해야 하기 때문이다. 따라서 새로운 용어의 출현 시 적응적(adaptive)으로 이를 분류 시스템에 반영하는 방법에 관한 추가적인 연구가 필요하다.
  
  후)의사결정">의사 결정 트리 모델이 우수하다는 것을 의미하며, 일반적인 분야에 모두 적용되는 것은 아니다. 본 연구에서 도출한 의사 결정 트리 모델을 이용한 웹 문서 분류 방법의 평균 Precision 0.90 과 Recall 0.84 는 문서 분류 분야에서 상당한 수준의 정확도이며, 실제 응용에서도 활용이 가능할 것이라 기대된다.
  
  ">때문이다. 향후 보다 다량의 문서를 확보하여, 보다 다양한 범주로 문서를 분류하는 방법을 연구하는 것이 필요하다.

질의응답

핵심어	질문	논문에서 추출한 답변
	학습용 집합을 이용한 분류 모델의 생성 및 평가 절차는 무엇인가?	먼저, 3.4 절에서 구한 각 문서 별 주제 분별 용어 점수를 입력 변수로 하고 주제 필드를 출력 변수로 설정한 후, 상용 소프트웨어 SPSS Clementine 에 포함된 의사 결정 트리와 신경망 모델 및 SVM 방법을 이용하여 각각의 분류 모델을 생성한다. 의사 결정 트리의 경우 C5.0 알고리즘을 사용하였고, 신경망 모델은 다층 퍼셉트론 (multi-layer perceptron, MLP) 기법을 적용하였다. SVM 방법에서는 커널 함수를 선택하는 것이 성능에 결정적인 영향을 미치며, 본 연구에서는 문서 분류에서 높은 성능을 보이는 RBF (radial basis function) 커널을사용하여 분류 모델을 생성하였다. 다음으로, 생성된 분류 모델에 대하여 학습용 집합 중 모델 생성에 이용되지 않은 나머지 데이터를 사용하여 모델을 평가하며, 평가 결과가 최적이 되도록 반복하여 입력 파라미터들을 튜닝 (tuning)하는 과정을 거친다.
	비구조적(non-structured) 문서는 무엇이 있는가?	수많은 웹 문서를 효율적으로 관리하고 검색하기 위해서 일반적으로 문서의 주제에 따른 분류 방식을 사용하며 문서의 양이 크게 증가함에 따라 문서 분류를 위한 노력 역시 증가하게 되었다. 특히 인터넷 신문, 잡지 등의 웹 문서와 같은 비구조적(non-structured) 문서의 경우, 문서의 주제를 판단하기 위해 상세한 태그가 있는 구조적 문서에 비해서 훨씬 많은 노력이 요구되기 때문에 효율적인 문서 관리를 위해서는 주제 판단을 자동 처리할 수 있는 방법이 필요하다.
	문서를 분류하는 방법은 무엇이 있는가?	문서를 분류하는 방법에는 문서 클러스터링과 문서 범주화가 있다[1]. 본 논문에서는 주제 분류에 대한 사전 정의가 이루어진 경우, 새로운 웹 문서를 어떠한 주제로 분류할 것인가에 대한 판단에 기초하여 문서를 자동으로 분류하는 문서 범주화 방식을 다룬다.

참고문헌 (13)

K.Y. Sung and B.H. Yun, "Topic based Web Document Clustering using Named Entities," Journal of Korean Contents, Vol.10, No.5, 2010, pp.29-36.

원문보기 상세보기
W.S. Bae, Y. S. Han, and J. W. Cha, "Text Categorization using Topic Signature and Co-occurrence Features," Proc. of KCC2008, Vol.35, No.1, 2008, pp.1-8.
E.K. Chung, "A Semantic-Based Feature Expansion Approach for Improving the Effectiveness of Text Categorization by Using WordNet," Journal of the Korean Society for information Management , Vol.26, No.3, 2009, pp.261-278.

원문보기 상세보기
Y. Yang and J. Pedersen, "A Comparative Study on Feature Selection in Text Categorization," Proc. of 14th Int. Conf. on Machine Learning, 1997, pp.412-420.
Forman, G., "An extensive empirical study of feature selection metrics for text classification," J. Mach. Learn. Res., Vol.3 (2003), pp.1289-1305.
Y.J. Nam and K.H. Kim, "A Study on Automatic Text Categorization of Web-Based Query Using Synonymy List," Journal of information management, Vol.35, No.4, 2004, pp.81-105.

원문보기 상세보기
Y.J. Nam, "A study of Korean automatic indexing by morphological analysis," Ph.D Thesis, Chungang University, Seoul, 1995.
D. Ludovic G. Patrick, and Z. Hugo, "HMM-based Passage Models for Document Classification and Ranking," 23rd BCS European Annual Colloquium on Info. Retrieval, 2001.
W. Chen, X. Chang, H. Wang, J. Zhu, and T. Yao, "Automatic Word Clustering for Text Categorization Using Global Information," LNCS Vol.3411, 2005, pp.1-11.
T. Theeramunkong, "Applying passage in Web text mining," Int. J of Intelligent Systems - Intelligent Technologies, Vol.19, Issue 1-2, 2004, pp.149-158.

상세보기
http://www.cs.cmu.edu/-mccallum/bow /rainbow/
J.S. Lee and J.W. Lee, "A Hangeul Document Classification System using Case-based Reasoning," Asia Pacific Journal of Information Systems, Vol.12, No.2, 2002, pp.179-195.
S.S. Kang, KLT version 2.2.0., http://nlp.kookmin.ac.kr, Korean Language Processing and Information Retrieval Laboratory, 2010.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

한글 형태소 및 키워드 분석에 기반한 웹 문서 분류
Web Document Classification Based on Hangeul Morpheme and Keyword Analyses 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (13)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

한글 형태소 및 키워드 분석에 기반한 웹 문서 분류 Web Document Classification Based on Hangeul Morpheme and Keyword Analyses 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (13)

이 논문을 인용한 문헌

저자의 다른 논문 :

이석룡 (22)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

한글 형태소 및 키워드 분석에 기반한 웹 문서 분류
Web Document Classification Based on Hangeul Morpheme and Keyword Analyses 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper