[논문]다양한 어휘 가중치를 이용한 블로그 포스트의 자동 분류

김수아; 조희선; 이현아

doi:10.5916/jkosme.2015.39.1.58

다양한 어휘 가중치를 이용한 블로그 포스트의 자동 분류
Automatic Classification of Blog Posts using Various Term Weighting 원문보기

한국마린엔지니어링학회지 = Journal of the Korean Society of Marine Engineering, v.39 no.1, 2015년, pp.58 - 62

김수아 (Department of Computer Software Engineering, Kumoh National Institute of Technology) , 조희선 (Department of Computer Software Engineering, Kumoh National Institute of Technology) , 이현아 (Department of Computer Software Engineering, Kumoh National Institute of Technology)

초록
AI-Helper

대부분의 블로그 사이트에서는 미리 정의된 분류 체계에 따른 내용 기반 분류 환경을 제공하고 있으나, 작성된 포스트의 분류를 수동으로 선택해야하는 번거로움 때문에 대부분의 블로거들은 포스트에 대한 분류를 입력하지 않고 있다. 본 논문에서는 블로그 포스트의 자동 분류를 위해 블로그 사이트에서 분류별 문서를 수집하고 수집된 분류별 문서의 어휘빈도와 문서빈도, 분류별 빈도 등의 다양한 어휘 가중치 조합하여 블로그 포스트의 특성에 적합한 가중치 방식을 찾고자 한다. 실험에서는 본 논문에서 제안한 TF-CTF-IECDF를 어휘 가중치로 사용한 분류 모델이 77.02%의 분류 정확률을 보였다.

Abstract ▼ AI-Helper

Most blog sites provide predefined classes based on contents or topics, but few bloggers choose classes for their posts because of its cumbersome manual process. This paper proposes an automatic blog post classification method that variously combines term frequency, document frequency and class frequency from each classes to find appropriate weighting scheme. In experiment, combination of term frequency, category term frequency and inversed (excepted category's) document frequency shows 77.02% classification precisions.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서는 TF-IDF를 변형하여 블로그 포스트를 자동으로 분류하기 위해 단어 주제 분별력을 계산하기 위한 다양한 가중치를 제안하였다. TF와 IDF를 각각 카테고리 로 확장시킨 개념의 CDF와 CTF, IECDF에 대한 실험에서는, IDF보다 IECDF가 블로그 문서의 분류의 정확도를 높였으며, 단순 단어 빈도 TF보다 분류로 확장한 단어 빈도 나 문서빈도인 CTF나 CDF가 더 정확한 결과를 보였다.
본 논문에서는 네이버 블로그에서 주제별 분류가 등록된 포스트들을 수집하고, 이를 학습 데이터로 사용하여 자동으로 포스트의 주제별 분류를 추천하기 위한 시스템을 제안한다. 시스템에서는 TF-IDF 이외의 다양한 가중치 기법을 제안하고 평가하여, 블로그 분류에 적합한 방식을 찾고자 한다.
본 논문에서는 네이버 블로그에서 주제별 분류가 등록된 포스트들을 수집하고, 이를 학습 데이터로 사용하여 자동으로 포스트의 주제별 분류를 추천하기 위한 시스템을 제안한다. 시스템에서는 TF-IDF 이외의 다양한 가중치 기법을 제안하고 평가하여, 블로그 분류에 적합한 방식을 찾고자 한다. 또한 다양한 분류기를 적용하여 포스트에 맞는 분류를 결정한다.

제안 방법

다섯 번째 결합으로 TF-CTF-IECDF를 사용한다. TF와 CTF, IECDF를 곱하여 대표 분류에서의 빈도와 이외 분류에서 의 IDF를 반영하여 주제 분별 점수를 계산한다. 여섯 번째 결합으로는 TF-CDF-IDF를 사용하여, CDF를 통해 해당 단어가 대표 분류에서 폭넓게 사용될수록, IDF를 통해 해당 단어가 희소성이 높을수록 높은 점수를 얻도록 한다.
각 분류 알고리즘을 이용해 각 문서별 용어에 대한 주제 분별 점수를 입력으로 하고, 결과 분류를 출력으로 설정하여 각각의 분류모델을 생성하였다. 분류 모델의 검증은 생성과 마찬가지로 검증용 문서 집합을 이용하여 생성된 각 분류 모델의 정확도를 검증한다.
본 논문에서 제안하는 가중치 결합 방식과 2가지의 분류 학습기를 통한 분류 정확률을 평가하였다. 실험에서는 16개의 각 분류에서 임의로 추출한 500개, 총 8000개의 학습 데이터를 이용하였으며, 실험 데이터는 분류별 200개, 총 3200개를 사용하였다.
본 논문에서 제안하는 시스템은 블로그 포스트를 수집한 뒤, 분류를 위해 제안된 다양한 어휘 가중치를 여러 분류 모델에 적용하여 포스트의 분류를 결정한다. 아래에서는 각 단계에 대해 설명한다.
이는 분류 내 단어 빈도 CTF (Category Term Frequency)로 수치화할 수 있다. 본 논문에서는 Equation (3)과 Equation (4)로 CTF를 구한다. Equation (3)에서는 단어의 누적 빈도가 가장 높은 분류를 대표 분류로 보고, 단어 w_i의 대표 분류 MaxC# 를 구한다.
한국어 형태소 분석기를 이용하여 문서 내의 단어를 추출한 뒤, 각 단어의 빈도를 분석한다. 본 논문에서는 기존의 방식에서 주제 분별력을 파악하기 위해서 이용하는 TF와 IDF에 추가하여, 군집 내에서의 단어 빈도나 문서 빈도를 반영하는 CTF, CDF, IECDF를 단 어 가중치로 제안한다. 아래에서는 각각에 대해 설명한다.
본 논문에서는 실험 결과에서 정확률이 높은 상위 6개 를 이용하여 블로그 자동 분류 시스템을 구축하였다. Figure 3은 실행 예를 보인다.
본 논문에서는 위에서 제안한 가중치를 다양하게 조합하여 단어의 주제 분별 점수를 구한다. 조합에서는 일곱 가지 방식을 사용하며, 각 조합에서는 2.
각 분류 알고리즘을 이용해 각 문서별 용어에 대한 주제 분별 점수를 입력으로 하고, 결과 분류를 출력으로 설정하여 각각의 분류모델을 생성하였다. 분류 모델의 검증은 생성과 마찬가지로 검증용 문서 집합을 이용하여 생성된 각 분류 모델의 정확도를 검증한다.
시스템에서 사용자가 포스트를 작성한 뒤 저장 버튼을 누르면 자동으로 추천 카테 고리를 제시하는 방법으로 구동된다. 시스템에서는 정확 률이 높은 6개의 분류 기법에서 1위 분류에 투표 방식 (voting)을 적용하여, 가장 많이 추천된 분류부터 순서대로 사용자에게 제시한다. 실행 예에서 포스트는 육아와 관련한 책을 소개하는 글로서, [문학-책]과 [육아_결혼]의 분류를 추천하는 결과를 볼 수 있다.
얻어진 대표 분류에서의 단어 w_i의 누적빈도 CTF(w_i)를 Equation (4)로 얻는다. 시스템에서는 학습과정에서 각 분류별 문서개수를 동일하게 구성하여, CTF에 대한 분류별 정규화가 이루어지도록 한다.
이중 일부 분류들은 학습 데이터로 쓸 만큼 충분한 양의 글이 올라오지 않거나, 분류의 주제에 맞지 않는 광고성 글이 높은 비율을 보인다. 이로 인한 문제를 보완하기 위해 네이버의 30개의 분류 중 일부를 제거하거나 병합하여 Figure 2의 오른쪽과 같은 16개 분류를 얻고, 이를 이용하여 자동 분류를 수행한다.
본 논문에서는 위에서 제안한 가중치를 다양하게 조합하여 단어의 주제 분별 점수를 구한다. 조합에서는 일곱 가지 방식을 사용하며, 각 조합에서는 2.2에서 제안한 단어가중치의 곱으로 가중치를 결합한다.
문서 분류를 위한 문서 특성은 제목과 본문에서 사용되는 명사에서 추출한다. 한국어 형태소 분석기를 이용하여 문서 내의 단어를 추출한 뒤, 각 단어의 빈도를 분석한다. 본 논문에서는 기존의 방식에서 주제 분별력을 파악하기 위해서 이용하는 TF와 IDF에 추가하여, 군집 내에서의 단어 빈도나 문서 빈도를 반영하는 CTF, CDF, IECDF를 단 어 가중치로 제안한다.

대상 데이터

국내의 대표적인 블로그 사이트인 네이버, 다음, 티스토리에서 수집된 블로그 문서를 기준으로 적합한 분류를 조사한 연구[10]에서 네이버 블로그는 장르 분류 일치도에서 도 높은 결과를 보였다. 본 논문에서는 주제 분류가 부착 된 네이버 블로그 포스트를 이용하여 학습에 사용한다.
실험에서는 16개의 각 분류에서 임의로 추출한 500개, 총 8000개의 학습 데이터를 이용하였으며, 실험 데이터는 분류별 200개, 총 3200개를 사용하였다.

이론/모형

네 번째 결합으로는 역문서 빈도의 성격인 IDF와 IECDF를 쓰지 않는 TF-CTF-CDF를 사용한다. 다섯 번째 결합으로 TF-CTF-IECDF를 사용한다. TF와 CTF, IECDF를 곱하여 대표 분류에서의 빈도와 이외 분류에서 의 IDF를 반영하여 주제 분별 점수를 계산한다.
문서별로 주제 분별 점수가 구해지면 이를 이용하여 분류 모델을 생성한다. 본 논문에서는 분류 모델 생성을 위하여 기존의 소프트웨어 WEKA 3.6.10[11]에 구현된 Complement Naive Bayes와 Naive Bayes Multinomial 알고리즘을 사용하였다.
첫 번째 방식으로 기존의 일반적인 가중치 기법인 TF-IDF를 사용한다. CTF와 CDF의 유용성을 확인하기 위해 두 번째 결합으로 TF-CTF, 세 번째 결합으로 TF-CDF 를 사용한다.

성능/효과

기존의 방식에서 이용하던 TF와 IDF를 결합한 방식은 50%가 되지 않는 분류 정확률을 보였다. TF-IDF는 분류 정보가 반영되지 않고, 키워드의 단순 빈도와 전체 문서 집합에서의 IDF를 이용하여 문서를 분류하여 낮은 정확률을 보이는 것으로 분석되었다. 이에 비하여 분류 정보가 사용된 TF-CTF와 TF-CDF는 이 보다 높은 70% 내외의 성능을 보여 분류에 기반한 정보의 효과를 확인할 수 있었다.
본 논문에서는 TF-IDF를 변형하여 블로그 포스트를 자동으로 분류하기 위해 단어 주제 분별력을 계산하기 위한 다양한 가중치를 제안하였다. TF와 IDF를 각각 카테고리 로 확장시킨 개념의 CDF와 CTF, IECDF에 대한 실험에서는, IDF보다 IECDF가 블로그 문서의 분류의 정확도를 높였으며, 단순 단어 빈도 TF보다 분류로 확장한 단어 빈도 나 문서빈도인 CTF나 CDF가 더 정확한 결과를 보였다.
결과에서 Naive Bayes Multinomial로 학습을 한 결과에서 TF-CTF-IECDF가 77.02%로 가장 높은 정확률을 보였다. 전체 실험 결과에서 역문서빈도인 IDF를 사용한 방식 보다 대표 분류 외 분류에서의 역문서빈도인 IECDF가 좋은 성능을 보였다.
Table 1은 결과를 보인다. 기존의 방식에서 이용하던 TF와 IDF를 결합한 방식은 50%가 되지 않는 분류 정확률을 보였다. TF-IDF는 분류 정보가 반영되지 않고, 키워드의 단순 빈도와 전체 문서 집합에서의 IDF를 이용하여 문서를 분류하여 낮은 정확률을 보이는 것으로 분석되었다.
전체 실험 결과에서 역문서빈도인 IDF를 사용한 방식 보다 대표 분류 외 분류에서의 역문서빈도인 IECDF가 좋은 성능을 보였다. 또한 CDF보다 CTF가 좋은 성능을 보여, 블로그 포스트 분류에서는 포함된 문서 개수보다는 단 어 발생의 중복성이 고려되는 단어빈도가 유용함을 알 수 있었다.
TF와 CTF, IECDF를 곱하여 대표 분류에서의 빈도와 이외 분류에서 의 IDF를 반영하여 주제 분별 점수를 계산한다. 여섯 번째 결합으로는 TF-CDF-IDF를 사용하여, CDF를 통해 해당 단어가 대표 분류에서 폭넓게 사용될수록, IDF를 통해 해당 단어가 희소성이 높을수록 높은 점수를 얻도록 한다. 마지막 결합 방식으로는 TF-CDF-IECDF는 IDF 대신 IECDF를 사용하여 나머지 분류에서의 희소성이 높을수록 높은 점수를 얻도록 한다.
TF-IDF는 분류 정보가 반영되지 않고, 키워드의 단순 빈도와 전체 문서 집합에서의 IDF를 이용하여 문서를 분류하여 낮은 정확률을 보이는 것으로 분석되었다. 이에 비하여 분류 정보가 사용된 TF-CTF와 TF-CDF는 이 보다 높은 70% 내외의 성능을 보여 분류에 기반한 정보의 효과를 확인할 수 있었다.
02%로 가장 높은 정확률을 보였다. 전체 실험 결과에서 역문서빈도인 IDF를 사용한 방식 보다 대표 분류 외 분류에서의 역문서빈도인 IECDF가 좋은 성능을 보였다. 또한 CDF보다 CTF가 좋은 성능을 보여, 블로그 포스트 분류에서는 포함된 문서 개수보다는 단 어 발생의 중복성이 고려되는 단어빈도가 유용함을 알 수 있었다.
오류 분석에서는 포스트의 분류 모호성, 정보성이 떨어지는 외래어에 의한 오류, 이슈가 되는 고유 명사에 의한 오류 등이 주요한 문제로 나타났다. 포스트의 분류 모호성 에서는 Game과 Sports 두 분류에 연관된 e-sports 대회 관련 포스트, Book과 Child Care에 연관된 육아 서적 관련 포스트, Book과 Movie에 연관된 원작 소설에 기반한 영화 관련 포스트, Car와 Game에 연관된 자동차 레이싱 게임 관련 포스트 등과 같이, 두 분류에 모두 속할 수 있는 포 스트에 의한 오류가 나타났다. 외래어에 의한 오류는, 영어 가사에서 발생하는 불용어들(예를 들어, the, to, and, in, is 등)이 네이버 블로그 포스트에서는 IDF나 CDF, IECDF 가 높게 계산되는 등의 문제로 나타났으며, 외래어 불용어에 대한 별도의 처리가 필요한 것으로 분석되었다.

후속연구

블로그 문서를 자동으로 분류하는 데는 한계가 있을 수 있다. 정형적인 텍스트가 아니기 때문에 오타나 신조어 등에 민감할 수 있는데 이러한 점은 형태소 분석기의 성능 이 향상되거나 고유 명사사전 등을 구축하면 해결 할 수 있을 것이라고 기대한다. 추후 연구로는 문서 자동 분류를 문서 필터링으로 확장시킬 예정이다.
정형적인 텍스트가 아니기 때문에 오타나 신조어 등에 민감할 수 있는데 이러한 점은 형태소 분석기의 성능 이 향상되거나 고유 명사사전 등을 구축하면 해결 할 수 있을 것이라고 기대한다. 추후 연구로는 문서 자동 분류를 문서 필터링으로 확장시킬 예정이다.

질의응답

핵심어	질문	논문에서 추출한 답변
	IDF란?	IDF (Inversed Document Frequency)는 문서 빈도 역수를 이용하여 단어의 희소성이나 정보성을 표현하는 통계적 방법이다. 분류 C에 속하면서 단어 wi를 포함하는 문서를 # 로 표기하고, 이 문서의 개수를 \|#\|로 표기하자.
	TF는 어떻게 계산되나?	TF (Term Frequency)는 각 문서에서의 단어 빈도로 단어 가중치를 계산한다. 문서의 크기가 커지면 문서에서 발생한 단어의 절대 빈도도 커지므로, 문서 D에서 발생한 단어 wi의 빈도수 freq(wi,D)에 문서 D의 총 단어수로 나누어, 정규화한 TFD(wi)를 Equation (1)로 구한다.
	TF-CTF-IECDF의 계산법은?	다섯 번째 결합으로 TF-CTF-IECDF를 사용한다. TF와 CTF, IECDF를 곱하여 대표 분류에서의 빈도와 이외 분류에서 의 IDF를 반영하여 주제 분별 점수를 계산한다. 여섯 번째 결합으로는 TF-CDF-IDF를 사용하여, CDF를 통해 해당 단어가 대표 분류에서 폭넓게 사용될수록, IDF를 통해 해당 단어가 희소성이 높을수록 높은 점수를 얻도록 한다.

참고문헌 (12)

Y. J. Kim, "A study on the blog as a media : Focused on media functions and the problems of the blog," Korean Journal of Journalism & Communication Studies, vol. 50, no. 2, pp. 59-90, 2006 (in Korean).
D. H. Park, W. S. Choi, and H. J. Kim, "Web document classification based on hangeul morpheme and keyword analyses," Transactions of the Korean Information Processing Society Transaction : Part D (Database), vol. 19-D, no. 4, pp. 263-270, 2012 (in Korean).

원문보기 상세보기
S. W. Lee, D. J. Choi, H. W. Jung, and J. H. Lee, "Study of blog auto categorizing based on time periodicity," Proceedings of Korean Institute of Intelligent Systems Spring Conference, vol. 21, no. 1, pp. 86-87, 2011 (in Korean).
H. Qu, A. L. Pietra, and S. Poon "Automated blog classification: challenges and pitfalls," Association for the Advancement of Artificial Intelligence Spring Symposium : Computational Approaches to Analyzing Weblogs, pp. 184-186, 2006.
D. Ikeda, H. Takamura, and M. Okumura, "Semi-supervised learning for blog classification," Proceedings of the 23th Association for the Advancement of Artificial Intelligence Conference on Artificial Intelligence, vol. 2, pp. 1156-1161, 2008.
E. Lex, C. Seifert, M. Cranitzer, and A. Juffinger, "Automated blog classification : A cross domain approach," Proceedings of the International Association for Development of the Information Society, International Conference on WWW/Internet, p. 598, 2009.
C. Hashimoto and S. Kurohashi, "Blog categorization exploiting domain dictionary and dynamically estimated domains of unknown words," Proceedings of ACL-08, HLT Short Papers, pp 69-72, 2008.
Stephanie D. Husby and Denilson Barbosa, "Topic classification of blog posts using distant supervision," Proceedings of the 13th Conference of the European Chapter of Association for Computational Linguistics, pp 28-36, 2012.
M. K. Dalal and M. A. Zaveri, "Automatic classification of unstructured blog text," Journal of Intelligent Learning Systems and Applications, vol. 5, no. 4, pp. 108-114, 2013.

상세보기
H. Y. Kim, An Experimental Study on Semi-Supervised Classification of Blog Genres, MS Thesis, Yonsei University, Korea, 2009 (in Korean).
http://www.cs.waikato.ac.nz/ml/weka/, Accessed July 25, 2014.
S. A. Kim, H. S. Cho, and H. A. Lee, "Automatic classification of blog posts," Technology of the 25th Annual Conference on Human and Cognitive Language, pp. 160-162, 2013 (in Korean).

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증