$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

다양한 어휘 가중치를 이용한 블로그 포스트의 자동 분류
Automatic Classification of Blog Posts using Various Term Weighting 원문보기

한국마린엔지니어링학회지 = Journal of the Korean Society of Marine Engineering, v.39 no.1, 2015년, pp.58 - 62  

김수아 (Department of Computer Software Engineering, Kumoh National Institute of Technology) ,  조희선 (Department of Computer Software Engineering, Kumoh National Institute of Technology) ,  이현아 (Department of Computer Software Engineering, Kumoh National Institute of Technology)

초록
AI-Helper 아이콘AI-Helper

대부분의 블로그 사이트에서는 미리 정의된 분류 체계에 따른 내용 기반 분류 환경을 제공하고 있으나, 작성된 포스트의 분류를 수동으로 선택해야하는 번거로움 때문에 대부분의 블로거들은 포스트에 대한 분류를 입력하지 않고 있다. 본 논문에서는 블로그 포스트의 자동 분류를 위해 블로그 사이트에서 분류별 문서를 수집하고 수집된 분류별 문서의 어휘빈도와 문서빈도, 분류별 빈도 등의 다양한 어휘 가중치 조합하여 블로그 포스트의 특성에 적합한 가중치 방식을 찾고자 한다. 실험에서는 본 논문에서 제안한 TF-CTF-IECDF를 어휘 가중치로 사용한 분류 모델이 77.02%의 분류 정확률을 보였다.

Abstract AI-Helper 아이콘AI-Helper

Most blog sites provide predefined classes based on contents or topics, but few bloggers choose classes for their posts because of its cumbersome manual process. This paper proposes an automatic blog post classification method that variously combines term frequency, document frequency and class freq...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 본 논문에서는 TF-IDF를 변형하여 블로그 포스트를 자동으로 분류하기 위해 단어 주제 분별력을 계산하기 위한 다양한 가중치를 제안하였다. TF와 IDF를 각각 카테고리 로 확장시킨 개념의 CDF와 CTF, IECDF에 대한 실험에서는, IDF보다 IECDF가 블로그 문서의 분류의 정확도를 높였으며, 단순 단어 빈도 TF보다 분류로 확장한 단어 빈도 나 문서빈도인 CTF나 CDF가 더 정확한 결과를 보였다.
  • 본 논문에서는 네이버 블로그에서 주제별 분류가 등록된 포스트들을 수집하고, 이를 학습 데이터로 사용하여 자동으로 포스트의 주제별 분류를 추천하기 위한 시스템을 제안한다. 시스템에서는 TF-IDF 이외의 다양한 가중치 기법을 제안하고 평가하여, 블로그 분류에 적합한 방식을 찾고자 한다.
  • 본 논문에서는 네이버 블로그에서 주제별 분류가 등록된 포스트들을 수집하고, 이를 학습 데이터로 사용하여 자동으로 포스트의 주제별 분류를 추천하기 위한 시스템을 제안한다. 시스템에서는 TF-IDF 이외의 다양한 가중치 기법을 제안하고 평가하여, 블로그 분류에 적합한 방식을 찾고자 한다. 또한 다양한 분류기를 적용하여 포스트에 맞는 분류를 결정한다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
IDF란? IDF (Inversed Document Frequency)는 문서 빈도 역수를 이용하여 단어의 희소성이나 정보성을 표현하는 통계적 방법이다. 분류 C에 속하면서 단어 wi를 포함하는 문서를 # 로 표기하고, 이 문서의 개수를 |#|로 표기하자.
TF는 어떻게 계산되나? TF (Term Frequency)는 각 문서에서의 단어 빈도로 단어 가중치를 계산한다. 문서의 크기가 커지면 문서에서 발생한 단어의 절대 빈도도 커지므로, 문서 D에서 발생한 단어 wi의 빈도수 freq(wi,D)에 문서 D의 총 단어수로 나누어, 정규화한 TFD(wi)를 Equation (1)로 구한다.
TF-CTF-IECDF의 계산법은? 다섯 번째 결합으로 TF-CTF-IECDF를 사용한다. TF와 CTF, IECDF를 곱하여 대표 분류에서의 빈도와 이외 분류에서 의 IDF를 반영하여 주제 분별 점수를 계산한다. 여섯 번째 결합으로는 TF-CDF-IDF를 사용하여, CDF를 통해 해당 단어가 대표 분류에서 폭넓게 사용될수록, IDF를 통해 해당 단어가 희소성이 높을수록 높은 점수를 얻도록 한다.
질의응답 정보가 도움이 되었나요?

참고문헌 (12)

  1. Y. J. Kim, "A study on the blog as a media : Focused on media functions and the problems of the blog," Korean Journal of Journalism & Communication Studies, vol. 50, no. 2, pp. 59-90, 2006 (in Korean). 

  2. D. H. Park, W. S. Choi, and H. J. Kim, "Web document classification based on hangeul morpheme and keyword analyses," Transactions of the Korean Information Processing Society Transaction : Part D (Database), vol. 19-D, no. 4, pp. 263-270, 2012 (in Korean). 

  3. S. W. Lee, D. J. Choi, H. W. Jung, and J. H. Lee, "Study of blog auto categorizing based on time periodicity," Proceedings of Korean Institute of Intelligent Systems Spring Conference, vol. 21, no. 1, pp. 86-87, 2011 (in Korean). 

  4. H. Qu, A. L. Pietra, and S. Poon "Automated blog classification: challenges and pitfalls," Association for the Advancement of Artificial Intelligence Spring Symposium : Computational Approaches to Analyzing Weblogs, pp. 184-186, 2006. 

  5. D. Ikeda, H. Takamura, and M. Okumura, "Semi-supervised learning for blog classification," Proceedings of the 23th Association for the Advancement of Artificial Intelligence Conference on Artificial Intelligence, vol. 2, pp. 1156-1161, 2008. 

  6. E. Lex, C. Seifert, M. Cranitzer, and A. Juffinger, "Automated blog classification : A cross domain approach," Proceedings of the International Association for Development of the Information Society, International Conference on WWW/Internet, p. 598, 2009. 

  7. C. Hashimoto and S. Kurohashi, "Blog categorization exploiting domain dictionary and dynamically estimated domains of unknown words," Proceedings of ACL-08, HLT Short Papers, pp 69-72, 2008. 

  8. Stephanie D. Husby and Denilson Barbosa, "Topic classification of blog posts using distant supervision," Proceedings of the 13th Conference of the European Chapter of Association for Computational Linguistics, pp 28-36, 2012. 

  9. M. K. Dalal and M. A. Zaveri, "Automatic classification of unstructured blog text," Journal of Intelligent Learning Systems and Applications, vol. 5, no. 4, pp. 108-114, 2013. 

  10. H. Y. Kim, An Experimental Study on Semi-Supervised Classification of Blog Genres, MS Thesis, Yonsei University, Korea, 2009 (in Korean). 

  11. http://www.cs.waikato.ac.nz/ml/weka/, Accessed July 25, 2014. 

  12. S. A. Kim, H. S. Cho, and H. A. Lee, "Automatic classification of blog posts," Technology of the 25th Annual Conference on Human and Cognitive Language, pp. 160-162, 2013 (in Korean). 

저자의 다른 논문 :

관련 콘텐츠

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로