최소 단어 이상 선택하여야 합니다.
최대 10 단어까지만 선택 가능합니다.
다음과 같은 기능을 한번의 로그인으로 사용 할 수 있습니다.
NTIS 바로가기한국마린엔지니어링학회지 = Journal of the Korean Society of Marine Engineering, v.39 no.1, 2015년, pp.58 - 62
김수아 (Department of Computer Software Engineering, Kumoh National Institute of Technology) , 조희선 (Department of Computer Software Engineering, Kumoh National Institute of Technology) , 이현아 (Department of Computer Software Engineering, Kumoh National Institute of Technology)
Most blog sites provide predefined classes based on contents or topics, but few bloggers choose classes for their posts because of its cumbersome manual process. This paper proposes an automatic blog post classification method that variously combines term frequency, document frequency and class freq...
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
핵심어 | 질문 | 논문에서 추출한 답변 |
---|---|---|
IDF란? | IDF (Inversed Document Frequency)는 문서 빈도 역수를 이용하여 단어의 희소성이나 정보성을 표현하는 통계적 방법이다. 분류 C에 속하면서 단어 wi를 포함하는 문서를 # 로 표기하고, 이 문서의 개수를 |#|로 표기하자. | |
TF는 어떻게 계산되나? | TF (Term Frequency)는 각 문서에서의 단어 빈도로 단어 가중치를 계산한다. 문서의 크기가 커지면 문서에서 발생한 단어의 절대 빈도도 커지므로, 문서 D에서 발생한 단어 wi의 빈도수 freq(wi,D)에 문서 D의 총 단어수로 나누어, 정규화한 TFD(wi)를 Equation (1)로 구한다. | |
TF-CTF-IECDF의 계산법은? | 다섯 번째 결합으로 TF-CTF-IECDF를 사용한다. TF와 CTF, IECDF를 곱하여 대표 분류에서의 빈도와 이외 분류에서 의 IDF를 반영하여 주제 분별 점수를 계산한다. 여섯 번째 결합으로는 TF-CDF-IDF를 사용하여, CDF를 통해 해당 단어가 대표 분류에서 폭넓게 사용될수록, IDF를 통해 해당 단어가 희소성이 높을수록 높은 점수를 얻도록 한다. |
Y. J. Kim, "A study on the blog as a media : Focused on media functions and the problems of the blog," Korean Journal of Journalism & Communication Studies, vol. 50, no. 2, pp. 59-90, 2006 (in Korean).
S. W. Lee, D. J. Choi, H. W. Jung, and J. H. Lee, "Study of blog auto categorizing based on time periodicity," Proceedings of Korean Institute of Intelligent Systems Spring Conference, vol. 21, no. 1, pp. 86-87, 2011 (in Korean).
H. Qu, A. L. Pietra, and S. Poon "Automated blog classification: challenges and pitfalls," Association for the Advancement of Artificial Intelligence Spring Symposium : Computational Approaches to Analyzing Weblogs, pp. 184-186, 2006.
D. Ikeda, H. Takamura, and M. Okumura, "Semi-supervised learning for blog classification," Proceedings of the 23th Association for the Advancement of Artificial Intelligence Conference on Artificial Intelligence, vol. 2, pp. 1156-1161, 2008.
E. Lex, C. Seifert, M. Cranitzer, and A. Juffinger, "Automated blog classification : A cross domain approach," Proceedings of the International Association for Development of the Information Society, International Conference on WWW/Internet, p. 598, 2009.
C. Hashimoto and S. Kurohashi, "Blog categorization exploiting domain dictionary and dynamically estimated domains of unknown words," Proceedings of ACL-08, HLT Short Papers, pp 69-72, 2008.
Stephanie D. Husby and Denilson Barbosa, "Topic classification of blog posts using distant supervision," Proceedings of the 13th Conference of the European Chapter of Association for Computational Linguistics, pp 28-36, 2012.
M. K. Dalal and M. A. Zaveri, "Automatic classification of unstructured blog text," Journal of Intelligent Learning Systems and Applications, vol. 5, no. 4, pp. 108-114, 2013.
H. Y. Kim, An Experimental Study on Semi-Supervised Classification of Blog Genres, MS Thesis, Yonsei University, Korea, 2009 (in Korean).
http://www.cs.waikato.ac.nz/ml/weka/, Accessed July 25, 2014.
S. A. Kim, H. S. Cho, and H. A. Lee, "Automatic classification of blog posts," Technology of the 25th Annual Conference on Human and Cognitive Language, pp. 160-162, 2013 (in Korean).
*원문 PDF 파일 및 링크정보가 존재하지 않을 경우 KISTI DDS 시스템에서 제공하는 원문복사서비스를 사용할 수 있습니다.
오픈액세스 학술지에 출판된 논문
※ AI-Helper는 부적절한 답변을 할 수 있습니다.