최소 단어 이상 선택하여야 합니다.
최대 10 단어까지만 선택 가능합니다.
다음과 같은 기능을 한번의 로그인으로 사용 할 수 있습니다.
NTIS 바로가기정보처리학회논문지. The KIPS transactions. Part B. Part B, v.17B no.3, 2010년, pp.249 - 254
이성욱 (국립충주대학교 컴퓨터정보공학과)
We propose an automatic spam filter for e-mail data using Support Vector Machines(SVM). We use a lexical form of a word and its part of speech(POS) tags as features and select features by chi square statistics. We represent each feature by TF(text frequency), TF-IDF, and binary weight for experiment...
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
핵심어 | 질문 | 논문에서 추출한 답변 |
---|---|---|
스팸메일이란 무엇인가? | 스팸메일이란 불특정 다수에게 수신자의 동의 없이 발송되며, 수신자에게 불필요한 정보를 담고있는 전자우편을 뜻하며, 이러한 스팸메일은 사용자의 불편을 초래할 뿐만 아니라 이메일 시스템에 상당한 부하를 준다. 이러한 스팸메일을 차단하는 스팸메일 필터링에 관한 연구가 활발히 진행되고 있는데, 대부분의 연구는 베이지안 분류기를 기반으로 하고 있으며[1-5], 그 외, 마코프 랜덤 필드(Markov Random Field) 모델[6]과 k-Nearest Neighbor(k-NN) 방법[7], 최대 엔트로피 모형을 이용한 방법[10], 지지벡터기계(Support Vector Machine)를 이용한 연구[12, 13]가 있다. | |
베이지안 분류기에 기반한 시스템의 단점은 무엇인가? | 이러한 베이지안 분류기에 기반한 시스템은 베이지안 분류기가 각 자질의 독립을 가정하고 있으므로 새로 들어오는 문서에 의해 각 자질의 가중치만 새로 계산하면 되며, 전체 학습 데이터를 다시 학습할 필요가 없는 장점이 있다. 반면 각 자질의 독립을 가정하고 있는 분류기의 특성상 문맥 정보를 반영할 수 없는 단점이 있으며, 보통 이를 극복하기 위해 다양한 분류기의 결합을 시도한다. | |
베이지안 분류기에 기반한 시스템의 장점은 무엇인가? | 다이그래믹(digramic) 베이시안 분류기를 이용한 시스템[5]은 각 클래스에서 최대 엔트로피를 이용한 파라미터를 계산 하여 그 값을 베이지안 분류기법에 이용하여 문서의 클래스를 결정한다. 이러한 베이지안 분류기에 기반한 시스템은 베이지안 분류기가 각 자질의 독립을 가정하고 있으므로 새로 들어오는 문서에 의해 각 자질의 가중치만 새로 계산하면 되며, 전체 학습 데이터를 다시 학습할 필요가 없는 장점이 있다. 반면 각 자질의 독립을 가정하고 있는 분류기의 특성상 문맥 정보를 반영할 수 없는 단점이 있으며, 보통 이를 극복하기 위해 다양한 분류기의 결합을 시도한다. |
V. Keselj, E. Milios, A. Tuttle, S. Wang, and R. Zhang. "TREC 2005 Spam Track: Spam Filtering Using N-grambased Techniques", Proceedings of Text REtrieval Conference, 2005.
김현준, 정재은, 조근식, "가중치가 부여된 베이지안 분류자를 이용한 스팸메일 필터링 시스템," 정보과학회논문지, 31권 8호, pp.1092-1100, 2004 [
R. Segal. "IBM SpamGuru on the TREC 2005 Spam Track," Proceedings of Text REtrieval Conference, 2005.
Al Brakto, B. Filipic. "Spam Filtering Using Character-Level Markov Models: Experiments for the TREC 2005 Spam Track," Proceedings of Text REtrieval Conference, 2005.
L. A. Breyer. "DBACL at the TREC 2005," Proceedings of Text REtrieval Conference, 2005.
F. Assis, W. Yerazunis, C. Siefkes, and S. Chhabra. "CRM114 versus Mr. X: CRM114 Notes for the TREC 2005 Spam Track," Proceedings of Text REtrieval Conference, 2005.
W. Cao, A. An, and X. Huang. "York University at TREC 2005: SPAM Track," Proceedings of Text REtrieval Conference, 2005.
V. Vapnik. The nature of statistical learning theory, Springer, NewYork, 1995.
http://www.csie.ntu.edu.tw/~cjlin/libsvm
Yiming Yang and Jan O. Pedersen. "A comparative study on Feature selection in text categorization," proceedings of the 14th International conference on Machine Learning, 1997.
H. Drucker, V. Vapnik, and D. Wu. "Support vector machines for spam categorization," IEEE Transactions on Neural Networks, Vol.10, No.5, pp.1048-1054, 1999.
G. V. Cormack and T. R. Lynam. "TREC 2005 spam track overview," The Fourteenth Text REtrieval Conference (TREC 2005) Proceedings, 2005.
G. V. Cormack and T. R. Lynam. "On-line supervised spam filter evaluation," Technical report, David R. Cheriton School of Computer Science, University of Waterloo, Canada, 2006.
http://nlp.kookmin.ac.kr/HAM/kor/index.html
http://web.media.mit.edu/~hugo/montylingua
http://plg.uwaterloo.ca/~gvcormac/treccorpus/
Martin Law. "A simple introduction to Support Vector Machines," 2003.
*원문 PDF 파일 및 링크정보가 존재하지 않을 경우 KISTI DDS 시스템에서 제공하는 원문복사서비스를 사용할 수 있습니다.
출판사/학술단체 등이 한시적으로 특별한 프로모션 또는 일정기간 경과 후 접근을 허용하여, 출판사/학술단체 등의 사이트에서 이용 가능한 논문
※ AI-Helper는 부적절한 답변을 할 수 있습니다.