[논문]Topic Signature를 이용한 댓글 분류 시스템

배민영; 차정원

Topic Signature를 이용한 댓글 분류 시스템
Comments Classification System using Topic Signature 원문보기

정보과학회논문지. Journal of KIISE. 소프트웨어 및 응용, v.35 no.12, 2008년, pp.774 - 779

초록
AI-Helper

본 논문에서는 토픽 시그너처(Topic Signature)를 이용하여 댓글을 분류하는 시스템에 대해서 설명한다. 토픽 시그너처는 자질을 선택하는 방법으로 문서요약이나 문서분류에서 사용하는 방법이다. 댓글은 문장의 길이가 짧고 띄어쓰기가 거의 없으며 특수문자들이 많은 특성을 가지고 있다. 따라서 우리는 댓글을 7개의 음절로 나누고 이를 다시 Tri-gram으로 나누어 분류의 기본단위로 본다. 이 Tri-gram을 토픽 시그너처를 이용한 학습 단위로 사용하고, 학습한 자질을 베이지안(Bayesian) 모델을 사용하여 분류한다. 다양한 방법의 모델과 비교 실험을 통하여 구현한 시스템의 성능이 기존의 방법보다 상승되었음을 실험 결과를 통해 알 수 있었다.

Abstract ▼ AI-Helper

In this work, we describe comments classification system using topic signature. Topic signature is widely used for selecting feature in document classification and summarization. Comments are short and have so many word spacing errors, special characters. We firstly convert comments into 7-gram. We consider the 7-gram as sentence. We convert the 7-gram into 3-gram. We consider the 3-gram as word. We select key feature using topic signature and classify new inputs by the Naive Bayesian method. From the result of experiments, we can see that the proposed method is outstanding over the previous methods.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

따라서 일반댓글과 악성댓글의 특징을 기반으로 자질을 추출하고 악성댓글 여부를 판단하는 시스템을 구현하고자 한다.
Carmel에 의해 발표 되었다[9]. 이 논문에서는 언어모델을 이용하여 블로그의 본문과 댓글, 댓글이 링크된페이지간의 유사도 비교를 통해 스팸 여부를 판단한다. 그러나 이 논문에서 제안된 방법론은 유사하거나 동일한 내용의 악성댓글이 연속적으로 등록되는 문제에 대해서는 처리하지 못한다.

제안 방법

대한 빈도수를 기록한다. 각 문서집합에서 나타난 총자질의 수와 각 자질의 수를 이용하여 그 단어의 문서집합에서의 확률을 계산한다.
학습하게 된다. 댓글 수집 단계에서중복되는 댓글을 배제하여 동일한 댓글이 반복 학습되는 것을 방지하였으며, 서로 다른 댓글에서 반복적으로나타나는 악성댓글 구간은 학습 가능하도록 하였다. 또한, 악성댓글의 대부분이 띄어쓰기, 맞춤법을 고려하지 않고 비속어의 등록을 위해 단어 사이에 기호들 (주로 .
있다. 두 방법 모두 품사 태거 혹은 명사추출기를 이용, 특정 어절(자질)을 추출하는 방식으로 시스템을 구축하였다. 그러나 악성댓글의 경우 앞서 말한바와 같은 문제로 자질을 추출하는데 있어 오류 발생의 확률이 높아질 수 있다.
하는 작업이 존재했다. 또한, 복잡하고 다양한 평가 방법에 따라 성능을 평가한다.
댓글 수집 단계에서중복되는 댓글을 배제하여 동일한 댓글이 반복 학습되는 것을 방지하였으며, 서로 다른 댓글에서 반복적으로나타나는 악성댓글 구간은 학습 가능하도록 하였다. 또한, 악성댓글의 대부분이 띄어쓰기, 맞춤법을 고려하지 않고 비속어의 등록을 위해 단어 사이에 기호들 (주로 . , / )과 공백을 사용하는 점을 감안하여 불필요한기호와 공백을 제거한 후, 모든 단어를 한 문장에서의문자 나열로 인식하였다. 표 3은 시스템에서 N-gram과grame 식 (1)에 의해 확률이 계산되며 알정 확률 이상의 Tri-grame 자질로 선택된다.
본 논문에서는 댓글의 각 문장을 모두 N-gram으로 나눈 후 2차적으로 Tri-gram으로 나누어 Tri-gram의 출현 빈도와 확률을 계산하는 방식을 이용하였다. 그러나 대부분의 악성댓글의 경우 짧온 문장 길이에도 불구하고 특정 부분에 악성댓글임율 암시하는 단어나 문장이 존재했다.
인터넷으로부터 수집된 댓글은 XML형식으로 만들며, 일반댓글의 경우 과 부분, 악성 댓글의 경우 사용자에 의해 수집된 특정 구간() 의 내용을 학습하여 악성댓글 여부를 판별하는 시스템을 구축하였다.

대상 데이터

실험 데이타는 YAHOO Korea (http://kr.yahoo.com/) 의 정치 뉴스 분야의 기사를 무작위 선택, 댓글을 수집하였으며, 악성댓글의 특정 구간은 사람이 직접 선택하였다. 시스템 평가를 위한 문서 집합은 표 4와 같다.

이론/모형

Chin-yew Lin[13] 에 의해 제안된 Log-likelihood Ratio 기반의 토픽 시 그너 처는 단어 추출(Term Extraction) 방법을 사용한다.

성능/효과

Tri-gram을 이용할 경우 Uni-gram과 Bi-gram을 이용한 경우보다 더 좋은 성능을 보임을 표 6과 표 8을 통해 확인할 수 있다. 또한 토픽 시그너처를 이용한 실험에서 출현빈도에 따른 성능을 측정한 결과 출현빈도가 1일 때 더 좋은 성능을 보임을 실험을 통해 확인할 수 있었다.
본 논문에서 제안 된 시스템은 선행 작업이 존재하지않고, 단순히 패턴 매칭을 통해 분류하므로 악성댓글의여러 특징에 따른 분류의 문제를 해결할 수 있었다 또한 문장의 길이에 큰 영향을 받지 않으며, 변형어의 분류에도 높은 성능을 보였다
본 논문에서는 악성댓글의 특징을 이용하여 단순한 패턴 매칭 방법을 이용한 방법이 악성댓글의 분류 성능을 개선할 수 있다는 것을 보였다. 정형화되지 않은 악성댓글의 다양한 패턴 학습을 통하여 기존 연구에 적용된 선행 작업들(품사부착, 특정 품사추출, 등)이 없이도 전체적인 시스템의 성능 향상이 가능함을 실험 결과로 보여 준다.
개선할 수 있다는 것을 보였다. 정형화되지 않은 악성댓글의 다양한 패턴 학습을 통하여 기존 연구에 적용된 선행 작업들(품사부착, 특정 품사추출, 등)이 없이도 전체적인 시스템의 성능 향상이 가능함을 실험 결과로 보여 준다.

후속연구

이 논문에서는 언어모델을 이용하여 블로그의 본문과 댓글, 댓글이 링크된페이지간의 유사도 비교를 통해 스팸 여부를 판단한다. 그러나 이 논문에서 제안된 방법론은 유사하거나 동일한 내용의 악성댓글이 연속적으로 등록되는 문제에 대해서는 처리하지 못한다.
만약 모든 문장을 N-gram으로 나누지 않고, 악성댓글의 특정 구간을 판별해 낼 수 있다면 더 빠른 속도로악성댓글을 분류할 수 있는 시스템이 구현될 수 있을것이라 생각돤다.

참고문헌 (13)

comment and trackback spam statistics, http://akismet.com/stats/
MIT Spam Conference 2007. http://www.spamconference.org/
Bo Pang, Lillian Lee and Shivakumar Vaithyanathan. Thumbs up? Sentiment Classification using Machine Learning Techniques. EMNLP. pp.79-86. 2002
Soo-Min Kim and Eduard Hovy. Automatic Detection of Opinion Bearing Words and Sentences. IJCNLP. pp.61-66. 2005
Soo-Min Kim and Eduard Hovy. Determining the Sentiment of Opinions. COLING. pp.1367-1373. 2004
Ryan McDonald, Kerry Hannan, Tyler Neylon, Mike Wells and Jeff Reynar. Structured Models for Fine-to-Coarse Sentiment Analysis. EMNLP - CoNLL. pp.432-439. 2007
Spam in blogs, Wikipedia. http://en.wikipedia.org/ wiki/Spam_in_blogs
Movable Type Black Filter, with content filtering http://www.jayallen.org/projects/mt-blacklist/
Mishne G., D. Carmel. Blocking Blog Spam with Language Model Disagreement. 1st International Workshop on Adversarial Information Retrieval on the Web. pp.1-6. 2005
Preventing comment spam using "nofollow" tag (2005). http://googleblog.blogspot.com/2005/01/preventing-comment-spam.html
전희원, 임해창. 본문과 덧글의 동시출현 자질을 이용한 역 카이 제곱 기반 블로그 덧글 스팸 필터 시스템. 한글 및 한국어 정보처리 학술대회 19th. pp.122-127. 2007
김묘실, 강승식. SVM을 이용한 악성 댓글 판별 시스템의 설계 및 구현. 한글 및 한국어 정보처리 학술대회 18th. pp.285-289. 2006
Chin-Yew Lin and Eduard Hovy. The Automated Acquisition of Topic Signatures for Text Summarization. COLING 18th. pp.495-500. 2000

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증