최근 뉴스, 블로그, 소셜미디어 등을 통해 방대한 양의 비정형 텍스트 데이터가 쏟아져 나오고 있다. 이러한 비정형 텍스트 데이터는 풍부한 정보 및 의견을 거의 실시간으로 반영하고 있다는 측면에서 그 활용도가 매우 높아, 학계는 물론 산업계에서도 분석 수요가 증가하고 있다. 하지만 텍스트 데이터의 유용성이 증가함과 동시에 이러한 텍스트 데이터를 왜곡하여 특정 목적을 달성하려는 시도도 늘어나고 있다. 이러한 스팸성 텍스트 데이터의 증가는 방대한 정보 가운데 필요한 정보를 획득하는 일을 더욱 어렵게 만드는 것은 물론, 정보 자체 및 정보 제공 매체에 대한 신뢰도를 떨어뜨리는 현상을 초래하게 된다. 따라서 원본 데이터로부터 스팸성 데이터를 식별하여 제거함으로써, 정보의 신뢰성 및 분석 결과의 품질을 제고하기 위한 노력이 반드시 필요하다. 이러한 목적으로 스팸을 식별하기 위한 연구가 오피니언 스팸 탐지, 스팸 이메일 검출, 웹 스팸 탐지 등의 분야에서 매우 활발하게 수행되었다. 본 연구에서는 스팸 식별을 위한 기존의 연구 동향을 자세히 소개하고, 블로그 정보의 신뢰성 향상을 위한 방안 중 하나로 블로그의 스팸 태그를 식별하기 위한 방안을 제안한다.
최근 뉴스, 블로그, 소셜미디어 등을 통해 방대한 양의 비정형 텍스트 데이터가 쏟아져 나오고 있다. 이러한 비정형 텍스트 데이터는 풍부한 정보 및 의견을 거의 실시간으로 반영하고 있다는 측면에서 그 활용도가 매우 높아, 학계는 물론 산업계에서도 분석 수요가 증가하고 있다. 하지만 텍스트 데이터의 유용성이 증가함과 동시에 이러한 텍스트 데이터를 왜곡하여 특정 목적을 달성하려는 시도도 늘어나고 있다. 이러한 스팸성 텍스트 데이터의 증가는 방대한 정보 가운데 필요한 정보를 획득하는 일을 더욱 어렵게 만드는 것은 물론, 정보 자체 및 정보 제공 매체에 대한 신뢰도를 떨어뜨리는 현상을 초래하게 된다. 따라서 원본 데이터로부터 스팸성 데이터를 식별하여 제거함으로써, 정보의 신뢰성 및 분석 결과의 품질을 제고하기 위한 노력이 반드시 필요하다. 이러한 목적으로 스팸을 식별하기 위한 연구가 오피니언 스팸 탐지, 스팸 이메일 검출, 웹 스팸 탐지 등의 분야에서 매우 활발하게 수행되었다. 본 연구에서는 스팸 식별을 위한 기존의 연구 동향을 자세히 소개하고, 블로그 정보의 신뢰성 향상을 위한 방안 중 하나로 블로그의 스팸 태그를 식별하기 위한 방안을 제안한다.
Recently, tremendous amounts of unstructured text data that is distributed through news, blogs, and social media has gained much attention from many researchers and practitioners as this data contains abundant information about various consumers' opinions. However, as the usefulness of text data is ...
Recently, tremendous amounts of unstructured text data that is distributed through news, blogs, and social media has gained much attention from many researchers and practitioners as this data contains abundant information about various consumers' opinions. However, as the usefulness of text data is increasing, more and more attempts to gain profits by distorting text data maliciously or nonmaliciously are also increasing. This increase in spam text data not only burdens users who want to obtain useful information with a large amount of inappropriate information, but also damages the reliability of information and information providers. Therefore, efforts must be made to improve the reliability of information and the quality of analysis results by detecting and removing spam data in advance. For this purpose, many studies to detect spam have been actively conducted in areas such as opinion spam detection, spam e-mail detection, and web spam detection. In this study, we introduce core concepts and current research trends of spam detection and propose a methodology to detect the spam tag of a blog as one of the challenging attempts to improve the reliability of blog information.
Recently, tremendous amounts of unstructured text data that is distributed through news, blogs, and social media has gained much attention from many researchers and practitioners as this data contains abundant information about various consumers' opinions. However, as the usefulness of text data is increasing, more and more attempts to gain profits by distorting text data maliciously or nonmaliciously are also increasing. This increase in spam text data not only burdens users who want to obtain useful information with a large amount of inappropriate information, but also damages the reliability of information and information providers. Therefore, efforts must be made to improve the reliability of information and the quality of analysis results by detecting and removing spam data in advance. For this purpose, many studies to detect spam have been actively conducted in areas such as opinion spam detection, spam e-mail detection, and web spam detection. In this study, we introduce core concepts and current research trends of spam detection and propose a methodology to detect the spam tag of a blog as one of the challenging attempts to improve the reliability of blog information.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
이러한 유형의 스패밍은 글의 내용만을 가지고 진위를 판단해야 할 뿐만 아니라, 태그 전체가 아닌 태그의 일부가 스팸인 경우까지 감안해야 한다는 점에서 해결이 매우 어렵다. 따라서 본 연구에서는 블로그의 스팸성 태그 식별을 위해, 포스팅과 태그 간 연결 고리에 초점을 맞추어 글의 내용 자체를 분석함으로써 내용과 부합하지 않는 스팸 태그를 검출하는 방법론을 제안한다.
하지만 이러한 접근법을 따르는 연구는 메타 데이터를 충분히 활용할 수 없는 컨텐츠의 스팸 식별에는 적용되기 어렵다는 한계를 갖는다. 따라서 본 연구에서는 스팸으로 인한 파급 효과가 큰 매체 중 메타 데이터 기반 스팸 탐지 기법의 적용이 용이하지 않은 대표적 분야인 블로그에 대해, 블로그 스팸 태그 탐지 방법론을 제안하고자 한다.
Module1은 단일 문서 기반 스팸 태그 탐지 방법을 나타내며, 이는 그림 2의 프로세스 (1) ~ (3)에 해당된다. 본 방법론은 포스트 본문에 출현한 주요 용어와 해당 포스트 태그의 비교를 통해 스팸 태그를 탐지하는 것을 기본으로 하며, 이를 위해 포스트 본문에 출현한 주요 용어를 추출하는 과정이 우선적으로 선행된다. 포스트 본문을 대상으로 텍스트 파싱을 수행하여 각 포스트별 출현 용어를 추출하며, 이 때 분석의 품질을 향상시키기 위해 Stop List를 구축하여 적용한다.
원본 데이터로부터 스팸성 데이터를 식별하여 제거함으로써 정보의 신뢰성 및 분석 결과의 품질을 제고하기 위한 연구가 이메일 스팸 검출, 웹 스팸 탐지, 오피니언 스팸 탐지 등의 분야에서 매우 활발히 수행되어 왔다. 본 연구에서는 스팸 식별을 위한 기존의 연구 동향을 소개하고, 블로그 정보의 신뢰성 향상을 위한 스팸 태그 식별 방안을 새롭게 제안하였다. 제안 방법론은 포스트 본문 또는 태그 자체가 아닌 본문과 태그의 연결의 적합성에 따라 스팸 여부를 판정하며, 태그와 단일 문서의 관련성 뿐 아니라 태그와 문서그룹의 관련성을 동시에 고려했다는 점에서 기존 연구와 차별성을 갖는다.
본 절에서는 블로그 스팸 태그 탐지 방법론을 제안한다. 스팸이란 용어는 관점에 따라 다양한 의미로 정의될 수 있으며, 본 연구에서 스팸 태그는 태그가 속해있는 문서의 주제와 부합하지 않는 태그, 즉 글의 주제와 직접적인 연관이 없는 태그를 나타내는 것으로 정의한다.
제안 방법
대표적으로 다음소프트의 소셜미디어 분석 솔루션인 ‘소셜 메트릭스’는 문맥 중심의 텍스트 마이닝 작업을 통해 각 데이터의 출현 원인 및 데이터들 사이의 관계를 도식화하여 제공하고 있으며, 와이즈넛은 트위터, 페이스북, 블로그, 카페 등에 올라온 대선 후보 관련 버즈(Buzz)를 분석하기 위한 ‘버즈인사이트바이럴 지수(BVI)’를 개발하여 제공하였다.
하지만 Module1의 단일 문서 기반 스팸 태그 탐지 방법론은 포스트 본문의 내용과 관련이 있음에도 본문에 출현하지 않는 태그가 존재할 경우, 해당 태그는 포스트 본문 내용과 부합하지 않는 것으로 간주되어 스팸 태그로 오인된다는 한계를 갖는다. 따라서 이러한 문제를 해결하기 위해 본 연구에서는 Module2 문서그룹 기반 스팸 태그 탐지 방법론을 제안하며, 이는 그림 2의 프로세스 (4) ~ (7)에 해당된다. 문서그룹 기반 스팸 태그 탐지 방법은 특정 태그가 해당 포스트 본문에는 출현하지 않았으나 해당 포스트와 유사한 다른 포스트의 본문에 출현한 경우 해당 태그를 유효한 태그로 인정한다.
본 연구에서는 한국의 대표적인 포털사이트 ‘N’사의 블로그 포스트 중 태그를 포함하고 있는 블로그 포스트 8,000건을 수집하였다. 이 가운데 일상적인 내용이나 이미지가 주를 이루는 포스트들이 실험 결과에 미치는 영향을 최소화하기 위하여 토픽분석을 통해 샘플링을 수행하고, 주요 토픽에 미치는 영향이 큰 포스트만을 추출하여 분석에 사용하였다. 토픽분석을 통해 샘플링 작업을 수행한 결과 각 포스트의 토픽 가중치가 0.
이렇게 도출된 포스트별 주요 용어와 포스트 태그를 비교하여 표 1과 같이 각 태그의 포스트 본문 내 출현 빈도수를 추출한 후 문서 기반의 스팸 탐지를 수행하였다. 스팸 판정을 위한 임계값(Threshold)변화에 따른 분석 결과가 표 2와 그림 4에 나타나있다.
이렇게 추출된 포스트 그룹별 주요 용어와 포스트 태그에 대한 비교 분석을 통해 문서그룹 기반의 스팸 탐지 분석을 수행하였다. 표 4는 포스트별 태그의 포스트 본문 내 출현 빈도수, 각 태그가 속한 포스트 그룹 내에서 해당 태그가 출현한 문서 수, 해당 포스트 그룹의 총 문서 수, 그리고 해당 태그가 속한 포스트 그룹의 총 문서 수에 대한 태그 출현 문서 수의 비율을 나타내고 있다.
이처럼 스팸이 아님에도 불구하고 해당 포스트 본문에 출현하지 않아 정상 태그가 스팸으로 오인되는 부작용을 완화하기 위해 문서그룹 기반의 스팸 태그 탐지 분석을 수행하였다. 이를 위해 Module1에서 추출한 포스트별 주요 용어를 사용하여 클러스터링을 수행하였으며, 그 결과 총 20개의 포스트 그룹을 도출하였다. 표 3은 해당 결과의 일부를 보여주고 있으며, 표에서 Freq.
표 1에서 “가로수길맛집” 태그의 경우, 포스트 본문 내용과 관련이 있음에도 불구하고 포스트 본문에 출현하지 않아 스팸 태그로 오인된 예이다. 이처럼 스팸이 아님에도 불구하고 해당 포스트 본문에 출현하지 않아 정상 태그가 스팸으로 오인되는 부작용을 완화하기 위해 문서그룹 기반의 스팸 태그 탐지 분석을 수행하였다. 이를 위해 Module1에서 추출한 포스트별 주요 용어를 사용하여 클러스터링을 수행하였으며, 그 결과 총 20개의 포스트 그룹을 도출하였다.
이를 위해, Module2에서는 Module1의 프로세스 (1)을 통해 식별한 포스트별 주요 용어를 활용하여 클러스터링을 수행함으로써 포스트 그룹을 도출한다. 이후 Module1과 유사한 방식으로 포스트 그룹별 주요 용어 집합을 도출하고, 이들 집합과 포스트별 태그의 비교를 통해 스팸 태그를 탐지한다. 제안 방법론의 상세 내용은 다음 절의 실험을 통해 소개한다.
이후, 포스트 태그와의 비교를 수행하기에 앞서, 포스트 태그의 정제작업을 수행하였다. 일반적으로 태그는 사용자가 직접 정의하고 자유롭게 사용할 수 있기 때문에 그 길이가 너무 짧거나 길 수 있으며, 그 범위 또한 매우 포괄적이거나 지엽적일 수 있다.
제안 방법론은 Module1의 단일 문서 기반 스팸 탐지 방법과 Module2의 문서그룹 기반 스팸 탐지 방법으로 구성되어 있다. 우선 Module1은 포스트 본문을 대상으로 (1) Text Parsing을 통해 포스트별 주요 용어를 추출하고, (2) 도출된 포스트별 주요 용어와 포스트 태그를 비교한다.
본 연구에서는 스팸 식별을 위한 기존의 연구 동향을 소개하고, 블로그 정보의 신뢰성 향상을 위한 스팸 태그 식별 방안을 새롭게 제안하였다. 제안 방법론은 포스트 본문 또는 태그 자체가 아닌 본문과 태그의 연결의 적합성에 따라 스팸 여부를 판정하며, 태그와 단일 문서의 관련성 뿐 아니라 태그와 문서그룹의 관련성을 동시에 고려했다는 점에서 기존 연구와 차별성을 갖는다. 향후 연구에서는 제안 방법론의 객관적 성능 평가를 위해, 스팸 여부가 명시된 포스트 태그를 활용한 실험이 이루어져야 한다.
본 방법론은 포스트 본문에 출현한 주요 용어와 해당 포스트 태그의 비교를 통해 스팸 태그를 탐지하는 것을 기본으로 하며, 이를 위해 포스트 본문에 출현한 주요 용어를 추출하는 과정이 우선적으로 선행된다. 포스트 본문을 대상으로 텍스트 파싱을 수행하여 각 포스트별 출현 용어를 추출하며, 이 때 분석의 품질을 향상시키기 위해 Stop List를 구축하여 적용한다. 이렇게 추출된 포스트별 주요 용어는 포스트별 유효 태그의 식별에 사용되며, 각 태그가 해당 포스트 내에 출현한 빈도수를 기반으로 스팸 태그 탐지가 이루어진다.
대상 데이터
하지만 이 과정에서 Stop List를 적용하였음에도 불구하고, 영어에 최적화되어 있는 SAS 패키지의 특성상 형태소 분석이 제대로 이루어지지 않아 의미 없는 용어가 다수 추출되었다. 따라서 추가 정제 작업을 통해 한 글자 용어, 특수문자 등을 제거하여 최종적으로 총 194,207개의 포스트별 주요 용어를 추출하였다.
본 연구에서는 한국의 대표적인 포털사이트 ‘N’사의 블로그 포스트 중 태그를 포함하고 있는 블로그 포스트 8,000건을 수집하였다.
일반적으로 태그는 사용자가 직접 정의하고 자유롭게 사용할 수 있기 때문에 그 길이가 너무 짧거나 길 수 있으며, 그 범위 또한 매우 포괄적이거나 지엽적일 수 있다. 이러한 부작용을 완화하기 위해 본 연구에서는 길이가 10 이하인 태그만을 추출하여 분석에 사용하였으며, 그림 3은 추출된 포스트별 주요 용어와 태그의 일부를 나타낸다.
제안 방법론의 실제 적용 가능성을 알아보기 위해 실제 블로그 데이터를 대상으로 실험을 수행하였다. 본 연구에서는 한국의 대표적인 포털사이트 ‘N’사의 블로그 포스트 중 태그를 포함하고 있는 블로그 포스트 8,000건을 수집하였다.
이 가운데 일상적인 내용이나 이미지가 주를 이루는 포스트들이 실험 결과에 미치는 영향을 최소화하기 위하여 토픽분석을 통해 샘플링을 수행하고, 주요 토픽에 미치는 영향이 큰 포스트만을 추출하여 분석에 사용하였다. 토픽분석을 통해 샘플링 작업을 수행한 결과 각 포스트의 토픽 가중치가 0.2 이상인 포스트 1,719건을 추출하였으며, 최종적으로 추출된 포스트 1,719건과 그에 해당하는 태그 8,397건을 분석에 사용하였다.
성능/효과
(b) Movie 관련 포스팅에 “Avengers”, “Black Widow”, “Scarlett Johansson”이라는 태그가 연결되어 있으며, 이 경우 모든 태그의 연결은 적절한 것으로 보인다.
포스트 그룹은 포스트 본문에 대한 토픽 모델링을 통해 유사 내용을 다룬 포스트를 그룹화한 것이므로, PG1에 속한 모든 포스트들은 유사 내용을 다루고 있는 것으로 가정할 수 있다. 따라서 각 태그에 대해 PG1에 속한 모든 포스트들은 동일한 판정을 내리는 것이 합리적이며, 이러한 측면에서 표 6의 맨 우측에 제시된 Module2에 따른 판정은 바람직한 특성을 갖고 있다고 할 수 있다. 하지만 이와 달리 Decision based on single Doc.
우선, 수집된 포스트 본문 1,719건을 대상으로 SAS Enterprise Miner 14.1의 텍스트 마이닝 모듈을 사용하여 텍스트 파싱을 수행하였으며, 그 결과 총 211,093개의 용어(명사)가 도출되었다. 하지만 이 과정에서 Stop List를 적용하였음에도 불구하고, 영어에 최적화되어 있는 SAS 패키지의 특성상 형태소 분석이 제대로 이루어지지 않아 의미 없는 용어가 다수 추출되었다.
후속연구
문서그룹 기반 스팸 태그 탐지 방법은 특정 태그가 해당 포스트 본문에는 출현하지 않았으나 해당 포스트와 유사한 다른 포스트의 본문에 출현한 경우 해당 태그를 유효한 태그로 인정한다. 이를 통해 Module1에서 발현된 한계, 즉 포스트 본문과 관련이 있음에도 본문에 직접 출현하지 않아 스팸으로 오인된 태그를 햄(Ham) 태그로 인식함으로써 보다 정확한 스팸 탐지가 이루어질수 있다. 이를 위해, Module2에서는 Module1의 프로세스 (1)을 통해 식별한 포스트별 주요 용어를 활용하여 클러스터링을 수행함으로써 포스트 그룹을 도출한다.
따라서 위의 실험 결과는 출현 빈도의 임계값 변화에 따라 스팸으로 오분류되는 정상 태그의 비율에 대한 분포를 파악하는 정도의 의미만을 갖는 것으로 이해해야 한다. 제안 방법론에 따른 스팸 탐지의 정확성 평가를 위해서는 향후 명시적인 스팸 데이터를 추가 수집하거나 인위적으로 스팸 태그를 삽입하여 판별 비율을 살펴볼 필요가 있다.
제안 방법론은 포스트 본문 또는 태그 자체가 아닌 본문과 태그의 연결의 적합성에 따라 스팸 여부를 판정하며, 태그와 단일 문서의 관련성 뿐 아니라 태그와 문서그룹의 관련성을 동시에 고려했다는 점에서 기존 연구와 차별성을 갖는다. 향후 연구에서는 제안 방법론의 객관적 성능 평가를 위해, 스팸 여부가 명시된 포스트 태그를 활용한 실험이 이루어져야 한다.
질의응답
핵심어
질문
논문에서 추출한 답변
태그 스패밍이 야기할 수 있는 문제점은 무엇인가?
예를 들어, 내용과 다른 태그를 설정하여 사용자를 유인하는 태그 스패밍의 경우 포스팅 내용에도 문제가 없고 태그 자체에도 문제가 없음에도 불구하고, 포스팅 내용에 부합되지 않는 태그의 연결이 스팸의 문제를 야기할 수 있다. 이는 그림 1을 통해 보다 자세히 설명된다.
스팸 데이터는 어떤 유형으로 나타나고 있는가?
이러한 스팸 데이터는 이메일(E-mail), SNS(Social Network Service), 블로그(Bolg) 등 다양한 유형으로 나타나고 있다. 이메일 스팸의 경우, 가장 고전적인 스팸 유형으로 정크 메일(Junk Mail) 혹은 벌크 메일(Bulk Mail)이라고도 불리며, 커뮤니티 사이트나 게시판 등에 게재되어 있는 이메일 주소를 수집하거나 단어나 숫자를 조합하여 수신자 이메일 주소를 생성해 원치 않는 상업적 이메일을 전송하는 방식으로 이루어진다.
스팸성 태그의 부작용을 방지하기 위한 연구들의 한계점은 무엇인가?
이러한 현상은 트위터의 영향력 및 스팸으로 인한 파급 효과가 매우 크기 때문이기도 하지만 사용자 계정, 사용자 사이의 네트워크 구조, 사용자 정보 등 메타 데이터를 활용한 스팸 탐지가 가능하다는 점에 기인한 측면이 있다. 하지만 이러한 접근법을 따르는 연구는 메타 데이터를 충분히 활용할 수 없는 컨텐츠의 스팸 식별에는 적용되기 어렵다는 한계를 갖는다. 따라서 본 연구에서는 스팸으로 인한 파급 효과가 큰 매체 중 메타 데이터 기반 스팸 탐지 기법의 적용이 용이하지 않은 대표적 분야인 블로그에 대해, 블로그 스팸 태그 탐지 방법론을 제안하고자 한다.
참고문헌 (38)
Economist Intelligence Unit, Big Data Harnessing a Game-Changing Asset, The Economist, 2011.
McKinsey Global Institute, Big Data: The next Frontier for Innovation, Competition, and Productivity, McKinsey and Company, 2011.
C. Chen, J. Zhang, Y. Xiang, and W. Zhou, "Spammers are becoming "Smarter" on twitter," Browse J. & Mags., vol. 18, no. 2, 2016.
B. Liu, Sentiment analysis and opinion mining, syntehesis lectures on human language technologies #16, Morgan & Claypool Publisiers, 2012.
M. Egele, G. Stringhini, C. Kruegel, and G. Vigna, "Compa: Detecting compromised accounts on social networks," in Proc. Ann. Netw. Distrib. Syst. Security Symp., San Diego, CA, 2013.
J. Song, S. Lee, and J. Kim, "Spam filtering in twitter using sender-receiver relationship. Recent advances in intrusion detection," Int. Workshop on Recent Advances in Intrusion Detection, pp. 301-317, Heidelberg, Berlin, Sept. 2011.
S. Yarde, D. Romero, G. Schoenebeck, and D. Boyd, "Detecting spam in a twitter network," First Monday, vol. 15, no. 1, Jan. 2010.
A. H. Wang, "Don't follow me: Spam detection in twitter," IEEE SECRYPT, pp. 1-10, Athens, Greece, Jul. 2010.
Y. Ma, Y. Niu, Y. Ren, and Y. Xue, "Detecting spam on sina weibo," CCIS, Oct. 2013.
S. Lee and J. Kim, "Warningbird: A near real-time detection system for suspicious URLs in twitter stream," IEEE Trans. Dependable and Secure Comput., vol. 10, no. 3, pp. 183-195, Jan. 2013.
J. Han, M. Kamber, and J. Pei, Data Mining: Concepts and Techniques, 3rd Ed., Morgan Kaufmann Publishers, 2011.
R. J. Mooney and R. Bunescu, "Mining knowledge from text using information extraction," ACM SIGKDD Explorations Newsletter - Natural Lang. Process. and Text Mining, vol. 7, no. 1, pp. 3-10, Jun. 2006.
C. J. V. Rijsbergen, Information Retrieval, 2nd Ed., Butterworth, London, 1979.
K. Kim and H. Ahn. "Development of web-based intelligent recommender systems using advanced data mining techniques," J. Inf. Technol. Appl. Management, vol. 12, no. 3, pp. 41-56, Sept. 2005.
J. Hur and J. W. Kim, "Characteristics on inconsistency pattern modeling as hybrid data mining techniques," J. Inf. Technol. Appl. Management, vol. 15, no. 1, pp. 225-242, Mar. 2008.
I. Hwang, "A study on dynamic query expansion using web mining in information retrieval," J. Inf. Technol. Appl. Management, vol. 11, no. 2, pp. 227-237, Jun. 2004.
T. N. Phan and M. Yoo, "Facebook fan page evaluation system based on user opinion mining," The J. Korean Inst. Commun. and Inf. Sci., vol. 40, no. 12, pp. 2488-2490, Dec. 2015.
J. Moon, I. Jang, Y. C. Choe, J. G. Kim, and G. Bock, "Case study of big data-based agri-food recommendation system according to types of customers," The J. Korean Inst. Commun. Inf. Sci., vol. 40, no. 5, pp. 903-913, May 2015.
R. Albright, Taming Text with the SVD, SAS Institute Inc., 2006.
G. Salton, A. Wong, and C. S. Yang, "A vector space model for automatic indexing," Commun. ACM, vol. 18, no. 11, pp. 613-620, Nov. 1975.
S. M. Weiss, N. Indurkhya, and T. Zhang, Fundamentals of Predictive Text Mining, Springer, 2010.
J. Kim, N. Kim, and Y. Cho, "Userperspective issue clustering using multilayered two-mode network analysis," J. Intell. Inf. Syst., vol. 20, no. 2, pp. 93-107, Jun. 2014.
Y. Hyun, N. Kim, and Y. Cho, "A multi-dimensional issue clustering from the perspective consumers' interests and R&D," J. Inf. Technol. Serv., vol. 14, no. 1, pp. 237- 249, Mar. 2015.
S. Choi, Y. Hyun, and N. Kim, "Improving performance of recommendation systems using topic modeling," J. Intell. Inf. Syst., vol. 21, no. 3, pp. 101-116, Sept. 2015.
Y. Hyun, N. Kim, and Y. Cho, "Interest-based customer segmentation methodology using topic modeling," J. Inf. Technol. Appl. & Management, vol. 22, no. 1, pp. 77-93, Mar. 2015.
D. Kim, W. X. S. Wong, M. Lim, C. Liu, N. Kim, J. Park, W. Kil, and H. Yoon, "A methodology for analyzing public opinion about science and technology issues using text analysis," J. Inf. Technol. Serv., vol. 14, no. 3, pp. 33-48, Sept. 2015.
M. Lim and N. Kim, "Investigating dynamic mutation process of issues using unstructured text analysis," J. Intell. Inf. Syst., vol. 22, no. 1, pp. 1-18, Mar. 2016.
M. Sahami, S. Dumais, D. Heckerman, and E. Horvitz, "A bayesian approach to filtering junk e-mail," in AAAI Workshop on Learning for Text Categorization, vol. 62, pp. 98-105, Jul. 1998.
X. Jia, K. Zheng, W. Li, T. Liu, and L. Shang, "Three-way decisions solution to filter spam email: An empirical study," Int. Conf. Rough Sets and Current Trends in Comput., pp. 287-296, Heidelberg, Berlin, Aug. 2012.
I. Joe and H. T. Shim, "A SVM-based spam filtering system for short message service (SMS)," J. KICS, vol. 34, no. 9, pp. 908-913, Sept. 2009.
B. Klimt and Y. Yang, "Introducing the enron corpus," CEAS 2004, First Conf. Email and Anti-Spam, California, USA, Jul. 2004.
Z. Gyongyi, H. Garcia-Molina, and J. Pedersen, "Combating web spam with trustrank," VLDB '04, pp. 576-587, Toronto, Canada, Aug. 2004.
Z. Gyongyi, P. Berkhin, H. Garcia-Molina, and J. Pedersen, "Link spam detection based on mass estimation," VLDB '06, pp. 439-450, Seoul, Korea, Sept. 2006.
A. Ntoulas, M. Najork, M. Manasse, and D. Retterly, "Detecting spam web pages through content analysis," in Proc. 15th Int. Conf. World Wide Web, pp. 83-92, Edinburgh, Scotland, May 2006.
P. Xanthopoulos, O. P. Panagopoulos, G. A. Bakamitsos, and E. Freudmann, "Hashtag hijacking: What it is, why it happens and how to avoid it," J. Digital & Social Media Marketing, vol. 3, no. 4, pp. 353-362, Feb. 2016.
S. Sedhai and A. Sun, "Effect on spam on hashtag recommendation for tweets," in Proc. 25th Int. Conf. Companion on World Wide Web, pp. 97-98, Quebec, Canada, Apr. 2016.
J. Jung and M. Yoo, "Tag search system using the keyword extraction and similarity evaluation," The J. Korean Inst. Commun. Inf. Sci., vol. 40, no. 12, pp. 2458-2487, Dec. 2015.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.