최근 들어 블로그가 제공하는 정보를 활용하여 외식업소를 선택하는 사용자가 크게 늘고 있다. 그러나 국내의 외식관련 블로그들은 파워 블로거에 의한 광고 블로그들이 다수를 차지하고 있어 신뢰성을 잃은 지 오래다. 따라서 블로그의 신뢰성을 확보하기 위해서는 허위 또는 과장되게 작성된 광고 블로그들을 필터링하는 기술이 필수적이다. 본 논문에서는 자동분류 기술을 이용하여 광고 블로그들을 판별하는 기법을 제안한다. 제안된 기법에서는 우선 외식 블로그들 중에서 광고 블로그로 판명된 블로그들을 수집하고 이들에 공통적으로 나타나는 특징들을 분석하였다. 이렇게 추출된 특징들을 이용하여 데이터 마이닝의 자동 분류 알고리즘을 적용하여 광고 블로그 여부를 판단하였다. 또한 다양한 실험을 통해 최적의 알고리즘과 특징들을 선별하였다.
최근 들어 블로그가 제공하는 정보를 활용하여 외식업소를 선택하는 사용자가 크게 늘고 있다. 그러나 국내의 외식관련 블로그들은 파워 블로거에 의한 광고 블로그들이 다수를 차지하고 있어 신뢰성을 잃은 지 오래다. 따라서 블로그의 신뢰성을 확보하기 위해서는 허위 또는 과장되게 작성된 광고 블로그들을 필터링하는 기술이 필수적이다. 본 논문에서는 자동분류 기술을 이용하여 광고 블로그들을 판별하는 기법을 제안한다. 제안된 기법에서는 우선 외식 블로그들 중에서 광고 블로그로 판명된 블로그들을 수집하고 이들에 공통적으로 나타나는 특징들을 분석하였다. 이렇게 추출된 특징들을 이용하여 데이터 마이닝의 자동 분류 알고리즘을 적용하여 광고 블로그 여부를 판단하였다. 또한 다양한 실험을 통해 최적의 알고리즘과 특징들을 선별하였다.
Recently, users choosing a restaurant basedon information provided by blogs are increasing significantly. However, those of most blogs are unreliable since domestic restaurant blogs are occupied by advertising postings written by 'power bloggers'. Thus, in order to ensure the reliability of blogs, i...
Recently, users choosing a restaurant basedon information provided by blogs are increasing significantly. However, those of most blogs are unreliable since domestic restaurant blogs are occupied by advertising postings written by 'power bloggers'. Thus, in order to ensure the reliability of blogs, it is necessary to filter the advertising blogs which are sometimes false or exaggerated. In this paper, we propose the method of distinguishing the advertising blogs utilizing an automatic classification technique. In the proposed technique, we first manually collected advertising restaurant blogs, and then analyzed features which are commonly found in those blogs. Using the extracted features, we determined whether a given blog is advertising one applying automatic classification algorithms. Additionally, we select the features and the algorithm which guarantee optimal classification performance through comparative experiments.
Recently, users choosing a restaurant basedon information provided by blogs are increasing significantly. However, those of most blogs are unreliable since domestic restaurant blogs are occupied by advertising postings written by 'power bloggers'. Thus, in order to ensure the reliability of blogs, it is necessary to filter the advertising blogs which are sometimes false or exaggerated. In this paper, we propose the method of distinguishing the advertising blogs utilizing an automatic classification technique. In the proposed technique, we first manually collected advertising restaurant blogs, and then analyzed features which are commonly found in those blogs. Using the extracted features, we determined whether a given blog is advertising one applying automatic classification algorithms. Additionally, we select the features and the algorithm which guarantee optimal classification performance through comparative experiments.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 논문에서는 외식 블로그 중에서 순수한 리뷰(비광고)로 위장된 광고 블로그를 필터링하는 기술을 제안한다. 필터링은 데이터 마이닝(data mining) 기술 중 하나인 자동분류(automatic classification) 알고리즘[8]을 활용 하였다.
본 논문에서는 외식업소에 대한 평가를 가장한 광고 블로그를 필터링하는 방법을 제안하였다. 제안된 방법에서는 자동분류 기법을 활용하였으며, 이를 위해 블로그 수집, 전처리, 상관분석, 특징 선택, 자동분류 및 평가의 과정으로 진행하였다.
가설 설정
4. 내용의 유사성: 광고 게시글들은 이전의 게시글들과 내용이 유사하다.
제안 방법
또한 감성분석을 실시하여 그 결과를 특징들에 추가하였다. 결정된 특징들에 대해서는 상관분석을 통해서 광고 블로그의 전형적인 특징들을 정량적으로 분석하였으며. 그 결과를 이용한 다양한 조합으로 자동분류 기법을 적용하였다.
제안된 방법에서는 자동분류 기법을 활용하였으며, 이를 위해 블로그 수집, 전처리, 상관분석, 특징 선택, 자동분류 및 평가의 과정으로 진행하였다. 광고와 비광고 블로그 수집하기 위해서 광고 블로그들을 수작업으로 선별하였고, 이들의 특징들을 비광고 블로그와 비교하여 추출하였다. 또한 감성분석을 실시하여 그 결과를 특징들에 추가하였다.
이 논문에서는 광고 게시글의 주요 탐지 기술을 크게 언어적 특성(linguistic features)과 행동적 특징(behavioral features)으로 나누어 연구하였다. 논문은 먼저 Yelp에서의 분류 모델이 언어적 특성을 주된 기준으로 사용하는지 알아보기 위해 광고 게시글과 비광고(순수한 리뷰) 게시글의 단어분포를 비교하였다. 그 결과 광고 게시글의 분포와 비광고 게시글의 분포 사이에 큰 차이가 없었다.
이러한 방법으로 총 66,000개의 외식업소관련 블로그들을 수집하였다. 다음 단계로 위와 같이 수집된 블로그들 중에서 일부를 학습 데이터로 추출하였는데, 학습 데이터는 수집된 블로그 중에서 표 1을 기준으로 3개 이상 일치하는 것을 광고 블로그와 비광고 블로그로 각각 추출하였다. 이렇게 수집된 학습 데이터는 광고 블로그 1,132개, 비광고 블로그 2.
다행히 블로그에서는 협찬을 받은 공식적인 광고 블로그의 경우 그 사실을 본문에 명시하도록 되어 있다. 따라서 협찬이 명시된 블로그들을 수작업으로 수집하여 이들의 공통적 특징들을 도출하였다. 그 결과 상당수의 블로그들이 본문에 상호명이 반복되어 언급되었고, ‘맛집’이란 단어도 자주 언급되었으며, 업소의 상세 ‘주소’가 포함되어 있었다.
광고와 비광고 블로그 수집하기 위해서 광고 블로그들을 수작업으로 선별하였고, 이들의 특징들을 비광고 블로그와 비교하여 추출하였다. 또한 감성분석을 실시하여 그 결과를 특징들에 추가하였다. 결정된 특징들에 대해서는 상관분석을 통해서 광고 블로그의 전형적인 특징들을 정량적으로 분석하였으며.
자동분류 알고리즘을 이용하여 광고 블로그를 추출하기 위해서는 우선 분류에 활용될 특징들을 정의해야한다. 본 논문에서는 광고와 비광고 블로그 사이에 차이가 있을 것으로 예상되는 특징들을 정의하였는데, 크게 블로그 구성에 대한 특징과 감성 표현에 대한 특징으로 나눌수 있다. 블로그 구성에 대한 특징은 블로그에 나타나는 특정 단어나 표현, 형식들에 관한 것들이며, 감성 표현에 대한 특징은 블로그에 출현하는 감성 단어들의 종류나 분포에 따라 정의된 것들을 의미한다.
본 장에서는 자동분류 알고리즘의 독립변수를 정의하기 위해 블로그들의 특징들을 탐색하는 과정을 설명한다. 우선 후보 특징들을 정의하고, 이들과 목적변수(광고 혹은 비광고)간의 상관분석을 통하여 상관정도 정도에 따라 특징들을 분류한다.
. 이 논문에서는 광고 게시글의 주요 탐지 기술을 크게 언어적 특성(linguistic features)과 행동적 특징(behavioral features)으로 나누어 연구하였다. 논문은 먼저 Yelp에서의 분류 모델이 언어적 특성을 주된 기준으로 사용하는지 알아보기 위해 광고 게시글과 비광고(순수한 리뷰) 게시글의 단어분포를 비교하였다.
광고 블로그들의 특징들은 학습 데이터를 이용한 자동분류 알고리즘에서 활용되는데, 어떠한 특징들을 활용할지를 결정 하기 위해 상관분석(correlation analysis)을 실시하여 그 결과를 바탕으로 다양한 특징의 조합을 구성하였다. 이렇게 구성된 특징 조합으로 자동분류 알고리즘을 이용하여 분류 정확도를 실험하였고, 최적의 알고리즘과 특징 조합을 탐색하였다. 본 논문에서는 자동분류를 위해 나이브 베이즈(Naive bayes) 분류 알고리즘과 신경망 (neural network) 분류 알고리즘을 활용하였다[8].
필터링은 데이터 마이닝(data mining) 기술 중 하나인 자동분류(automatic classification) 알고리즘[8]을 활용 하였다. 자동분류를 적용하기 위해서는 양질의 학습 데이터가 필수적인데 본 논문에서는 광고 블로그들의 전형적인 특징들을 수작업으로 조사한 후, 이를 이용하여 학습 데이터로 활용할 블로그들을 수집하였다. 또한 광고 블로그의 특징(feature)들을 정량적으로 표현하기 위해 다양한 전처리 기술을 적용하였는데, 적용된 기술로는 불용어(stopword) 제거, 맞춤법 검사, 원형 단어로의 변경 등이 있다.
본 논문에서는 외식업소에 대한 평가를 가장한 광고 블로그를 필터링하는 방법을 제안하였다. 제안된 방법에서는 자동분류 기법을 활용하였으며, 이를 위해 블로그 수집, 전처리, 상관분석, 특징 선택, 자동분류 및 평가의 과정으로 진행하였다. 광고와 비광고 블로그 수집하기 위해서 광고 블로그들을 수작업으로 선별하였고, 이들의 특징들을 비광고 블로그와 비교하여 추출하였다.
또한 광고 블로그의 특징(feature)들을 정량적으로 표현하기 위해 다양한 전처리 기술을 적용하였는데, 적용된 기술로는 불용어(stopword) 제거, 맞춤법 검사, 원형 단어로의 변경 등이 있다. 특히 리뷰 성격을 갖는 블로그의 특성상 게시글에 주관적 표현이 다수 포함되어 있어 감성분석 (sentiment analysis)[9] 결과를 추가로 실시하여 그 결과를 광고 블로그를 판별할 특징으로 활용하였다. 광고 블로그들의 특징들은 학습 데이터를 이용한 자동분류 알고리즘에서 활용되는데, 어떠한 특징들을 활용할지를 결정 하기 위해 상관분석(correlation analysis)을 실시하여 그 결과를 바탕으로 다양한 특징의 조합을 구성하였다.
대상 데이터
반면에 비광고(순수한 리뷰) 블로그는 전적으로 주관적인 판단으로 수집되었다. 수집 기준의 왜곡을 줄이기 위해서 다수의 실험자들로부터 비광고로 확실하게 판단되는 블로그들을 수집하게 하였다. 이렇게 수집된 비광고 블로그에 대해서 광고 블로그들의 판단기준을 그대로 적용하였고, 그 결과 표 1의 3번째 열과 같은 특징들을 도출할 수 있었다.
이중에서 무작위로 업소명을 선택하였고, 선택된 업소명과 더불어 ‘맛집’이란 단어로 블로그를 검색하여 수집하였다. 이러한 방법으로 총 66,000개의 외식업소관련 블로그들을 수집하였다. 다음 단계로 위와 같이 수집된 블로그들 중에서 일부를 학습 데이터로 추출하였는데, 학습 데이터는 수집된 블로그 중에서 표 1을 기준으로 3개 이상 일치하는 것을 광고 블로그와 비광고 블로그로 각각 추출하였다.
다음 단계로 위와 같이 수집된 블로그들 중에서 일부를 학습 데이터로 추출하였는데, 학습 데이터는 수집된 블로그 중에서 표 1을 기준으로 3개 이상 일치하는 것을 광고 블로그와 비광고 블로그로 각각 추출하였다. 이렇게 수집된 학습 데이터는 광고 블로그 1,132개, 비광고 블로그 2.236개로 총 3,368개이다.
이중에서 무작위로 업소명을 선택하였고, 선택된 업소명과 더불어 ‘맛집’이란 단어로 블로그를 검색하여 수집하였다.
테스트 데이터로는 표 6과 같이 광고와 비광고 블로그를 각각 200개씩 사용하였다. 특히 광고/비광고 각각에 대해서 학습을 위해 자동으로 수집된 블로그들 중에서 100개씩 무작위로 추출하여 테스트 데이터로 활용하였으며, 이와 별도로 다수의 실험자에 의한 주관적인 판단 하에 수동으로 각각 100개씩 수집하였다.
테스트 데이터로는 표 6과 같이 광고와 비광고 블로그를 각각 200개씩 사용하였다. 특히 광고/비광고 각각에 대해서 학습을 위해 자동으로 수집된 블로그들 중에서 100개씩 무작위로 추출하여 테스트 데이터로 활용하였으며, 이와 별도로 다수의 실험자에 의한 주관적인 판단 하에 수동으로 각각 100개씩 수집하였다.
학습 데이터로 활용할 블로그 수집을 위해서 주어진 블로그가 외식업소 블로그인지를 판단하는 기준도 필요한데 이를 위해 우선 공공데이터포털(https://data.go.kr)에서 외식업소명들을 확보하였다. 이중에서 무작위로 업소명을 선택하였고, 선택된 업소명과 더불어 ‘맛집’이란 단어로 블로그를 검색하여 수집하였다.
데이터처리
특히 리뷰 성격을 갖는 블로그의 특성상 게시글에 주관적 표현이 다수 포함되어 있어 감성분석 (sentiment analysis)[9] 결과를 추가로 실시하여 그 결과를 광고 블로그를 판별할 특징으로 활용하였다. 광고 블로그들의 특징들은 학습 데이터를 이용한 자동분류 알고리즘에서 활용되는데, 어떠한 특징들을 활용할지를 결정 하기 위해 상관분석(correlation analysis)을 실시하여 그 결과를 바탕으로 다양한 특징의 조합을 구성하였다. 이렇게 구성된 특징 조합으로 자동분류 알고리즘을 이용하여 분류 정확도를 실험하였고, 최적의 알고리즘과 특징 조합을 탐색하였다.
본 논문에서는 4.1절에서 명시한 특징들이 광고나 비광고 블로그를 분류하는데 어느 정도 관련성이 있는지를 파악하기 위해 상관분석(correlation analysis)을 실시하였다. 분석결과는 자동분류에 이용할 독립변수들의 조합을 결정하기 위해 사용된다.
이론/모형
결정된 특징들에 대해서는 상관분석을 통해서 광고 블로그의 전형적인 특징들을 정량적으로 분석하였으며. 그 결과를 이용한 다양한 조합으로 자동분류 기법을 적용하였다. 실험 결과 상관계수가 높은 특징들의 조합이 더 높은 분류 정확도를 보였으며, 나이브 베이즈 분류보다 신경망을 이용한 분류 기법이 더 높은 정확도를 보였다.
본 논문에서는 비광고 블로그를 추출하기 위한 방법으로 자동분류 알고리즘을 이용하였다. 자동분류에는 다양한 알고리즘이 있으나 본 논문에서는 나이브 베이즈 분류(Naïve Bayes classification)와 신경망(neural network)[8] 알고리즘을 이용하였다.
이렇게 구성된 특징 조합으로 자동분류 알고리즘을 이용하여 분류 정확도를 실험하였고, 최적의 알고리즘과 특징 조합을 탐색하였다. 본 논문에서는 자동분류를 위해 나이브 베이즈(Naive bayes) 분류 알고리즘과 신경망 (neural network) 분류 알고리즘을 활용하였다[8].
따라서 광고/비광고 블로그를 분류하는데 있어서 감성표현의 차이가 이들을 분류하는데 중요한 역할을 할 것으로 기대하였다. 블로그에 출현하는 단어들이 긍정 혹은 부정적인 표현인지를 판단하는 감성분석(sentiment analysis)은 오픈한글(http://api.openhangul.com/)의 API를 이용하였다. 여기서는 주어진 단어에 대해서 긍정/부정/중립 단어 중 어디에 속하는지를 판단함과 동시에, 그렇게 될 확률을 정량적으로 알려준다.
분석결과는 자동분류에 이용할 독립변수들의 조합을 결정하기 위해 사용된다. 상관분석 방법으로는 피어슨 상관계수(Pearson Correlation Coefficient)[13]를 이용하였으며, 이를 위해 비광고 블로그는 0, 광고 블로그는 1의 값을 부여하였다. 상관분석 결과는 표 4와 같다.
자동분류에는 다양한 알고리즘이 있으나 본 논문에서는 나이브 베이즈 분류(Naïve Bayes classification)와 신경망(neural network)[8] 알고리즘을 이용하였다.
본 논문에서는 외식 블로그 중에서 순수한 리뷰(비광고)로 위장된 광고 블로그를 필터링하는 기술을 제안한다. 필터링은 데이터 마이닝(data mining) 기술 중 하나인 자동분류(automatic classification) 알고리즘[8]을 활용 하였다. 자동분류를 적용하기 위해서는 양질의 학습 데이터가 필수적인데 본 논문에서는 광고 블로그들의 전형적인 특징들을 수작업으로 조사한 후, 이를 이용하여 학습 데이터로 활용할 블로그들을 수집하였다.
성능/효과
2. 긍정 댓글 비율: 광고 작성자의 85%는 작성한 게시글의 80% 이상이 긍정적인 게시글이다.
3. 댓글 글자 수: 광고 작성자의 80%는 평균 댓글 글자수 135자이며, 그렇지 않은 작성자의 92%는 200자 이상이다.
특히 데이터 수집기준의 조합인 Basis를 포함한 나머지 조합의 경우에는 60%대의 정확도를 보였다. Basis의 경우는 데이터 수집기준으로 학습 데이터를 구성한 가장 중요한 변수들이며, C나 S+C도 높은 상관계수를 보이는 변수들로 조합되었는데, 이들이 약한 상관계수가 포함된 W+S보다도 정확도가 낮은 의외의 결과를 보였다.
논문은 먼저 Yelp에서의 분류 모델이 언어적 특성을 주된 기준으로 사용하는지 알아보기 위해 광고 게시글과 비광고(순수한 리뷰) 게시글의 단어분포를 비교하였다. 그 결과 광고 게시글의 분포와 비광고 게시글의 분포 사이에 큰 차이가 없었다. 따라서 언어적 특성을 이용한 필터링 방식은 Yelp 분류 모델의 주된 방식이라 할 수 없다고 결론을 내렸으며, 광고 게시글을 작성하는 사용자의 행동적 특징이 주된 필터링 방식이라고 추정하였다.
그 결과 상당수의 블로그들이 본문에 상호명이 반복되어 언급되었고, ‘맛집’이란 단어도 자주 언급되었으며, 업소의 상세 ‘주소’가 포함되어 있었다.
이들은 광고 블로그와 비광고 블로그를 구분하는 최초의 기준이었으므로 당연한 결과로 보인다. 나머지 특징들을 보면 전화번호의 언급(phone)이 강한 상관관계를 갖는 것으로 나타났으며, 문서길이(content_length), 지도 포함 여부(map), 중립 혹은 긍정 단어에 대한 감성 스코어의 합(CNOScore, CPOScore)도 뚜렷한 상관관계를 갖는 것으로 나타났다. 반면에 블로그의 전체적인 감성에 대해 단순한 극성(0 또는 1)만을 표현한 POScore나 NAScore는 약한 상관관계를 갖는 것으로 나타났다.
그 결과 광고 게시글의 분포와 비광고 게시글의 분포 사이에 큰 차이가 없었다. 따라서 언어적 특성을 이용한 필터링 방식은 Yelp 분류 모델의 주된 방식이라 할 수 없다고 결론을 내렸으며, 광고 게시글을 작성하는 사용자의 행동적 특징이 주된 필터링 방식이라고 추정하였다. 이 논문에서 추정한 광고 게시글의 행동적 특징은 다음과 같다.
또한 블로그 제목에 ‘맛집’이란 단어가 포함된 경우도 상당수 존재한다는 사실을 밝혀내었다.
신경망 분류는 전반적으로 나이브 베이즈 분류에 비해 상당히 좋은 성능을 보이고 있다. 또한 어떠한 특징으로 조합을 하여도 70%~80%대의 비교적 고른 정확도를 보였다. 특히 Basis로 구축한 모델에서는 90.
나머지 특징들을 보면 전화번호의 언급(phone)이 강한 상관관계를 갖는 것으로 나타났으며, 문서길이(content_length), 지도 포함 여부(map), 중립 혹은 긍정 단어에 대한 감성 스코어의 합(CNOScore, CPOScore)도 뚜렷한 상관관계를 갖는 것으로 나타났다. 반면에 블로그의 전체적인 감성에 대해 단순한 극성(0 또는 1)만을 표현한 POScore나 NAScore는 약한 상관관계를 갖는 것으로 나타났다. 이는 외식업소에 대해서 전체적으로 부정적인 감성을 표현 하는 블로그는 거의 없기 때문인 것으로 분석된다.
그 결과를 이용한 다양한 조합으로 자동분류 기법을 적용하였다. 실험 결과 상관계수가 높은 특징들의 조합이 더 높은 분류 정확도를 보였으며, 나이브 베이즈 분류보다 신경망을 이용한 분류 기법이 더 높은 정확도를 보였다. 신경망의 경우 최고 분류정확도가 90%가 넘을 만큼 좋은 성능을 보였다.
실험 결과는 그림 1과 같다. 우선 나이브 베이즈 분류에서는 S와 W+S에 대한 정확도가 각각 84.9%, 86.6%으로 가장 좋았다. 즉, 강한 상관관계를 갖는 변수가 포함된 경우가 좋은 분류 성능을 보였다.
이 표에서 보는 바와 같이 학습 데이터 수집기준인 상단의 4개 변수 모두 강한 또는 뚜렷한 양의 상관관계를 보였다. 이들은 광고 블로그와 비광고 블로그를 구분하는 최초의 기준이었으므로 당연한 결과로 보인다.
7%로 가장 높은 정확도를 보였다. 이러한 결과로 볼 때 광고 블로그 추출을 위한 분류 기법에서는 신경망 알고리즘이 나이브 베이즈 분류기법 보다 더 적합 것으로 볼 수 있으며, 강한 또는 뚜렷한 상관관계를 갖는 특징들로 독립변수를 구성하는 것이 더 좋은 성능을 보인다는 것을 확인할 수 있다.
후속연구
외식업소에 대한 블로그는 리뷰형식으로 작성하므로 대부분 감성 표현들이 많이 포함된다. 따라서 광고/비광고 블로그를 분류하는데 있어서 감성표현의 차이가 이들을 분류하는데 중요한 역할을 할 것으로 기대하였다. 블로그에 출현하는 단어들이 긍정 혹은 부정적인 표현인지를 판단하는 감성분석(sentiment analysis)은 오픈한글(http://api.
더구나 실제 블로그를 운용할 때 광고 블로그를 필터링한다는 것이 공개적으로 알려지면 점차 이 기술을 회피하도록 작성할 가능성 있어 더더욱 교묘해질 가능성도 있다. 따라서 실질적인 효과를 발휘하기 위해서는 광고 블로그 필터링 기술은 고정된 특징들이 아닌 상황에 따라 적응 또는 진화되도록 설계되어야 하며, 본 논문의 후속 연구도 이 부분에 초점을 두어 진행할 계획이다.
질의응답
핵심어
질문
논문에서 추출한 답변
광고 블로그 필터링과 유사한 기술은 무엇이 있는가?
광고 블로그 필터링과 유사한 기술로는 스팸메일 필터링(spam mail filtering) 기술이 있다[3][4]. 이 기술은 이미 많은 연구가 이루어져서 대부분의 메일서버에서 활용되고 있다.
외식 블로그는 어떤 역할을 하는가?
외식 블로그는 작성자가 외식업소에 직접 방문하여 체험한 주관적 혹은 객관적 정보를 독자에게 전달하는 역할을 한다. 독자들은 외식업소를 선택하기 전에 블로그에서 추천하는 업소들에 대한 평가를 참고한다.
광고로 사용되는 외식 블로그는 어떤 문제가 있는가?
독자들은 외식업소를 선택하기 전에 블로그에서 추천하는 업소들에 대한 평가를 참고한다. 그러나 인터넷상에 범람하는 각종 광고 블로그들은 독자에게 객관적 정보를 제공하기 보다는 광고를 의뢰한 업체의 이익을 대변하는 것에 초점을 맞춤으로써 독자들에게 왜곡된 정보를 제공하여 신뢰성을 훼손시키고 있다. 물론 외식업소 정보를 제공하는 블로그도 마케팅을 일종으로 인식되고 있어서, 블로그를 운영하는 포털 사이트에서는 홍보용 블로그임을 명시하는 조건으로 게시를 허용하고 있다.
참고문헌 (14)
J. Kim and Y. Kim, How the characteristics of the food-blog marketing effect to purchasing intension with the mediation effect of trust, tourism review, Vol. 30, No. 5, pp. 85-105, 2015.
J. Kim, H. Kim, S. Park, Study on Blog users' Response to Blog Marketing, information Systems Review, Vol. 11, No. 3, pp.1-17, 2009.
E. Blanzieri and A. Bryl, A survey of learning-based techniques of email spam filtering, Artificial Intelligence Review, vol. 29, no. 1, pp. 63-92, 2008.
G. Cormack, Email Spam Filtering: A Systematic Review, Foundations and Trends in Information Retrieval, vol. 1, no. 4, pp. 335-455, 2007.
I. Park, H. Kang, S. Yoo, Classification of Advertising Spam Reviews, Proceedings of the 22th Annual Conference on Human and Cognitive Language Technology, 2010.
H. An and B. Park, Extracting similar advertising review for Opinion Mining, IEEK Conference 2014, pp.1593-1596, 2014.
N. Jindal and B. Liu, Opinion Spam and Analysis, Proceedings of WSDM, pp. 219-229, 2008.
I. Oh, Pattern Recognition, KyoboBooks, 2008.
J. Chang, and I. Kim, An Experimental Evaluation of Short Opinion Document Classification Using A Word Pattern Frequency, Journal of the Institute of Internet, Broadcasting and Communication, Vol. 12, No. 5, 2012.
http://www.yelp.com/
http://www.diningcode.com/
A. Mukherjee, V. Venkataraman, B Liu and NS Glance, What Yelp Fake Review Filter Might Be Doing?, Proceedings of International AAAI Conference on Web and Social Media, 2013.
M. Seo. Practical Data Processing and Analysis Using R, GilBut, 2014.
J. Shim, and H. C. Lee, The Development of Automatic Ontology Generation System Using Extended Search Keywords, Journal of the Korea Academia-Industrial cooperation Society, Vol. 11, No. 6, 2009.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.