[논문]인스타그램 기반의 전이학습과 게시글 메타 정보를 활용한 페이스북 스팸 게시글 판별

김준홍; 서덕성; 김해동; 강필성

doi:10.7232/jkiie.2017.43.3.192

문제 정의

이는 인스타그램 특성상 상당히 짧은 글들이 존재 할 수 있는데 이러한 게시글들은 문서적 특성을 가지기 힘든 경우가 많기 때문이다. 둘째, 데이터를 수집할 때 예상치 못한 이유로 특정 항목에 대해 정보가 수집되지 않는 경우가 발생하는데 본 연구에서는 모든 메타 정보가 존재하는 게시글들을 분석 대상으로 삼기 위하여 이러한 게시글들은 제거하였다. 셋째, 중복된 게시글은 한번만 사용하도록 전처리를 수행하였다.
본 연구에서는 대표적 SNS인 페이스북을 대상으로 전이학습(transfer learning)과 메타정보를 이용한 스팸 분류기를 구축하고자 한다. 본 연구에서 사용하는 페이스북 게시글은 예측 모델 구축 관점에서 다음과 같이 두 가지 문제점을 가지고 있다.
이러한 상황에서 양질의 데이터를 충분히 구하기 힘들 경우, 현실적인 대안으로 비슷한 영역의 다른 데이터를 차용해 사용하는 전이학습(transfer learning) 방법을 사용한다(Pan and Yang, 2010). 본 연구에서는 이러한 관점에서 상대적으로 표식 데이터의 수집이 수월한 인스타그램의 게시글을 학습하여 페이스북의 스팸 게시글을 분류하는 모델을 구축하고자 한다.
본 연구에서는 최근 스팸정보의 유통경로가 기존 E-mail과 휴대폰 문자메시지에서 SNS로 변화하고 있는 점과 해당 한글 연구가 거의 없다는 점을 고려하여 대표적인 SNS인 페이스북 게시글들에 대한 스팸 필터링 시스템을 제안하였다. 페이스북 게시글의 경우 명시적인 목표변수가 없는 상황과 실제 스팸 데이터가 비교적 소량으로 존재하여 데이터 수집이 힘든 점을 보완하기 위해 인스타그램의 해시태그 정보를 이용하여 스팸성 게시글과 정상 게시글을 수집하여 텍스트 기반 스팸 필터링 시스템을 구축하였다.
본 연구에서는 페이스북 전체 페이지 기반 예측을 목적으로 분류기를 생성하였지만 특정 주제로 이루어진 하나의 페이스북 페이지는 대부분의 비슷한 텍스트로 이루어져 있을 확률이 있으므로, 개별 페이지별로 콘텐츠의 주제를 분석하는 토픽 모델링 기법 등을 기반으로 스팸 필터링 시스템을 구축해볼 수 있을 것이다. 또한 해당 연구 방법론을 통하여 지속적으로페이스북 데이터를 습득한다면, 인스타그램의 학습된 단어가 아닌 페이스북의 대량의 문서(corpus)데이터를 통한 분류기를 생성 할 수 있을 것이다.
둘째, 스팸 게시글의 비율은 정상 게시글보다 낮기 때문에 데이터 불균형 문제가 발생하여 분류기의 정확도를 저하시키는 요인이 된다. 이러한 문제점을 해결하기 위하여 본 연구에서는 인스타그램이라는 다른 SNS에서 사용 가능한 해시태그(hash tag)를 활용하여 충분한 스팸 및 정상 게시글에 대한 목표 변수를 확보하여 스팸 분류 모델을 구축하였다. 인스타그램은 사진 위주의 SNS로서 사용자가 사진을 올리면서 직접 태그를 입력할 수 있는데 이를 해시태그라고 한다.

가설 설정

또한 본 연구에서는 인스타그램의 스팸/정상 표식을 이용하여 게시글을 학습한 분류기로 페이스북의 게시글의 스팸 여부를 예측하였다. 이는 SNS의 종류와는 무관하게 스팸성 게시글의 텍스트 사용 패턴이 비슷한 것이라는 가정을 바탕으로 수행한 것이다. 일반적으로 기계학습과 데이터마이닝에서는 모델 구축과 활용에 사용하는 데이터가 동질하다는 가정을 한다.
인스타그램 데이터의 특징은 다음과 같이 두 가지가 있다. 첫째, 해시태그가 있다는 점이다. 이를 통해 다양한 해시태그들을 기준으로 여러 분야의 게시글을 수집하는 것이 가능하게 되었다.

제안 방법

따라서 이렇게 중복된 게시글들이 발생할 경우 하나의 게시글만 남겨두고 모두 삭제하였다. 넷째, 해시태그 기반으로 표식을 생성할 경우 발생할 수 있는 잠재적 오류를 방지하기 위하여 20,530건의 스팸 게시글에 대해서는 전수 검수를 통해 표식을 수정하였다.
[Figure 2]는 각 형태소별로 Prob Weight와 Entropy 기반의 Information Gain 값을 정렬한 결과로써 초기 수천 개의 단어 이후에는 각 지표의 값이 거의 0의 값에 수렴(정상과 스팸 분류에 영향을 미치지 않음)하는 것을 알 수 있다. 따라 본 연구에서는 상위 4,000개의 형태소를 바탕으로 Bag-of-word 방식을 사용하여 각 게시글을 4,000차원의 벡터로 변환하였다.
따라서 ID는 숫자부터 시작하는 경우가 거의 없기 때문에 문장의 형태소 중에서 ‘알파벳+숫자’가 연속적으로 나오는 경우를 측정 하였다.
또한, 작성 문장이 상당히 짧아, ‘Prob weight 기반 단어 백터 공간상에서 모든 변수의 값이 0으로 생성될 확률이 높으므로, 사후 확률이 낮게 측정되는 것을 확인 할 수 있다. 따라서 본 연구에서는 사전에 [Table 5]에서 제안한 파생 변수를 함께 사용하는 페이스북 스팸 필터링 분류기를 구축하였다.
검증 정확도의 관점에서 보면 정상 게시글을 판별하는 정확도는 크게 차이가 나지 않으나 Prob Weight가 Information Gain에 비하여 스팸 게시글을 60건 정도 더 정확하게 탐지함으로써 Precision이 다소 높게 나타나는 것을 알 수 있다. 따라서 본 연구에서는 최종적으로 Prob Weight 방식을 이용한 형태소 선택을 통해 변수를 구축하여 페이스북 게시글 스팸 탐지에 적용하기로 하였다. 그 이유는 첫 번째로, 오분류 비용을 고려할 때 스팸을 정상으로 예측하는 것이 그 반대의 상황보다 손실비용이 더 높기 때문이며, 두 번째로, Prob Weight는 스팸의 단어의 비중으로 만들어진 분류기이지만 Information Gain은 정상과 스팸에 두 가지 범주의 비중으로 생성된 단어 집합이기 때문이다.
본 연구에 사용된 게시글들은 SNS에서 사용되는 용어 및 표현 방식이 만연한 관계로 표준어의 문법을 따르지 않는 경우가 많다. 따라서 이러한 특징을 보다 정확하게 반영하는 스팸 분류기를 구축하기 위하여 표준어 기반의 형태소 분석기가 아닌 트위터 게시글 기반의 형태소 분석기를 사용하여 형태소 분석을 수행하였다
랜덤포레스트 기반의 스팸 분류기는 [Table 6]에 나타난 바와 같이 Prob weight 및 Information Gain 기반의 상위 4,000개의 형태소 변수의 각 문서별 단어 빈도, URL의 개수 및 Email 문자열의 개수 등 총 4,002가지의 변수를 사용하여 구축되었다. 또한 랜덤포레스트는 앙상블의 다양성을 확보하기 위해 원래 입력 변수 중 일부분을 선택하여 의사결정나무 분기에 사용하는데, 본 연구에서는 분기마다 200개 변수를 무작위로 선택하도록 설정하였으며 앙상블을 구성하는 단일 의사결정나무의 수는 65개로 설정하였다.
또한 본 연구에서는 인스타그램의 스팸/정상 표식을 이용하여 게시글을 학습한 분류기로 페이스북의 게시글의 스팸 여부를 예측하였다. 이는 SNS의 종류와는 무관하게 스팸성 게시글의 텍스트 사용 패턴이 비슷한 것이라는 가정을 바탕으로 수행한 것이다.
페이스북 게시글의 경우 명시적인 목표변수가 없는 상황과 실제 스팸 데이터가 비교적 소량으로 존재하여 데이터 수집이 힘든 점을 보완하기 위해 인스타그램의 해시태그 정보를 이용하여 스팸성 게시글과 정상 게시글을 수집하여 텍스트 기반 스팸 필터링 시스템을 구축하였다. 또한, 인스타그램 기반의 데이터를 기반으로 한 전이학습 결과와 페이스북 게시글의 메타 정보를 활용한 변수를 추가함으로써 보다 정확한 스팸 탐지 모델을 구축하였다. 인스타그램의 150개의 스팸/햄 해시태그 기준 761,861개의 게시글을 통해 주요 단어를 추출하여 총 11개의 페이스북 게시글 메타정보와 결합하여 랜덤포레스트 기반의 분류기를 학습한 결과, 테스트 데이터 기준 정 분류율 99.
랜덤포레스트 기반의 스팸 분류기는 [Table 6]에 나타난 바와 같이 Prob weight 및 Information Gain 기반의 상위 4,000개의 형태소 변수의 각 문서별 단어 빈도, URL의 개수 및 Email 문자열의 개수 등 총 4,002가지의 변수를 사용하여 구축되었다. 또한 랜덤포레스트는 앙상블의 다양성을 확보하기 위해 원래 입력 변수 중 일부분을 선택하여 의사결정나무 분기에 사용하는데, 본 연구에서는 분기마다 200개 변수를 무작위로 선택하도록 설정하였으며 앙상블을 구성하는 단일 의사결정나무의 수는 65개로 설정하였다.
두 가지의 랜덤포레스트를 이용한 이유는 특정 게시글의 경우 메타정보를 이용하지 않고 텍스트만 활용하더라도 탐지가 잘 되며, 이러한 게시글들을 전자의 모델을 통해 1차적으로 필터링을 한 뒤, 나머지 게시글들에 대해서 메타정보까지 활용한 모델을 통해 보다 정확한 필터링을 하기 위해서이다. 마지막 단계에서는 학습한 모델을 기반으로 50회 반복실험을 수행한 뒤 여섯 가지 평가지표를 통해 제안된 방법론의 성능을 평가하였다.
인스타그램은 사진 위주의 SNS로서 사용자가 사진을 올리면서 직접 태그를 입력할 수 있는데 이를 해시태그라고 한다. 본 연구에서는 명백히 스팸이라 할 수 있는 해시태그로 검색하여 얻은 게시글은 검토 후 목표변수를 스팸으로 할당하였고, 스팸이 아닌 정상 게시글도 비슷한 방식으로 수집하였다. 이렇게 수집된 인스타그램의 학습 데이터를 활용하여 구축된 스팸 분류 모델을 페이스북 데이터에 적용하는 전이학습을 통해 명시적인 목표변수가 존재하지 않는 페이스북 게시글의 스팸 여부를 판별하는 분류기를 구축하였다.
본 연구에서는 인스타그램의 단어 기반 변수 이외에도 데이터 탐색을 통해 페이스북 스팸 분류에 적합한 파생변수를 추가 생성하였다. 그 이유는 스팸 게시글의 경우 정상 게시글과는 확연히 다른 패턴을 보이는 경우가 존재하며 이는 게시글의 메타 정보를 통해 확인할 수 있는 경우도 존재하기 때문이다.
둘째, 데이터를 수집할 때 예상치 못한 이유로 특정 항목에 대해 정보가 수집되지 않는 경우가 발생하는데 본 연구에서는 모든 메타 정보가 존재하는 게시글들을 분석 대상으로 삼기 위하여 이러한 게시글들은 제거하였다. 셋째, 중복된 게시글은 한번만 사용하도록 전처리를 수행하였다. 인스타그램은 한 게시글에 대해 여러 개의 해시태그를 허용하기 때문에 여러 해시태그의 검색 결과 하나의 게시글이 반복해서 결과물로 반환될 수 있다.
본 연구에서는 명백히 스팸이라 할 수 있는 해시태그로 검색하여 얻은 게시글은 검토 후 목표변수를 스팸으로 할당하였고, 스팸이 아닌 정상 게시글도 비슷한 방식으로 수집하였다. 이렇게 수집된 인스타그램의 학습 데이터를 활용하여 구축된 스팸 분류 모델을 페이스북 데이터에 적용하는 전이학습을 통해 명시적인 목표변수가 존재하지 않는 페이스북 게시글의 스팸 여부를 판별하는 분류기를 구축하였다. 이에 더하여 페이스북 게시글에서 추출할 수 있는 메타 정보들을 활용하여 분류 성능 향상을 추구하였다.
‘Enter_Per_String’ 변수는 일반적으로 스팸 데이터의 경우 일반 댓글과 포스팅의 글보다 엔터의 수가 많다는 특징을 가지고 있다. 이를 스트링의 전체 길이로 나누어 줌으로써 가변적인 길이에 대한 상황을 보정하였다. ‘Num_Alpha_Number’ 변수는 연속적으로 ‘알파벳+숫자’인 단어의 개수를 측정한 것이다.
이렇게 수집된 인스타그램의 학습 데이터를 활용하여 구축된 스팸 분류 모델을 페이스북 데이터에 적용하는 전이학습을 통해 명시적인 목표변수가 존재하지 않는 페이스북 게시글의 스팸 여부를 판별하는 분류기를 구축하였다. 이에 더하여 페이스북 게시글에서 추출할 수 있는 메타 정보들을 활용하여 분류 성능 향상을 추구하였다. 일반적으로 스팸 게시글은 문자가 표상하는 의미뿐만 아니라 게시글의 메타 정보에도 스팸 분류에 유용한 정보들을 내포하고 있기 때문이다.
, 2014). 이에 본 연구에서는 분류 성능이 좋은 랜덤포레스트를 스팸을 분류하는 분류기로 적용하였다.
인스타그램 데이터는 해시태그 기준으로 수집하였다. 정상 혹은 스팸성 게시글이 대다수인 해시태그에 대하여 검색을 통해 데이터를 수집하는 절차를 진행하였다. 이를 위해 인스타그램에서 수집한 80개의 정상 해시태그와 70개의 스팸 해시태그 및 각 해시태그별로 데이터 수집을 하였다.
본 연구에서는 최근 스팸정보의 유통경로가 기존 E-mail과 휴대폰 문자메시지에서 SNS로 변화하고 있는 점과 해당 한글 연구가 거의 없다는 점을 고려하여 대표적인 SNS인 페이스북 게시글들에 대한 스팸 필터링 시스템을 제안하였다. 페이스북 게시글의 경우 명시적인 목표변수가 없는 상황과 실제 스팸 데이터가 비교적 소량으로 존재하여 데이터 수집이 힘든 점을 보완하기 위해 인스타그램의 해시태그 정보를 이용하여 스팸성 게시글과 정상 게시글을 수집하여 텍스트 기반 스팸 필터링 시스템을 구축하였다. 또한, 인스타그램 기반의 데이터를 기반으로 한 전이학습 결과와 페이스북 게시글의 메타 정보를 활용한 변수를 추가함으로써 보다 정확한 스팸 탐지 모델을 구축하였다.

대상 데이터

[Table 2]에 서술한 1~10번의 페이지는 ‘socialbakers’(https://www.socialbakers.com/statistics/facebook/pages/total/south-korea/)에서 제공하는 대한민국 Facebook 페이지 순위 중 연예인 페이지를 제외한 좋아요 기준 상위에 있는 10개 페이지이며 11~23번의 페이지는 스팸성 게시글/댓글 수집을 위한 13개 등 총 23개의 페이지를 최종적으로 선정하여 데이터를 수집하였다.
총 80개의 정상 해시태그와 70개의 스팸 해시태그에 대해 게시글들을 수집한 결과 정상 게시글은 449,721건, 스팸 게시글은 287,140건이 수집되었다. 또한 해당 스팸 필터링 시스템을 페이스북에 적용하기 위하여 총 23개의 페이스북 페이지에서 2014년 1월 1일부터 2016년 3월 31일까지 1,795,067건의 게시글 및 관련된 파생 변수를 수집하였다. 최종적으로 구축된 스팸 필터링 시스템의 성능을 확인하기 위한 검증 데이터로는 “남자들의 동영상” 페이지의 학습 데이터 기준 이후인 2016년 4월 1일부터 2016년 5월 31일까지 페이지에 게시된 2,176건의 게시글을 사용하였다.
본 연구에서 사용된 학습 데이터는 정상 게시글이 181,590건, 스팸 게시글이 17,705건으로 스팸 게시글의 비율이 상대적으로 낮은 불균형한 형태를 지니고 있다. 분류 알고리즘인 랜덤포레스트는 범주간 불균형이 존재하는 경우 모델이 민감하게 반응하여 일반화가 잘 되지 않는다는 특징을 가지고 있다.
본 연구에서 수집한 인스타그램 게시글의 전체 집합(corpus)에서 트위터 형태소 분석기로 산출된 형태소는 총 144,187개이다. 해당 형태소를 모두 사용하는 것은 계산복잡도 면에서 비효율적이며 성능도 좋지 않을 확률이 높다.
본 연구에서는 구독자 순과 스팸성 게시글/댓글이 존재할 가능성을 고려하여 대상 페이스북 페이지들을 선정하였다. [Table 2]에 서술한 1~10번의 페이지는 ‘socialbakers’(https://www.
분류 알고리즘인 랜덤포레스트는 범주간 불균형이 존재하는 경우 모델이 민감하게 반응하여 일반화가 잘 되지 않는다는 특징을 가지고 있다. 본 연구에서는 불균형 문제로 인한 분류기의 일반화 성능을 산출하기 위해 다수의 범주인 정상 게시글 중 25,000건을 무작위 추출한 데이터와 스팸 게시글 17,705건을 사용하여 각 의사결정나무마다 학습에 사용하였다.
해당 형태소를 모두 사용하는 것은 계산복잡도 면에서 비효율적이며 성능도 좋지 않을 확률이 높다. 본 연구에서는 사용할 형태소는 트위터 형태소 분석기 기준 형용사(Adjective), 부사(Adverb), 알파벳(Alpha), 외래어(Foreign), 한글 입자(Korean particle), 명사(Noun), 동사(Verb), 알 수 없음(NA)의 총 여덟 가지를 사용하였다. 이 중 가중치 기준 상위 4,000개를 최종적으로 선택하여 개별 게시글을 벡터 형태로 표현하는데 사용하였다.
본 연구에서는 사용할 형태소는 트위터 형태소 분석기 기준 형용사(Adjective), 부사(Adverb), 알파벳(Alpha), 외래어(Foreign), 한글 입자(Korean particle), 명사(Noun), 동사(Verb), 알 수 없음(NA)의 총 여덟 가지를 사용하였다. 이 중 가중치 기준 상위 4,000개를 최종적으로 선택하여 개별 게시글을 벡터 형태로 표현하는데 사용하였다. [Figure 2]는 각 형태소별로 Prob Weight와 Entropy 기반의 Information Gain 값을 정렬한 결과로써 초기 수천 개의 단어 이후에는 각 지표의 값이 거의 0의 값에 수렴(정상과 스팸 분류에 영향을 미치지 않음)하는 것을 알 수 있다.
정상 혹은 스팸성 게시글이 대다수인 해시태그에 대하여 검색을 통해 데이터를 수집하는 절차를 진행하였다. 이를 위해 인스타그램에서 수집한 80개의 정상 해시태그와 70개의 스팸 해시태그 및 각 해시태그별로 데이터 수집을 하였다. 정상의 경우 여러 분야를 모두 고려하도록 수집되었으며, 스팸의 경우 도박, 성인물, 대출 관련 정보 등 여러 주제를 고려하여 수집하였다.
인스타그램 데이터는 해시태그 기준으로 수집하였다. 정상 혹은 스팸성 게시글이 대다수인 해시태그에 대하여 검색을 통해 데이터를 수집하는 절차를 진행하였다.
최종적으로 구축된 스팸 필터링 시스템의 성능을 확인하기 위한 검증 데이터로는 “남자들의 동영상” 페이지의 학습 데이터 기준 이후인 2016년 4월 1일부터 2016년 5월 31일까지 페이지에 게시된 2,176건의 게시글을 사용하였다.
1 초과 경우인 29,397개 중 27,397개를 학습용 데이터로 2,000개를 검증용 데이터로 50번 반복 실험한 결과이다. 페이스북 파생변수를 사용한 2가지의 랜덤포레스트(페이스북 파생변수 RF, 인스타그램+페이스북 파생변수 RF)는 나무의 개수로 100개, 하나의 나무에서 사용한 변수는 4개를 이용하였다
페이스북의 스팸 게시글을 필터링하기 위해 1차적으로 스팸/정상 게시글을 명확히 구분할 수 있는 인스타그램 텍스트를 수집하였다. 총 80개의 정상 해시태그와 70개의 스팸 해시태그에 대해 게시글들을 수집한 결과 정상 게시글은 449,721건, 스팸 게시글은 287,140건이 수집되었다.
현재까지 분류기 검증에 사용된 데이터는 2014년 01월 01일부터 2016년 03월 31일까지의 페이스북 데이터이므로 생성된 최종 분류기의 테스트 데이터의 성능을 평가하기 위하여 2016년 4월 1일 부터 2016년 5월 31일까지 페이스북 ‘남자들의 동영상’ 페이지에 게시된 2,176건의 게시글 및 댓글에 대하여 스팸 분류기를 적용하였으며, 그 과정은 [Figure 5]에 나타난 것과 같다.

이론/모형

다음으로, 게시글의 스팸 여부를 분류하기 위해 유니그램(uni-gram)기반의 교사적 용어 가중치(supervised term weight) 기반의 변수 선택기법을 사용하였다. 사용한 방법은 개별 용어들이 등장한 문서 빈도를 이용하여 계산하는 엔트로피 기반의 Information gain과 Prob weight 두 가지이다(Quan et al.
수집된 데이터에 대하여 인스타그램/페이스북에 따라 적절한 전처리를 수행하였다. 두 번째 단계에서는 인스타그램의 텍스트 데이터를 이용하여 스팸을 분류하는 모델과 인스타그램과 페이스북의 메타 정보를 함께 활용하여 스팸을 분류하는 모델을 랜덤포레스트를 이용하여 학습하였다. 두 가지의 랜덤포레스트를 이용한 이유는 특정 게시글의 경우 메타정보를 이용하지 않고 텍스트만 활용하더라도 탐지가 잘 되며, 이러한 게시글들을 전자의 모델을 통해 1차적으로 필터링을 한 뒤, 나머지 게시글들에 대해서 메타정보까지 활용한 모델을 통해 보다 정확한 필터링을 하기 위해서이다.
(2014)의 연구에서도 텍스트뿐만 아니라 야구 데이터에서도 랜덤 포레스트가 일반적으로 우수한 성능을 보여줌을 실증적으로 확인 하였다. 또한 랜덤포레스트는 앙상블 기반의 모델 중 순서가 필요 없는 Implicit Ensemble 기반의 알고리즘으로 분류기들을 동시에 병렬적으로 생성하는 것이 가능하므로 Explicit Ensemble 기반의 부스팅(boosting) 계열 기법에 비해 시간적으로 효율적인 모델 구축이 가능하다는 장점이 있어 본 연구에서는 랜덤포레스트를 분류기로 이용하였다.
본 연구에서 적용한 분류기는 의사결정나무 기반의 앙상블 기법인 랜덤포레스트이다. 랜덤포레스트는 배깅(bagging) 기법을 이용하여 서로 다른 학습 데이터 부트스트랩을 생성하며, 개별 의사결정나무의 분기점 선택이 임의의 적은 변수들만을 고려한다.
본 연구에서는 스팸 게시글을 탐지하기 위한 문서 분류 알고리즘으로 랜덤포레스트를 사용하였다. 랜덤포레스트는 범용적으로 성능이 좋은 모델로 알려져 있는데 이는 Fernández Delgado et al.

성능/효과

(1)에서의 ‘j’의 ‘P’와 ‘N’은 Positive와 Negative를 즉, 스팸과 정상을 의미한다. Prob weight와 엔트로피 기반의 Information gain 두 방법 모두 특정 유니그램 단어 변수가 본 연구에서의 스팸, 정상 범주의 분류를 위해 효과적이라는 기저는 일맥상통하나, Prob weight의 경우 스팸 범주 기반의 방식이며 엔트로피는 스팸과 정상범주를 동시에 반영한 방식인 것을 수식을 통해 알 수 있다.
BCR은 스팸과 정상 게시글 정확도(Sensitivity와 Specificity)의 기하평균이고 F1은 Sensitivity와 Precision의 조화평균이다. 검증 정확도의 관점에서 보면 정상 게시글을 판별하는 정확도는 크게 차이가 나지 않으나 Prob Weight가 Information Gain에 비하여 스팸 게시글을 60건 정도 더 정확하게 탐지함으로써 Precision이 다소 높게 나타나는 것을 알 수 있다. 따라서 본 연구에서는 최종적으로 Prob Weight 방식을 이용한 형태소 선택을 통해 변수를 구축하여 페이스북 게시글 스팸 탐지에 적용하기로 하였다.
인스타그램의 문서기반 랜덤포레스트를 사용한 결과는 정확도 측면에서는 나쁘지 않은 성능을 보이지만 목표변수 중 중요한 스팸분류기의 평가지표인 F1-Measure에서는 상대적으로 낮은 약 68%의 성능을 보였다. 다음으로는 페이스북의 파생 변수만을 사용한 결과에서는 단순 정분류율 기준 약 98%, F1-measure 기준 약 88%의 정확도를 나타내었다. 본 연구에서 제안한 인스타그램에서 추출된 학습된 단어와 페이스북의 파생변수를 모두 사용한 랜덤포레스트는 단순 정확도 기준 약 99% F1-measure 기준 약 96%으로 가장 우수한 탐지 정확도를 나타내는 것을 확인하였다.
또한 스팸 게시글을 수집할 시 도박, 성인물, 대출 등 원하는 분야의 데이터를 수집 가능하다는 점은 텍스트를 이용한 스팸 분류기 구축 과정에서 장점으로 작용한다. 둘째, 데이터의 대하여 목표변수를 비교적 손쉽게 설정 가능하다는 것이다. 예를 들어 “#명언”이라고 검색했을 경우 5,996개의 수집된 게시글 중 대부분이 정상이라는 것을 쉽게 확인할 수 있으며, “#사다리픽”이라고 검색했을 경우 5,591개의 수집된 게시글의 대부분은 스팸 게시글 이라는 것을 쉽게 확인할 수 있다.
또한 여섯 가지 지표에 대하여 ‘Instagram RF’와 Instagram+Facebook RF’ 그리고 ‘Facebook RF’와 ‘Instagram+Facebook RF’에 대하여 예측 성능 차이에 대한 통계적인 유의성 검증을 시행한 결과 [Table 10]과 같이 모두 p-value가 0.01 미만으로 산출되어 제안하는 방법론이 다른 방법론에 비해 유의미한 탐지 정확도의 향상을 이루어 냈음을 알 수 있다.
데이터의 개수가 약 20,530개의 데이터로 감소 한 것을 알 수 있다. 또한 표식을 수정함으로써 약 15%의 스팸 게시글이 추가적으로 정상 게시글로 이동하여 최종적으로 181,590건의 정상 게시글과 17,750건의 스팸 게시글이 확보되었다.
또한, 작성 문장이 상당히 짧아, ‘Prob weight 기반 단어 백터 공간상에서 모든 변수의 값이 0으로 생성될 확률이 높으므로, 사후 확률이 낮게 측정되는 것을 확인 할 수 있다.
먼저, 인스타그램 기반의 랜덤포레스트로 사후 확률이 0.1 이하인 경우가 2,176건 중 2,115건이며 해당 문서는 모두 정상인 것을 검증 하였다. 사후확률 0.
1 초과의 데이터에서는 정상과 스팸이 섞여 있는 것을 확인 할 수 있다. 모든 게시글에 대하여 정상/스팸 여부를 사람이 판별한 결과, 스팸성 게시글은 총 2,729건, 정상 게시글은 총 26,668건으로 판별되었다. 이를 인스타그램 Prob weight 기준 선택된 단어 학습 기반의 랜덤포레스트만을 사용하여 예측할 경우의 정분류 및 오분류 예시는 [Table 8]에 나타난 것과 같다.
본 연구는 실제 범주의 표식 정보가 부재한 상황에서 페이스북 스팸 필터링 알고리즘을 학습하기 위해 인스타그램의 데이터를 활용하여 전이학습을 행하는 것이 매우 효과적이라는 것을 입증했다는 것에 의의가 있다. 페이스북의 스팸/정상 게시글의 표식 정보를 확보하기 위해 인스타그램의 해시태그를 활용한 결과 두 범주 모두 균형적으로 데이터를 확보 할 수 있었으며, 페이스북의 스팸의 특징을 반영한 메타변수를 통하여 높은 정확도의 스팸 필터링 시스템 구축이 가능하게 되었다.
테스트 데이터에 대한 혼동행렬과 각 평가 지표에 대한 값들은 [Table 11]과 [Table 12]에 나타난 것과 같다. 본 연구에서 제안하는 인스타그램의 텍스트 정보와 페이스북의 메타 정보를 사용하여 만든 스팸 필터링 시스템은 테스트 데이터 기준 F1-measure 기준 98.2%, 정분류율 기준 99.9%의 탐지 정확도를 나타내었다. 이는 실제 페이지에 사용할 만큼의 성능이라고 볼 수 있으며 이를 바탕으로 향후 지속적으로 생성되는 페이스북 게시글들에 대한 목적변수를 할당하여 보다 강건한 스팸 탐지 모델을 구축할 수 있을 것이다.
다음으로는 페이스북의 파생 변수만을 사용한 결과에서는 단순 정분류율 기준 약 98%, F1-measure 기준 약 88%의 정확도를 나타내었다. 본 연구에서 제안한 인스타그램에서 추출된 학습된 단어와 페이스북의 파생변수를 모두 사용한 랜덤포레스트는 단순 정확도 기준 약 99% F1-measure 기준 약 96%으로 가장 우수한 탐지 정확도를 나타내는 것을 확인하였다. 또한 여섯 가지 지표에 대하여 ‘Instagram RF’와 Instagram+Facebook RF’ 그리고 ‘Facebook RF’와 ‘Instagram+Facebook RF’에 대하여 예측 성능 차이에 대한 통계적인 유의성 검증을 시행한 결과 [Table 10]과 같이 모두 p-value가 0.
1 이하인 경우가 2,176건 중 2,115건이며 해당 문서는 모두 정상인 것을 검증 하였다. 사후확률 0.1초과의 경우는 61개로 확인되었으며 61개에 대하여 페이스북과 인스타그램의 데이터를 동시에 사용한 랜덤포레스트를 사용하여 분류한 결과 27개를 스팸으로 분류 하였다. 해당 분류된 27개의 문서는 모두 스팸인 것을 확인하였다.
‘Num_Alpha_Term_Per’ 변수는 문장의 알파벳의 개수를 측정하고 스트링 길이로 나눠준 것이다. 스팸성 게시글이 일반 게시글보다 알파벳 단어가 많이 작성될 확률이 높은 것을 바탕으로 파생 되었다. ‘Num_of_Change_Alphabet’ 변수는 페이스북의 댓글에 자신의 친구 혹은 지인을 태그 입력 할 수 있는 기능이 존재하는데 상당수의 정상 댓글에서 이러한 태그를 사용하는 점에서 고안된 변수이다.
(2014)의 연구에서 다시 한 번 실험적으로 검증되었다. 이 연구에서 총 121개의 UCI 분류 데이터 셋에 대해 179가지의 분류 알고리즘을 이용하여 분류 성능을 비교한 결과 랜덤포레스트관련 알고리즘이 비교적 다른 알고리즘에 비해 우수한 분류 성능을 나타내는 것으로 확인되었으며, Oh et al. (2014)의 연구에서도 텍스트뿐만 아니라 야구 데이터에서도 랜덤 포레스트가 일반적으로 우수한 성능을 보여줌을 실증적으로 확인 하였다. 또한 랜덤포레스트는 앙상블 기반의 모델 중 순서가 필요 없는 Implicit Ensemble 기반의 알고리즘으로 분류기들을 동시에 병렬적으로 생성하는 것이 가능하므로 Explicit Ensemble 기반의 부스팅(boosting) 계열 기법에 비해 시간적으로 효율적인 모델 구축이 가능하다는 장점이 있어 본 연구에서는 랜덤포레스트를 분류기로 이용하였다.
또한, 인스타그램 기반의 데이터를 기반으로 한 전이학습 결과와 페이스북 게시글의 메타 정보를 활용한 변수를 추가함으로써 보다 정확한 스팸 탐지 모델을 구축하였다. 인스타그램의 150개의 스팸/햄 해시태그 기준 761,861개의 게시글을 통해 주요 단어를 추출하여 총 11개의 페이스북 게시글 메타정보와 결합하여 랜덤포레스트 기반의 분류기를 학습한 결과, 테스트 데이터 기준 정 분류율 99.9%, F1-measure 98.2%의 탐지 성능을 나타내는 것을 확인하였다.
이는 페이스북의 스팸게시물 구조가 정상게시물 구조와 비교하여 보았을 때 생성된 파생변수의 특성과 상이하게 다르게 분포하고 있다는 것을 의미한다. 인스타그램의 문서기반 랜덤포레스트를 사용한 결과는 정확도 측면에서는 나쁘지 않은 성능을 보이지만 목표변수 중 중요한 스팸분류기의 평가지표인 F1-Measure에서는 상대적으로 낮은 약 68%의 성능을 보였다. 다음으로는 페이스북의 파생 변수만을 사용한 결과에서는 단순 정분류율 기준 약 98%, F1-measure 기준 약 88%의 정확도를 나타내었다.
재미있는 결과는 페이스북에서 생성한 파생변수로만 사용한 랜덤포레스트가 인스타그램 문서기반의 랜덤포레스트 분류기에 비하여 모든 지표에서 성능이 비교적 우수하게 나타났다는 것이다. 이는 페이스북의 스팸게시물 구조가 정상게시물 구조와 비교하여 보았을 때 생성된 파생변수의 특성과 상이하게 다르게 분포하고 있다는 것을 의미한다.
해당 분류된 27개의 문서는 모두 스팸인 것을 확인하였다. 정상 게시물로 예측한 37개중에서는 유일하게 1개가 스팸이었으며 결론적으로 전체 테스트 데이터 2,176건 중 1건을 오분류하는 결과를 산출하였다.
페이스북의 스팸 게시글을 필터링하기 위해 1차적으로 스팸/정상 게시글을 명확히 구분할 수 있는 인스타그램 텍스트를 수집하였다. 총 80개의 정상 해시태그와 70개의 스팸 해시태그에 대해 게시글들을 수집한 결과 정상 게시글은 449,721건, 스팸 게시글은 287,140건이 수집되었다. 또한 해당 스팸 필터링 시스템을 페이스북에 적용하기 위하여 총 23개의 페이스북 페이지에서 2014년 1월 1일부터 2016년 3월 31일까지 1,795,067건의 게시글 및 관련된 파생 변수를 수집하였다.
본 연구는 실제 범주의 표식 정보가 부재한 상황에서 페이스북 스팸 필터링 알고리즘을 학습하기 위해 인스타그램의 데이터를 활용하여 전이학습을 행하는 것이 매우 효과적이라는 것을 입증했다는 것에 의의가 있다. 페이스북의 스팸/정상 게시글의 표식 정보를 확보하기 위해 인스타그램의 해시태그를 활용한 결과 두 범주 모두 균형적으로 데이터를 확보 할 수 있었으며, 페이스북의 스팸의 특징을 반영한 메타변수를 통하여 높은 정확도의 스팸 필터링 시스템 구축이 가능하게 되었다. 본 연구에서 제안한 방식은 실제 SNS와 비슷한 다양한 인터넷 환경에 효과적으로 적용될 수 있을 것으로 기대한다.

후속연구

또한 해당 연구 방법론을 통하여 지속적으로페이스북 데이터를 습득한다면, 인스타그램의 학습된 단어가 아닌 페이스북의 대량의 문서(corpus)데이터를 통한 분류기를 생성 할 수 있을 것이다. 또한 스팸 게시글의 주제는 지속적으로 진화하는 특징을 가지고 있기 때문에, 새롭게 생성되는 스팸 주제에 대한 데이터 습득을 어떻게 습득할 것인지도 향후 연구되어야 할 것이다. 또한, 본 연구에서는 페이스북 API 정책상 사용자에 대한 정보를 습득하는 것에 한계가 있어 사용자에 대한 정보를 통해 스패머를 추출하는 알고리듬을 같이 사용하지 않았지만 해당 데이터를 가용 할 수 있다면 본 연구를 통해 제시한 분류기와 함께 사용하여 향상된 스팸 필터링 시스템 구축이 가능하게 될 것으로 기대한다.
본 연구에서는 페이스북 전체 페이지 기반 예측을 목적으로 분류기를 생성하였지만 특정 주제로 이루어진 하나의 페이스북 페이지는 대부분의 비슷한 텍스트로 이루어져 있을 확률이 있으므로, 개별 페이지별로 콘텐츠의 주제를 분석하는 토픽 모델링 기법 등을 기반으로 스팸 필터링 시스템을 구축해볼 수 있을 것이다. 또한 해당 연구 방법론을 통하여 지속적으로페이스북 데이터를 습득한다면, 인스타그램의 학습된 단어가 아닌 페이스북의 대량의 문서(corpus)데이터를 통한 분류기를 생성 할 수 있을 것이다. 또한 스팸 게시글의 주제는 지속적으로 진화하는 특징을 가지고 있기 때문에, 새롭게 생성되는 스팸 주제에 대한 데이터 습득을 어떻게 습득할 것인지도 향후 연구되어야 할 것이다.
또한 스팸 게시글의 주제는 지속적으로 진화하는 특징을 가지고 있기 때문에, 새롭게 생성되는 스팸 주제에 대한 데이터 습득을 어떻게 습득할 것인지도 향후 연구되어야 할 것이다. 또한, 본 연구에서는 페이스북 API 정책상 사용자에 대한 정보를 습득하는 것에 한계가 있어 사용자에 대한 정보를 통해 스패머를 추출하는 알고리듬을 같이 사용하지 않았지만 해당 데이터를 가용 할 수 있다면 본 연구를 통해 제시한 분류기와 함께 사용하여 향상된 스팸 필터링 시스템 구축이 가능하게 될 것으로 기대한다.
페이스북의 스팸/정상 게시글의 표식 정보를 확보하기 위해 인스타그램의 해시태그를 활용한 결과 두 범주 모두 균형적으로 데이터를 확보 할 수 있었으며, 페이스북의 스팸의 특징을 반영한 메타변수를 통하여 높은 정확도의 스팸 필터링 시스템 구축이 가능하게 되었다. 본 연구에서 제안한 방식은 실제 SNS와 비슷한 다양한 인터넷 환경에 효과적으로 적용될 수 있을 것으로 기대한다.
학습에 사용된 변수로는 문자열의 길이, 평균 사용한 단어 수, 포스트의 길이, 그리고 포스트에 입력돼 있는 URL 링크의 수가 있다. 이 연구는 페이스북 포스트의 특징을 반영하는 변수를 적절히 생성했다는 장점이 있는 반면, 학습과 검증에 사용된 데이터 수가 충분하지 않고 비교적 간단한 알고리즘에 속하는 의사결정나무 한 가지만 사용했다는 한계점이 존재한다. Gao et al.
9%의 탐지 정확도를 나타내었다. 이는 실제 페이지에 사용할 만큼의 성능이라고 볼 수 있으며 이를 바탕으로 향후 지속적으로 생성되는 페이스북 게시글들에 대한 목적변수를 할당하여 보다 강건한 스팸 탐지 모델을 구축할 수 있을 것이다.

핵심어	질문	논문에서 추출한 답변
	트위터 게시글 기반의 형태소 분석기를 사용하여 형태소 분석을 한 배경은 무엇인가?	본 연구에 사용된 게시글들은 SNS에서 사용되는 용어 및 표현 방식이 만연한 관계로 표준어의 문법을 따르지 않는 경우가 많다. 따라서 이러한 특징을 보다 정확하게 반영하는 스팸 분류기를 구축하기 위하여 표준어 기반의 형태소 분석기가 아닌 트위터 게시글 기반의 형태소 분석기를 사용하여 형태소 분석을 수행하였다
	본 연구에서 적용한 분류기는 무엇인가?	본 연구에서 적용한 분류기는 의사결정나무 기반의 앙상블 기법인 랜덤포레스트이다. 랜덤포레스트는 배깅(bagging) 기법을 이용하여 서로 다른 학습 데이터 부트스트랩을 생성하며, 개별 의사결정나무의 분기점 선택이 임의의 적은 변수들만을 고려한다.
	분류 모델 구축을 위한 학습 데이터 구성이 쉽지 않은 이유는 무엇인가?	본 연구에서 사용하는 페이스북 게시글은 예측 모델 구축 관점에서 다음과 같이 두 가지 문제점을 가지고 있다. 첫째, 스팸 게시글과 정상 게시글에 대한 목표 변수의 획득이 어렵기 때문에 분류 모델 구축을 위한 학습 데이터 구성이 쉽지 않다. 둘째, 스팸 게시글의 비율은 정상 게시글보다 낮기 때문에 데이터 불균형 문제가 발생하여 분류기의 정확도를 저하시키는 요인이 된다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

인스타그램 기반의 전이학습과 게시글 메타 정보를 활용한 페이스북 스팸 게시글 판별
Facebook Spam Post Filtering based on Instagram-based Transfer Learning and Meta Information of Posts 원문보기

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (18)

이 논문을 인용한 문헌

저자의 다른 논문 :

연구과제 타임라인

관련 콘텐츠

원문 보기

원문 URL 링크

연관된 기능

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

인스타그램 기반의 전이학습과 게시글 메타 정보를 활용한 페이스북 스팸 게시글 판별 Facebook Spam Post Filtering based on Instagram-based Transfer Learning and Meta Information of Posts 원문보기

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (18)

이 논문을 인용한 문헌

저자의 다른 논문 :

김준홍 (1) 서덕성 (1) 김해동 (1) 강필성 (15)

연구과제 타임라인

전체(0) 논문(0) 특허(0) 보고서(0)

전체(0) 논문(0) 특허(0) 보고서(0)

관련 콘텐츠

원문 보기

원문 URL 링크

연관된 기능

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

인스타그램 기반의 전이학습과 게시글 메타 정보를 활용한 페이스북 스팸 게시글 판별
Facebook Spam Post Filtering based on Instagram-based Transfer Learning and Meta Information of Posts 원문보기

AI 본문요약
AI-Helper