[논문]워드 임베딩과 딥러닝 기법을 이용한 SMS 문자 메시지 필터링

이현영; 강승식

doi:10.30693/smj.2018.7.4.24

초록
AI-Helper

딥러닝에서 자연어 처리를 위한 텍스트 분석 기법은 워드 임베딩을 통해 단어를 벡터 형태로 표현한다. 본 논문에서는 워드 임베딩 기법과 딥러닝 기법을 이용하여 SMS 문자 메시지를 문서 벡터로 구성하고 이를 스팸 문자 메시지와 정상적인 문자 메시지로 분류하는 방법을 제안하였다. 유사한 문맥을 가진 단어들은 벡터 공간에서 인접한 벡터 공간에 표현되도록 하기 위해 전처리 과정으로 자동 띄어쓰기를 적용하고 스팸 문자 메시지로 차단되는 것을 피하기 위한 목적으로 음절의 자모를 특수기호로 왜곡하여 맞춤법이 파괴된 상태로 단어 벡터와 문장 벡터를 생성하였다. 또한 문장 벡터 생성 시 CBOW와 skip gram이라는 두 가지 워드 임베딩 알고리즘을 적용하여 문장 벡터를 표현하였으며, 딥러닝을 이용한 스팸 문자 메시지 필터링의 성능 평가를 위해 SVM Light와 정확도를 비교 측정하였다.

Abstract ▼ AI-Helper

Text analysis technique for natural language processing in deep learning represents words in vector form through word embedding. In this paper, we propose a method of constructing a document vector and classifying it into spam and normal text message, using word embedding and deep learning method. A...

Text analysis technique for natural language processing in deep learning represents words in vector form through word embedding. In this paper, we propose a method of constructing a document vector and classifying it into spam and normal text message, using word embedding and deep learning method. Automatic spacing applied in the preprocessing process ensures that words with similar context are adjacently represented in vector space. Additionally, the intentional word formation errors with non-alphabetic or extraordinary characters are designed to avoid being blocked by spam message filter. Two embedding algorithms, CBOW and skip grams, are used to produce the sentence vector and the performance and the accuracy of deep learning based spam filter model are measured by comparing to those of SVM Light.

주제어

AI 본문요약
AI-Helper

문제 정의

본 연구에서는 신경망을 이용한 워드 임베딩(word embedding)으로 문자 메시지를 벡터로 표현하고 전방향 신경망을 이용하는 스팸 문자 메시지 필터링 기법을 제안한다.

제안 방법

핸드폰의 SMS 문자 메시지로 전송되는 대량의 광고문자들을 필터링하는 방법으로 워드 임베딩과 딥러닝 기법을 이용한 스팸 문자 메시지 필터링 방법을 제안하였다. 스팸 문자들은 의도적으로 띄어쓰기 규칙을 지키지 않거나 한글 자모 대신에 특수기호나 기호를 이용하여 음절을 구성하는 경우가 많은데 자동 띄어쓰기를 이용하여 띄어쓰기 오류를 교정하고, 자모 해체와 특수기호로 대치된 경우는 왜곡된 단어 형태를 포함하여 워드 임베딩을 수행하였다. 문자 메시지를 구성하는 문장 벡터 표현은 CBOW와 skip gram이라는 두 가지 방식으로 워드 임베딩 실험을 수행하였고, 딥러닝 기법의 효용성을 검증하기 위해 SVM 방법의 문자 필터링과 성능을 비교하였다.

대상 데이터

워드 임베딩과 전방향 신경망을 이용한 스팸 문자 메시지 필터링을 위한 실험 데이터는 총 109,993개의 문자 데이터 집합이다. 이 데이터는 중복 단어를 포함하여 910,143개 단어들로 구성되었고 중복 단어 제거하면 895,918개의 단어들로 이루어졌다.

데이터처리

문자 메시지를 구성하는 문장 및 구에 대한 벡터 표현을 위해 CBOW와 skip gram이라는 두 가지 방식의 워드 임베딩 알고리즘을 이용하여 단어 벡터를 생성하는 실험을 수행하였다. 각각 워드 임베딩 방식을 통하여 하나의 문자 메시지를 구성하는 단어들의 벡터 합으로 문자 메시지를 벡터로 표현하였고, 이러한 고정 길의 문장 벡터로 딥러닝 모델인 전방향 신경망과 SVM Light를 이용하여 스팸 문자 메시지 필터링의 정확도를 비교 측정하였다. 표 2는 전방향 신경망과 SVM Light에 의한 스팸 문자 메시지 필터링의 정확도 측정 결과이다.

이론/모형

문자 메시지를 구성하는 문장 및 구에 대한 벡터 표현을 위해 CBOW와 skip gram이라는 두 가지 방식의 워드 임베딩 알고리즘을 이용하여 단어 벡터를 생성하는 실험을 수행하였다. 각각 워드 임베딩 방식을 통하여 하나의 문자 메시지를 구성하는 단어들의 벡터 합으로 문자 메시지를 벡터로 표현하였고, 이러한 고정 길의 문장 벡터로 딥러닝 모델인 전방향 신경망과 SVM Light를 이용하여 스팸 문자 메시지 필터링의 정확도를 비교 측정하였다.

성능/효과

문자 메시지를 구성하는 문장 벡터 표현은 CBOW와 skip gram이라는 두 가지 방식으로 워드 임베딩 실험을 수행하였고, 딥러닝 기법의 효용성을 검증하기 위해 SVM 방법의 문자 필터링과 성능을 비교하였다. 그 결과로 SVM과 딥러닝 기법 모두 CBOW를 이용한 워드 임베딩 성능이 skip gram 방식보다 정확도가 높은 것을 알 수 있었고, 또한 딥러닝 기법이 SVM 방식보다 더 성능이 좋은 것을 확인하였다.
표 3의 SVM light를 사용하여 CBOW와 skip gram의 벡터 차원 수에 따른 정상적인 문자 메시지는 정상적인 문자메시지로 스팸 문자메시지는 스팸 문자메시지로 올바르게 분류하는 정확도에서는 CBOW과 skip gram보다 더 높은 성능을 보여주고 있다. 이를 통해, 단어를 벡터로 표현하는 방법에서는 skip gram보다 CBOW를 이용하는 것이 정확도가 더 높은 것을 알 수 있었다.
워드 임베딩에서 윈도우 크기는 8로 하였고, 워드 벡터는 300차원으로 구성하였다. 표 2의 스팸 문자 메시지는 스팸 문자 메시지로 정상적인 문자 메시지는 정상적인 문자 메시지로 올바르게 분류하는 정확도에서 딥러닝 모델인 전방향 신경망을 이용한 경우는 95.87%가 가장 높은 정확도로 SVM light의 95.72%보다 0.15% 더 높은 성능을 보여주고 있다.

질의응답

핵심어	질문	논문에서 추출한 답변
	문서나 문장 등의 데이터를 이미 정해진 범주에 따라 분류하는 방법으로 어떤 기계학습 방법들을 이용하고 있나?	문서나 문장 등의 데이터를 이미 정해진 범주에 따라 분류하는 방법으로는 K-NN 방법, SVM, Naive Bayes 등의 기계학습 방법들을 이용하고 있다[11]. 하지만 스팸 문자 메시지 필터링은 정해진 범주를 2개로 고정하여 여러 문장 및 구 형태의 텍스트 데이터를 분류하는 이진 분류(binary classification) 문제이므로 분류 기법에 적합한 딥러닝 모델을 이용하여 스팸 문자 메시지를 필터링하고자 하였다.
	스팸 문자 메시지 데이터를 효율적으로 필터링하는 방법 중 널리 보편적으로 사용되는 방법론으로는 무엇이 있나?	그 부작용으로 성인광고, 대출광고, 게임광고 등의 스팸 문자 텍스트 데이터도 폭발적으로 증가하여 이를 필터링 하기 위한 다양한 기법들이 개발되고 있다[2]. 이러한 스팸 문자 메시지 데이터를 효율적으로 필터링하는 방법 중 널리 보편적으로 사용되는 방법론으로는 통계적 확률 방법론과 지지 벡터 기계(SVM) 등의 기계학습 방법이 있다[3, 4].
	SMS 문자 메시지 데이터를 살펴보면 하나의 문장 및 구는 단어들의 집합이므로 각 단어들의 빈도수를 이용하여 하나의 벡터로 표현될 수 있는데, 이러한 빈도수 기반의 벡터는 어떤 문제점이 있나?	SMS 문자 메시지 데이터를 살펴보면, 하나의 문장 및 구는 단어들의 집합이므로 각 단어들의 빈도수를 이용하여 하나의 벡터로 표현될 수 있다. 이러한 빈도수 기반의 벡터는 단어의 수가 많아짐에 따라 차원의 수도 비례하게 커지는 차원의 저주라는 문제점이 있다. 예를 들어, 아래 5개의 문장을 살펴보면, 띄어쓰기를 기준으로 벡터로 표현하기 위한 총 차원 수는 13이다.

이 논문을 인용한 문헌

저자의 다른 논문 :

LOADING...

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

워드 임베딩과 딥러닝 기법을 이용한 SMS 문자 메시지 필터링
SMS Text Messages Filtering using Word Embedding and Deep Learning Techniques 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

질의응답

이 논문을 인용한 문헌

저자의 다른 논문 :

연구과제 타임라인

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

워드 임베딩과 딥러닝 기법을 이용한 SMS 문자 메시지 필터링 SMS Text Messages Filtering using Word Embedding and Deep Learning Techniques 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

질의응답

이 논문을 인용한 문헌

저자의 다른 논문 :

강승식 (27)

연구과제 타임라인

전체(0) 논문(0) 특허(0) 보고서(0)

전체(0) 논문(0) 특허(0) 보고서(0)

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

워드 임베딩과 딥러닝 기법을 이용한 SMS 문자 메시지 필터링
SMS Text Messages Filtering using Word Embedding and Deep Learning Techniques 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper