$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

워드 임베딩과 딥러닝 기법을 이용한 SMS 문자 메시지 필터링
SMS Text Messages Filtering using Word Embedding and Deep Learning Techniques 원문보기

스마트미디어저널 = Smart media journal, v.7 no.4, 2018년, pp.24 - 29  

이현영 (국민대학교 컴퓨터공학학과) ,  강승식 (국민대학교 소프트웨어학부)

초록
AI-Helper 아이콘AI-Helper

딥러닝에서 자연어 처리를 위한 텍스트 분석 기법은 워드 임베딩을 통해 단어를 벡터 형태로 표현한다. 본 논문에서는 워드 임베딩 기법딥러닝 기법을 이용하여 SMS 문자 메시지를 문서 벡터로 구성하고 이를 스팸 문자 메시지와 정상적인 문자 메시지로 분류하는 방법을 제안하였다. 유사한 문맥을 가진 단어들은 벡터 공간에서 인접한 벡터 공간에 표현되도록 하기 위해 전처리 과정으로 자동 띄어쓰기를 적용하고 스팸 문자 메시지로 차단되는 것을 피하기 위한 목적으로 음절의 자모를 특수기호로 왜곡하여 맞춤법이 파괴된 상태로 단어 벡터와 문장 벡터를 생성하였다. 또한 문장 벡터 생성 시 CBOW와 skip gram이라는 두 가지 워드 임베딩 알고리즘을 적용하여 문장 벡터를 표현하였으며, 딥러닝을 이용한 스팸 문자 메시지 필터링의 성능 평가를 위해 SVM Light와 정확도를 비교 측정하였다.

Abstract AI-Helper 아이콘AI-Helper

Text analysis technique for natural language processing in deep learning represents words in vector form through word embedding. In this paper, we propose a method of constructing a document vector and classifying it into spam and normal text message, using word embedding and deep learning method. A...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

문제 정의

  • 본 연구에서는 신경망을 이용한 워드 임베딩(word embedding)으로 문자 메시지를 벡터로 표현하고 전방향 신경망을 이용하는 스팸 문자 메시지 필터링 기법을 제안한다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
문서나 문장 등의 데이터를 이미 정해진 범주에 따라 분류하는 방법으로 어떤 기계학습 방법들을 이용하고 있나? 문서나 문장 등의 데이터를 이미 정해진 범주에 따라 분류하는 방법으로는 K-NN 방법, SVM, Naive Bayes 등의 기계학습 방법들을 이용하고 있다[11]. 하지만 스팸 문자 메시지 필터링은 정해진 범주를 2개로 고정하여 여러 문장 및 구 형태의 텍스트 데이터를 분류하는 이진 분류(binary classification) 문제이므로 분류 기법에 적합한 딥러닝 모델을 이용하여 스팸 문자 메시지를 필터링하고자 하였다.
스팸 문자 메시지 데이터를 효율적으로 필터링하는 방법 중 널리 보편적으로 사용되는 방법론으로는 무엇이 있나? 그 부작용으로 성인광고, 대출광고, 게임광고 등의 스팸 문자 텍스트 데이터도 폭발적으로 증가하여 이를 필터링 하기 위한 다양한 기법들이 개발되고 있다[2]. 이러한 스팸 문자 메시지 데이터를 효율적으로 필터링하는 방법 중 널리 보편적으로 사용되는 방법론으로는 통계적 확률 방법론과 지지 벡터 기계(SVM) 등의 기계학습 방법이 있다[3, 4].
SMS 문자 메시지 데이터를 살펴보면 하나의 문장 및 구는 단어들의 집합이므로 각 단어들의 빈도수를 이용하여 하나의 벡터로 표현될 수 있는데, 이러한 빈도수 기반의 벡터는 어떤 문제점이 있나? SMS 문자 메시지 데이터를 살펴보면, 하나의 문장 및 구는 단어들의 집합이므로 각 단어들의 빈도수를 이용하여 하나의 벡터로 표현될 수 있다. 이러한 빈도수 기반의 벡터는 단어의 수가 많아짐에 따라 차원의 수도 비례하게 커지는 차원의 저주라는 문제점이 있다. 예를 들어, 아래 5개의 문장을 살펴보면, 띄어쓰기를 기준으로 벡터로 표현하기 위한 총 차원 수는 13이다.
질의응답 정보가 도움이 되었나요?

저자의 다른 논문 :

LOADING...

관련 콘텐츠

이 논문과 함께 이용한 콘텐츠

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로