[논문]스팸 필터링을 위한 지식 그래프 기반의 신조어 감지 매커니즘

김지혜; 정옥란

doi:10.7472/jksii.2020.21.1.79

스팸 필터링을 위한 지식 그래프 기반의 신조어 감지 매커니즘
Knowledge Graph-based Korean New Words Detection Mechanism for Spam Filtering 원문보기

Journal of Internet Computing and Services = 인터넷정보학회논문지, v.21 no.1, 2020년, pp.79 - 85

김지혜 (Dept. of Software, Gachon University) , 정옥란 (Dept. of Software, Gachon University)

초록
AI-Helper

오늘날 스마트폰에서 스팸 문자를 차단하기 위해 문자 내용과 스팸 키워드의 단순 문자열 비교 또는 스팸 전화번호를 차단하는 방식을 사용하고 있다. 이에 따라 스팸 문자가 자동으로 차단되는 것을 방지하기 위해 점차 변화된 방식으로 스팸 문자를 전송한다. 특히 스팸 키워드에 포함되는 단어의 경우 단순 문자열 비교로 검색되지 않도록 특수문자, 한자, 띄어쓰기 등을 이용하여 비정상적인 단어로 스팸 문자를 발송한다. 기존 스팸 필터링 방식의 경우 이러한 스팸 문자를 차단할 수 없다는 한계가 있다. 따라서 변화하는 스팸 문자에 대응할 수 있는 새로운 기술이 필요한 시점이다. 본 논문에서는 스팸 문자에서 자주 사용되는 신조어를 검출하여 변화하는 스팸 문자에 대응할 수 있는 지식 그래프 기반의 신조어 감지 매커니즘을 제안한다. 또한 기본 Naive Bayes에 감지한 신조어를 적용하여 제안한 방법의 성능 실험 결과를 보여준다.

Abstract ▼ AI-Helper

Today, to block spam texts on smartphone, a simple string comparison between text messages and spam keywords or a blocking spam phone numbers is used. As results, spam text is sent in a gradually hanged way to prevent if from being automatically blocked. In particular, for words included in spam keywords, spam texts are sent to abnormal words using special characters, Chinese characters, and whitespace to prevent them from being detected by simple string match. There is a limit that traditional spam filtering methods can't block these spam texts well. Therefore, new technologies are needed to respond to changing spam text messages. In this paper, we propose a knowledge graph-based new words detection mechanism that can detect new words frequently used in spam texts and respond to changing spam texts. Also, we show experimental results of the performance when detected Korean new words are applied to the Naive Bayes algorithm.

주제어

표/그림 (6)

그림 (그림 1) 지식 그래프 기반 신조어 감지 매커니즘 (Figure 1) Knowledge Graph-based New Words Detection Mechanism
표 (표 1) 카테고리 별 스팸 건수 (Table 1) Number of Spam in each category
표 (표 2) 토큰화에 사용된 Khaiii 품사 태그 (Table 2) Khaiii Pos tags used in Tokenization
표 (표 3) 제안하는 토큰화 결과와 KoNLPy 명사 추출 라이브러리 결과 비교 (Table 3) Comparison of Our Tokenization Results with KoNLPy Noun Extraction Library Results
표 (표 4) 신조어 감지 결과 (Table 4) Korean New Words Detection
표 (표 5) 기본 스팸 필터링과 신조어 적용 스팸 필터링의 성능 비교 (Table 5) Comparison of Basic Spam Filtering with Spam Filtering applied Korean New Words

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서는 변화하는 스팸 문자에 대응하기 위해 스팸 문자에서 볼 수 있는 신조어를 지식 그래프를 이용하여 감지하는 새로운 신조어 감지 매커니즘을 제안한다. 이렇게 감지한 신조어로 지식 그래프를 구축하여 확장 가능한 스팸 키워드 시스템을 구현할 수 있다.
본 논문에서는 변화하는 스팸 문자에 대응할 수 있는 스팸 필터링 시스템의 구현과 지식 그래프에서 한국어를 비롯한 공통 언어의 경우 어휘 수가 매우 부족한 문제를 개선하기 위해 신조어 감지 매커니즘을 제안하였다. 더불어 콘텐츠 기반 스팸 필터링에서 기본적으로 사용되는 Naive Bayes에 신조어 감지 매커니즘을 적용한 실험을 통해 제안하는 방식의 성능을 확인하였다.
가져온 스팸 데이터에 대해 전처리 없이 신조어를 감지하는 방법도 가능하지만, 이 경우 스팸 문자에서 단어를 추출하는 데 어려움이 많다. 이를 해결하기 위해 본 논문에서는 스팸 문자의 특성을 파악하여 전처리 및 토큰화를 진행한다.

제안 방법

신조어 사전의 경우 카테고리별로 구분되어 있기 때문에 가중치 역시 카테고리에서 신조어 발생 비율로 계산한다. 가중치 계산 시, 상위 신조어 발생횟수와 하위 신조어 발생 횟수의 차이가 심하여 편차를 줄이기 위해 신조어 발생 횟수를 카테고리 내 전체 발생 횟수로 나눈 값에 루트 값을 사용하였다.
기본 NB에 신조어를 적용하기 위해 신조어 발생 횟수를 활용하여 가중치를 계산하고, 이를 기본 NB 카테고리별 확률값에 가중치를 더한 값으로 스팸을 필터링하는 방식을 사용하였다. 신조어 사전의 경우 카테고리별로 구분되어 있기 때문에 가중치 역시 카테고리에서 신조어 발생 비율로 계산한다.
다음으로 토큰화가 완료된 문자열을 이용하여 각 카테고리 별 신조어 후보 사전을 구축한다. 구축한 신조어 후보 사전은 내림차순으로 정렬하여 사용한다.
본 논문에서는 변화하는 스팸 문자에 대응할 수 있는 스팸 필터링 시스템의 구현과 지식 그래프에서 한국어를 비롯한 공통 언어의 경우 어휘 수가 매우 부족한 문제를 개선하기 위해 신조어 감지 매커니즘을 제안하였다. 더불어 콘텐츠 기반 스팸 필터링에서 기본적으로 사용되는 Naive Bayes에 신조어 감지 매커니즘을 적용한 실험을 통해 제안하는 방식의 성능을 확인하였다.
더불어 토큰화에 사용하는 라이브러리의 단어 사전에 존재하지 않는 단어의 경우 토큰으로 추출할 수 없다는 문제가 있다. 따라서 본 논문에서는 품사를 이용하여 단어를 추출하는 과정을 거친다.
여기서 중복 토큰 수는 곧 단어의 빈도수를 의미한다. 따라서 토큰의 중복 처리 및 각 토큰의 빈도수 계산을 위해 신조어 후보 사전을 구축한다.
본 논문에서 제안하는 지식 그래프 기반 스팸 신조어 감지 매커니즘은 그림 1과 같이 크게 스팸 데이터의 전처리, 토큰화, 후보 사전 구축, 지식 그래프 검색 순으로 4단계로 이루어진다. 전처리 단계에서는 스팸 여부와 관계없는 문자열을 삭제한다.
스팸 문자에서 단어를 추출하기 위해 Kakao에서 개발한 세 번째 형태소 분석기인 khaiii를 이용하여 품사를 태깅한다. 각 스팸 문자의 문자열은 khaiii의 사전에 의해 총 46개의 품사 중 하나로 태깅되며 khaiii 사전에 원하는 단어를 추가할 수 있다.
이러한 방법으로 감지된 신조어를 스팸 필터링에 적용할 경우, 성능 향상을 검증하기 위해 신조어를 사용하지 않은 스팸 필터링과 신조어를 적용한 스팸 필터링의 성능을 비교한다. 스팸 필터링에는 multi-class Naive Bayes(NB)를 사용한다.
이렇게 정제된 스팸 문자에서 토큰화 단계를 거쳐 명사, 기호, 외국어 세 가지 타입의 문자만 토큰으로 추출한다. 추출된 토큰으로 카테고리 별 신조어 후보 사전을 구축한 후 상위 N개의 토큰에 대해 지식 그래프 검색 결과를 바탕으로 신조어를 감지한다.

대상 데이터

본 실험에는 ConceptNet의 Web API와 형태소 분석을 위해 Kakao의 Khaiii를 사용하였으며, 실험은 Google colab의 TPU 환경에서 진행하였다.
실험에는 KISA에서 제공받은 15,004건 (총 224,121 단어)의 스팸 문자 데이터를 사용하였다. 스팸 문자 데이터는 ‘도박’, ‘선거’, ‘대리운전’, ‘금융’, ‘비스팸’으로 총 5개의 카테고리로 분류되어 있다.
더불어 한 글자로 이루어진 토큰의 경우 의미를 파악하기 어렵기 때문에 명사, 기호, 외국어에 해당해도 토큰에서 제외하였다. 이러한 토큰화 과정을 통해 총 66,529개의 단어를 추출하였다.

이론/모형

초기의 스팸 문자 탐지에는 규칙 기반, Naive Bayes 방식 및 SVM (Support Vector Machines) 방식을 사용하였다[12-14]. 이후 k-nearest neighbor algorithm (k-NN) 및 Naive Bayes (NB) 등의 방식이 사용되었다[15,16]. Jie et al에서는 거짓 양성 (false positive)을 높이기 위해 단어에 가중치를 더하는 방식이 사용되기도 하였다[17].
초기의 스팸 문자 탐지에는 규칙 기반, Naive Bayes 방식 및 SVM (Support Vector Machines) 방식을 사용하였다[12-14]. 이후 k-nearest neighbor algorithm (k-NN) 및 Naive Bayes (NB) 등의 방식이 사용되었다[15,16].

성능/효과

또한 ConceptNet의 Web API를 이용하여 여러 단어들의 검색 결과를 살펴본 결과, ‘대한민국’, ‘사랑’, ‘여름’과 같은 단어의 경우 19~20개의 관련 단어가 검색되었지만, ‘대리’, ‘대출’의 경우 각각 0개, 2개의 관련 단어만 검색되었다.
반면 본 논문에서 제안하는 신조어 감지의 경우, 스팸에서 사용되는 단어뿐 아니라 ‘NiCE’와 같이 대소문자가 혼재되어 있거나 ‘걍남룸샤롱’과 같이 맞춤법과 다르게 표기되어 있는 문자열도 단어로 인식하여 신조어로 감지되는 것을 볼 수 있다.
제안하는 토큰화 방법에서는 ‘▶’ 문자의 경우 한 글자 단어에 해당하여 추출되지 않는 것을 볼 수 있다.
표 5를 보면 기본 스팸 필터링의 평균 F1 스코어는 0.84, 신조어 적용 스팸 필터링의 평균 F1 스코어는 0.90으로 신조어가 적용되었을 때 성능이 향상하는 것을 확인할 수 있다. 기본 스팸 필터링의 경우 ‘비스팸’ 카테고리의 재현율과 F1 스코어가 다른 카테고리에 비해 현저히 낮은 것을 확인할 수 있다.

후속연구

실험에서 구현한 토큰화 과정에서 더욱 정확한 품사태깅이 가능하다면 양질의 단어 토큰으로 더욱 정교한 신조어 감지가 가능할 것으로 보인다. 또한 본 논문에서는 토큰을 추출하는 과정에서 명사, 기호, 외국어 세 가지 품사만을 고려하였으나 이후 URL, 전화번호 등 스팸의 추가적인 특성까지 고려하여 토큰화를 진행할 경우 스팸 필터링에 더욱 유의미한 신조어 추출이 가능할 것으로 보인다.
실험에서 구현한 토큰화 과정에서 더욱 정확한 품사태깅이 가능하다면 양질의 단어 토큰으로 더욱 정교한 신조어 감지가 가능할 것으로 보인다. 또한 본 논문에서는 토큰을 추출하는 과정에서 명사, 기호, 외국어 세 가지 품사만을 고려하였으나 이후 URL, 전화번호 등 스팸의 추가적인 특성까지 고려하여 토큰화를 진행할 경우 스팸 필터링에 더욱 유의미한 신조어 추출이 가능할 것으로 보인다.
향후에는 본 논문에서 제안하는 신조어 감지 매커니즘을 대화형 챗봇에 적용하여, 대화에 신조어가 탐지되었을 때 자동으로 지식 그래프에 추가하고 그 의미를 이해할 수 있는 지능형 대화형 챗봇에 대해 연구할 예정이다.

질의응답

핵심어	질문	논문에서 추출한 답변
	스팸 문자로 인해 발생하는 문제점은?	오늘날 많은 회사들이 마케팅을 위해 휴대폰으로 광고성 문자를 모방하여 정상 문자와 유사한 스팸 문자를 발송한다. 이러한 스팸 문자로 인해 회사 사칭에 따른 특정 회사의 이미지 손실 또는 스미싱으로 인한 고객의 금전적 피해 등 여러 사회적 문제가 발생한다.[1,2] 또한 스팸문자로 차단되지 않기 위해 문자 내용에 특수문자, 한자, 기호 등 의미 없는 문자를 추가하여 비정상적인 형태로 스팸 문자를 발송한다.
	스팸문자를 탐지하는 방법에서 콘텐츠 기반 방식이란 무엇인가?	협업기반 방식의 경우 사용자들의 피드백과 공유된 사용자 경험에 기초하여 스팸 여부를 판단한다. 이와 달리, 콘텐츠 기반 방식은 텍스트 내용을 분석하여 스팸을 분류하는 방식이다. 사용자 경험에 대한 데이터를 얻는 것은 매우 어렵기 때문에 대부분의 스팸 필터링 관련 연구는 콘텐츠 기반 방식을 사용한다[11].
	스팸 문자를 탐지하는 방법은 무엇이 있는가?	스팸 문자를 탐지하는 방법으로 크게 두 가지 방식이 사용된다. 협업 기반 방식과 콘텐츠 기반 방식이다. 협업기반 방식의 경우 사용자들의 피드백과 공유된 사용자 경험에 기초하여 스팸 여부를 판단한다.

참고문헌 (22)

Y. E. Jo, "NewsLite", http://www.newsgg.net/mobile/article.html?no13807
H. S. Ahn, "Safetimes", http://www.safetimes.co.kr/news/articleView.html?idxno76901
Rojas-Galeano, Sergio A, "Revealing non-alphabetical guises of spam-trigger vocables", Dyna, Vol.80, No.182, pp.15-24, 2013. http://ref.scielo.org/k4w22k
Joe, In-Whee, and Hye-Taek Shim, "A SVM-based spam filtering system for short message service (SMS)", The Journal of Korean Institute of Communications and Information Sciences, Vol.34, No.9, pp.908-913, 2009. http://www.koreascience.or.kr/article/JAKO200933063799701.page
Kang, Seung-Shik, "A Normalization Method of Distorted Korean SMS Sentences for Spam Message Filtering", KIPS Transactions on Software and Data Engineering, Vol.3, No.7, pp.271-276, 2014. https://doi.org/10.3745/KTSDE.2014.3.7.271

원문보기 상세보기
Narayan, Akshay, and Prateek Saxena, "The curse of 140 characters: evaluating the efficacy of SMS spam detection on android", Proceedings of the Third ACM workshop on Security and privacy in smartphones & mobile devices. ACM, 2013. https://doi.org/10.1145/2516760.2516772
Wang, Zhen, et al, "Knowledge graph embedding by translating on hyperplanes", Twenty-Eighth AAAI conference on artificial intelligence, 2014. https://www.aaai.org/ocs/index.php/AAAI/AAAI14/paper/view/8531/8546
Lin, Yankai, et al, "Learning entity and relation embeddings for knowledge graph completion", Twenty-ninth AAAI conference on artificial intelligence, 2015. https://www.aaai.org/ocs/index.php/AAAI/AAAI15/paper/view/9571/9523
Speer, Robert, Joshua Chin, and Catherine Havasi, "Conceptnet 5.5: An open multilingual graph of general knowledge", Thirty-First AAAI Conference on Artificial Intelligence, 2017. https://www.aaai.org/ocs/index.php/AAAI/AAAI17/paper/view/14972/14051
Speer, Robert, and Catherine Havasi, "Representing General Relational Knowledge in ConceptNet 5", LREC, 2012. http://lrec-conf.org/proceedings/lrec2012/pdf/1072_Paper.pdf
Karami, Amir, and Lina Zhou, "Improving static SMS spam detection by using new content-based features", Twentieth Americas Conference on Information Systems, Savannah, 2014. https://aisel.aisnet.org/cgi/viewcontent.cgi?article1205&contextamcis2014
Han-Cheol Cho, and Geun-Sik Jo, "Spam-mail Filtering System Using Naive Bayesian Classifier and Message Rule", Proceedings of the KISS conference, 한국정보과학회 학술발표논문집, Vol.29, No.1B, pp.223-225, 2002. http://www.dbpia.co.kr/pdf/pdfView.do?nodeIdNODE00612490
Xiang, Yang, Morshed Chowdhury, and Shawkat Ali, "Filtering mobile spam by support vector machine", CSITeA'04: Third International Conference on Computer Sciences, Software Engineering, Information Technology, E-Business and Applications. International Society for Computers and Their Applications (ISCA), 2004. http://hdl.handle.net/10536/DRO/DU:30005386
Gomez Hidalgo, Jose Maria, et al, "Content based SMS spam filtering", Proceedings of the 2006 ACM symposium on Document engineering. ACM, 2006. https://doi.org/10.1145/1166160.1166191
Duan, Longzhen, Nan Li, and Longjun Huang, "A new spam short message classification", 2009 First International Workshop on Education Technology and Computer Science, Vol.2, pp.168-171, 2009. https://doi.org/10.1109/ETCS.2009.299
Liu, Wuying, and Ting Wang, "Index-based online text classification for sms spam filtering", Journal of Computers, Vol.5, No.6, pp.844-851, 2010. https://doi.org/10.4304/jcp.5.6.844-851
Huang, Jie, Bei Huang, and Wenjing Pu, "A Bayesian approach for text filter on 3G network", 2010 6th International Conference on Wireless Communications Networking and Mobile Computing (WiCOM). IEEE, 2010. https://doi.org/10.1109/WICOM.2010.5601282
Roy, Pradeep Kumar, Jyoti Prakash Singh, and Snehasish Banerjee. "Deep learning to filter SMS Spam.", Future Generation Computer Systems, Vol.102, pp.524-533, 2020. https://doi.org/10.1016/j.future.2019.09.001

상세보기
Dhavale, Sunita. "C-ASFT: Convolutional Neural Networks-Based Anti-spam Filtering Technique.", Proceeding of International Conference on Computational Science and Applications. Springer, Singapore, pp.49-55, 2020. https://doi.org/10.1007/978-981-15-0790-8_6
Sharmin, Tazmina, et al. "Convolutional neural networks for image spam detection.", Information Security Journal: A Global Perspective pp.1-15, 2020. https://doi.org/10.1080/19393555.2020.1722867
Ezpeleta, Enaitz, et al. "Novel email spam detection method using sentiment analysis and personality recognition.", Logic Journal of the IGPL, Vol.28, No.1, pp.83-94, 2020. https://doi.org/10.1093/jigpal/jzz073

상세보기
Venkatraman, S., B. Surendiran, and P. Arun Raj Kumar. "Spam e-mail classification for the internet of things environment using semantic similarity approach.", The Journal of Supercomputing, Vol.76. No.2, pp.756-776, 2020. https://doi.org/10.1007/s11227-019-02913-7

상세보기

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증