[논문]실시간 채팅 환경에서 문장 분석을 이용한 대상자 및 비속어 검출

염충석; 장준영; 장유환; 김현철; 박희민

문제 정의

예를 들어 단어 사이에 숫자를 넣어서 우회하거나 오타가 있을 경우, 필터가 제 역할을 하지 못한다. 본 논문에서는 딥러닝을 이용해서 위의 상황에서도 비속어를 탐지하기 위한 알고리즘을 제안한다. 또한, 채팅 상황에서는 이름보다는 별명이나 지칭대명사를 많이 쓰는 점을 활용해 누군가 욕설을 했을 때 그 대상을 찾을 수 있는 방법론을 함께 제안한다.
본 논문에서는 문장에서 대상자를 검출하기 위하여 순차 삭제 알고리즘을 제안한다. Fig.
본 논문은 비속어를 필터링하기 위한 비속어 탐지 알고리즘과 대상자 탐지를 위한 순차적 삭제 알고리즘을 제안한다. 기존의 Masking 기반의 비속어 필터에서 판별이 힘들었던 비속어를 본 논문의 딥러닝 기반의 모델에서 필터링 할 수 있다.
3과 같이 Epoch와 Dropout 수치를 변경해주며 모델의 최적화를 시켰다. 본 논문의 가설을 객관적으로 검증하기 위해 인위적으로 만든 데이터가 아닌 실제 채팅방에서 쓰인 데이터를 기반으로 본 모델의 테스트를 시행했다. 총 300개의 문장으로 비속어가 있는 208개의 문장과 그렇지 않은 92개의 문장을 실험한 결과를 Table 1에 보인다.
본 연구는 나날이 높아지는 인터넷 이용률로 온라인으로 대화하는 사람들이 많아지면서 익명의 사용자에게 비방을 듣는 경우가 빈번해지는 문제를 해결하고자 시작했다. 본 논문은 비속어를 필터링하기 위한 비속어 탐지 알고리즘과 대상자 탐지를 위한 순차적 삭제 알고리즘을 제안한다.
욕설인데 욕설이 아니라고 한 경우 (True Negative)와 욕설이 아닌데 욕설이라고 한 경우 (False Positive)가 각각 9개, 23개가 나왔다. 본연구에서는 True Negative의 비율을 최대한 줄이기 위해 전처리 과정에서 명확한 욕은 욕설로 판단하도록 했다. False Negative의 비율은 높지 않았으며 욕설은 아니지만, 욕설의 형태를 띠는 단어들이 주로 분포했다.

제안 방법

Bots를 사용한다. Bote 사용자가 보낸 메시지나 명령어에 대해 상호작용하여 작동하는 것으로, 본 연구에서 제작된 Bote 사용자들이 보낸 메시지를 분석하여 Text 를 학습한 모델의 input으로 들어갈 수 있게 전처리해준다. 또한, 특정 사용자의 이름이 들어간 명령어를 입력하면 해당 사용자가 사용한 비속어를 탐색하여 출력해준다.
기존의 Masking 기반의 비속어 필터에서 판별이 힘들었던 비속어를 본 논문의 딥러닝 기반의 모델에서 필터링 할 수 있다. 또한, 구현된 모델을 채팅 어플리케이션에 이식해서 실시간 상황에서 비속어를 찾고 그 데이터를 사용자에게 보여줄 수 있으며, 또한 비속어를 사용한 대상자를 인식하는 알고리즘을 제안한다.
본 논문에서는 딥러닝을 이용해서 위의 상황에서도 비속어를 탐지하기 위한 알고리즘을 제안한다. 또한, 채팅 상황에서는 이름보다는 별명이나 지칭대명사를 많이 쓰는 점을 활용해 누군가 욕설을 했을 때 그 대상을 찾을 수 있는 방법론을 함께 제안한다.
FastText 와 word2vece 단어 간의 문맥을 통해 벡터화하는 부분에서 유사하지만 word2vec의 경우 출현횟수가 적은 단어에서 임베딩이 잘 되지 않는 단점이 있다. 본 논문에서 채팅 상황과 비속어의 특성상 희소한 단어가 많이 출현하기 때문에 희소한 단어의 임베딩에 강점이 있는 Fasttext를 사용했다. 임베딩을 하는 가장 큰 이유는 욕설과 유사한 단어를 찾아내고 학습을 하기 위함이다.
한 문장을 3개씩 나누어서 그 문장에서 어떤 단어가 해당 문장을 욕설이 담긴 문장이라고 판별하는데 기여하는지 찾기 위해 쓰이게 된다. 본 모델은 여러 온라인 커뮤니티사이트에서 수집한 비속어 데이터를 직접 라벨링하여 학습에 용이하게 데이터화 시킨 후 그 데이터를 기반으로 임 베딩을 수행했다.
본 연구의 Chatbote 메시지가 입력되면 절차적으로 실행되는 비속어 탐지 알고리즘을 거친다. Fig.
실시간 채팅 속에서 비속어를 탐지하기 위해서 우리는 모든 문장을 Trigram과 Fasttext을 통해 각 단어들의 임 베딩을 수행하고 그 값들을 미리 학습된 CNN 모델의 input으로 줘서 단어가 비속어일 확률을 계산한다. 본 모델은 실시간 상황에서의 비속어 필터링이 중점이기때문에 처리 시간을 단축하기위해 Trigram, Fasttext, CNN 모델은 모두 미리 학습된 상태로 실행한다.

대상 데이터

본 논문에서는 비속어 탐지모델과 대상자 인식모델을 검증하기 위해 실제 2억 명의 사용자가 이용하는 메신저 Telegram의 플러그인을 사용한다. 이는 메신저에 Chatbot을 이식해 정적인 상황이 아닌 실시간 상황에서의 비속어를 탐지하고 탐지한 비속어를 사용한 대상에게 경고메시지를 보낸다.
본 논문의 실험은 모두 Telegram Bot 라이브러리로 만든 플러그인을 통해 진행되었다. 플러그인의 목적은 최대한 실제 채팅 상황과 유사한 환경에서 실험하기 위함이다.

이론/모형

Bote Third party 어플리케이션으로 본 논문에서는 Telegram Bots를 사용한다. Bote 사용자가 보낸 메시지나 명령어에 대해 상호작용하여 작동하는 것으로, 본 연구에서 제작된 Bote 사용자들이 보낸 메시지를 분석하여 Text 를 학습한 모델의 input으로 들어갈 수 있게 전처리해준다.
본 모델에서는 한국어 임베딩을 하기 위해 Fasttext와 Trigram을 사용한다. 임베딩은 비정형화된 텍스트를 벡터화하여 표현시키는 기법인데 본 모델에서는 대표적인 기법인 Fasttext와 word2vec 중에서 Fasttext를 사용한다.
본 연구에서는 비속어 탐지 모델을 학습하는데 CNN을 사용한다[1-5]. CNNe 대개 이미지 학습에 쓰이는 모델링 방식이지만, CNN이 특징을 추출해서 특정 상황에서도 판단하는 기능을 이용한다.

성능/효과

62%에서 72%의 정확도를 보여주었으며 True Negative가 False Positive 보다 많았다. True Negative는 대부분 Twitter 과정에서 잘못 분해되거나 사전 검색 과정에서 걸리는 경우였다.
본 논문은 비속어를 필터링하기 위한 비속어 탐지 알고리즘과 대상자 탐지를 위한 순차적 삭제 알고리즘을 제안한다. 기존의 Masking 기반의 비속어 필터에서 판별이 힘들었던 비속어를 본 논문의 딥러닝 기반의 모델에서 필터링 할 수 있다. 또한, 구현된 모델을 채팅 어플리케이션에 이식해서 실시간 상황에서 비속어를 찾고 그 데이터를 사용자에게 보여줄 수 있으며, 또한 비속어를 사용한 대상자를 인식하는 알고리즘을 제안한다.
이는 메신저에 Chatbot을 이식해 정적인 상황이 아닌 실시간 상황에서의 비속어를 탐지하고 탐지한 비속어를 사용한 대상에게 경고메시지를 보낸다. 테스트 결과 84% ~ 88%의 탐지율을 보여준다. 본 논문의 구성은 다음과 같다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

실시간 채팅 환경에서 문장 분석을 이용한 대상자 및 비속어 검출
Target and Swear Word Detection Using Sentence Analysis in Real-Time Chatting 원문보기

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

참고문헌 (8)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

실시간 채팅 환경에서 문장 분석을 이용한 대상자 및 비속어 검출 Target and Swear Word Detection Using Sentence Analysis in Real-Time Chatting 원문보기

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

참고문헌 (8)

이 논문을 인용한 문헌

저자의 다른 논문 :

김현철 (7) 박희민 (9)

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

실시간 채팅 환경에서 문장 분석을 이용한 대상자 및 비속어 검출
Target and Swear Word Detection Using Sentence Analysis in Real-Time Chatting 원문보기

AI 본문요약
AI-Helper