[논문]단어와 문장의 의미를 고려한 비속어 판별 방법

이명호; 임명진; 신주현

doi:10.30693/smj.2020.9.3.98

문제 정의

이에 따라 사이버 언어폭력을 근절하기 위해 비속어 판별 연구가 계속 진행되고 있으나[5] 변형된 비속어나 표준어에 대한 판별의 정확도가 좋지 않은 것을 볼 수 있다. 따라서 본 논문에서는 인터넷 사용자가 고의적으로 비속어를 변형한 경우와 '시발점'과 같은 표준어도 정확하게 판별하기 위해 단어의 의미와 형태 및 통사적인 정보를 학습시켜 단어 임베딩을 할 수 있는 FastText 모델과 문맥의 흐름을 학습할 수 있는 LSTM 모델을 활용하여 비속어를 판별하는 방법을 제안한다.
학습하는 것이 가능해진다. 본 논문에서는 FastText 모델이 한글에 맞는 형태적인 정보를 보다 잘 학습하기 위해 단어를 초.중.
본 논문에서는 기존 연구에서 판별하지 못했던 비속어를 판별하기 위해 단어와 문장의 의미를 고려한 비속어 판별 방법을 제안하였다. 제안하는 방법은 학습시키는 텍스트를 초.
이 연구에서는 판별하고자 하는 단어를 매번 이미지로 캡처할 수 없어서 기존에 있는 비속어 필터링을 먼저 적용시키고, 적용하려는 문장에 알 수 없는 단어 또는 Out-Of- Vocabulary(OOV) 의 단어가 있을 때만 화면을 캡처하여 이미지로 비속어를 필터링하는 시스템이다. 이 논문의 실험 평가는 CNN 모델 ResNet50을 사용한 결과 정밀도(Precision)와 재현율(Recall) 이 각각 45.

제안 방법

지정한다. LSTM 모델의 하이퍼 파라미터 (Hyper Parameter)는 Units 는 1, Time Step은 단어의 개수인 25, 특성 (Feature)은 FastText 학습시킬 때 사용된 차원①imension)의 개수인 100 으로 지정하고 신경망 층 Dense의 하이퍼 파라미터(Hyper Parameter)는 Units를 1, 활성화 함수(Activation)는 시그모이드(Sigmoid) 함수로 설정하였다.
비속어를 판별하는 방법은 비속어 간의 한글 편집거리를 측정하고, 벡터의 거리가 가까운 단어들끼리 서로 군집화 작업을 한다. 군집화가 되어있는 데이터 중에서 가장 중앙값에 있는 단어를 대표 단어로 선정하고 대표 단어와 테스트 비속어의 거리를 측정한다. 이 연구는 기존 시스템에서 구분하지 못했던 비속어에 대해 탐지할 수 있지만, 평가로 활용된 정확도(Accuracy), 재현율 (Recall), 정밀도(Precision), 이 각각 60%, 82%, 37%로 개선을 위한 연구가 필요하다.
따라서 모든 문장은 같은 단어의 개수를 가지고 있어야 학습 데이터로 사용할 수 있다. 단어의 개수를 설정하기 위해 데이터의 히스토그램을 확인하였고, 전체 데이터의 95%가 포함될 수 있도록 단어의 개수를 25로 지정하였다. 이에 따라 단어의 개수가 25개 초과로 가지고 있는 문장을 제거하였다.
사용한 데이터 셋에 대하여 설명한다. 또한 본 논문에서 제안한 비속어 판별 방법의 효율성을 입증하기 위해 기존 연구와의 비교분석 및 분류성능평가지표를 활용하여 정확도 (Accuracy), 재현율(Recall), 정밀도(Precision)를 측정하여 성능을 평가한다. 본 연구의 실험에 사용한 환경은 다음과 같다.
본 장에서는 소셜 네트워크 서비스(Social Networking Service, SNS) 등 인터넷 웹 사이트에서 작성되어 있는 글을 목적에 맞게 전처리 한 후 FastText 모델을 이용하여 단어를 임 베딩하고 LSTM을 활용하여 텍스트에 비속어가 포함되어 있는지 여부를 판별하는 방법을 제안한다.
본 절에서는 그림 4와 같이 Twitter와 네이버 영화 리뷰에서 수집한 텍스트를 전처리하는 과정과 FastText 모델을 활용하여 단어 임베딩을 진행하는 과정을 기술한다.
본 절에서는 분류성능평가지표인 정확도(Accuracy), 재현율 (Recall), 정밀도(Precision)를 이용하여 비속어 판별에 대한 성능을 평가하고 본 연구의 우수성을 평가하기 위해 기존 연구의편집 거리 알고리즘과 CNN을 활용한 방법과 본 연구의 방법 에대해 비교 분석한다. 그림 8은 분류성능평가지표로 성능을 확인하기 위한 혼동행렬(Confusion Matrix)이며 식 ⑶은 정확도, 재현율, 정밀도를 계산하기 위한 식이다.
본 절에서는 비속어를 효과적으로 판별하기 위해 파이썬 (Python)의 numpy, pandas, re 라이브러리를 활용하여 전처리하는 과정을 다음과 같이 진행한다. (1) 특수문자, 이모티콘 등 제거 (Remove special symbols and emoticons), (2) '것', '너'처럼 1글자로 이루어진 단어 제거 (Remove one syllable), (3) 한 문장 내 5단어 미만 문장 제거 (Remove the sentences that have less than five words), (4) 한 문장 내 25 초과인 문장 제거 (Remove the sentences that have less than 25 words), (5) 한글 초.
본 절에서는 앞에서 전처리된 텍스트 데이터를 FastText 모델을 활용하여 학습하는 과정을 보여준다. FastText 모델의 하이퍼 파라미터 (Hyper Parameter)로는 모델의 학습 방식 Skip-Gram, Learning Rate 는 0.
종성으로 분리한다. 분리된 데이터는 Training Data Process에서 학습된 FastText 모델을 통해 단어 임베딩을 진행한 후 학습되어있는 LSTM을 활용하여 예측(Predict)한다. 예측된 결과는 숫자 0 또는 숫자 1이 나오게 되고 이때 숫자。은 비속어가 포함되지 않은 문장, 숫자 1은 비속어가 포함된 문장이다.
제안하는 방법은 학습시키는 텍스트를 초.중.
중.종성으로 분리하고 FastText 모델을 사용하여 단어의 의미뿐만 아니라 형태적인 정보까지 고려한다. 그리고 LSTM 모델을 활용하여 문맥의 흐름을 학습함으로써 기존 연구에서 판별하지 못했던 비속어를 판별할 수 있다.
중.종성으로 분리하여 분석을 진행한다. 각각의 단어를 초.
판별하여 알려주는 프로세스이다. 학습된 모델로 결과를 예측하기 위해서는 학습시켰던 데이터와 형식이 똑같아야 하기에 텍스트 전처리, 단어 임베딩, LSTM 모델을 활용한 비속어판별 순서로 진행된다. 텍스트 전처리 단계는 Training Data Process에서 진행한 것과 똑같이 정규화를 한 후 초.

대상 데이터

SNS 데이터는 특정 형식에 구애받지 않고 자유롭게 작성된 특징을 가지고 있고 특히 SNS 중에서도 이러한 특징이 잘 두드러지는 Twitter 에서 데이터를 수집하였다. Twitter에서 수집한 데이터는 특정 키워드로 검색하고 검색 기간은 2016년 01월 01일 이후로 설정해서 검색된 데이터이다.
SNS 데이터는 특정 형식에 구애받지 않고 자유롭게 작성된 특징을 가지고 있고 특히 SNS 중에서도 이러한 특징이 잘 두드러지는 Twitter 에서 데이터를 수집하였다. Twitter에서 수집한 데이터는 특정 키워드로 검색하고 검색 기간은 2016년 01월 01일 이후로 설정해서 검색된 데이터이다. Tw辻ter에서 수집된 문장의 개수는 약 440만 건이며 네이버 영화 리뷰 데이터는 SNS에 비해 상대적으로 정제되어 있어서 약 50만 건을 수집하였다.
Twitter에서 수집한 데이터는 특정 키워드로 검색하고 검색 기간은 2016년 01월 01일 이후로 설정해서 검색된 데이터이다. Tw辻ter에서 수집된 문장의 개수는 약 440만 건이며 네이버 영화 리뷰 데이터는 SNS에 비해 상대적으로 정제되어 있어서 약 50만 건을 수집하였다. 수집된 데이터는 '시발', '씨발', '병신, '존나', '좆나', '개새끼', '새끼'라는 비속어를 포함하고 있다.
본 논문에서 제안한 비속어 판별 방법을 적용 및 성능평가 하기 위해 SNS 데이터와 네이버 영화 리뷰 데이터를 수집하여 실험하였다. SNS 데이터는 특정 형식에 구애받지 않고 자유롭게 작성된 특징을 가지고 있고 특히 SNS 중에서도 이러한 특징이 잘 두드러지는 Twitter 에서 데이터를 수집하였다.
Tw辻ter에서 수집된 문장의 개수는 약 440만 건이며 네이버 영화 리뷰 데이터는 SNS에 비해 상대적으로 정제되어 있어서 약 50만 건을 수집하였다. 수집된 데이터는 '시발', '씨발', '병신, '존나', '좆나', '개새끼', '새끼'라는 비속어를 포함하고 있다.
이 연구는 트위치(Twitch)에서 사용 중인 비속어 필터링봇인 '싹둑'에서 사용하는 비속어 단어 팩을 사용한다. 비속어를 판별하는 방법은 비속어 간의 한글 편집거리를 측정하고, 벡터의 거리가 가까운 단어들끼리 서로 군집화 작업을 한다.
정확하게 학습할 수 있다. 이러한 이유로 FastText 모델학습에 사용된 데이터는 Twitter의 130만 건, 네이버 영화 리뷰 50만 건을 모두 사용하여 학습하였다. LSTM 모델을 학습하기 위한 데이터 셋은 수집된 데이터 전부를 사용하지 않고, 정확한 비속어 판별을 위해 비속어가 포함된 문장의 개수와 비속어가 포함되지 않은 문장의 개수를 1:1 비율로 맞춰서 데이터셋을 구성한다.
표 8은 비속어 실험 및 예측 결과이다. 테스트를 진행한 데이터는 80, 259건이며 비속어가 포함되어 있는 문장은 40, 005건, 비속어가 포함되지 않은 문장은 40, 254건이다. 학습된 LSTM 모델을 활용하여 예측한 결과 비속어가 포함된 문장은 40, 126 건, 비속어가 포함되지 않은 문장은 40, 133건으로 나왔다.

이론/모형

단어 임베딩을 할 수 있는 대표적인 알고리즘모델은 Word2Vec[8], FastText, GloVel9l 등이 있匸+. 본 논문에서는 FastText 모델을 사용하였다.
본 절에서는 LSTM 모델을 활용하여 비속어 판별 지도학습 (Supervised learning)을 진행한다. 지도학습을 진행하기 위해서는 학습시킬 데이터와 학습시킬 데이터의 정답인 라벨 (Label) 두 가지가 필요하다.
예를 들어 '알라딘 영화 꿀잼'이라는 단어를 학습한다고 하면, 우선 '。卜己三卜-匸〕匸。冃。亏나- f丁三^H口'처럼 초중.종성 분리하고 FastText 모델의 N-Gram을 활용하여 Bag-of-Words의 형태로 학습한다. 예를 들어 '알라딘 영화 꿀잼'이라는 단어를 학습한다고 하면, 우선 七卜己三卜-匸 ] 匸。冃。亏나- f丁己入 H 口'처럼 초.
예를 들어 '알라딘 영화 꿀잼'이라는 단어를 학습한다고 하면, 우선 '。卜己三卜-匸〕匸。冃。亏나- f丁三^H口'처럼 초중.종성 분리하고 FastText 모델의 N-Gram을 활용하여 Bag-of-Words의 형태로 학습한다. 예를 들어 '알라딘 영화 꿀잼'이라는 단어를 학습한다고 하면, 우선 七卜己三卜-匸 ] 匸。冃。亏나- f丁己入 H 口'처럼 초.
중.종성으로 분리된 텍스트 데이터를 통해 FastText 모델을 학습한다. 학습된 FastText 모델은 텍스트 데이터의 벡터 정보를 가지고 있게 되며 벡터 정보를 가지고 텍스트 데이터는 단어 임베딩을 진행한다.

성능/효과

'씌발', '쥰나 등의 변형된 비속어는 기존 연구와 본 연구 모두 정확하게 판별하는 반면 '신발', '시발점'과 같은 단어는 비속어 '시발과 비슷한 형태를 띠어 기존 연구에서는 비속어로 판별하지만 본 연구에서는 문맥의 흐름을 파악하기에 비속어가 아니라고 판별하는 것을 볼 수 있다. 추가로 본 연구에서는 '야발과 같이 새롭게 만들어진 비속어도 판별하여 정확하게 판별하는 모습을 볼 수 있다.
29%, 정밀도는 96%로 높은 분석 결과가 나온 것을 볼 수 있다. 본 연구의 우수성을 평가하기 위해 기존연구의 편집거리 알고리즘과 CNN을 활용한 방법과 본 연구에서 제안한 방법에 대해 비교 분석한 결과 제안하는 방법이 훨씬 정확하게 비속어를 판별할 수 있는 것으로 확인되었다.
이 연구에서는 판별하고자 하는 단어를 매번 이미지로 캡처할 수 없어서 기존에 있는 비속어 필터링을 먼저 적용시키고, 적용하려는 문장에 알 수 없는 단어 또는 Out-Of- Vocabulary(OOV) 의 단어가 있을 때만 화면을 캡처하여 이미지로 비속어를 필터링하는 시스템이다. 이 논문의 실험 평가는 CNN 모델 ResNet50을 사용한 결과 정밀도(Precision)와 재현율(Recall) 이 각각 45.05%, 44.65%가 나왔고 VGG16를 사용한 결과 정 밀도(Precision)와 재현율(Recall) 이 각각 43.06%, 42.70%로 개선을 위한 연구가 필요하다.
제안한 실험 방법에 대한 결과는 비속어가 포함되어 있는 문장 40, 005건, 비속어가 포함되지 않은 문장은 40, 254건 중에서 비속어가 포함되었다고 예측한 문장은 40, 126건, 포함되지 않았다고 예측한 문장은 40, 133건으로 나왔다. 이에 따라 분류성능평가지표에 따르면 정확도는 96.15%, 재현율은 96.29%, 정밀도는 96%로 높은 분석 결과가 나온 것을 볼 수 있다. 본 연구의 우수성을 평가하기 위해 기존연구의 편집거리 알고리즘과 CNN을 활용한 방법과 본 연구에서 제안한 방법에 대해 비교 분석한 결과 제안하는 방법이 훨씬 정확하게 비속어를 판별할 수 있는 것으로 확인되었다.
그리고 LSTM 모델을 활용하여 문맥의 흐름을 학습함으로써 기존 연구에서 판별하지 못했던 비속어를 판별할 수 있다. 제안한 실험 방법에 대한 결과는 비속어가 포함되어 있는 문장 40, 005건, 비속어가 포함되지 않은 문장은 40, 254건 중에서 비속어가 포함되었다고 예측한 문장은 40, 126건, 포함되지 않았다고 예측한 문장은 40, 133건으로 나왔다. 이에 따라 분류성능평가지표에 따르면 정확도는 96.
테스트를 진행한 데이터는 80, 259건이며 비속어가 포함되어 있는 문장은 40, 005건, 비속어가 포함되지 않은 문장은 40, 254건이다. 학습된 LSTM 모델을 활용하여 예측한 결과 비속어가 포함된 문장은 40, 126 건, 비속어가 포함되지 않은 문장은 40, 133건으로 나왔다.
존재한다. 한 글자로 이루어진 단어를 확인해 본 결과 사용자가 글을 작성할 때 띄어쓰기를 잘못한 경우가 많이 있는 것을 확인하였고 한 글자로 이루어진 비속어는 존재하지 않기에 한 글자로 이루어진 단어는 제거하였다.

후속연구

있고 보다 정확하게 찾아내는 연구가 필요하다. 또한 본 연구는 이모티콘, 특수문자 등을 제거한 텍스트만을 이용하여 연구하였으나, 의미가 있는 이모티콘, 특수문자를 활용하고 사회적인 이슈도 고려하여 비속어를 판별할 수 있는 확장된 연구로 이어져야 할 것이다. 또한 제안하는 방법을 통해 대용량의 다양한 텍스트가 수집된다면 모든 비속어를 정확하게 판별할 수 있을 것으로 기대되고 나아가 본 연구를 토대로 비속어 차단 시스템을 도입하면 사이버 언어폭력이 감소될 것으로 기대된다.
또한 본 연구는 이모티콘, 특수문자 등을 제거한 텍스트만을 이용하여 연구하였으나, 의미가 있는 이모티콘, 특수문자를 활용하고 사회적인 이슈도 고려하여 비속어를 판별할 수 있는 확장된 연구로 이어져야 할 것이다. 또한 제안하는 방법을 통해 대용량의 다양한 텍스트가 수집된다면 모든 비속어를 정확하게 판별할 수 있을 것으로 기대되고 나아가 본 연구를 토대로 비속어 차단 시스템을 도입하면 사이버 언어폭력이 감소될 것으로 기대된다.
본 논문의 향후 연구로는 현재 사용된 7가지 비속어 외에 더욱 다양한 비속어를 추가하여 모든 비속어를 정확하게 판별할 수 있고 보다 정확하게 찾아내는 연구가 필요하다. 또한 본 연구는 이모티콘, 특수문자 등을 제거한 텍스트만을 이용하여 연구하였으나, 의미가 있는 이모티콘, 특수문자를 활용하고 사회적인 이슈도 고려하여 비속어를 판별할 수 있는 확장된 연구로 이어져야 할 것이다.
군집화가 되어있는 데이터 중에서 가장 중앙값에 있는 단어를 대표 단어로 선정하고 대표 단어와 테스트 비속어의 거리를 측정한다. 이 연구는 기존 시스템에서 구분하지 못했던 비속어에 대해 탐지할 수 있지만, 평가로 활용된 정확도(Accuracy), 재현율 (Recall), 정밀도(Precision), 이 각각 60%, 82%, 37%로 개선을 위한 연구가 필요하다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

단어와 문장의 의미를 고려한 비속어 판별 방법
Swearword Detection Method Considering Meaning of Words and Sentences 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

참고문헌 (15)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

단어와 문장의 의미를 고려한 비속어 판별 방법 Swearword Detection Method Considering Meaning of Words and Sentences 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

참고문헌 (15)

이 논문을 인용한 문헌

저자의 다른 논문 :

신주현 (23)

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

단어와 문장의 의미를 고려한 비속어 판별 방법
Swearword Detection Method Considering Meaning of Words and Sentences 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper