[논문]나이브 베이즈 기반 소셜 미디어 상의 신조어 감성 판별 기법

김정인; 박상진; 김형주; 최준호; 김한일; 김판구

doi:10.30693/smj.2020.9.1.51

문제 정의

본 논문에서는 소셜 미디어 상의 신조어 때문에 발생하는 데이터 마이닝의 성능 저하와 데이터 손실을 막기 위한 신조어 긍정, 부정 감성 판별을 진행하였다. 본 논문에서 제안하는 방법은 웹 크롤링을 통한 댓글, 리뷰 데이터들을 수집하여 신조어 추출을 진행해 긍정, 부정 값을 통해 신조어 감성 분석의 기반을 마련하고 종래의 표준어 기반 감성 분석 방법과 결합하여 구체적인 데이터 마이닝 기술에 근접하는 것이다.
하지만 데이터 마이닝(Data Mining) 기술이나 빅 데이터(Big Data) 같은 연구에서는 사전적인 의미를 갖고 있지 않아 알고리즘의 성능 저하와 연구에 제약사항이 발생한다. 본 논문에서는 소셜 미디어 신조어 분석을 통해 신조어에 대한 감성 판별 연구를 진행하고자 한다. 위키피디아(Wikipedia)에 구축되어 있는 소셜 미디어 신조어 목록의 단어들과 문서에서 신조어와 동시에 사용하는 표준어 단어들을 수집하여 의미를 통한 긍정 값과 부정 값의 분류를 진행한다.
본 논문에서는 신조어가 단순히 불용어 처리되는 것이 아니라 신조어에 대한 의미와 감성이 적용되어 알고리즘 성능 저하를 막고 특정 주제에 관련하여 구체적인 감성 판별 연구가 진행될 수 있도록 하는 연구를 진행하였다.
기존의 긍정, 부정 감성 분석에 대한 연구에서는 리뷰나 소셜 미디어 댓글의 어휘에 한정하여 통계적 수치나 자연어 처리 기법을 사용하였으나 문맥에 따라 감성어의 의미가 다르게 분류되는 경우가 발생하거나 신조어에 의해 문장의 의미가 퇴색되고 정확한 결과 값을 찾아내기 어렵다는 문제가 발생하였다 [13-14]. 본 연구에서는 이러한 문제점들을 보안하기 위해 신조어의 긍정, 부정 분류를 토대로 실험을 진행하였다.

제안 방법

‘Doc2vec’의 ‘Genism’패키지를 활용하여 긍정과 부정을 분류하였다.
두 번째로 수집된 데이터 내에 저장되어 있는 텍스트 내에 평가요소와 긍정, 부정을 가리키는 오피니언 관계가 있는 문장을 인식하고 불필요한 특수문자와 감성과 관계없는 품사를 제외한다. 마지막으로 두 과정을 통해 긍정, 부정을 의미하는 단어들이 담긴 특정 주제에 관한 텍스트 데이터를 요약을 통해 분석과 평가한다. 오피니언 마이닝 과정을 통해서 소비자들이 제품에 대해 평가한 오피니언 정보를 판단할 수 있다.
‘Naive Bayes Classification’을 사용하여 문장의 감성 값을 도출 후 다음으로 표준어 감성 분류 수치도 동일한 조건으로 구동하고 도출하였다. 마지막으로 추출된 감성 값을 토대로 신조어와 표준어가 함께 사용하여 신조어가 포함된 문장이 감성 분류가 잘 도출되는지 확인하였다[16]. 여러 문서 안의 신조어가 포함된 문장들 중에서 조건부 확률 값을 구하기 위해 파이썬을 사용하여 코딩을 진행하였고 도출된 감성 값은 표 9과 같이 확인할 수 있다.
본 논문에서는 소셜 미디어 상의 신조어 때문에 발생하는 데이터 마이닝의 성능 저하와 데이터 손실을 막기 위한 신조어 긍정, 부정 감성 판별을 진행하였다. 본 논문에서 제안하는 방법은 웹 크롤링을 통한 댓글, 리뷰 데이터들을 수집하여 신조어 추출을 진행해 긍정, 부정 값을 통해 신조어 감성 분석의 기반을 마련하고 종래의 표준어 기반 감성 분석 방법과 결합하여 구체적인 데이터 마이닝 기술에 근접하는 것이다. 신조어 분석과 종래 기술인 표준어 기반 감성 분석을 결합하여 기존에 불용어로 제거되었던 신조어가 감성 의미를 가짐으로써 기능을 다하여 결과 값이 향상되는 점을 확인하였다.
본 논문에서 제안하는 시스템 구성도는 국내 포털사이트에서 제공하는 카페나 블로그 데이터를 위주로 수집하고, 수집된 데이터들은 신조어 추출을 위해 ‘한나눔’ 한국어 형태소 분석기를 이용하여 진행한다[11- 12].
본 절에서는 대량의 텍스트 데이터와 언어의 폭이 넓어짐에 따라서 다량의 소셜 미디어 신조어가 발생하는 댓글이나 리뷰를 수집한 뒤, 신조어의 긍정, 부정 감성 판별을 진행한다. 그림 4는 텍스트 데이터에서 신조어 추출 후 신조어의 긍정, 부정 감성 판별을 진행하는 시스템 구성도이다.
본 절에서는 신조어 및 표준어 긍정, 부정 분석하여 특정 주제에 관한 문서의 감성 수치를 비교하여 성능을 평가하였다. 실험은 3단계를 거쳐 진행하였다.
본 절에서는 제안한 방법을 이용하여 최종적인 결과 도출을 위해 평가를 진행하였다. 신조어와 표준어 긍정, 부정 감성 분석을 통한 연구를 토대로 각각의 감성별로 학습과 실험을 반복하여 결과의 정확성을 높였다.
분류된 감성 값이 긍정인지 부정인지 판별하기 위해 구축된 환경을 사용하여 신조어가 포함된 문장이 학습을 통해 구축된 데이터 안에서 적용되었을 때 어떤 결과를 도출할 수 있는지 실험을 진행하였고 표 6에 따라 표 7과 같이 결과 값을 확인할 수 있다.
위키피디아(Wikipedia)에 구축되어 있는 소셜 미디어 신조어 목록의 단어들과 문서에서 신조어와 동시에 사용하는 표준어 단어들을 수집하여 의미를 통한 긍정 값과 부정 값의 분류를 진행한다. 분류를 통해 추출된 긍정, 부정 단어들은 파이썬(Python)을 통해 학습시킨 후 구축된 데이터를 이용하여 데이터 마이닝 기법의 성능을 향상시키는 방법을 제안하고 기존의 연구와 비교 실험을 통해 성능평가를 진행한다.
표준 단어의 사용이 잦은 네이버 뉴스의 데이터를 수집하여 수집된 뉴스 데이터에서 명사만을 활용하여 형태소 분석을 다음과 같은 과정을 이용하여 진행한다[15]. 빈번하게 발생하는 불필요한 어휘와 신조어와 다르게 의미를 알 수 없는 단음절 체언 및 용언을 제거하고, 최종적으로 추출된 명사의 감성 점수화를 통하여 데이터의 감성 값을 도출하였다.
신조어를 추출하기에 앞서서 예외적인 부분은 소셜 미디어 신조어 중 대부분 접두사 ‘개’를 붙여 사용하는 경우가 많기 때문에 그러한 단어들은 욕설이 아닌 신조어로 판별하고 분류하였으나 지역비하, 비속어, 인신공격 등 오해의 소지를 불러일으킬 수 있는 단어들은 추출 후 제거하였다. 소셜 미디어 상의 댓글, 리뷰를 통해 수집된 데이터를 토픽별로 문서에 저장하여 분석을 한다. 신조어는 품사로 분류 시 의미가 없는 단어이므로 형태가 분명치 않아지기 때문에 문장 내 공백 혹은 키워드를 기준으로 나누기 위해 토크나이징(Tokenizing) 기법을 이용하고, 품사 태깅(POS tagging)을 진행하지 않는다.
소셜 미디어 신조어를 통해 구축된 신조어에 대한 긍정과 부정 값에 대한 단어들만 감성이 분류되기 때문에 표준어에 대한 긍정, 부정 분석기법과 통합하여 실험을 진행한다. 신조어 구축과 마찬가지로 첫 번째 단계로 진행했던 웹 크롤링으로 수집한 댓글, 리뷰에 대하여 문장들을 형태소 분석을 통해 긍정과 부정을 검증하였다.
소셜 미디어 신조어를 통해 구축된 신조어에 대한 긍정과 부정 값에 대한 단어들만 감성이 분류되기 때문에 표준어에 대한 긍정, 부정 분석기법과 통합하여 실험을 진행한다. 신조어 구축과 마찬가지로 첫 번째 단계로 진행했던 웹 크롤링으로 수집한 댓글, 리뷰에 대하여 문장들을 형태소 분석을 통해 긍정과 부정을 검증하였다. ‘Doc2vec’의 ‘Genism’패키지를 활용하여 긍정과 부정을 분류하였다.
신조어는 표 5와 같이 위키피디아를 참조하여 긍정, 부정을 분류하고 각각의 단어가 지니는 의미를 인식하고 감성 학습을 위해 긍정과 부정 문서별로 분류한 뒤, 파이썬을 사용하여 학습을 진행하였다.
본 논문에서는 소셜 미디어 신조어 분석을 통해 신조어에 대한 감성 판별 연구를 진행하고자 한다. 위키피디아(Wikipedia)에 구축되어 있는 소셜 미디어 신조어 목록의 단어들과 문서에서 신조어와 동시에 사용하는 표준어 단어들을 수집하여 의미를 통한 긍정 값과 부정 값의 분류를 진행한다. 분류를 통해 추출된 긍정, 부정 단어들은 파이썬(Python)을 통해 학습시킨 후 구축된 데이터를 이용하여 데이터 마이닝 기법의 성능을 향상시키는 방법을 제안하고 기존의 연구와 비교 실험을 통해 성능평가를 진행한다.
신조어와 표준어 긍정, 부정 감성 분석을 통한 연구를 토대로 각각의 감성별로 학습과 실험을 반복하여 결과의 정확성을 높였다. 이러한 과정을 거쳐 문서에 포함된 단어의 긍정, 부정 수치를 확인하고, 학습된 데이터 값은 웹 크롤링을 통해 수집된 텍스트 데이터를 활용하여 댓글, 리뷰 및 뉴스 데이터의 데이터가 어떠한 긍정, 부정 감성 값을 도포하고 있는지 확인하였다. 그리고 실험을 통해 진행된 결과 값은 정확도와 감성 수치에 대한 결과를 도출하고 기존에 연구되었던 표준어 감성 분석 기법과 비교를 통해 수치 비교를 진행하였다.
그리고 실험을 통해 진행된 결과 값은 정확도와 감성 수치에 대한 결과를 도출하고 기존에 연구되었던 표준어 감성 분석 기법과 비교를 통해 수치 비교를 진행하였다. 제안하는 신조어 감성과 표준어 감성에 대하여 결합을 통해 결과 값 표 12를 통해 각 문서 안의 문장에 신조어와 표준어가 함께 쓰인 단어들을 확인하고 각 문서별로 결과 값을 출력하였다.
실험은 3단계를 거쳐 진행하였다. 첫 번째로 신조어 감성을 분석하여 신조어가 포함된 문장이 긍정인지 부정인지 판단한다. ‘Naive Bayes Classification’을 사용하여 문장의 감성 값을 도출 후 다음으로 표준어 감성 분류 수치도 동일한 조건으로 구동하고 도출하였다.
품사 태깅 과정은 신조어와는 달리 표준 단어는 사전적인 의미를 담고 있어 형태소 분석이나 실험을 진행해도 무방하다. 표준 단어의 사용이 잦은 네이버 뉴스의 데이터를 수집하여 수집된 뉴스 데이터에서 명사만을 활용하여 형태소 분석을 다음과 같은 과정을 이용하여 진행한다[15]. 빈번하게 발생하는 불필요한 어휘와 신조어와 다르게 의미를 알 수 없는 단음절 체언 및 용언을 제거하고, 최종적으로 추출된 명사의 감성 점수화를 통하여 데이터의 감성 값을 도출하였다.

데이터처리

이러한 과정을 거쳐 문서에 포함된 단어의 긍정, 부정 수치를 확인하고, 학습된 데이터 값은 웹 크롤링을 통해 수집된 텍스트 데이터를 활용하여 댓글, 리뷰 및 뉴스 데이터의 데이터가 어떠한 긍정, 부정 감성 값을 도포하고 있는지 확인하였다. 그리고 실험을 통해 진행된 결과 값은 정확도와 감성 수치에 대한 결과를 도출하고 기존에 연구되었던 표준어 감성 분석 기법과 비교를 통해 수치 비교를 진행하였다. 제안하는 신조어 감성과 표준어 감성에 대하여 결합을 통해 결과 값 표 12를 통해 각 문서 안의 문장에 신조어와 표준어가 함께 쓰인 단어들을 확인하고 각 문서별로 결과 값을 출력하였다.
기존의 표준어 분석 알고리즘을 통해 추출된 정확률과 본 논문에서 제안하는 결과 값의 정확도를 평균화하여 표 14와 같이 도출하였다.
신조어 분석 연구와 결합하여 사용하게 될 표준어 단어의 긍정, 부정 감성 분석은 결과 수치의 정확성을 위하여 표준어 문장의 사용 빈도가 잦은 ‘뉴스’ 데이터와 신조어가 포함된 일반적인 댓글, 리뷰를 사용하여 표 10과 같이 수집을 통해 얻어진 데이터와 비교분석을 진행하였다.
확인된 결과는 표 13과 같이 표준어와 신조어가 포함된 문장이 긍정인지 부정인지 최종 결과를 출력하고 도출된 결과 값은 문장 수치를 확률 값으로 전환하고 도출된 결과 값을 확인하였다. ‘doc2’의 경우에 ‘doc1,3’의 결과보다 낮은 결과 값을 확인할 수 있는데 이는 ‘doc2’의 문장에서 부정의 의미가 내포되어 있으나 표 12에 ‘꿀잼’이라는 긍정의 단어가 포함되어 있어서 부정의 결과를 나타내지만 낮은 결과 값이 도출된 것을 확인할 수 있다.

이론/모형

텍스트 마이닝 과정은 대규모 문서나 유저를 통해 실시간으로 생성되거나 비정형적 데이터 안에서 텍스트의 특징 정보를 추출하여 키워드 형태로 표현하고 텍스트 간의 유사도를 확인하여 군집화하고, 정형화된 데이터는 새로운 정보를 생성하고 찾고자 하는 패턴이나 키워드를 찾는 과정으로 진행한다[4]. 소셜 미디어 상의 신조어 추출은 텍스트 마이닝에서 이용하는 TF-IDF를 이용하여 추출한다[5]. 추출된 신조어는 단순히 의미만을 갖고 있는 것이 아니기 때문에 위키피디아에서 제공하는 ‘대한민국 인터넷 신조어’ 목록을 통해 임의로 긍정, 부정 분류를 진행하고 분류된 데이터는 오피니언 마이닝을 통해 학습하여 사용한다[6].

성능/효과

기존의 알고리즘은 텍스트 분류를 통한 단순 빈도수로 결과값을 도출하고 불용어 수준의 단어를 정확하게 처리하기가 어렵다는 단점이 존재하여 객관적인 수치를 나타내는데 어려움이 있다. 기존의 연구에서 진행된 표준어 감성에 비해 제안하는 알고리즘이 평균 0.21 정도의 미세한 수치 상승이 나타나 제안하는 방법에 대한 효율성을 입증할 수 있는 결과를 시각화를 통해 그래프로 확연한 차이를 확인할 수 있다. 그림 6에서 나타난 문서 ‘doc1’, ‘doc2’, ‘doc3’은 댓글과 리뷰에 대하여 저장된 문서이며 평가를 진행 후 상대적으로 낮은 수치를 보이는 ‘doc2’는 기존의 알고리즘이나 본 논문에서 제안하는 방법을 적용하여도 긍정적인 단어가 포함되어 있어 낮은 결과 값이 도출되었다.
본 논문에서 제안하는 방법은 웹 크롤링을 통한 댓글, 리뷰 데이터들을 수집하여 신조어 추출을 진행해 긍정, 부정 값을 통해 신조어 감성 분석의 기반을 마련하고 종래의 표준어 기반 감성 분석 방법과 결합하여 구체적인 데이터 마이닝 기술에 근접하는 것이다. 신조어 분석과 종래 기술인 표준어 기반 감성 분석을 결합하여 기존에 불용어로 제거되었던 신조어가 감성 의미를 가짐으로써 기능을 다하여 결과 값이 향상되는 점을 확인하였다. 본 연구에서는 신조어의 감성 분석에 대한 연구로 단어에 대한 기능을 할 수 있도록 하였으며 신조어는 더 이상 제거 대상이 아닌 필수 요소로 자리매김해야 할 것이다.
본 절에서는 제안한 방법을 이용하여 최종적인 결과 도출을 위해 평가를 진행하였다. 신조어와 표준어 긍정, 부정 감성 분석을 통한 연구를 토대로 각각의 감성별로 학습과 실험을 반복하여 결과의 정확성을 높였다. 이러한 과정을 거쳐 문서에 포함된 단어의 긍정, 부정 수치를 확인하고, 학습된 데이터 값은 웹 크롤링을 통해 수집된 텍스트 데이터를 활용하여 댓글, 리뷰 및 뉴스 데이터의 데이터가 어떠한 긍정, 부정 감성 값을 도포하고 있는지 확인하였다.
뉴스 기사의 텍스트는 일반적으로 특수한 주제가 아닌 경우에는 표준어를 사용하기 때문에 댓글, 리뷰의 텍스트 데이터와 비교 시에 차이가 분명하게 드러난다. 특정 제품의 경우 30대와 40대가 자주 구매하는 제품의 리뷰를 수집해서 소셜 미디어 신조어의 사용이 일반적인 댓글에 비해 적으나 표준어 기반 감성 분석을 적용했을 시에는 분명한 차이를 보였다.

후속연구

본 연구에서는 신조어의 감성 분석에 대한 연구로 단어에 대한 기능을 할 수 있도록 하였으며 신조어는 더 이상 제거 대상이 아닌 필수 요소로 자리매김해야 할 것이다. 또한, 신조어는 소셜 미디어의 한 문화에서 파생된 단어로 표준어와 같이 반드시 써야 할 단어는 아니지만, 소셜 미디어의 문화가 점점 계속 될수록 단어는 앞으로도 계속 생길 것이며 그에 대한 지속적인 대처가 필요할 것이고 그러한 환경 구축에 대한 연구를 진행할 예정이다.
신조어 분석과 종래 기술인 표준어 기반 감성 분석을 결합하여 기존에 불용어로 제거되었던 신조어가 감성 의미를 가짐으로써 기능을 다하여 결과 값이 향상되는 점을 확인하였다. 본 연구에서는 신조어의 감성 분석에 대한 연구로 단어에 대한 기능을 할 수 있도록 하였으며 신조어는 더 이상 제거 대상이 아닌 필수 요소로 자리매김해야 할 것이다. 또한, 신조어는 소셜 미디어의 한 문화에서 파생된 단어로 표준어와 같이 반드시 써야 할 단어는 아니지만, 소셜 미디어의 문화가 점점 계속 될수록 단어는 앞으로도 계속 생길 것이며 그에 대한 지속적인 대처가 필요할 것이고 그러한 환경 구축에 대한 연구를 진행할 예정이다.

핵심어	질문	논문에서 추출한 답변
	텍스트 마이닝이란?	데이터 마이닝 기술 중 하나인 텍스트 마이닝은 자연어 처리와 정보 추출 등의 분야를 연구하는데 유용한 기술 중 하나이다. 소셜 미디어에서 흔히 찾을 수 있는 데이터들은 구조가 완전하지 않는 형태로 구성되어 있고 가공되지 않은 데이터로 그 안에서 불분명한 형태 안에 필요한 키워드 추출하는 작업은 중요하다[3].
	신조어의 사용에 있어 가장 큰 장점은?	신조어의 등장은 소셜 미디어 주 사용층인 10대와 20대 사용자들이 많이 사용하면서 다양한 신조어가 등장하고 사용자들의 이용을 통해서 또 다른 신조어를 탄생시키고 발전되어지고 있다. 신조어의 사용은 여러 장단점을 가져올 수 있는데 가장 큰 장점은 빠른 의미전달이다. 소셜 미디어가 지닌 문제점인 글자 수 제한이라는 것을 신조어 사용으로 긴 문장을 짧은 문장으로 또는 긴 단어를 짧은 단어로 함축적인 의미전달이 가능하여 글자 수 제한 문제점 해소가 가능하다.
	사용자들은 빠른 의미전달을 하고자 했던 이유는 무엇인가요?	신조어의 사용은 여러 장단점을 가져올 수 있는데 가장 큰 장점은 빠른 의미전달이다. 소셜 미디어가 지닌 문제점인 글자 수 제한이라는 것을 신조어 사용으로 긴 문장을 짧은 문장으로 또는 긴 단어를 짧은 단어로 함축적인 의미전달이 가능하여 글자 수 제한 문제점 해소가 가능하다. 하지만 데이터 마이닝(Data Mining) 기술이나 빅 데이터(Big Data) 같은 연구에서는 사전적인 의미를 갖고 있지 않아 알고리즘의 성능 저하와 연구에 제약사항이 발생한다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

나이브 베이즈 기반 소셜 미디어 상의 신조어 감성 판별 기법
Sensitivity Identification Method for New Words of Social Media based on Naive Bayes Classification 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

데이터처리

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

나이브 베이즈 기반 소셜 미디어 상의 신조어 감성 판별 기법 Sensitivity Identification Method for New Words of Social Media based on Naive Bayes Classification 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

데이터처리

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

저자의 다른 논문 :

김정인 (5) 최준호 (5) 김판구 (36)

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

나이브 베이즈 기반 소셜 미디어 상의 신조어 감성 판별 기법
Sensitivity Identification Method for New Words of Social Media based on Naive Bayes Classification 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper