[논문]사용자 의견 추출을 위한 텍스트 마이닝 기반 비정형 데이터 정량화 방안

조중흠; 정용택; 최성욱; 옥창수

doi:10.11627/jkise.2018.41.4.131

문제 정의

따라서, 본 연구는 SNS 텍스트를 기반으로 감성분석을 실시하여 비정형 데이터를 통하여 사용자 또는 생성자의 의견 또는 감성을 도출하는 방안을 개발한다. 인터넷으로부터 수집된 SNS 텍스트에 대하여 기존 단어 사전과 자체 개발한 형태소 사전을 활용하여 텍스트 마이닝을 분석하고 그 결과를 바탕으로 감성 분석을 실시하여 의미 있는 분석 결과를 제시하고자 한다.
그러나 인터넷 댓글이나 리뷰 등으로 대표되는 비정형 텍스트 정보는 KOSAC이 분류한 1,600개보다 훨씬 많은 단어들이 포함된다. 따라서, 본 연구에서는 이러한 KOSAC의 한계를 극복하기 위하여 다음 3가지의 보완 목록을 제안한다. 첫 번째는 KOSAC에 포함되지 않은 형용사들에 대한 목록이다.
사실, 이러한 데이터는 사용자 또는 작성자의 의견이나 감성을 포함하고 있는 유용한 정보로 고려될 수 있으며 향후 제품 설계, 마케팅, 서비스 개발과 같은 주요 의사결정에 활용될 수 있다. 따라서, 본 연구에서는 이러한 비정형 데이터를 향후 의사 결정 문제에 활용하기 위하여 정량화하는 방안을 제안한다. 수집된 인터넷 문서 또는 댓글과 같은 텍스트 기반의 비정형 데이터를 형태소 분석기를 이용하여 최소 단위의 단어로 분해하고 이를 기존 감성 사전인 KOSAC을 이용하여 긍정률을 계산하여 얼마나 긍정적인 데이터인지를 평가한다.
따라서, 본 연구에서는 인터넷 또는 온라인에 존재하는 수많은 텍스트 기반 정보를 활용하여 특정 제품이나 서비스에 대한 사용자 의견이나 선호도를 정량적으로 추출하는 방안을 제안한다. 먼저, 특정 주제에 대한 사용자의 텍스트 기반 정보를 수집하고 이를 각 단어로 분해하고, 각 단어를 긍정, 부정으로 분류하여 최종적으로 해당 정보의 긍정률을 계산하여 사용자의 의견을 정량화하는 방안을 고려한다.
따라서, 본 연구는 SNS 텍스트를 기반으로 감성분석을 실시하여 비정형 데이터를 통하여 사용자 또는 생성자의 의견 또는 감성을 도출하는 방안을 개발한다. 인터넷으로부터 수집된 SNS 텍스트에 대하여 기존 단어 사전과 자체 개발한 형태소 사전을 활용하여 텍스트 마이닝을 분석하고 그 결과를 바탕으로 감성 분석을 실시하여 의미 있는 분석 결과를 제시하고자 한다. 특히, 자체 개발한 형태소 사전은 분석의 정확도를 높이기 위해 구어체 및 댓글체도 고려하여 설계되었다.
첫 번째는 KOSAC에 포함되지 않은 형용사들에 대한 목록이다. 형용사가 텍스트 작성자의 감성을 잘 나타낼 것으로 예상됨으로 이에 대한 보완 목록을 고려한다. 두 번째 목록은 그 대상을 명사로까지 확대하여 형용사와 명사에 대한 보완 목록을 구성한다.

제안 방법

앞서 분해된 단어를 이 단어 분류에 따라 긍정 또는 부정으로 분류하고 해당 문서 또는 데이터의 긍정 단어 수와 부정 단어 수를 계산한다. KOSAC에 포함된 1,600개의 단어는 댓글체, 급식체 등으로 대변되는 온라인 댓글 문화를 적절히 반영하기에 다소 제한적이므로 본 연구에서 KOSAC에 포함되지 않는 주요 단어를 대상으로 긍정 또는 부정으로 분류하는 3개의 추가 보완 목록(형용사, 명사, 댓글)을 구축하여 적용하였다. 마지막으로 주어진 문서 또는 비정형 텍스트 데이터에 대한 긍정률은 다음 식에 의해 계산될 수 있다.
수집된 댓글을 앞 장에서 설명한 3개의 보완 목록을 각각 KOSAC에 적용하여 분해하고 각각의 긍정률을 계산하였다. 각 목록의 유효성을 판단하기 위하여 각 영화에 대한 네티즌 평점과 상관분석을 실시하였다. 본 연구에서는 대체로 사용자들이 자신의 감성 및 의견에 따라 적절히 평점을 산정했다는 가정하에 검증을 실시하였고 추후 이 네티즌 평점의 정확성에 대한 별도의 논의가 필요하다고 판단한다.
먼저, 특정 주제에 대한 사용자의 텍스트 기반 정보를 수집하고 이를 각 단어로 분해하고, 각 단어를 긍정, 부정으로 분류하여 최종적으로 해당 정보의 긍정률을 계산하여 사용자의 의견을 정량화하는 방안을 고려한다. 또한, 제안되는 방안의 적용 방안과 그 효과성을 입증하기 위하여 영화 리뷰와 영화 평점 평가를 활용한 사례 분석을 실시한다.
먼저, 온라인 리뷰를 포털사이트로부터 네티즌들이 작성한 온라인 리뷰를 수집하기 위해 Python 기반 beautifulsoup과 request 라이브러리를 이용하여 크롤러(Crawler)를 개발하였다([Figure 2] 참조). 이 크롤러를 활용하여 각 영화당 1,000개의 댓글과 평점을 수집하였고 댓글은 감성 분석을 위한 원 데이터로 평점은 산술 평균하여 감성 분석 결과와 비교하는 데 활용하였다.
따라서, 본 연구에서는 인터넷 또는 온라인에 존재하는 수많은 텍스트 기반 정보를 활용하여 특정 제품이나 서비스에 대한 사용자 의견이나 선호도를 정량적으로 추출하는 방안을 제안한다. 먼저, 특정 주제에 대한 사용자의 텍스트 기반 정보를 수집하고 이를 각 단어로 분해하고, 각 단어를 긍정, 부정으로 분류하여 최종적으로 해당 정보의 긍정률을 계산하여 사용자의 의견을 정량화하는 방안을 고려한다. 또한, 제안되는 방안의 적용 방안과 그 효과성을 입증하기 위하여 영화 리뷰와 영화 평점 평가를 활용한 사례 분석을 실시한다.
이와 같이 본 연구에서 제안하는 비정형 텍스트 데이터 분석을 위한 정량화 방안은 온라인 댓글뿐만 아니라 블로그, 카페, 뉴스 기사, 기술 문서 등의 다양한 텍스트데이터로부터 주요 의사결정에 필요한 정보를 추출하는데 효과적으로 사용될 수 있다. 본 연구는 최소 단위로 분해된 형태소가 갖은 의미를 바탕으로 전체 텍스트가 갖는 의미를 정량화하고 있다. 그러나, 일반적인 경우 텍스트의 경우 단어들의 순서나 조합이 갖는 별도의 의미가 존재하는 만큼 향후 이러한 부분을 고려한 감성 분석 방향에 대한 연구가 필요하다[12].
본 장에서는 사용자가 작성한 비정형 데이터로부터 사용자의 감성 또는 평가를 수치화를 위해 [Figure 1]과같은 텍스트 마이닝 기반의 비정형 데이터 정량화 프레임 워크를 제안한다.
제안된 비정형 데이터의 정량화 방안에 대한 검증을 위해 A포털사이트에서 2017년부터 2018년 상반기까지 개봉한 영화 중 30개를 임의로 선정하고 각 영화에 대한 댓글 1,000개씩을 수집하여 분석하였다. 수집된 댓글을 앞 장에서 설명한 3개의 보완 목록을 각각 KOSAC에 적용하여 분해하고 각각의 긍정률을 계산하였다. 각 목록의 유효성을 판단하기 위하여 각 영화에 대한 네티즌 평점과 상관분석을 실시하였다.
따라서, 본 연구에서는 이러한 비정형 데이터를 향후 의사 결정 문제에 활용하기 위하여 정량화하는 방안을 제안한다. 수집된 인터넷 문서 또는 댓글과 같은 텍스트 기반의 비정형 데이터를 형태소 분석기를 이용하여 최소 단위의 단어로 분해하고 이를 기존 감성 사전인 KOSAC을 이용하여 긍정률을 계산하여 얼마나 긍정적인 데이터인지를 평가한다. 이러한 긍정률 계산에서의 정확도를 향상시키기 위한 3개의 보완목록 (1) 형용사, (2) 형용사+명사, (3) 형용사+명사+댓글체(신조어)를 제안 적용하였다.
KOSAC은 유일한 한국어 감성사전으로 총 1,600개의주요 단어를 긍정, 부정으로 분류하고 있다. 앞서 분해된 단어를 이 단어 분류에 따라 긍정 또는 부정으로 분류하고 해당 문서 또는 데이터의 긍정 단어 수와 부정 단어 수를 계산한다. KOSAC에 포함된 1,600개의 단어는 댓글체, 급식체 등으로 대변되는 온라인 댓글 문화를 적절히 반영하기에 다소 제한적이므로 본 연구에서 KOSAC에 포함되지 않는 주요 단어를 대상으로 긍정 또는 부정으로 분류하는 3개의 추가 보완 목록(형용사, 명사, 댓글)을 구축하여 적용하였다.
앞서 제안된 비정형 데이터 정량화 방안의 유효성을 확인하기 위하여 A포털사이트 영화 리뷰를 활용하여 사례연구를 실시한다. 특히, A포털사이트는 영화 리뷰와함께 일반인(네티즌)들의 수치 기반 정보를 함께 제공 있는데 이는 본 연구에서 제안된 비정형 데이터 정량화 방안의 결과의 정확도를 확인하는 데 활용될 수 있다.
먼저, 온라인 리뷰를 포털사이트로부터 네티즌들이 작성한 온라인 리뷰를 수집하기 위해 Python 기반 beautifulsoup과 request 라이브러리를 이용하여 크롤러(Crawler)를 개발하였다([Figure 2] 참조). 이 크롤러를 활용하여 각 영화당 1,000개의 댓글과 평점을 수집하였고 댓글은 감성 분석을 위한 원 데이터로 평점은 산술 평균하여 감성 분석 결과와 비교하는 데 활용하였다.
수집된 인터넷 문서 또는 댓글과 같은 텍스트 기반의 비정형 데이터를 형태소 분석기를 이용하여 최소 단위의 단어로 분해하고 이를 기존 감성 사전인 KOSAC을 이용하여 긍정률을 계산하여 얼마나 긍정적인 데이터인지를 평가한다. 이러한 긍정률 계산에서의 정확도를 향상시키기 위한 3개의 보완목록 (1) 형용사, (2) 형용사+명사, (3) 형용사+명사+댓글체(신조어)를 제안 적용하였다.
한글이 쓰이는 환경(인터넷)을 고려하여 영화 댓글의 생성과정 중 새로이 생기는 단어들을 감안하고 형용사,명사, 댓글체(신조어) 이 세 가지에 포함되는 요소를 모두 추출하였다. 이와 같이 인터넷 언어를 이용한 온라인 리뷰에 대한 효과적인 분석을 위해 추가 보완 목록에 대한 연구 및 개발이 필요하다.

대상 데이터

특히, A포털사이트는 영화 리뷰와함께 일반인(네티즌)들의 수치 기반 정보를 함께 제공 있는데 이는 본 연구에서 제안된 비정형 데이터 정량화 방안의 결과의 정확도를 확인하는 데 활용될 수 있다. 분석을 위해 2017년부터 2018년 상반기까지 개봉하여 상영이 끝난 영화 중 30개의 영화를 무작위로 선정하여,이 영화들에 대한 온라인 리뷰를 분석하였다.
제안된 비정형 데이터의 정량화 방안에 대한 검증을 위해 A포털사이트에서 2017년부터 2018년 상반기까지 개봉한 영화 중 30개를 임의로 선정하고 각 영화에 대한 댓글 1,000개씩을 수집하여 분석하였다. 수집된 댓글을 앞 장에서 설명한 3개의 보완 목록을 각각 KOSAC에 적용하여 분해하고 각각의 긍정률을 계산하였다.

데이터처리

제안된 방안의 검증을 위해 임의 선정된 30개 영화에 대한 1,000개씩의 댓글을 수집, 분석하였고 그 결과를 포털사이트에 함께 제공된 평점과 비교를 하였다. 형용사로만 이루어진 첫 번째 목록의 경우 평점과 약 39%로 낮은 상관성이 나타낸 반면, 형용사+명사를 고려한 2번째 목록의 경우 76%의 상관성을, 품사의 형태가 다양하게 고려한 3번째 목록은 평점과 약 79%의 높은 상관성을 보여 댓글의 긍정도를 잘 평가하고 있은 것으로 판단할 수 있다.

이론/모형

수집한 리뷰 분석에는 온라인 리뷰에서 흔히 나타나는 띄어쓰기 오류에 덜 민감한 한글 형태소 분석기인 꼬꼬마 형태소 분석기(Kkma, Kind Korean Morpheme Analyzer)을 사용하였다. 이 과정에서 문법적 오류가 심하거나 한 글자 표현 등의 이유로 형태소 분석기가 분석하지 못하는 단어들은 제외되고 적합한 형태소를 추출한다.

성능/효과

4개의 긍정 형태소{‘코미디’, ‘스토리’, ‘정말’, ‘모두’)와 3개의 부정 형태소(“최악”, “실망”, “민망”)가 추가로 추출되었다.
두 번째로 형용사 보안 목록 리스트에 따른 분석 결과는 1개의 부정 형태소{‘재미없’}가 추가로 검출되었다.
높은 평점의 영화는 3가지 평가 방안으로도 높은 값을 가지고 반대의 경우도 마찬가지이다. 따라서, 본 연구에서 제안된 단어 기반 긍정률 계산이 유효한 것으로 판단될 수 있다. 더 자세히 분석을 위해 각 방안에 따른 긍정률과 사용자 평가 점수에 대한 상관 분석(Correlation Analysis)을 실시한 결과는 [Figure 3], [Figure 4], 그리고 [Figure 5]와 같다.
마지막으로 “KOSAC+형용사/명사/신조어(댓글체)” 목록의 경우 가장 높은 0.797238의 상관계수값을 보이고 있으며 이는 텍스트를 분석할 때 특히 인터넷 텍스트 데이터를 분석할 경우 일상에 쓰이는 표준어 외에도 인터넷이라는 특수한 상황 속에서 쓰이는 단어를 고려해야 함을 시사한다.
제안된 방안의 검증을 위해 임의 선정된 30개 영화에 대한 1,000개씩의 댓글을 수집, 분석하였고 그 결과를 포털사이트에 함께 제공된 평점과 비교를 하였다. 형용사로만 이루어진 첫 번째 목록의 경우 평점과 약 39%로 낮은 상관성이 나타낸 반면, 형용사+명사를 고려한 2번째 목록의 경우 76%의 상관성을, 품사의 형태가 다양하게 고려한 3번째 목록은 평점과 약 79%의 높은 상관성을 보여 댓글의 긍정도를 잘 평가하고 있은 것으로 판단할 수 있다.

후속연구

본 연구는 최소 단위로 분해된 형태소가 갖은 의미를 바탕으로 전체 텍스트가 갖는 의미를 정량화하고 있다. 그러나, 일반적인 경우 텍스트의 경우 단어들의 순서나 조합이 갖는 별도의 의미가 존재하는 만큼 향후 이러한 부분을 고려한 감성 분석 방향에 대한 연구가 필요하다[12].
각 목록의 유효성을 판단하기 위하여 각 영화에 대한 네티즌 평점과 상관분석을 실시하였다. 본 연구에서는 대체로 사용자들이 자신의 감성 및 의견에 따라 적절히 평점을 산정했다는 가정하에 검증을 실시하였고 추후 이 네티즌 평점의 정확성에 대한 별도의 논의가 필요하다고 판단한다.
사회 관계망 서비스, 블로그, 댓글 문화의 확산으로 인터넷에는 엄청난 양의 비정형 데이터가 생성, 저장되고 있다. 사실, 이러한 데이터는 사용자 또는 작성자의 의견이나 감성을 포함하고 있는 유용한 정보로 고려될 수 있으며 향후 제품 설계, 마케팅, 서비스 개발과 같은 주요 의사결정에 활용될 수 있다. 따라서, 본 연구에서는 이러한 비정형 데이터를 향후 의사 결정 문제에 활용하기 위하여 정량화하는 방안을 제안한다.
이와 같이 본 연구에서 제안하는 비정형 텍스트 데이터 분석을 위한 정량화 방안은 온라인 댓글뿐만 아니라 블로그, 카페, 뉴스 기사, 기술 문서 등의 다양한 텍스트데이터로부터 주요 의사결정에 필요한 정보를 추출하는데 효과적으로 사용될 수 있다. 본 연구는 최소 단위로 분해된 형태소가 갖은 의미를 바탕으로 전체 텍스트가 갖는 의미를 정량화하고 있다.
한글이 쓰이는 환경(인터넷)을 고려하여 영화 댓글의 생성과정 중 새로이 생기는 단어들을 감안하고 형용사,명사, 댓글체(신조어) 이 세 가지에 포함되는 요소를 모두 추출하였다. 이와 같이 인터넷 언어를 이용한 온라인 리뷰에 대한 효과적인 분석을 위해 추가 보완 목록에 대한 연구 및 개발이 필요하다.
앞서 제안된 비정형 데이터 정량화 방안의 유효성을 확인하기 위하여 A포털사이트 영화 리뷰를 활용하여 사례연구를 실시한다. 특히, A포털사이트는 영화 리뷰와함께 일반인(네티즌)들의 수치 기반 정보를 함께 제공 있는데 이는 본 연구에서 제안된 비정형 데이터 정량화 방안의 결과의 정확도를 확인하는 데 활용될 수 있다. 분석을 위해 2017년부터 2018년 상반기까지 개봉하여 상영이 끝난 영화 중 30개의 영화를 무작위로 선정하여,이 영화들에 대한 온라인 리뷰를 분석하였다.

핵심어	질문	논문에서 추출한 답변
	텍스트 마이닝이란 무엇인가?	텍스트 마이닝은 텍스트 형태로 이루어진 비정형 텍스트 데이터들을 자연어 처리 방식(Natural Language Processing)을 이용하여 가치와 의미가 있는 정보를 찾아내는 기술이라고 할 수 있다. 사용자는 텍스트 마이닝 기술을 통해 방대한 정보 뭉치에서 의미 있는 정보를 추출해 내고, 단어의 출현빈도, 단어 간 관계성 등 단순한 정보검색 그 이상의 결과를 얻어낼 수 있다[13].
	Kam과 Song 연구의 한계는 무엇인가?	제품 사용자의 주관적 의견을 자동으로 분류할 수 있는 감성분석 알고리즘은 상품에 대한 속성과 감성단어들에 대한 데이터베이스가 이미 구축되어 있다고 가정하고 이를 바탕으로 온라인 쇼핑몰에 등록된 한글 상품평에 대해서 전체 혹은 각 속성별로 긍정 또는 부정 의견인지 판단하였다[2]. 그러나, 이 연구는 상품평의 점수를 계산하기 위한 데이터베이스가 이미 구축되어 있는 것을 가정하고 있으며 온라인 리뷰에서 많이 사용되고 있는 인터넷 언어 혹은 신조어를 고려하지 않은 한계를 가지고 있다.
	비정형 텍스트 데이터 분석을 위한 정량화 방안은 어디에 활용될 수 있는가?	이와 같이 본 연구에서 제안하는 비정형 텍스트 데이터 분석을 위한 정량화 방안은 온라인 댓글뿐만 아니라 블로그, 카페, 뉴스 기사, 기술 문서 등의 다양한 텍스트데이터로부터 주요 의사결정에 필요한 정보를 추출하는데 효과적으로 사용될 수 있다. 본 연구는 최소 단위로 분해된 형태소가 갖은 의미를 바탕으로 전체 텍스트가 갖는 의미를 정량화하고 있다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

사용자 의견 추출을 위한 텍스트 마이닝 기반 비정형 데이터 정량화 방안
Unstructured Data Quantification Scheme Based on Text Mining for User Feedback Extraction 원문보기

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (15)

이 논문을 인용한 문헌

저자의 다른 논문 :

연구과제 타임라인

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

사용자 의견 추출을 위한 텍스트 마이닝 기반 비정형 데이터 정량화 방안 Unstructured Data Quantification Scheme Based on Text Mining for User Feedback Extraction 원문보기

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (15)

이 논문을 인용한 문헌

저자의 다른 논문 :

옥창수 (7)

연구과제 타임라인

전체(0) 논문(0) 특허(0) 보고서(0)

전체(0) 논문(0) 특허(0) 보고서(0)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

사용자 의견 추출을 위한 텍스트 마이닝 기반 비정형 데이터 정량화 방안
Unstructured Data Quantification Scheme Based on Text Mining for User Feedback Extraction 원문보기

AI 본문요약
AI-Helper