지난 제 7회 서울시장 선거에서 안철수 후보는 구글 트렌드 검색량은 1위였으나, 실제 투표결과는 3위였다. 본 연구는 그럼에도 불구하고 온라인 데이터를 취합하고 분석하는 방법에 의해 선거결과를 예측할 수 있음을 확인하고자 하였다. 이를 위해 제7회 서울시장 후보 관련하여 Naver와 Daum 정치뉴스에 작성된 댓글들을 웹크롤러로 수집하였다. 형태소분석을 통해 도출된 단어들을 대상으로 word2vec을 적용하여 후보자 관련 주제어 및 ...
지난 제 7회 서울시장 선거에서 안철수 후보는 구글 트렌드 검색량은 1위였으나, 실제 투표결과는 3위였다. 본 연구는 그럼에도 불구하고 온라인 데이터를 취합하고 분석하는 방법에 의해 선거결과를 예측할 수 있음을 확인하고자 하였다. 이를 위해 제7회 서울시장 후보 관련하여 Naver와 Daum 정치뉴스에 작성된 댓글들을 웹크롤러로 수집하였다. 형태소분석을 통해 도출된 단어들을 대상으로 word2vec을 적용하여 후보자 관련 주제어 및 감성어휘를 추출하여 감성어 사전을 보완하였다. 또한 극성(polarity) 기반 감성분석을 실시한 결과를 후보자들의 총 버즈량내에서 점유율로 정규화하였다. 이를 여론조사 결과에 적합(fitting)하여 투표율 예측 모델링을 실시했다. 연구 결과 Daum 댓글에서의 긍정언급량, 부정 대비 긍정 비율이 높을수록 후보자의 득표율이 높아지고, 단순히 언급량이 많을 경우 오히려 득표율이 낮아지는 것으로 나타났다. 그리고 모델링을 통해 선거결과를 예측한 결과, 6%p 오차내에서 후보자들의 득표율을 예측하였으며, 후보자간 순위를 정확하게 맞추었다. 따라서 본 연구를 통해 포털 댓글로 대표되는 온라인데이터를 여론조사와 결합할 경우 선거결과를 예측할 수 있음을 발견했다. 향후 감성분석기법의 고도화 및 분석사례를 확대하여 온라인 데이터 분석결과의 일반화 검토를 후속연구로 제언한다.
지난 제 7회 서울시장 선거에서 안철수 후보는 구글 트렌드 검색량은 1위였으나, 실제 투표결과는 3위였다. 본 연구는 그럼에도 불구하고 온라인 데이터를 취합하고 분석하는 방법에 의해 선거결과를 예측할 수 있음을 확인하고자 하였다. 이를 위해 제7회 서울시장 후보 관련하여 Naver와 Daum 정치뉴스에 작성된 댓글들을 웹크롤러로 수집하였다. 형태소분석을 통해 도출된 단어들을 대상으로 word2vec을 적용하여 후보자 관련 주제어 및 감성어휘를 추출하여 감성어 사전을 보완하였다. 또한 극성(polarity) 기반 감성분석을 실시한 결과를 후보자들의 총 버즈량내에서 점유율로 정규화하였다. 이를 여론조사 결과에 적합(fitting)하여 투표율 예측 모델링을 실시했다. 연구 결과 Daum 댓글에서의 긍정언급량, 부정 대비 긍정 비율이 높을수록 후보자의 득표율이 높아지고, 단순히 언급량이 많을 경우 오히려 득표율이 낮아지는 것으로 나타났다. 그리고 모델링을 통해 선거결과를 예측한 결과, 6%p 오차내에서 후보자들의 득표율을 예측하였으며, 후보자간 순위를 정확하게 맞추었다. 따라서 본 연구를 통해 포털 댓글로 대표되는 온라인데이터를 여론조사와 결합할 경우 선거결과를 예측할 수 있음을 발견했다. 향후 감성분석기법의 고도화 및 분석사례를 확대하여 온라인 데이터 분석결과의 일반화 검토를 후속연구로 제언한다.
In the 7th Seoul mayoral election, candidate Ahn was ranked first in Google Trends, but actually voted third. Nevertheless, this study tried to confirm that the election results can be predicted by collecting and analyzing the online portal comments. To this end, using web crawlers to collect th...
In the 7th Seoul mayoral election, candidate Ahn was ranked first in Google Trends, but actually voted third. Nevertheless, this study tried to confirm that the election results can be predicted by collecting and analyzing the online portal comments. To this end, using web crawlers to collect the comments made on Naver and Daum political news regarding the 7th mayor of Seoul. By applying word2vec to the words derived of morphological analysis, I extracted words regarding the candidates and emotional vocabulary to complement the emotional dictionary. In addition, the results of polarity-based emotional analysis were normalized to the ratio within the total buzz of the candidates. Fitting this to the poll results, the model predicted the percentage of votes. As a result, the higher the number of positive comments and the positive ratio against the negative in Daum comments, the higher the percentage of vote of the candidate. And predicting the election by the model, the candidates' percentage of vote was predicted within 6% p error, and the ranking among candidates was accurately matched. Therefore, this study found that the election results can be predicted by combining online data represented by portal comments with polls. In the future, I will try the generalization of the method of online data analysis for predicting election by increasing the cases.
In the 7th Seoul mayoral election, candidate Ahn was ranked first in Google Trends, but actually voted third. Nevertheless, this study tried to confirm that the election results can be predicted by collecting and analyzing the online portal comments. To this end, using web crawlers to collect the comments made on Naver and Daum political news regarding the 7th mayor of Seoul. By applying word2vec to the words derived of morphological analysis, I extracted words regarding the candidates and emotional vocabulary to complement the emotional dictionary. In addition, the results of polarity-based emotional analysis were normalized to the ratio within the total buzz of the candidates. Fitting this to the poll results, the model predicted the percentage of votes. As a result, the higher the number of positive comments and the positive ratio against the negative in Daum comments, the higher the percentage of vote of the candidate. And predicting the election by the model, the candidates' percentage of vote was predicted within 6% p error, and the ranking among candidates was accurately matched. Therefore, this study found that the election results can be predicted by combining online data represented by portal comments with polls. In the future, I will try the generalization of the method of online data analysis for predicting election by increasing the cases.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.