$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

비정형 데이터 분석을 통한 선거 여론조사 예측력 개선 방안 연구
Prediction improvement of election polls by unstructured data analysis 원문보기

응용통계연구 = The Korean journal of applied statistics, v.31 no.5, 2018년, pp.655 - 665  

박선빈 (한남대학교 비즈니스통계학과) ,  김명준 (한남대학교 비즈니스통계학과)

초록
AI-Helper 아이콘AI-Helper

소셜 네트워크 서비스(social network service; SNS)는 개개인의 의견을 공유하거나 소통하는 일반적인 도구로 사용되고 있으며, 특히 정치적인 이슈의 전파 과정에서 타인과의 공유를 통하여 자신이 지지하는 후보에 대한 긍정적인 홍보 등을 통해 여론을 형성 또는 확장한다. 기존의 여론 조사 결과는 응답률, 표본 수집의 방식 등과 관련하여 예측의 정확성에 대한 끊임없는 논란이 되어왔다. 본 논문은 이러한 소셜 네트워크 서비스 상에 존재하는 수많은 비정형 데이터감성 분석을 통하여 여론조사의 예측력을 개선, 보완하는 방안을 제시하고자 한다. 제시하고자 하는 연구 내용은 비정형 데이터 크롤링 및 기존에 사용되던 감성 사전에 대한 추가적인 보정 과정을 포함하고 있으며, 이를 통하여 본 논문에서 제안하는 방식은 오차의 감소를 통하여 예측력을 개선하는 결과를 나타냈다.

Abstract AI-Helper 아이콘AI-Helper

Social network services (SNS) have become the most common tool for the communication of public and private opinions as well as public issues; consequently, one may form or drive public opinions to advocate by spreading positive content using SNS. Controversy for survey data based opinion poll accura...

주제어

표/그림 (7)

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 따라서 본 논문의 목적은 이러한 소셜 미디어가 가지는 소통력의 이점과 개개인의 의견을 마음대로 피력할 수 있다는 장점을 이용하여 기존 진행하던 선거여론조사 데이터와 소셜 네트워크상에 있는 비정형 데이터에 오피니언 마이닝을 적용한 것을 추가하여 선거 여론조사 예측 정확도를 향상시키는데 있다. 기존의 여론조사가 대부분 온라인 설문, ARS, 전화조사로 수집된 데이터들에만 의존해 왔다면, 본 연구에서는 기존 조사방법들과 더불어 소셜 미디어 상의 비정형 데이터 분석 결과를 결합하여 기존 방식이 가지는 예측의 한계점을 극복하고 보다 정교한 방식을 제안하는 것에 연구에 의의를 둘 수 있으며, 19대 대선 여론 조사 결과를 대상으로 연구를 진행하였다.
  • 본 논문도 기존에 진행되고 있는 여론조사를 보다 정교하게 예측하기 위하여 기존에 제시되어 왔던 여론조사의 기간 조정, 표본 방식의 개선, 조사 방법론의 개선이 아닌 새로운 데이터 수집 및 분석 방식 결과를 적용함으로써 여론조사의 정확도 향상에 연구의 목적을 두고 있다. 따라서 소셜 미디어들 중 트위터와 페이스북에서 데이터를 크롤링하고, 수집된 데이터에 대한 감성분석을 통하여 긍정문의 변화를 파악하고 기존 여론조사 결과에 감성분석 결과를 보완하는 방안을 본 논문에서 제시하고자 한다.
  • 본 논문도 기존에 진행되고 있는 여론조사를 보다 정교하게 예측하기 위하여 기존에 제시되어 왔던 여론조사의 기간 조정, 표본 방식의 개선, 조사 방법론의 개선이 아닌 새로운 데이터 수집 및 분석 방식 결과를 적용함으로써 여론조사의 정확도 향상에 연구의 목적을 두고 있다. 따라서 소셜 미디어들 중 트위터와 페이스북에서 데이터를 크롤링하고, 수집된 데이터에 대한 감성분석을 통하여 긍정문의 변화를 파악하고 기존 여론조사 결과에 감성분석 결과를 보완하는 방안을 본 논문에서 제시하고자 한다.
  • 본 연구에서는 지금까지 진행한 모든 결과들을 반영하여 다음 수식과 같은 수정 예측 투표율을 제안한다. 이는 기존 전화 조사 등으로 이루어지는 예측 득표율에 비정형 데이터 분석 결과를 반영하여 새롭게 계산되는 예측 득표율로 두 결과의 가중 평균 형태로 이해할 수 있다.
  • 이는 분석 과정에 포함되는 50만여개에 이르는 비정형 데이터를 분석하는데 효율적으로 활용 가능한 방식이며, 이에 대한 효율성 확인을 위한 하둡의 성능을 파악하기 위해 1부터 900만까지 제곱을 하는 기초적인 연산을 진행한 결과 단일 컴퓨터에서 진행한 시간인 33초보다 1/3이 감소한 21초가 소요되었다. 본 연구의 분석과정은 단일 머신에서도 분석 진행이 가능하기는 하나, 대용량 자료에 대한 분산 처리과정이 가지는 효용성에 대한 참고를 위하여 사례 결과를 제시하는 바이다.
  • 기존에 실행되었던 여론조사에서는 온라인 공간에서 생성되는 데이터가 활용되지 않았다는 점, 전화 ARS 조사 또한 젊은층보다 장년층이 더 많이 분포해 표본의 층화추출이 원활하게 이루어지지 않는다는 점과 이를 보정하고자 하는 가중치 반영 방식 등의 차이들로 인하여 여론조사의 정확도는 조사업체별로 작게는 1%에서 크게는 약 10%까지 차이가 나는 것으로 확인되었다. 이러한 여론조사 현황을 개선하기 위하여 본 논문에서는 기존 여론조사 결과와 SNS에서 추출한 대선 후보와 관련된 자료들을 수집하고 감성 분석 결과를 기존 여론조사에 보완하는 여론조사 개선방안을 도출하였다. 기존의 방식을 보완하는 과정을 요약하여 도식화 한 것이 Figure 3.
  • 국내 뿐만 아니라 해외에서도 선거 결과를 예측하는데 있어 이러한 소셜 미디어에 대한 분석결과를 활용하는 것이 필요하다는 연구 결과들이 제안되었으며, Wegrzyn-Wolska와 Bougueroua (2012)가 프랑스 대선 결과에 접목하여 제시한 연구, 미국의 의회 선거결과에 소셜 미디어의 내용을 고려하는 것이 필요한지 여부에 대하여 Williams와 Gulati (2008)가 제시한 연구 결과들이 대표적인 사례라 할 수 있다. 이러한 연구들의 특징은 특정 정당 및 후보관련 단체들에 대한 시민들의 민심에 대한 실시간 모니터링과 비정형 데이터 분석을 통한 정치 흐름과 득표율을 예측하는 데 활용하는 것에 초점을 두고 있다. 이는 소셜 미디어 상에 존재하는 데이터는 실시간으로 분석이 가능하며, 기존에 활용하던 전화, 현장조사에 비해 빠르고 효율적이며 경제적인 이점 또한 존재한다는 것에 기인한다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
비정형 데이터 분석의 사례는 무엇인가? 이러한 비정형 데이터를 통하여 일상 생활에서 활발하게 적용되고 보급되어진 비정형 데이터 분석의 사례로는 GPS 정보 분석으로 통하여 이동 경로를 안내해 주는 실시간 데이터 분석 등이 대표적이라 할 수 있겠다. 이 외에도 Lee와 Lee (2015)는 로그 정보로 남겨지는 실시간 비정형 데이터들을 분석하여 일어날 상황을 예측하는 방안에 대한 연구 결과를 제시하기도 하였으며, Choi 등 (2011a)은 시스템 보안 및 웹 보안을 더욱 강화하기 위한 대용량 보안 로그 분석 방식을 제안하였다.
정형데이터란? 데이터는 크게 정형데이터, 비정형데이터로 나누어진다. 정형데이터란 시스템의 테이블과 같이 고정된 열과 행에 저장되는 데이터로 각각의 변수명마다 데이터가 지정된 것을 뜻하며 시험 문제의 답, 설문조사 결과 등 특정한 형태에 맞춰진 데이터로써 일반적으로 진행되는 대부분의 조사와 실험들이 여기에 포함된다.
감성분석의 처리 과정은? 오피니언 마이닝은 글에 나타나 있는 작성자의 감정을 분석하는 기법으로 감성 분석(sentiment analysis)으로 불리며, 이 감성분석은 사람이 텍스트 내용의 전부를 일일이 확인하기 힘든 빅데이터 분야에서 주로 이용되고 있다. 감성 분석은 자료의 전처리 과정(data pre-processing)과 감성 사전(sentiment dictionary)을 이용해 해당 글이 갖는 감성을 자동으로 파악해 주는 분석 과정으로 이해할 수 있다.
질의응답 정보가 도움이 되었나요?

참고문헌 (21)

  1. Bae, J. H., Son, J. E., and Song, M. S. (2013). Analysis of twitter for 2012 South Korea presidential election by text mining techniques, Journal of Intelligence and Information Systems, 19, 141-156. 

  2. Chang, J. Y. (2009). A sentiment analysis algorithm for automatic product reviews classification in on-line shopping mall, The Journal of Society for e-Business Studies, 14, 19-33. 

  3. Choi, D. S., Mun, G. J., Kim, Y. M., and Noh, B. N. (2011a). An analysis of large-scale security log using MapReduce, Korean Institute of Information Technology, 9, 125-132. 

  4. Choi, H., Tak, Y., and Hwang, E. (2011b). Music recommendation scheme based on twitter analysis. In Proceedings of The 38th KIISE Fall Conference, 38, 279-282. 

  5. Choi, M. and Yang, S. (2009). Internet social media and journalism report, Korea Press Foundation, 2009-1 

  6. Hyun, K. (2010). Election polling, what is problem?, Kwanhun Journal, 116, 9-17. 

  7. Jho, H. and Kim, J. (2012). Political communication and civic participation through blogs and twitter, Journal of Cybercommunication Academic Society, 29, 95-130. 

  8. Kim, J. H. and Jung, H. (2017). Causal study on the effect of survey methods in the 19th presidential election telephone survey, The Korean Journal of Applied Statistics, 30, 943-955. 

  9. Kim, S. Y. and Huh, M. H. (2009). Systematic bias of telephone surveys: meta analysis of 2007 presidential election polls, The Korean Journal of Applied Statistics, 22, 375-385. 

  10. Kim, S. Y. and Kwon, S. P. (2009). The effect of survey refusal and noncontact on nonresponse error: for economically active population survey, The Korean Journal of Applied Statistics, 22, 667-676. 

  11. Kim, S. and Hwang, B. (2014). Propensity analysis of political attitude of twitter users by extracting sentiment from timeline, Journal of Korea Multimedia Society, 17, 43-51. 

  12. Kim, Y. and Jeong, S. R. (2013). Intelligent VOC analyzing system using opinion mining, Journal of Intelligence and Information Systems, 19, 113-125. 

  13. Kim, W., Lee, J., Park, J., and Choi, J. (2014). A technique of the approval rating analysis for political party using opinion mining, The Journal of Korean Institute of Information Technology, 12, 133-141. 

  14. Kramer, A. D. I., Guillory, J. E., and Hancock, J. T. (2014). Experimental evidence of massive-scale emotional contagion through social networks, PNAS, 111, 8788-8790. 

  15. Lee, J. H., Kim, J., and Lee, K. J. (2006). Missing imputation methods using the spatial variable in sample survey, The Korean Journal of Applied Statistics, 19, 57-67. 

  16. Lee, S. and Lee, D. (2015). Real time predictive analytic system design and implementation using Bigdata-log, Journal of The Korea Institute of Information Security and Cryptology, 25, 1399-1410. 

  17. Park, C., Lim, S., Cha, S., Lee, I., and Kim, J. (2014). Formation of weak ties in social media, The Korea Contents Association, 14, 97-109. 

  18. Park, J., Lee, H., Kang, K., and Kim, B. (2018). Real-time pavement damage detection based on video analysis and notification service, KIISE Transactions on Computing Practices, 24, 59-66. 

  19. Park, S. J., Jung, W. H., Han, J. H., and Shin, S. J. (2004). Analysis of affective words on photographic images and the effects of color on the images, Korean Journal of the Science of Emotion and Sensibility, 7, 41-49. 

  20. Wegrzyn-Wolska, K. and Bougueroua, L. (2012). Tweets mining for French presidential election, Computational Aspects of Social Networks, 2012 Fourth International Conference, 138-143. 

  21. Williams, C. and Gulati, G. (2008). What is a social network worth? Facebook and vote share in the 2008 presidential primaries, American Political Science Association, Annual Meeting, 1-17. 

저자의 다른 논문 :

섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로