$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

토픽 모델링을 이용한 신문 자료의 오피니언 마이닝에 대한 연구
A Study on Opinion Mining of Newspaper Texts based on Topic Modeling 원문보기

한국문헌정보학회지 = Journal of the Korean Society for Library and Information Science, v.47 no.4, 2013년, pp.315 - 334  

강범일 (연세대학교 언어정보연구원) ,  송민 (연세대학교 문헌정보학과) ,  조화순 (연세대학교 정치외교학과)

초록
AI-Helper 아이콘AI-Helper

이 연구에서는 토픽 모델링 기법을 이용하여 신문 기사를 대상으로 주제 기반의 오피니언 마이닝을 수행하였다. 언론 매체가 가지는 정파성을 일종의 오피니언으로 간주하여 대선이라는 거대 이슈에 대한 각 매체들의 입장을 분석하였다. 먼저 대량의 신문 기사에서 주제를 추출한 후 매체별 주제 구성의 차이를 살펴보았다. 그리고 주제별 네트워크 분석을 통해 주제의 구조와 내용을 분석하였다. 마지막으로 시계열 분석을 통해서 시기별 주제 분포의 차이를 매체별로 살펴보았다. 그 결과 모든 분석에서 진보매체와 보수매체 모두 자신들의 이데올로기를 따라 기사를 보도하는 경향성이 확인되었다. 이를 통해 주제 기반 오피니언 마이닝이 타당성 있는 의견 분석의 기능을 수행할 수 있음을 확인할 수 있었다.

Abstract AI-Helper 아이콘AI-Helper

This study performs opinion mining of newspaper articles, based on topics extracted by topic modeling. We analyze the attitudes of the news media towards a major issue of 'presidential election', assuming that newspaper partisanship is a kind of opinion. We first extract topics from a large collecti...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • MALLET의 LDA 기반 토픽 모델링은 동일한 자료와 동일한 설정값을 적용하더라도 모델링을 실행할 때마다 조금씩 다른 결과를 생성 하는 특징이 있다. 따라서 매체별 모델링 결과의 신뢰성을 확보하기 위해 모델링을 반복적으로 수행하여 각 매체별로 비교적 꾸준히 나타난다고 판단되는 주제들을 해당 매체에서 두드러지는, 신뢰성 있는 주제로 파악하기로 하였다. [표3]은 모델링을 10회 수행한 결과, 각 주제들이 출현한 횟수를 매체별로 나타낸 것이다.
  • 본 연구는 일종의 탐색적 연구로서, 토픽 모델링 기법을 이용한 주제 기반의 오피니언 마이닝이 타당성 있는 의견 분석의 기능을 수행하는 지를 밝혀 보고자 했다는 점에서 기존의 오피니언 마이닝 관련 연구들과 차별화된다. 또한 토픽 모델링 알고리즘이 단순히 방대한 문헌에서 주제를 추출하기 위해 사용되어 왔다는 점을 감안할 때, 네트워크 분석을 통해 개별 주제의 구조와 내용을 살펴본 것은, 토픽 모델링이 가지고 있지 않은 개별 주제 분석의 기능을 보완하는 방법이라는 측면에서 의미를 부여할 수 있을 것이다.
  • 본 연구에서는 토픽 모델링 알고리즘을 사용 하여 신문기사에서 추출한 주제를 바탕으로 오피니언 마이닝을 수행하였다. 먼저 18대 대선후보들의 기사에서 형성되는 주제들을 추출하고, 이러한 주제들이 매체별로 차이를 보이는지, 주제를 구성하는 단어들의 내용에 차이가 있는지, 시기별로 주제 분포의 차이가 드러나는지를 각각 살펴보았다.
  • 마지막으로, 공통주제에 대한 시기별 분포 또한 매체별로 다르게 나타날 것으로 보고 시계열 분석을 통해 주제 분포의 차이를 매체별로 분석하였다. 이를 통해 주제 기반 오피니언 마이닝이 타당성 있는 의견 분석의 기능을 수행하는지 규명하고자 하였다.
  • 이와는 다르게 본 연구에서는 단어나 문장 단위가 아닌 텍스트에서 자동으로 추출된 주제들을 기반으로 오피니언 마이닝을 수행하고자 하였다. 특정 이슈를 다루는 텍스트에서 발견되는 주제들의 성격과 그 주제들의 시기별 분포 변화를 분석함으로써 해당 이슈를 바라보는 텍스트 생산자의 관점이나 의견이 파악될 수 있을 것으로 보았기 때문이다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
오피니언 마이닝은 주로 무엇에 사용되는가? 오피니언 마이닝은 주로 기업이나 각종 기관이 사회적 사건이나 정치적 이슈, 기업 전략이나 마케팅, 제품 선호에 대한 대중들의 의견을 수집하여 의사 결정에 활용하기 위한 목적으로 활발히 사용되어 왔다. 따라서 기존의 오피니언 마이닝에 관한 연구들은 주로 상품평이나 영화평과 같이 의견이 감정 언어로 표현 되는 텍스트를 바탕으로 감정의 극성을 판단해 내기 위한 기법이나 그것의 기반이 되는 감정어 사전을 구축하는 방법에 초점을 맞추어왔다.
특정 이슈를 다룬 기사들에 대한 프레임의 비교․분석이 정파성을 판단하기 위한 방법으로 활용되는 이유는 무엇인가? 프레임 분석은 언론이 뉴스를 제공할 때 일정한 틀을 도입함으로써 수용자들이 어떤 메시지를 유목화(categorization)해서 해석하고 평가하도록 작용하는 역할을 한다는 프레이밍 이론을 바탕으로 한 것이다. 즉, 프레임은 언론이 취한 입장과 그에 따른 보도 양식을 나타내는 것으로서 뉴스 수용자의 의견 형성에 중요한 영향력을 행사하게 된다(이준웅 2001). 이러한 측면에서, 특정 이슈를 다룬 기사들에 대한 프레임의 비교․분석은 정파성을 판단하기 위한 방법으로 활용되어 왔다(김정아, 채백 2008).
토픽 모델링이란 무엇인가? 토픽 모델링은 구조화되지 않은 방대한 문헌 집단에서 주제를 찾아내기 위한 알고리즘으로, 맥락과 관련된 단서들을 이용하여 유사한 의미를 가진 단어들을 클러스터링하는 방식으로 주제를 추론하는 모델이다(Steyvers and Griffiths 2007; Blei 2012). 이러한 특징 때문에 토픽 모델링은 문헌들을 연구 자료로 사용하는 다양한 분야의 연구에서 분석 도구로 사용되어 왔다.
질의응답 정보가 도움이 되었나요?

참고문헌 (38)

  1. 감미아, 송민. 2012. 텍스트 마이닝을 활용한 신문사에 따른 내용 및 논조 차이점 분석. 지능정보연구, 18(3): 53-77.(Kam, Miah, & Song, Min. 2012. "A Study on Differences of Contents and Tones of Arguments among Newspapers Using Text Mining Analysis." Journal of Intelligence and Information System, 18(3): 53-77.) 

  2. 강명구. 2004. 한국 언론의 구조변동과 언론전쟁, 한국언론학보, 48(5): 319-421.(Kang, Myungkoo. 2004. "Media War and the Crisis of Journalism Practices." Korean Journal of Journalism & Communication Studies, 48(5): 319-421.) 

  3. 김영욱. 2011. 한국 언론의 정파성과 사회적 소통의 위기. 한국언론학회 심포지움 및 세미나, 107-136.(Kim, Youngwook. 2011. "The Partisanship of Korean Media and The Crisis of Social Interaction." Korean Society For Journalism And Communication Studies symposium seminar, 2011: 107-136.) 

  4. 김재홍. 2003. 김대중 정부의 대북 포용정책에 대한 언론노조와 국민여론의 비교분석. 한국정치학회보, 37(2): 197-218.(Kim, Jaehong. 2003. "Editorial Tone of Major Korean Newspapers toward the Sunshine Policy during the Kim Dae Joong Government." Korean Political Science Review, 37(2): 197-218.) 

  5. 김정아, 채백. 2008. 언론의 정치 성향과 프레임: '이해찬 골프'와 '최연희 성추행' 사건의 보도를 중심으로. 한국언론정보학보, 41: 232-267.(Kim, Jungah, & Chae, Baek. 2008. "The Political Attitude of Newspapers and the Coverage of Political Scandal." Journal of Communication & Information, 41: 232-267.) 

  6. 박자현, 송민. 2013. 토픽 모델링을 활용한 국내 문헌정보학 연구동향 분석. 정보관리학회지, 30(1): 7-32.(Park, Ja-Hyun, & Song, Min. 2013. "A Study on the Research Trends in Library & Information Science in Korea using Topic Modeling." Journal of the Korean Society for Information Management, 30(1): 7-32.) 

  7. 박재영. 2009. 한국 언론사들의 정파성 지형. 한국언론재단 세미나 종합 보고서, 17-65.(Park, Jaeyoung. 2009. "The Partisanship Topography of Korean Presses." The Summary Report of The Seminar on Korea Press Foundation, 17-65.) 

  8. 신태범, 권상희. 2013. 국내 청소년의 포털뉴스 이용특성과 뉴스신뢰, 공공성인식에 관한 연구. 사이버 커뮤니케이션 학보, 30(1): 241-294.(Shin, TaeBeom, & Kweon, Sanghee. 2013. "A Study of The Relationship between Domestic Youth's Portal News Usage Characteristics and News Trust with Publicness Recognitions." Journal of Cybercommunication, 30(1): 241-294.) 

  9. 송혜지, 박경수, 정혜은, 송민. 2013. 텍스트 마이닝 기법을 활용한 한국의 경제연구 동향 분석. 한국정보관리학회 학술대회논문집, 20: 47-50.(Song, Hye-Ji, Park, Kyung-Soo, Jung, Hye-Eun, & Song, Min. 2013. "Trend Analysis of Korean Economy in the Economic Literature by text mining techniques." Proceedings of the Korean Society for Information Management, 20: 47-50.) 

  10. 윤성이. 2012. 소셜 네트워크의 확산과 민주주의 의식의 변화. 한국정치연구, 21(2): 145-168.(Yun, Seongyi. 2012. "Diffusion of Social Network Service and Its Challenge to Representative Democracy." Journal of Korean Politics, 21(2): 145-168.) 

  11. 윤영철. 2000. 권력 이동과 신문의 대북정책 보도: 신문과 정당의 병행관계를 중심으로. 언론과 사회, 27: 48-81.(Yoon, Youngchul. 2000. "Power Shift and News Policy toward North Korea: An analysis of press-party parallelism." Media and Society, 27: 48-81.) 

  12. 이민웅. 2003. 저널리즘: 위기 변화 지속. 서울: 나남.(Lee, Minwoong. 2003. Journalism: Crisis Change Endure. Seoul: Nanam.) 

  13. 이재경. 2004. 저널리즘의 위기와 언론의 미래. 신문과 방송 40주년 세미나. 2004년 3월 18일. [서울: 프레스센터].(Lee, Jaekyung. 2004. The Crisis of The Journalism and The Future of The Media. The 40th Anniversary Seminar on Newspaper and Broadcasting, Seoul: Korea Press Center) 

  14. 이재윤. 2006a. 지적 구조의 규명을 위한 네트워크 형성 방식에 관한 연구. 한국문헌정보학회지, 40(2): 333-355.(Lee, Jaeyun. 2006a. "A Study on the Network Generation Methods for Examining the Intellectual Structure of Knowledge Domains." Journal of the Korean Library and Information Science Society, 40(2): 333-355.) 

  15. 이재윤. 2006b. 계량서지적 네트워크 분석을 위한 중심성 척도에 관한 연구. 한국문헌정보학회지, 40(3): 191-214.(Lee, Jaeyun. 2006b. "Centrality Measures for Bibliometric Network Analysis." Journal of the Korean Library and Information Science Society, 40(3): 191-214.) 

  16. 이재윤. 2006c. 지적 구조 분석을 위한 새로운 클러스터링 기법에 관한 연구. 정보관리학회지, 23(4): 215-231.Lee, Jaeyun. 2006c. "A novel clustering method for examining and analyzing the intellectual structure of a scholarly field." Journal of the Korean Society for Information Management, 23(4): 215-231.) 

  17. 이재윤. 2012. WNET. (version 0.4). (Software).(Lee, Jaeyun. 2012. WNET. (version 0.4). (Software).) 

  18. 이준웅. 2001. 갈등적 이슈에 대한 뉴스 프레임 구성방식이 의견형성에 미치는 영향. 한국언론학보, 46(1): 441-482.(Rhee, Junewoong. 2001. "Impacts of News Frames in the Coverage of Conflicting Issues on Individual Interpretation and Opinion." Korean Journal of Journalism & Communication Studies, 46(1): 441-482.) 

  19. 이지혜, 정영미. 2009. 지도적 잠재의미색인(LSI)기법을 이용한 의견 문서 자동분류에 관한 실험적 연구. 정보관리학회지, 26(3): 451-462.(Lee, Ji-Hye, & Chung, Young-Mee. 2009. "An Experimental Study on Opinion Classification Using Supervised Latent Semantic Indexing(LSI)." Journal of the Korean Society for Information Management, 26(3): 451-462.) 

  20. 진설아, 허고은, 정유경, 송민. 2013. 트위터 데이터를 이용한 네트워크 기반 토픽 변화 추적 연구. 정보관리학회지, 30(1): 285-302.(Jin, Seol-A, Heo, Coeun, Jeong, Yoo-Kyung, & Song, Min. 2013. "Topic-Network based Topic Shift Detection on Twitter." Journal of the Korean Society for Information Management, 30(1): 285-302.) 

  21. 차한필. 1989. 국내 신문 사설의 주제 분석과 각 신문 간 상관관계에 관한 연구. 석사학위논문, 연세대학교 대학원, 도서관학과.(Cha, Hanpil. 1989. The Study on the Topic of Domestic Paper's Editorials and Correlation between Newspapers. M.A. thesis, Yonsei University.) 

  22. 최민재, 김재영. 2008. 포털의 17대 대선 관련 뉴스서비스 공정성에 관한 탐색적 연구. 언론과학연구, 8(4): 667-701.(Choi, Minjae, & Kim, Jaeyoung. 2008. "Fairness of Portal News Service in the 2007 Presidential Election." Journal of Communication Science, 8(4): 667-701.) 

  23. 최진호, 한동섭. 2012. 언론의 정파성과 권력 개입: 1987년 이후 13-17대 대선캠페인 기간의 주요일간지 사설 분석. 언론과학연구, 12(2): 534-571.(Choi, Jinho, & Han, Dongsub. 2012. "The Partisanship of Media and the Media Intervention in Political-power Creation in Korea: Focusing on the Analysis of the Major Newspapers` Editorial Articles during the 13-17th Presidential Election Campaigns." Journal of Communication Science, 12(2): 534-571.) 

  24. 최현주. 2010. 한국 신문 보도의 이념적 다양성에 대한 고찰: 6개 종합일간지의 3개 주요 이슈에 대한 보도 성향 분석을 중심으로. 한국언론학보, 54(3): 399-426.(Choi, Hyunju. 2010. "A Study on the Diversity of Korean Newspapers: Analyzing the Tendencies of Covering Three Major Issues." Korean Journal of Journalism & Communication Studies, 54(3): 399-426.) 

  25. 한경수. 2010. 효과적인 의견 자질 결합을 위한 실험적 연구. 정보관리학회지, 27(3): 227-239.(Han, Kyung-Soo. 2010. "Experimental Study for Effective Combination of Opinion Features." Journal of the Korean Society for Information Management, 27(3): 227-239.) 

  26. Blei, D., &Lafferty, J. 2006. "Dynamic topic models." The 23rd international conference on Machine learning, 113-120. 

  27. Blei, D. 2012. "Probabilistic topic models." Communications of the ACM, 55(4): 77-84. 

  28. Chen, H., & D. Zimbra. 2010. "AI and Opinion Mining." IEEE Intelligent Systems, 25(3): 74-76. 

  29. Gerrish, S., & Blei, D. 2010. "A language-based approach to measuring scholarly impact." The 27th International Conference on Machine Learning, 375-382. 

  30. Griffiths, T., & Steyvers, M. 2004. Finding scientific topics. Proceedings of the National Academy of Sciences. 

  31. Grimmer, J. 2010. "A Bayesian hierarchical topic model for political texts: Measuring expressed agendas in senate press releases." Political Analysis, 18(1): 1-35. 

  32. Liu, Bing. 2010. "Sentiment Analysis: A Multifaceted Problem." IEEE Intelligent Systems, 25(3): 76-80. 

  33. McCallum, Andrew Kachites. 2002. "MALLET: A Machine Learning for Language Toolkit." . 

  34. Mimno, D., & McCallum, A. 2008. "Topic models conditioned on arbitrary features with Dirichlet-multinomial regression." The 24th Conference on Uncertainty in Artificial Intelligence, 411-418. 

  35. Newman, D., & Block, S. 2006. "Probabilistic Topic Decomposition of an Eighteenth-Century Newspaper." Journal of the American Society for Information Science and Technology, 57(5): 753-767. 

  36. Schvaneveldt, Roger W. ed. 1990. Pathfinder Associative Networks: Studies in Knowledge Organization. US: Ablex Publishing. 

  37. Song, Min., & Kim, Suyeon. 2013. "Detecting the knowledge structure of bioinformatics by mining full-text collections." Scientometrics, 96(1): 183-201. 

  38. Steyvers, M., & Griffiths, T. 2007. Probabilistic topic models. Handbook of Latent Semantic Analysis. Edited by T. K. Landauer, D. S. McNamara, S. Dennis, W. Kintsch. NJ: Erlbaum. 

저자의 다른 논문 :

LOADING...

관련 콘텐츠

오픈액세스(OA) 유형

FREE

Free Access. 출판사/학술단체 등이 허락한 무료 공개 사이트를 통해 자유로운 이용이 가능한 논문

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로