사회적 이슈는 정책의 방향을 결정하는 중요한 요인이며, 신문은 사회적 이슈를 반영하는 중요한 채널이다. 신문기사의 텍스트를 분석하는 것은 사회적 이슈를 이해하는 데 기여할 수 있지만, 대규모의 비정형 데이터인 뉴스를 수작업으로 분석하는 것은 매우 어렵다. 따라서 본 연구는 텍스트 분석기법과 연관분석 기법을 활용해 비정형 신문기사 내용을 정형화하여 사회적 이슈의 이해관계자들 간 관점 차이를 시스템적으로 분석하는 것을 목적으로 한다. 본 연구 수행을 위해 각 지역을 대표하는 신문사(조선일보, 중앙일보, 동아일보, 매일신문, 부산일보)를 선정한 후 기사 115건과 댓글 6,772건을 2주간 수집하여 분석하였다. 연구 결과 전국 일간지들은 해당 지역과 정치적인 관계에 초점을 맞춘 반면에, 지역 일간지들은 속해 있는 지자체를 대변하는 논조로 기사가 작성된 측면이 강하게 나타났다.
사회적 이슈는 정책의 방향을 결정하는 중요한 요인이며, 신문은 사회적 이슈를 반영하는 중요한 채널이다. 신문기사의 텍스트를 분석하는 것은 사회적 이슈를 이해하는 데 기여할 수 있지만, 대규모의 비정형 데이터인 뉴스를 수작업으로 분석하는 것은 매우 어렵다. 따라서 본 연구는 텍스트 분석기법과 연관분석 기법을 활용해 비정형 신문기사 내용을 정형화하여 사회적 이슈의 이해관계자들 간 관점 차이를 시스템적으로 분석하는 것을 목적으로 한다. 본 연구 수행을 위해 각 지역을 대표하는 신문사(조선일보, 중앙일보, 동아일보, 매일신문, 부산일보)를 선정한 후 기사 115건과 댓글 6,772건을 2주간 수집하여 분석하였다. 연구 결과 전국 일간지들은 해당 지역과 정치적인 관계에 초점을 맞춘 반면에, 지역 일간지들은 속해 있는 지자체를 대변하는 논조로 기사가 작성된 측면이 강하게 나타났다.
Social issues are important factors that decide government policy and newspapers are critical channels that reflect them. Analysing news articles can contribute to understanding social issues, but it is very difficult to analyse the unstructured large volumes of news data manually. Therefore, this s...
Social issues are important factors that decide government policy and newspapers are critical channels that reflect them. Analysing news articles can contribute to understanding social issues, but it is very difficult to analyse the unstructured large volumes of news data manually. Therefore, this study aims to analyze the different views among stakeholders of a specific social issue by using text analysis, word cloud analysis and associative analysis methods, which systematically transform unstructured news data into structured one. We analyzed a total of 115 news articles and a total of 6,772 comments, collected from the selected newspapers (Chosun-Il-bo, Joongang-Il-bo, Donga-Il-bo, Maeil Newspaper, Busan-Il-bo) for two weeks. We found that there are significant differences in tone between newspapers. While nation-wide daily newspapers focus on political relations with local areas, local daily newspapers tend to write articles to represent local governments' interests.
Social issues are important factors that decide government policy and newspapers are critical channels that reflect them. Analysing news articles can contribute to understanding social issues, but it is very difficult to analyse the unstructured large volumes of news data manually. Therefore, this study aims to analyze the different views among stakeholders of a specific social issue by using text analysis, word cloud analysis and associative analysis methods, which systematically transform unstructured news data into structured one. We analyzed a total of 115 news articles and a total of 6,772 comments, collected from the selected newspapers (Chosun-Il-bo, Joongang-Il-bo, Donga-Il-bo, Maeil Newspaper, Busan-Il-bo) for two weeks. We found that there are significant differences in tone between newspapers. While nation-wide daily newspapers focus on political relations with local areas, local daily newspapers tend to write articles to represent local governments' interests.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 연구는 각 신문사의 논조와 독자들의 의견을 객관적인 데이터로 보여주기 위해 빈도분석, 연관분석, 시각화를 사용했다는 점에서 학문적 기여를 하였다. 그러나 본 연구는 단어 수준의 분석만을 수행하였다는 한계가 있다.
본 연구는 비정형 데이터인 신문기사 내용을 정형화해 서로 다른 이해당사자들의 관심 표현의 차이를 세 가지 유형(전국일간지, 대구 지방지, 부산 지방지)의 신문사별 기사 내용과 독자들의 댓글을 바탕으로 분석하였다. 이를 위해 신공항 부지선정 결과와 관련해 전국 일간지인 조선일보, 중앙일보, 동아일보와 이해당사 지역 일간지인 매일신문과 부산일보의 기사와 댓글의 콘텐츠 분석과 연관분석을 하고, 분석 결과의 시각화를 제시하였다.
사회적 이슈에 대해 이해관계자들은 서로 다른 입장을 가질 수 있으며, 소통 채널에 따라 다른 표현을 사용할 수 있다. 이 문제에 대한 실증적 분석을 위해 본 연구에서는 신공항 선정과 관련된 뉴스와 댓글을 분석하였다. 이를 위해 각 지역을 대표하는 언론사를 선정한 후 뉴스와 댓글을 수집하여 다음과 같은 연구를 수행하였다.
제안 방법
FT-Growth 오퍼레이터는 Binomial 값만을 계산하므로 Numerical to Binominal 오퍼레이터를 사용해 Numeric 속성을 Binominal 값으로 변경했다.
각 언론사의 신문기사 빈도는 10 이상, 댓글 빈도는 5 이상인 단어를 워드 클라우드로 시각화하였다. 댓글의 특성상 글의 길이가 짧아 기사의 빈도보다 상대적으로 작게 5 이상으로 정하였다.
기사와 댓글의 빈도분석은 그림 2와 같이 래피드마이너의 Process Documents From Data 오퍼레이터를 이용해 문자열 속성 벡터를 생성했다.
다음으로 래피드마이너를 사용하여 Term Frequency와 Association Rules를 이용한 빈도분석과 텍스트의 연관규칙을 분석한다.
01로 설정했다. 댓글이 많아지면서 단어의 종류가 다양해져 그 조합이 많아지므로 Min Support 값을 조정하였다. 텍스트 분석과정은 그림 3과 같다.
첫째, Tokenize 오퍼레이터를 이용해 기본 파라미터 값인 Non Letters 단위로 토큰 한다. 둘째, Filter Tokens(by length) 오퍼레이터를 이용하여 최소 문자 2와 최대 문자 10으로 설정해 단어 길이가 2글자 이상 10글자 이하인 단어를 추출한다. 셋째, Generate N-Gram(terms) 오퍼레이터는 N개의 연속적인 토큰을 연결하여 의미를 만들어 낸다.
첫째, 콘텐츠 분석 기법을 활용하여 텍스트 빈도와 워드 클라우드 시각화를 수행하였다. 둘째, 연관 규칙 기법을 사용하여 사회적 이슈에 대한 연관 키워드 분석을 수행하였다. 이는 단순히 많이 출현한 단어의 빈도를 보여주기보다 특정한 주제와 관련된 키워드들이 어떻게, 어떤 수준으로 연관되어 있는지를 보여준다는 점에서 의의가 있다.
명사는 개체에 대한 속성과 감성어휘를 많이 나타내고, 형용사와 동사는 주체자의 주관적인 의견이나 존재 그리고 평가를 위한 정보를 내포하고 있으며, 부사는 다양한 표현방법과 수식어로 문서에 분포된다[20]. 따라서 한나눔 형태소분석기를 이용해 수집한 데이터에서 형용사, 명사, 부사로 추출하였다.
본 연구에서는 기사의 빈도분석에만 Stopwords를 사용하였으며, ‘신공항’, ‘공항’으로 정의하였다.
수집된 비정형 데이터를 정형 데이터로 만들기 위해 한나눔 형태소분석기를 이용해 명사, 형용사, 부사를 추출하여 CSV 파일로 변경한다.
연관성 분석의 측도는 지지도(Support), 신뢰도(Confidence)와 향상도(Lift) 값을 잘 보고 결정해 한다. 지지도란 전체 문서 중 단어 A와 단어 B가 동시에 발생하는 정도를 나타낸다.
이 문제에 대한 실증적 분석을 위해 본 연구에서는 신공항 선정과 관련된 뉴스와 댓글을 분석하였다. 이를 위해 각 지역을 대표하는 언론사를 선정한 후 뉴스와 댓글을 수집하여 다음과 같은 연구를 수행하였다. 첫째, 콘텐츠 분석 기법을 활용하여 텍스트 빈도와 워드 클라우드 시각화를 수행하였다.
텍스트 분석에서 문서 중 단어의 중요도를 측정하는 방법은 특정한 단어가 한 문서 내에서 얼마나 자주 반복되는지, 그리고 문서 그룹 내에서 동일한 단어가 얼마나 많이 출현하는지를 측정한다. 이를 위해 단어 빈도(Term Frequency: TF)와 문서 빈도(Document Frequency: DF)를 측정한다. 단어 빈도는 특정한 단어가 문서 내에 얼마나 자주 등장하는가를 나타내는 값이다.
이를 위해 신공항 부지선정 결과와 관련해 전국 일간지인 조선일보, 중앙일보, 동아일보와 이해당사 지역 일간지인 매일신문과 부산일보의 기사와 댓글의 콘텐츠 분석과 연관분석을 하고, 분석 결과의 시각화를 제시하였다.
이를 위해 각 지역을 대표하는 언론사를 선정한 후 뉴스와 댓글을 수집하여 다음과 같은 연구를 수행하였다. 첫째, 콘텐츠 분석 기법을 활용하여 텍스트 빈도와 워드 클라우드 시각화를 수행하였다. 둘째, 연관 규칙 기법을 사용하여 사회적 이슈에 대한 연관 키워드 분석을 수행하였다.
텍스트 분석에서 문서 중 단어의 중요도를 측정하는 방법은 특정한 단어가 한 문서 내에서 얼마나 자주 반복되는지, 그리고 문서 그룹 내에서 동일한 단어가 얼마나 많이 출현하는지를 측정한다.
연관성 분석은 항목 간의 상호 관계를 분석하는 것이다. 텍스트 분석에서는 단어와 단어의 상호 관계를 분석하기 위하여 단어의 동시발생(Co-Occurrence)을 분석한다. 동시발생이란 두 단어가 특정 순서로 자주 발생할 확률을 나타내는 언어학 용어이다.
대상 데이터
본 연구는 신문기사와 댓글의 텍스트 분석을 위하여 2016년 6월 28일부터 2주간 ‘신공항’이라는 주제어로 조선일보, 중앙일보, 동아일보, 매일신문과 부산일보에서 기사 115건과 댓글 6,772건을 수집하였다.
텍스트의 연관분석은 FT-Growth 오퍼레이터와 Create Association Rules 오퍼레이터를 이용했다. FT-Growth 오퍼레이터는 Binomial 값만을 계산하므로 Numerical to Binominal 오퍼레이터를 사용해 Numeric 속성을 Binominal 값으로 변경했다.
데이터처리
다음으로 래피드마이너를 사용하여 Term Frequency와 Association Rules를 이용한 빈도분석과 텍스트의 연관규칙을 분석한다. 마지막으로 R 프로그램을 이용해 빈도분석 결과를 워드 클라우드로 시각화했다. 기사와 댓글 분석과정은 그림 1과 같다.
성능/효과
이를 통해 전국 일간지의 빈도분석 결과는 이해당사 지역인 ‘대구’, ‘지역’, ‘의원’이라는 단어가 10위권에 공통으로 나타났다.
후속연구
본 연구는 각 신문사의 논조와 독자들의 의견을 객관적인 데이터로 보여주기 위해 빈도분석, 연관분석, 시각화를 사용했다는 점에서 학문적 기여를 하였다. 그러나 본 연구는 단어 수준의 분석만을 수행하였다는 한계가 있다. 좀 더 개선된 분석을 위해서는 단어뿐만 아니라 의미적 차원의 분석이 필요할 것이다.
그러나 본 연구는 단어 수준의 분석만을 수행하였다는 한계가 있다. 좀 더 개선된 분석을 위해서는 단어뿐만 아니라 의미적 차원의 분석이 필요할 것이다.
질의응답
핵심어
질문
논문에서 추출한 답변
TF-IDF의 사용목적은 무엇인가?
TF-IDF는 TF와 IDF를 곱한 값으로 문서 그룹이 있을 때 어떤 단어가 특정 문서 내에서 얼마나 중요한가를 나타내기 위해 사용한다. 이를 이용하여 검색 엔진에서 검색 결과의 순위를 결정하거나, 문서에서 핵심어를 추출하거나, 문서들 사이의 비슷한 정도를 측정하기 위해 사용한다[11,12,13].
텍스트 마이닝을 위한 분석 방법에는 무엇이 있는가?
텍스트 마이닝은 분석 목적에 따라 벡터, 행렬, 계층 등의 다양한 형태로 표현될 수 있지만, 일반적으로 벡터공간모델을 사용한다[8,9]. 텍스트 마이닝을 위한 분석 방법에는 감성 분석(Sentiment Analysis), 정보 추출(Information Extraction), 네트워크 분석(Network Analysis), 텍스트 분류(Classification), 텍스트 군집화(Clustering) 등이 있다[10].
텍스트 마이닝이란 무엇인가?
텍스트 마이닝은 자연어 처리 기술을 기반으로 직접적인 연관을 보여주지 않는 비정형 텍스트에서 숨겨진 관계 또는 패턴을 도출하여 의미 있고 활용 가치가 높은 정보 또는 지식을 창출하는 기법이다[6,7]. 텍스트 마이닝은 분석 목적에 따라 벡터, 행렬, 계층 등의 다양한 형태로 표현될 수 있지만, 일반적으로 벡터공간모델을 사용한다[8,9].
참고문헌 (21)
I.H. Witten, "Text Mining, Practical Handbook of Internet Computing, " CRC Press. 2004.
M.A. Hearst, "Untangling Text Data Mining", Proceedings of the 37th annual meeting of the Association for Computational Linguistics on Computational Linguistics. 1999.
R.J. Mooney and R. Bunescu, "Mining Knowledge from Text using Information Extraction," ACM SIGKDD Exploration Newletter, vol. 7, no. 1, pp. 3-10, Jun. 2005.
F. Sebastiani, "Machine Learning in Automated Text Categorization," ACM Computing Surveys, vol. 34, no. 1, pp. 1-47, 2002.
F. Sebastiani, "Classification of Text, Automatic," The Encyclopedia of Language and Linguistics, vol. 14, pp. 457-462, 2006.
P. Judita, M. Stevenson, and R. Gaizauskas, "Exploring relation types for literature-based discovery," Journal of the American Medical Informatics Association, ocv002, pp. 987-992, May. 2015.
F. Ronen and I. Dagan, "Knowledge Discovery in Textual Databases (KDT)," Proceedings of the First International Conference on Knowledge Discovery and Data Mining, vol. 95, pp. 112-117, 1995.
S. Gerard, A. Wong, and C.S. Yang, "A Vector Space Model for Automatic Indexing, " Communications of the ACM, vol. 18, no. 11, pp. 613-620, Nov. 1975.
https://ko.wikipedia.org/wiki/TF-IDF 2016. 9. 19. 검색
H. Jiawei, J. Pei, and M. Kamber, "Data mining: Concepts and Techniques," 3rd Edition, Morgan Kaufmann Publishers, 2011.
J.H. Park and S. Min, "A Study on The Research Trends in Library & Information Science in Korea Using Topic Modeling," Journal of the Korean Society for information Management, vol. 30, no. 1, pp. 7-32, 2013.
R. Paul and Kroeger, "Analyzing Grammar: An Introduction," Cambridge University Press, 2005.
서강수, "데이터 분석 전문가 가이드", 한국데이터베이스진흥원, 2014.
노형남, "워드 클라우드에 의한 환대 경영 전략," 관광연구, 제29권, 제4호, pp. 335-354, 2014.
T. Hammond, T. Hannay, B. Lund, and J. Scott, Social bookmarking tools (I), A general review. D-Lib Magazine, vol. 11, no. 4, 2005.
P. Abhinn, "Study and Analysis of K-Means Clustering Algorithm Using Rapidminer," International Journal of Engineering Research and Applications, vol. 1, no. 4, pp. 60-64, Dec. 2014.
A. Kumar, P. Thakur, K. Gupta, and A. Pal, "Text mining approach to analyse the relation between obesity and breast cancer data, " International Letters of Natural Sciences, vol. 44, no. 1, pp. 1-9, 2015.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.