[논문]텍스트 마이닝 기법을 활용한 동남권 신공항 신문기사 분석

한무명초; 김양석; 이충권

텍스트 마이닝 기법을 활용한 동남권 신공항 신문기사 분석
Analysis of News Regarding New Southeastern Airport Using Text Mining Techniques 원문보기

스마트미디어저널 = Smart media journal, v.6 no.1, 2017년, pp.47 - 53

한무명초 (계명대학교 경영정보학과) , 김양석 (계명대학교 경영정보학과) , 이충권 (계명대학교 경영정보학과)

초록
AI-Helper

사회적 이슈는 정책의 방향을 결정하는 중요한 요인이며, 신문은 사회적 이슈를 반영하는 중요한 채널이다. 신문기사의 텍스트를 분석하는 것은 사회적 이슈를 이해하는 데 기여할 수 있지만, 대규모의 비정형 데이터인 뉴스를 수작업으로 분석하는 것은 매우 어렵다. 따라서 본 연구는 텍스트 분석기법과 연관분석 기법을 활용해 비정형 신문기사 내용을 정형화하여 사회적 이슈의 이해관계자들 간 관점 차이를 시스템적으로 분석하는 것을 목적으로 한다. 본 연구 수행을 위해 각 지역을 대표하는 신문사(조선일보, 중앙일보, 동아일보, 매일신문, 부산일보)를 선정한 후 기사 115건과 댓글 6,772건을 2주간 수집하여 분석하였다. 연구 결과 전국 일간지들은 해당 지역과 정치적인 관계에 초점을 맞춘 반면에, 지역 일간지들은 속해 있는 지자체를 대변하는 논조로 기사가 작성된 측면이 강하게 나타났다.

Abstract ▼ AI-Helper

Social issues are important factors that decide government policy and newspapers are critical channels that reflect them. Analysing news articles can contribute to understanding social issues, but it is very difficult to analyse the unstructured large volumes of news data manually. Therefore, this study aims to analyze the different views among stakeholders of a specific social issue by using text analysis, word cloud analysis and associative analysis methods, which systematically transform unstructured news data into structured one. We analyzed a total of 115 news articles and a total of 6,772 comments, collected from the selected newspapers (Chosun-Il-bo, Joongang-Il-bo, Donga-Il-bo, Maeil Newspaper, Busan-Il-bo) for two weeks. We found that there are significant differences in tone between newspapers. While nation-wide daily newspapers focus on political relations with local areas, local daily newspapers tend to write articles to represent local governments' interests.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 연구는 각 신문사의 논조와 독자들의 의견을 객관적인 데이터로 보여주기 위해 빈도분석, 연관분석, 시각화를 사용했다는 점에서 학문적 기여를 하였다. 그러나 본 연구는 단어 수준의 분석만을 수행하였다는 한계가 있다.
본 연구는 비정형 데이터인 신문기사 내용을 정형화해 서로 다른 이해당사자들의 관심 표현의 차이를 세 가지 유형(전국일간지, 대구 지방지, 부산 지방지)의 신문사별 기사 내용과 독자들의 댓글을 바탕으로 분석하였다. 이를 위해 신공항 부지선정 결과와 관련해 전국 일간지인 조선일보, 중앙일보, 동아일보와 이해당사 지역 일간지인 매일신문과 부산일보의 기사와 댓글의 콘텐츠 분석과 연관분석을 하고, 분석 결과의 시각화를 제시하였다.
사회적 이슈에 대해 이해관계자들은 서로 다른 입장을 가질 수 있으며, 소통 채널에 따라 다른 표현을 사용할 수 있다. 이 문제에 대한 실증적 분석을 위해 본 연구에서는 신공항 선정과 관련된 뉴스와 댓글을 분석하였다. 이를 위해 각 지역을 대표하는 언론사를 선정한 후 뉴스와 댓글을 수집하여 다음과 같은 연구를 수행하였다.

제안 방법

FT-Growth 오퍼레이터는 Binomial 값만을 계산하므로 Numerical to Binominal 오퍼레이터를 사용해 Numeric 속성을 Binominal 값으로 변경했다.
각 언론사의 신문기사 빈도는 10 이상, 댓글 빈도는 5 이상인 단어를 워드 클라우드로 시각화하였다. 댓글의 특성상 글의 길이가 짧아 기사의 빈도보다 상대적으로 작게 5 이상으로 정하였다.
기사와 댓글의 빈도분석은 그림 2와 같이 래피드마이너의 Process Documents From Data 오퍼레이터를 이용해 문자열 속성 벡터를 생성했다.
다음으로 래피드마이너를 사용하여 Term Frequency와 Association Rules를 이용한 빈도분석과 텍스트의 연관규칙을 분석한다.
01로 설정했다. 댓글이 많아지면서 단어의 종류가 다양해져 그 조합이 많아지므로 Min Support 값을 조정하였다. 텍스트 분석과정은 그림 3과 같다.
첫째, Tokenize 오퍼레이터를 이용해 기본 파라미터 값인 Non Letters 단위로 토큰 한다. 둘째, Filter Tokens(by length) 오퍼레이터를 이용하여 최소 문자 2와 최대 문자 10으로 설정해 단어 길이가 2글자 이상 10글자 이하인 단어를 추출한다. 셋째, Generate N-Gram(terms) 오퍼레이터는 N개의 연속적인 토큰을 연결하여 의미를 만들어 낸다.
첫째, 콘텐츠 분석 기법을 활용하여 텍스트 빈도와 워드 클라우드 시각화를 수행하였다. 둘째, 연관 규칙 기법을 사용하여 사회적 이슈에 대한 연관 키워드 분석을 수행하였다. 이는 단순히 많이 출현한 단어의 빈도를 보여주기보다 특정한 주제와 관련된 키워드들이 어떻게, 어떤 수준으로 연관되어 있는지를 보여준다는 점에서 의의가 있다.
명사는 개체에 대한 속성과 감성어휘를 많이 나타내고, 형용사와 동사는 주체자의 주관적인 의견이나 존재 그리고 평가를 위한 정보를 내포하고 있으며, 부사는 다양한 표현방법과 수식어로 문서에 분포된다[20]. 따라서 한나눔 형태소분석기를 이용해 수집한 데이터에서 형용사, 명사, 부사로 추출하였다.
본 연구에서는 기사의 빈도분석에만 Stopwords를 사용하였으며, ‘신공항’, ‘공항’으로 정의하였다.
수집된 비정형 데이터를 정형 데이터로 만들기 위해 한나눔 형태소분석기를 이용해 명사, 형용사, 부사를 추출하여 CSV 파일로 변경한다.
연관성 분석의 측도는 지지도(Support), 신뢰도(Confidence)와 향상도(Lift) 값을 잘 보고 결정해 한다. 지지도란 전체 문서 중 단어 A와 단어 B가 동시에 발생하는 정도를 나타낸다.
이 문제에 대한 실증적 분석을 위해 본 연구에서는 신공항 선정과 관련된 뉴스와 댓글을 분석하였다. 이를 위해 각 지역을 대표하는 언론사를 선정한 후 뉴스와 댓글을 수집하여 다음과 같은 연구를 수행하였다. 첫째, 콘텐츠 분석 기법을 활용하여 텍스트 빈도와 워드 클라우드 시각화를 수행하였다.
텍스트 분석에서 문서 중 단어의 중요도를 측정하는 방법은 특정한 단어가 한 문서 내에서 얼마나 자주 반복되는지, 그리고 문서 그룹 내에서 동일한 단어가 얼마나 많이 출현하는지를 측정한다. 이를 위해 단어 빈도(Term Frequency: TF)와 문서 빈도(Document Frequency: DF)를 측정한다. 단어 빈도는 특정한 단어가 문서 내에 얼마나 자주 등장하는가를 나타내는 값이다.
이를 위해 신공항 부지선정 결과와 관련해 전국 일간지인 조선일보, 중앙일보, 동아일보와 이해당사 지역 일간지인 매일신문과 부산일보의 기사와 댓글의 콘텐츠 분석과 연관분석을 하고, 분석 결과의 시각화를 제시하였다.
이를 위해 각 지역을 대표하는 언론사를 선정한 후 뉴스와 댓글을 수집하여 다음과 같은 연구를 수행하였다. 첫째, 콘텐츠 분석 기법을 활용하여 텍스트 빈도와 워드 클라우드 시각화를 수행하였다. 둘째, 연관 규칙 기법을 사용하여 사회적 이슈에 대한 연관 키워드 분석을 수행하였다.
텍스트 분석에서 문서 중 단어의 중요도를 측정하는 방법은 특정한 단어가 한 문서 내에서 얼마나 자주 반복되는지, 그리고 문서 그룹 내에서 동일한 단어가 얼마나 많이 출현하는지를 측정한다.
연관성 분석은 항목 간의 상호 관계를 분석하는 것이다. 텍스트 분석에서는 단어와 단어의 상호 관계를 분석하기 위하여 단어의 동시발생(Co-Occurrence)을 분석한다. 동시발생이란 두 단어가 특정 순서로 자주 발생할 확률을 나타내는 언어학 용어이다.

대상 데이터

본 연구는 신문기사와 댓글의 텍스트 분석을 위하여 2016년 6월 28일부터 2주간 ‘신공항’이라는 주제어로 조선일보, 중앙일보, 동아일보, 매일신문과 부산일보에서 기사 115건과 댓글 6,772건을 수집하였다.
텍스트의 연관분석은 FT-Growth 오퍼레이터와 Create Association Rules 오퍼레이터를 이용했다. FT-Growth 오퍼레이터는 Binomial 값만을 계산하므로 Numerical to Binominal 오퍼레이터를 사용해 Numeric 속성을 Binominal 값으로 변경했다.

데이터처리

다음으로 래피드마이너를 사용하여 Term Frequency와 Association Rules를 이용한 빈도분석과 텍스트의 연관규칙을 분석한다. 마지막으로 R 프로그램을 이용해 빈도분석 결과를 워드 클라우드로 시각화했다. 기사와 댓글 분석과정은 그림 1과 같다.

성능/효과

이를 통해 전국 일간지의 빈도분석 결과는 이해당사 지역인 ‘대구’, ‘지역’, ‘의원’이라는 단어가 10위권에 공통으로 나타났다.

후속연구

본 연구는 각 신문사의 논조와 독자들의 의견을 객관적인 데이터로 보여주기 위해 빈도분석, 연관분석, 시각화를 사용했다는 점에서 학문적 기여를 하였다. 그러나 본 연구는 단어 수준의 분석만을 수행하였다는 한계가 있다. 좀 더 개선된 분석을 위해서는 단어뿐만 아니라 의미적 차원의 분석이 필요할 것이다.
그러나 본 연구는 단어 수준의 분석만을 수행하였다는 한계가 있다. 좀 더 개선된 분석을 위해서는 단어뿐만 아니라 의미적 차원의 분석이 필요할 것이다.

질의응답

핵심어	질문	논문에서 추출한 답변
	TF-IDF의 사용목적은 무엇인가?	TF-IDF는 TF와 IDF를 곱한 값으로 문서 그룹이 있을 때 어떤 단어가 특정 문서 내에서 얼마나 중요한가를 나타내기 위해 사용한다. 이를 이용하여 검색 엔진에서 검색 결과의 순위를 결정하거나, 문서에서 핵심어를 추출하거나, 문서들 사이의 비슷한 정도를 측정하기 위해 사용한다[11,12,13].
	텍스트 마이닝을 위한 분석 방법에는 무엇이 있는가?	텍스트 마이닝은 분석 목적에 따라 벡터, 행렬, 계층 등의 다양한 형태로 표현될 수 있지만, 일반적으로 벡터공간모델을 사용한다[8,9]. 텍스트 마이닝을 위한 분석 방법에는 감성 분석(Sentiment Analysis), 정보 추출(Information Extraction), 네트워크 분석(Network Analysis), 텍스트 분류(Classification), 텍스트 군집화(Clustering) 등이 있다[10].
	텍스트 마이닝이란 무엇인가?	텍스트 마이닝은 자연어 처리 기술을 기반으로 직접적인 연관을 보여주지 않는 비정형 텍스트에서 숨겨진 관계 또는 패턴을 도출하여 의미 있고 활용 가치가 높은 정보 또는 지식을 창출하는 기법이다[6,7]. 텍스트 마이닝은 분석 목적에 따라 벡터, 행렬, 계층 등의 다양한 형태로 표현될 수 있지만, 일반적으로 벡터공간모델을 사용한다[8,9].

참고문헌 (21)

I.H. Witten, "Text Mining, Practical Handbook of Internet Computing, " CRC Press. 2004.
M.A. Hearst, "Untangling Text Data Mining", Proceedings of the 37th annual meeting of the Association for Computational Linguistics on Computational Linguistics. 1999.
R.J. Mooney and R. Bunescu, "Mining Knowledge from Text using Information Extraction," ACM SIGKDD Exploration Newletter, vol. 7, no. 1, pp. 3-10, Jun. 2005.
F. Sebastiani, "Machine Learning in Automated Text Categorization," ACM Computing Surveys, vol. 34, no. 1, pp. 1-47, 2002.

상세보기
F. Sebastiani, "Classification of Text, Automatic," The Encyclopedia of Language and Linguistics, vol. 14, pp. 457-462, 2006.
P. Judita, M. Stevenson, and R. Gaizauskas, "Exploring relation types for literature-based discovery," Journal of the American Medical Informatics Association, ocv002, pp. 987-992, May. 2015.
F. Ronen and I. Dagan, "Knowledge Discovery in Textual Databases (KDT)," Proceedings of the First International Conference on Knowledge Discovery and Data Mining, vol. 95, pp. 112-117, 1995.
S. Gerard, A. Wong, and C.S. Yang, "A Vector Space Model for Automatic Indexing, " Communications of the ACM, vol. 18, no. 11, pp. 613-620, Nov. 1975.

상세보기
S. Anna, P. Andritsos, and N. Nicoloyannis, "Overview and Semantic Issues of Text Mining," ACM SigMod Record, vol. 36, No.3, pp. 23-34, Sep. 2007.

상세보기
W. Fan, L. Wallace, S. Rich, & Z. Zhang, Tapping the power of text mining. Communications of the ACM, vol. 49, no. 9, pp. 76-82, 2006.

상세보기
https://ko.wikipedia.org/wiki/TF-IDF 2016. 9. 19. 검색
H. Jiawei, J. Pei, and M. Kamber, "Data mining: Concepts and Techniques," 3rd Edition, Morgan Kaufmann Publishers, 2011.
J.H. Park and S. Min, "A Study on The Research Trends in Library & Information Science in Korea Using Topic Modeling," Journal of the Korean Society for information Management, vol. 30, no. 1, pp. 7-32, 2013.
R. Paul and Kroeger, "Analyzing Grammar: An Introduction," Cambridge University Press, 2005.
서강수, "데이터 분석 전문가 가이드", 한국데이터베이스진흥원, 2014.
노형남, "워드 클라우드에 의한 환대 경영 전략," 관광연구, 제29권, 제4호, pp. 335-354, 2014.
T. Hammond, T. Hannay, B. Lund, and J. Scott, Social bookmarking tools (I), A general review. D-Lib Magazine, vol. 11, no. 4, 2005.
P. Abhinn, "Study and Analysis of K-Means Clustering Algorithm Using Rapidminer," International Journal of Engineering Research and Applications, vol. 1, no. 4, pp. 60-64, Dec. 2014.
A. Kumar, P. Thakur, K. Gupta, and A. Pal, "Text mining approach to analyse the relation between obesity and breast cancer data, " International Letters of Natural Sciences, vol. 44, no. 1, pp. 1-9, 2015.

상세보기
강대국, 박용태, "리뷰 기반의 모바일 서비스 고객 요구사항 특성 분석," 한국경영과학회 추계학술대회, 방위사업청 무기체계 시험평가 세미나 논문집, pp. 945-951, 2012.
정기선, "지역감정과 지역갈등인식의 변화 1988년과 2003년 비교," 한국사회학, 제39권, 제2호, pp. 69-99, 2005.

상세보기

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증