공개된 데이터인 온라인 뉴스 기사 중 상당수는 도시와 같은 특정 장소에서 발생하는 이벤트에 관련된 사실과 의견을 담고 있어 독자의 의사 결정에 영향을 끼친다. 따라서 대량의 인터넷 뉴스 기사를 분석하면 향후 사람들이 특정 이벤트에 대하여 어떠한 선택을 할지 예상할 수 있을 것이다. 이에 본 연구는 온라인 뉴스 기사 제목을 형태소 분석하여 특정 장소에서 이루어질 이벤트의 성과를 사전에 예측하는 방법을 제안하고자 한다. 기사 제목은 기사의 가장 핵심적인 내용을 담고 있어 본문보다 사실과 의견이 더 정확하게 발현될 뿐 아니라, 모바일 환경에서는 기사 본문보다 더 큰 영향력을 가지기 때문에 이벤트의 성과 예측에 효과적인 자료이다. 이에 인터넷 뉴스 기사의 제목을 수집하여 학습 데이터와 평가 데이터로 구분하고, 학습 데이터에서 유의한 극성을 보이는 형태소를 추출하여 전체 기사의 제목을 감성 분석하였다. 여기에 뉴스 기사가 갖는 특성이 반영될 수 있도록 기사 검색량과 기사 산출량 정보를 변인에 추가하여 이벤트 성과를 예측하는 알고리즘을 수립하였다. 그 결과 70.6%의 성공률로 성과를 예측하여 다른 비교 대상 분석 방법과 분명한 차이를 보였다. 도출된 이벤트 성과 예측 정보는 이벤트를 준비하는 기관 및 업체에서 예상 수요량을 결정할 때 도움을 줄 수 있을 것이다.
공개된 데이터인 온라인 뉴스 기사 중 상당수는 도시와 같은 특정 장소에서 발생하는 이벤트에 관련된 사실과 의견을 담고 있어 독자의 의사 결정에 영향을 끼친다. 따라서 대량의 인터넷 뉴스 기사를 분석하면 향후 사람들이 특정 이벤트에 대하여 어떠한 선택을 할지 예상할 수 있을 것이다. 이에 본 연구는 온라인 뉴스 기사 제목을 형태소 분석하여 특정 장소에서 이루어질 이벤트의 성과를 사전에 예측하는 방법을 제안하고자 한다. 기사 제목은 기사의 가장 핵심적인 내용을 담고 있어 본문보다 사실과 의견이 더 정확하게 발현될 뿐 아니라, 모바일 환경에서는 기사 본문보다 더 큰 영향력을 가지기 때문에 이벤트의 성과 예측에 효과적인 자료이다. 이에 인터넷 뉴스 기사의 제목을 수집하여 학습 데이터와 평가 데이터로 구분하고, 학습 데이터에서 유의한 극성을 보이는 형태소를 추출하여 전체 기사의 제목을 감성 분석하였다. 여기에 뉴스 기사가 갖는 특성이 반영될 수 있도록 기사 검색량과 기사 산출량 정보를 변인에 추가하여 이벤트 성과를 예측하는 알고리즘을 수립하였다. 그 결과 70.6%의 성공률로 성과를 예측하여 다른 비교 대상 분석 방법과 분명한 차이를 보였다. 도출된 이벤트 성과 예측 정보는 이벤트를 준비하는 기관 및 업체에서 예상 수요량을 결정할 때 도움을 줄 수 있을 것이다.
Online news on the Internet, as published open data, contain facts or opinions about a specific affair and hence influences considerably on the decisions of the general publics who are interested in a particular issue. Therefore, we can predict the people's choices related with the issue by analyzin...
Online news on the Internet, as published open data, contain facts or opinions about a specific affair and hence influences considerably on the decisions of the general publics who are interested in a particular issue. Therefore, we can predict the people's choices related with the issue by analyzing a large number of related internet news. This study aims to propose a text analysis methodto predict the outcomes of events that take place in a specific place. We used topics of the news articles because the topics contains more essential text than the news articles. Moreover, when it comes to mobile environment, people tend to rely more on the news topics before clicking into the news articles. We collected the titles of news articles and divided them into the learning and evaluation data set. Morphemes are extracted and their polarity values are identified with the learning data. Then we analyzed the sensitivity of the entire articles. As a result, the prediction success rate was 70.6% and it showed a clear difference with other analytical methods to compare. Derived prediction information will be helpful in determining the expected demand of goods when preparing the event.
Online news on the Internet, as published open data, contain facts or opinions about a specific affair and hence influences considerably on the decisions of the general publics who are interested in a particular issue. Therefore, we can predict the people's choices related with the issue by analyzing a large number of related internet news. This study aims to propose a text analysis methodto predict the outcomes of events that take place in a specific place. We used topics of the news articles because the topics contains more essential text than the news articles. Moreover, when it comes to mobile environment, people tend to rely more on the news topics before clicking into the news articles. We collected the titles of news articles and divided them into the learning and evaluation data set. Morphemes are extracted and their polarity values are identified with the learning data. Then we analyzed the sensitivity of the entire articles. As a result, the prediction success rate was 70.6% and it showed a clear difference with other analytical methods to compare. Derived prediction information will be helpful in determining the expected demand of goods when preparing the event.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본고에서는 문서를 모든 품사의 형태소 단위로 분리하여 긍정적인 문서에서 배타적으로 사용되는 형태소와 부정적인 문서에서 배타적으로 사용되는 형태소를 추출하여 극성 형태소 목록을 수집하였다. 기존 연구에서는 명사와 동사 등 실질 어휘만을 대상으로 긍부정 어휘 목록을 구축한 것에 비하여본 연구에서는 형식 형태소에 대해서도 목록 가능성을 살핌으로써 한국어의 특성에 맞는긍부정 단어의 목록을 확보하였다. 영어의 경우에도 전치사, 접속사, 관사 등의 형식형태소가 적지 않은 만큼 적용이 가능할 것이다.
따라서 본 연구에서는 특정 장소의 이벤트에 대해서 사전에 게재된 비정형데이터로서의 인터넷 뉴스를 분석하여 그 장소에서 벌어질 이벤트의 성과(예: 예상 참가자 수)를 예측하는 방안을 마련하고자 한다. 이를 해결하기 위하여 본 연구에서는 뉴스 기사의 전문을 분석하기보다 기사의 가장 핵심적인 요소인 기사 제목만을 분석하는 접근법을 택하였다.
이처럼 감성 단어의 수집과 감성 문서의 분석에는 언어적 특징과 문서의 특징을 고려해야 함에도 불구하고 기존의 연구는 이를 충분히 반영하지 못했다. 본 논문에서는 이러한 점을 보완 및 반영하여 연구를 진행한다.
본 연구는 데이터 마이닝 기법을 이용하여 이벤트의 성과를 예측하는 방안을 제안하였다. 제안한 방안은 저비용이면서 객관적이고 적시적인 정보를 줄 수 있다는 점에서 성과 예측을 위하여 많은 비용을 들이기 어려운 지방 자치단체 및 관련 기관에 큰 도움을 줄 수 있을 것으로 생각한다.
이와 같은 뉴스 기사의 특징을 고려한 본 연구의 예측 함수는 긍정적 기사의 양을 단순히 긍정적으로 보는 단순 예측 함수에 비하여 높은 성과를 내었다. 본 연구는 데이터 마이닝을 통한 성과 예측 시에는 데이터의 긍부정성의 증감을 데이터의 성격에 비추어 해석해야 한다는 시사점을 제시한다.
본 연구는 이벤트 시작 직전 일의 기사를 바탕으로 이루어졌다. 의미 있는 결과를 얻을 수 있었으나, 차후 전 기간에 걸친 이벤트 관련 기사의 수집을 통한 분석이 이루어진다면 추가적으로 시사성 있는 결과를 확보할 것으로 보인다.
그러나 해당 이벤트의 인지도가 이미 높아 성공에 대한 자신감이 있다면 홍보성 기사의 양은 그렇게 높아지지 않을 것이다. 본 연구에서는 개최 직전 홍보성 기사의 증감을 예상 관람객 수에 반비례하는 결정요인으로 본 반면, 홍보성 기사와 무관한 사회적으로 발생한 부정적 사건은 예상 관람객 수에 비례하게 부정적으로 영향을 미치는 결정요인으로 보았다. 이와 같은 뉴스 기사의 특징을 고려한 본 연구의 예측 함수는 긍정적 기사의 양을 단순히 긍정적으로 보는 단순 예측 함수에 비하여 높은 성과를 내었다.
셋째, 지역 뉴스를 분석하여 잠재적 가능성이 있는 이벤트 아이템을 발굴하는 방안이다. 지역 간 뉴스를 비교하여 해당 지역에만 특징적으로 나타나는 키워드를 분석하는 방법[21]을 통해 그 지역의 차별화된 강점을 찾고, 이를 시대적 문화 코드에 접목시켜 경제적 효과를 낳을 수 있는 방안을 마련할 필요가 있다.
기계적이고 자동화된 방법으로 대량의 감성 단어를 추출할 필요가 있다. 앞으로 점수가 부여된 영화 리뷰와 같이 긍부정성이 명확한 문서를 대량으로 수집하여 감성 단어를 확보하는 방안에 대하여 연구하고자 한다.
제안 방법
네이버는 국내에서 점유율이 가장 높은 포털 사이트일 뿐만 아니라, 다른 사이트에서 검색되는 기사는 대부분 네이버 기사 검색에서도 나타난다. 검색어는 축제의 핵심어와 지역명을 조합하여 만들고, 검색 기간은 각 지자체에서 보내 준 성과 자료의 해당 년도 축제가 시작하기 전날까지로 하여 최신 순으로 수집하였다. 예를 들어 2014년 7월 18일 개막한 ‘보령머드축제’의 경우, 검색어는 ‘머드 보령’으로, 검색 기간은 2014년 4월 24일까지로서 24일에 가까운 최신순으로 수집하였다.
그리고 끝까지 일치하지 않은 기사 제목에 대해서는 다수결의 원칙으로 처리했고, 완전히 split이 난 경우에는 사례에서 제거하였다. 그 결과로 뉴스 기사의 긍부정성을 계산하였고, 이를 각 지자체, 각 연도별로 합산하였다.
이때 전원 일치하는 기사 제목만을 채택하여 일종의 학습데이터를 확보했다. 그 후 자체적으로 개발한 형태소 분석기로 기사 제목에 대해 실질형태소와 형식형태소를 정교하게 추출 및 분석한다. 이를 통해 기사를 각 단어 혹은 어근별로 분리하며 동일한 단어에 대해서도 품사 분류를 통해 단어의 종류를 정확히 식별할 수 있다.
기존의 빅데이터 연구에서는 데이터의 성격을 고려하지 않고 데이터 내에 존재하는 형태소의 빈도를 단순 계산하는 방식을 많이 사용하였다. 그러나 본 연구에서는 뉴스라는 데이터의 성격을 고려하여 이에 영향을 줄 수 있는 변인들을 고려해 이벤트를 예측하였다. 인터넷 시대로 접어들며 특정 이벤트의 홍보를 원하는 조직은 이벤트를 앞두어 놓고 속보성 기사 형태로 관련 자료를 다수의 언론사에 이메일로 발송한다[9].
7%의 일치도(614건 중 606건 일치)로 합의할 수 있었다. 그리고 끝까지 일치하지 않은 기사 제목에 대해서는 다수결의 원칙으로 처리했고, 완전히 split이 난 경우에는 사례에서 제거하였다. 그 결과로 뉴스 기사의 긍부정성을 계산하였고, 이를 각 지자체, 각 연도별로 합산하였다.
먼저 사전에 웹 상의 오픈 데이터인 특정 장소의 이벤트 관련 뉴스 기사의 제목을 크롤링한다. 그리고 수집된 기사 제목에 대하여 복수의 전문가가 그 제목의 전체적인 긍부정성을 파악하였다. 이때 전원 일치하는 기사 제목만을 채택하여 일종의 학습데이터를 확보했다.
그리고 기사별로 추출된 형태소가 전체 문장의 긍부정성에 미치는 영향 유무를 파악하며, 그 결과인 긍정성에 주로 영향을 미치는 형태소와 부정성에 영향을 미치는 형태소를 파악하여 데이터 셋에 저장한다. 다음으로는 이벤트 시작 직전에 게시된 뉴스를 수집하고, 확보된 긍부정성에 영향을 미치는 형태소 데이터 셋을 이용하여 기사들의 전반적인 긍부정성을 판단한다. 한편 이벤트에 대한 기사량의 증감분은 뉴스 기사가 노출되는 대표적 포털 사이트에서 파악한다.
또한 본 연구에서는 기존에 다루어온 동사, 형용사, 명사는 물론, 조사, 어미를 포함한 모든 품사 종류에 대하여 감성 분석을 시도하기 위해 정밀한 형태소 분석을 채택하였다. 수집된 텍스트를 통해서 칭찬, 기대, 의견, 비난, 의심 등과 같은 사람들의 견해를 도출해내기 위해서는 기사가 가지고 있는 주관적인 정보를 판단해야 하는데[31], 주로 감성워드넷(SentiWordNet)과 같은 감성 어휘 사전을 이용한다[4].
본 연구에서는 네이버 트렌드를 이용하였다. 마지막으로 각 이벤트마다 누적 긍부정성의 증감율, 긍부정 사건의 유무, 그리고 이벤트 검색량의 증감율 정보를 토대로 다가오는 이벤트에 참가할 예상 고객수의 증감에 대한 정보를 예측한다.
[Figure 1]은 본 논문에서 제안하는 뉴스 기사 제목을 활용한 이벤트 성과 예측 방안의 전체 진행 구조이다. 먼저 사전에 웹 상의 오픈 데이터인 특정 장소의 이벤트 관련 뉴스 기사의 제목을 크롤링한다. 그리고 수집된 기사 제목에 대하여 복수의 전문가가 그 제목의 전체적인 긍부정성을 파악하였다.
문서의 분류에는 기존에 사용되어 왔던 기계학습 기법 즉, 나이브 베이지안(Naïve Bayes), 최대 엔트로피(MaximumEntropy), 지지벡터기계(Support Vector Machines)와 같은 방법들을 문서의 감성 분류에 활용하였고, 그 결과를 서로 비교하였다[26, 12].
한편 이벤트에 대한 기사량의 증감분은 뉴스 기사가 노출되는 대표적 포털 사이트에서 파악한다. 본 연구에서는 네이버 트렌드를 이용하였다. 마지막으로 각 이벤트마다 누적 긍부정성의 증감율, 긍부정 사건의 유무, 그리고 이벤트 검색량의 증감율 정보를 토대로 다가오는 이벤트에 참가할 예상 고객수의 증감에 대한 정보를 예측한다.
어떤 면에서는 이들은 문장 전체의 의미를 가늠하게 하는 주요 기능어(function words)일 수도 있다. 본고는 형태소 분석 단계에서 그동안 관심을 받지 못하던 언어 단위까지 포괄하여 분석함으로써 감성 분석은 물론, 자연언어처리 수준에서의 분석 범위를 확대하였다.
제2장에서 제시된 전산적 방법에 의한 감성 단어 추출 방법은 영어에만 적용되는 것이어서 조사와 어미가 발달한 한국어의 경우에는 적용하기가 어렵다. 본고에서는 문서를 모든 품사의 형태소 단위로 분리하여 긍정적인 문서에서 배타적으로 사용되는 형태소와 부정적인 문서에서 배타적으로 사용되는 형태소를 추출하여 극성 형태소 목록을 수집하였다. 기존 연구에서는 명사와 동사 등 실질 어휘만을 대상으로 긍부정 어휘 목록을 구축한 것에 비하여본 연구에서는 형식 형태소에 대해서도 목록 가능성을 살핌으로써 한국어의 특성에 맞는긍부정 단어의 목록을 확보하였다.
셋째, 긍정적인 기사와 부정적인 기사로 분리된 파일에 대하여 형태소 분석을 실시하여 나타난 형태소의 그룹별 등장 빈도를 % 단위로 구한다. 각 그룹에 유의하게 많이 출현하는 형태소를 편향(skewed) 형태소, 한쪽 그룹에만 등장하면 완전편향(purely skewed) 형태소, 양쪽 다 등장하나 특히 어떤 한쪽에 많이 등장하면 부분편향(partially skewed) 형태소, 양쪽에 고루 등장하는 형태소는 혼재(confused) 형태소라고 한다.
수집된 네이버 기사의 파일은 HTML 형식이므로 태그 정보를 활용해 기사 제목을 추출하였다. HTML 태그인 “txt_inline” 내의 “title” 태그에서 기사 제목을 찾고, 이와 함께 “yyyy.
따라서 본 연구에서는 특정 장소의 이벤트에 대해서 사전에 게재된 비정형데이터로서의 인터넷 뉴스를 분석하여 그 장소에서 벌어질 이벤트의 성과(예: 예상 참가자 수)를 예측하는 방안을 마련하고자 한다. 이를 해결하기 위하여 본 연구에서는 뉴스 기사의 전문을 분석하기보다 기사의 가장 핵심적인 요소인 기사 제목만을 분석하는 접근법을 택하였다. 기사의 제목은 빠른 이해가 가능하도록 제한된 어휘를 사용하여 가장 중요한 정보만을 담는다[28].
이에 다음 비교하는 세 가지 방법으로 특정지 자체의 특정 연도 축제의 하루 평균 관람객 수의 증감을 예측한 결과 [Table 3]과 같은 결과를 얻었다. [Table 3]은 실험에 사용된 실례가 고양, 담양, 보령, 부여, 포항 등에서 개최된 다섯 축제임을 보여주고 있으며, 자료의 확보 정도에 따라 2011년 또는 2012년부터 2014년까지의 실제 데이터로 검증한 것이다.
본 연구는 다음과 같은 시사점을 갖는다. 첫째, 본고에서 제시한 방법은 인터넷상에 올려진 데이터를 분석하여 특정 대상에 대한 선호도를 파악해낸 것으로서 즉응적이며 비용 효율적인 분석 방법이라는 점이다. 기존에는 브랜드 이미지나 이벤트의 효과를 측정하려면 설문조사와 같은 인적 노력에 의한 별도의 조사를 실시해야 했다[25].
최종 학습용 데이터는 본 연구팀에서 자체 개발한 한글 형태소 분석기 RHINO 2.0을 이용하여 문장부호를 포함한 모든 품사에 대하여 형태소 분석하였다. 그 결과 극성 형태소가 [Figure 2]와 같은 방식으로 정리되었다.
추출된 정보는 CSV 파일에 “도시이름, 기사제목, 날짜”의 형태로 저장하였다.
특히 본 연구의 접근 방법은 IT 정보 기술이 문화 산업 융성에 기여를 할 수 있다는 것을 보여주었다. 해당 주제에 대하여 많은 속성 정보를 가지고 있는 뉴스 기사를 활용함으로써 지역의 문화적 특징을 잘 포착하고, 경제 발전에 기여할 수 있는 정보를 제공할 수 있도록 하였다.
대상 데이터
각 지역별 축제를 보도하는 기사의 수집은 네이버의 기사 검색을 활용하였다. 네이버는 국내에서 점유율이 가장 높은 포털 사이트일 뿐만 아니라, 다른 사이트에서 검색되는 기사는 대부분 네이버 기사 검색에서도 나타난다.
이렇게 한국어 문장의 경우에는 실질형태소 뒤에 붙은 적은 양의 형식형태소가 전체 극성을 바꿀 수 있다. 따라서 본 연구에서는 정확한 분석을 위해 그 동안 감성워드넷 등에서 관심을 갖지 않았던 조사, 어미와 같은 형식형태소에 대해서도 감성 분석 대상에 포함하였다. 제안한 방법론의 성능 검증을 위해 2009년부터 2014년까지의 실제 지역 축제 이벤트 성과 자료를 수집하여 실증하였다.
실험에 사용된 축제 관련 데이터는 정부 혹은 지자체의 공식적인 자료 협조가 이루어진 고양의 꽃 축제(2012~2014년), 담양의 대나무축제(2012~2014년), 보령의 머드축제(2011~2014년), 부여의 연꽃축제(2012~2014년), 그리고 포항의 불빛축제(2011~2014년)관련 성과 자료이다. 또한 특정 축제가 언급된 기사 및 문서의 검색량은 네이버 트렌드(http://trend.naver.com)를 통하여 확보하였다. 네이버 트렌드는 특정 검색어가 특정 기간 동안 얼마나 검색되었는지를 그래프와 수치로 제시해 준다.
본 논문에서 제안한 방법의 성능을 분석하기 위하여 고양국제꽃박람회, 담양대나무축제, 보령머드축제, 부여서동연꽃축제, 포항불빛축제의 다섯 가지 축제를 실험 대상 이벤트로 선정하였다. 위 다섯 가지 축제는 주요 포털 사이트에서 ‘축제’로 검색했을 때 가장 많이 등장하는 것일 뿐만 아니라, 각 지방 자치단체에 요청한 성과 자료의 내용이 비교적 충실하였기 때문이다.
성과 자료의 수집은 ‘정부3.0 대한민국정보공개’(https://www.open.go.kr/) 사이트를 통해 각 지방 자치단체에 성과자료를 요청하였다.
실험에 사용된 축제 관련 데이터는 정부 혹은 지자체의 공식적인 자료 협조가 이루어진 고양의 꽃 축제(2012~2014년), 담양의 대나무축제(2012~2014년), 보령의 머드축제(2011~2014년), 부여의 연꽃축제(2012~2014년), 그리고 포항의 불빛축제(2011~2014년)관련 성과 자료이다. 또한 특정 축제가 언급된 기사 및 문서의 검색량은 네이버 트렌드(http://trend.
이 과정을 통해 3,070개의 기사 제목이 수집되었고, 이중 20%에 해당하는 614개의 뉴스 기사 제목을 임의 추출하여 학습용 데이터로 정하였다. 이 학습용 데이터에 대하여 세 사람의 연구원이 기사 제목만으로 긍정, 부정, 중립의 극성을 판단하게 하였고, 그 결과 73.
이상과 같이 하여 긍정적 형태소 그룹과 부정적 형태소 그룹을 인식한 후 학습 데이터 셋에 저장한다. 이번 실험에서는 완전편향 형태소를 구하여 사용하였다. 완전편향 형태소는 긍정과 부정 각각에 대하여 형태소, 빈도, 품사 정보를 주어 저장하였다.
따라서 본 연구에서는 정확한 분석을 위해 그 동안 감성워드넷 등에서 관심을 갖지 않았던 조사, 어미와 같은 형식형태소에 대해서도 감성 분석 대상에 포함하였다. 제안한 방법론의 성능 검증을 위해 2009년부터 2014년까지의 실제 지역 축제 이벤트 성과 자료를 수집하여 실증하였다.
학습 데이터 셋은 다음과 같은 과정을 거쳐 구축되었다. 첫째, 먼저 온라인 인터넷 뉴스와 같은 공공 자료로부터 사례를 수집한다. 그리고 수집되는 n개의 사례 중에서 m개의 사례를 선택한다(단, n > m).
성능/효과
[Table 3]을 근거로 볼 때 본 논문에서 제안하는 방법인 방법 3이 정확도 측면에서 다른 두 가지 방법보다 더욱 우수한 것으로 나타났다. 단, θ = 0.
3%가 된다. 그 결과 방법 1의 경우에는 47.1%, 방법 2의 경우에는 64.7%의 예측 정확도를 보였는데, 제안 방법인 방법 3의 경우에는 70.6%의 예측 정확도를 보였다. 이는 무작위 예측 정확도가 33.
넷째, 개최 직전 특정 이벤트에 대한 기사 및 문서의 검색량은 예상 관람객 수의 증감에 정비례하게 영향을 미치는 것으로 보았다. 검색량은 대중의 관심을 반영하기 때문이다.
둘째, 반대로 개최 직전 긍정적인 홍보성 기사의 감소는 예상 관람객 수 증가의 결정요인으로 본다. 개최를 앞두고도 홍보성 기사가 감소한다는 것은 관람객 수의 감소를 우려하지 않는 것으로 해석할 수 있기 때문이다.
둘째, 선택된 사례에서 긍정적인 기사의 제목과 부정적인 기사의 제목을 구분하여 별개의 파일에 저장한다. 극성 판단은 복수의 연구원이 하여 공통된 것을 우선으로 하고, 서로 합의가 되지 않는 기사 제목은 사례 목록에서 제외한다.
더구나 장소 이벤트의 경우에는 특성상 전국적인 조사를 실시하여야 하므로 많은 비용이 들어 자주 사용되지 못한다. 반면 본 연구가 제시한 방법은 저비용, 적시적일 뿐만 아니라, 객관적인 데이터에 의한 자동 분석이므로 높은 신뢰도를 갖는다.
셋째, 데이터의 성격을 고려한 데이터 마이닝이라는 점이다. 기존의 빅데이터 연구에서는 데이터의 성격을 고려하지 않고 데이터 내에 존재하는 형태소의 빈도를 단순 계산하는 방식을 많이 사용하였다.
셋째, 통제 가능한 홍보성 기사와는 달리 환경적으로 발생하여 사회에 큰 영향을 미친 긍부정적 사건의 발생은 예상 관람객 수의 증가에 정비례하게 영향을 미치는 것으로 보았다. 예를 들어 세월호 사건과 같이 사회 전반에 부정적 영향을 끼치는 사건이 일정 기간 이내에 발생하면 관광사업은 크게 위축을 받는다.
이 과정을 통해 3,070개의 기사 제목이 수집되었고, 이중 20%에 해당하는 614개의 뉴스 기사 제목을 임의 추출하여 학습용 데이터로 정하였다. 이 학습용 데이터에 대하여 세 사람의 연구원이 기사 제목만으로 긍정, 부정, 중립의 극성을 판단하게 하였고, 그 결과 73.8%의 일치도를 보였다. 불일치한 26.
2%의 기사에 대해서는 세 연구원에게 보인 후 필요하면 자신의 결정을 변경할 수 있도록 했다. 이렇게 두 차례에 걸친 coding의 결과 98.7%의 일치도(614건 중 606건 일치)로 합의할 수 있었다. 그리고 끝까지 일치하지 않은 기사 제목에 대해서는 다수결의 원칙으로 처리했고, 완전히 split이 난 경우에는 사례에서 제거하였다.
본 연구에서는 개최 직전 홍보성 기사의 증감을 예상 관람객 수에 반비례하는 결정요인으로 본 반면, 홍보성 기사와 무관한 사회적으로 발생한 부정적 사건은 예상 관람객 수에 비례하게 부정적으로 영향을 미치는 결정요인으로 보았다. 이와 같은 뉴스 기사의 특징을 고려한 본 연구의 예측 함수는 긍정적 기사의 양을 단순히 긍정적으로 보는 단순 예측 함수에 비하여 높은 성과를 내었다. 본 연구는 데이터 마이닝을 통한 성과 예측 시에는 데이터의 긍부정성의 증감을 데이터의 성격에 비추어 해석해야 한다는 시사점을 제시한다.
뉴스 기사는 일반 문서와는 다른 특징이 있으므로 이것이 예측 알고리즘에 반영될 수 있는 변수를 설정한다. 첫째, 개최 직전 홍보성 기사의 증가는 예상 관람객 수의 하락 변수로 본다. 기사 중 홍보성 기사는 기사의 공급원이 이벤트를 개최하는 기관이다.
제안한 방안은 저비용이면서 객관적이고 적시적인 정보를 줄 수 있다는 점에서 성과 예측을 위하여 많은 비용을 들이기 어려운 지방 자치단체 및 관련 기관에 큰 도움을 줄 수 있을 것으로 생각한다. 특히 본 연구의 접근 방법은 IT 정보 기술이 문화 산업 융성에 기여를 할 수 있다는 것을 보여주었다. 해당 주제에 대하여 많은 속성 정보를 가지고 있는 뉴스 기사를 활용함으로써 지역의 문화적 특징을 잘 포착하고, 경제 발전에 기여할 수 있는 정보를 제공할 수 있도록 하였다.
후속연구
먼저 선정된 각 지자체 축제별로 뉴스 제목의 긍부정 점수와 실제 이벤트에 참여한 고객의 수를 비교한 결과는 [Figure 3]과 같다. 그림 전체적으로 보면 대체로 긍부정 점수와 실제 이벤트 참여 실적 사이에 상관관계가 있는 것으로 보이지만, 이를 더욱 정확히 분석할 필요가 있었다.
둘째, 본 연구에서는 문장부호까지도 긍부정 목록에 포함시켰으나 이들의 사용에 제한을 둘 필요가 있다. 긍부정성 판단에 문장부호까지 두는 것은 판별 상황을 크게 확대하고, 적절한 상황에서 사용되면 기존의 방법에 비하여 정확성을 크게 높일 가능성이 있다.
객관적 사실을 시의적절하게 제공하는 뉴스의 특성을 이용하면 해당 지역만이 갖는 특징을 판별하여 새로운 브랜딩 및 이벤트 발굴이 가능할 것이다. 보다 나아가서는 차별화된 특성을 필요로 하는 연예, 엔터테인먼트 산업 전반에도 활용할 수 있을 것이다.
지역의 문화적 특징과 보편적 문화적 코드는 뉴스 기사에 잘 드러난다. 본 연구에서 사용한 기법을 발전시키면 미처 인식되지 못한 중요한 문화적 자산을 발굴하고, 이를 소비자가 원하는 형태로 발전시킬 수 있을 것이다.
본 연구의 성과는 향후 지역의 특징을 찾아 그 아이템을 중심으로 각종 이벤트를 발굴하고,지역을 브랜딩하는 데도 사용될 수 있다. 예를 들어, ‘보령’은 머드를 지역 특산품으로 내세울 수 있었는데 단순히 머드팩과 같은 화장품을 파는 데 그치지 않고, 머드로 체험할 수 있는 각종 상품을 개발하고, 이를 한 자리에 모아 축제 수준으로 끌어올렸다.
본 연구는 이벤트 시작 직전 일의 기사를 바탕으로 이루어졌다. 의미 있는 결과를 얻을 수 있었으나, 차후 전 기간에 걸친 이벤트 관련 기사의 수집을 통한 분석이 이루어진다면 추가적으로 시사성 있는 결과를 확보할 것으로 보인다.
본 연구는 데이터 마이닝 기법을 이용하여 이벤트의 성과를 예측하는 방안을 제안하였다. 제안한 방안은 저비용이면서 객관적이고 적시적인 정보를 줄 수 있다는 점에서 성과 예측을 위하여 많은 비용을 들이기 어려운 지방 자치단체 및 관련 기관에 큰 도움을 줄 수 있을 것으로 생각한다. 특히 본 연구의 접근 방법은 IT 정보 기술이 문화 산업 융성에 기여를 할 수 있다는 것을 보여주었다.
질의응답
핵심어
질문
논문에서 추출한 답변
온라인 뉴스 기사는 어떤 영향을 끼치는가?
공개된 데이터인 온라인 뉴스 기사 중 상당수는 도시와 같은 특정 장소에서 발생하는 이벤트에 관련된 사실과 의견을 담고 있어 독자의 의사 결정에 영향을 끼친다. 따라서 대량의 인터넷 뉴스 기사를 분석하면 향후 사람들이 특정 이벤트에 대하여 어떠한 선택을 할지 예상할 수 있을 것이다.
온라인 뉴스 기사라는 비정형 텍스트에서 기사가 의도하는 긍부정성의 정확도를 추론하는 것이 어려운 이유는 무엇인가?
그러나 온라인 뉴스 기사라는 비정형 텍스트에서 기사가 의도하는 긍부정성(stance)의정확도를 추론하는 것은 쉬운 일이 아니다. 주된 원인은 뉴스 기사가 사건을 심층적으로 다루는 경우에는 특정 사안에 대한 복수의 의견이 실릴 수 있어 텍스트 마이닝 추론 결과가 뉴스가 원래 의도하던 주된 긍부정성과 일치하지 않을 수 있기 때문이다. 즉, 하나의 뉴스 기사는 설득력을 갖추기 위하여 자신의 견해를 뒷받침하는 내용은 물론 다른 견해의 내용도 들어가며, 이해를 돕기 위해 핵심적인 내용이 아닌 주변적인 이야기도 함께 전달되는 것이다.
기사 제목은 어떤 자료인가?
이에 본 연구는 온라인 뉴스 기사 제목을 형태소 분석하여 특정 장소에서 이루어질 이벤트의 성과를 사전에 예측하는 방법을 제안하고자 한다. 기사 제목은 기사의 가장 핵심적인 내용을 담고 있어 본문보다 사실과 의견이 더 정확하게 발현될 뿐 아니라, 모바일 환경에서는 기사 본문보다 더 큰 영향력을 가지기 때문에 이벤트의 성과 예측에 효과적인 자료이다. 이에 인터넷 뉴스 기사의 제목을 수집하여 학습 데이터와 평가 데이터로 구분하고, 학습 데이터에서 유의한 극성을 보이는 형태소를 추출하여 전체 기사의 제목을 감성 분석하였다.
참고문헌 (40)
Ahn, S. and Cho, S., "Stock Prediction Using News Text Mining and Time Series Analysis," Korea Computer Congress, Vol. 37, No. 1, pp. 364-369, 2010.
Ahn, S. H., Lee, S. H., and Kwon, O. S., "Activation Dimension: A Mirage in the Affective Space?," Korean Psychology Association, Vol. 7, No. 1, pp. 107-123, 1993.
Allport, G. W. and Odbert, H. S., "Traitnames: A psycho-lexical study," Psychological Monographs, Vol. 47, No. 1, 1936.
Baccianella, S., Esuli, A., and Sebastiani, F., "SentiWordNet 3.0: An Enhanced Lexical Resource for Sentiment Analysis and Opinion Mining," In Proceedings of the 7th Conference on International Language Resources and Evaluation (LREC '10), pp. 2200-2204, 2010.
Bautin, M., Vijayarenu L., and Skiena, S., "International Sentiment Analysis for News and Blogs," ICWSM, 2008.
Entman, R. M., "How the Media Affect What People Think: An Information Processing Approach," The Journal of Politics, Vol. 51, No. 2, pp. 347-370, 1989.
Falkheimer, J., "When Place Images Collides: Place Branding and News Journalism," InGeographies of Communication: the Spatial Turn in Media Studies, Nordicom, 2006.
Fehr, B. and Russell, J. A., "Concept of emotion viewed from a prototype perspective," Journal of experimental psychology: General, Vol. 113, No. 3, pp. 464-486, 1984.
Fenton, N., "New Media, Old News, Journalism and Democracy in the Digital Age," English language edition Published by SAGE Publications, 2009.
Fox, C., "A Stop List for General Text," SIGIR forum, Vol. 24, No. 1-2, pp. 19-35, 1990.
Gim, E., "A Study on the Korean Emotion Verbs," Ph.D. Thesis, Chonnam National University, 2004.
Go, A., Huang, L., and Bhayani, R., "Twitter sentiment analysis," Entropy, p. 17, 2009.
Godbole, N., Srinivasaiah, M., and Skiena, S., "Large-Scale Sentiment Analysis for News and Blogs," ICWSM, pp. 7-21, 2007.
Hatzivassiloglou, V. and McKeown, K. R., "Predicting the semantic orientation of adjectives," Proceedings of the 35th annual meeting of the association for computational linguistics and eighth conference of the european chapter of the association for computational linguistics, Association for Computational Linguistics, pp. 174-181, 1997.
Hiroshi, K., Tetsuya, N., and Hideo, W., "Deeper sentiment analysis using machine translation technology," Proceedings of the 20th international conference on Computational Linguistics. Association for Computational Linguistics, p. 494, 2004.
Kamps, J., Marx, M., Mokken, R. J., and Rijke, M. De., "Using WordNet to Measure Semantic Orientations of Adjectives," LREC, Vol. 4, pp. 1115-1118, 2004.
Kanhabua, N., Balnco, R., Matthews, M., "Ranking related news predictions," SIGIR 2011 Proceedings of the 34th international ACM SIGIR conference on Research and development in Information Retrieval, pp. 755-764, 2011.
Korea Press Foundation, "2014 Media Audience Opinion Survey," 19th User Behavior Survey of the media environment changes 2014-5, 2014.
Lee, G., "Economic News and Stock Market Correlation: A Study of the UK Market," Conference on Terminology and Knowledge Engineering, 2002.
Lee, S. J. and Kim, H. J., "Keyword Extraction from News Corpus using Modified TF-IDF," The Journal of Society for e-Business Studies, Vol. 14, No. 4, pp. 59-73.
Lee, W. and Lim, N., "A Study on the Elements of City Brand Image and Influences," Journal of Korea Planners Association, Vol. 40, No. 6, pp. 177-192, 2005.
Leon, J. A., "The effects of headlines and summaries on news comprehension and recall," Reading and Writing: An Interdisciplinary Journal, Vol. 9, pp. 85-106, 1997.
Liu, B., Hu, M., and Cheng, J., "Opinion observer: analyzing and comparing opinions on the web," Proceedings of the 14th international conference on World Wide Web, ACM, 2005.
Mitchell, M. L. and Mulherin, J. H., "The impact of public information on the stock market," Journal of Finance, pp. 923-950, 1994.
Nasukawa, T. and Yi, J., "Sentiment analysis: Capturing favorability using natural language processing," Proceedings of the 2nd international conference on Knowledge capture, ACM, pp. 70-77, 2003.
Pang, B., Lee, L., and Vaithyanathan, S., "Thumbs up?: sentiment classification using machine learning techniques," Proceedings of the ACL-02 conference on Empirical methods in natural language processing-Volume 10, Association for Computational Linguistics, pp. 79-86, 2002.
Park, I. J., "The analysis of Korean affective terms: listing affective terms and exploring dimensions in the affective terms," Master thesis, Seoul National University, 2001.
Peramunetilleke, D. and Wong, R. K., "Currency Exchange Rate Forecasting from News Headlines," ADC '02 Proceedings of the 13th Australasian database conference, Vol. 5, pp. 131-139, 2002.
Pew Research Center, The State of the News Media 2012: An Annual Report on American Journalism, Retrieved from http://www.journalism.org/2012/10/01/future-mobile-news/>, 2012.
Read, J., "Using emoticons to reduce dependency in machine learning techniques for sentiment classification," Proceedings of the ACL student research workshop, Association for Computational Linguistics, pp. 43-48, 2005.
Riloff, E., Wiebe, J., and Wilson, T., "Learning subjective nouns using extraction pattern bootstrapping," Proceedings of the seventh conference on Natural language learning at HLT-NAACL 2003, Association for Computational Linguistics, Vol. 4, pp. 25-32, 2003.
Salton, G., "Automatic Text Processing: The Transformation, Analysis, and Retrieval of," Reading: Addison-Wesley, 1989.
Schumaker, R. P. and Chen, H., "Textual analysis of stock market prediction using breaking financial news: The AZFin text system," ACM Transactions on Information Systems(TOIS), Vol. 27, No. 2, p. 12, 2009.
Shaver, P., Schwartz, J., Kirson, D., and O'connor, C., "Emotion knowledge: further exploration of a prototype approach," Journal of personality and social psychology, Vol. 52, No. 6, pp. 1061-1086, 1987.
Turney, P. D. and Littman, M. L., "Measuring praise and criticism: Inference of semantic orientation from association," ACM Transactions on Information Systems (TOIS), Vol. 21, No. 4, pp. 315-346, 2003.
Wilson, T., Wiebe, J., and Hoffmann, P., "Recognizing contextual polarity in phrase- level sentiment analysis," Proceedings of the conference on human language technology and empirical methods in natural language processing, Association for Computational Linguistics, pp. 347-354, 2005.
Yang, C., Lin, K. H. Y., and Chen, H. H., "Emotion classification using web blog corpora," Web Intelligence, IEEE/WIC/ACM International Conference on, IEEE, pp. 275-278, 2007.
Yao, J., Wu, G., Liu J., and Zheng, Y., "Using bilingual lexicon to judge sentiment orientation of Chinese words," Computer and Information Technology, 2006. CIT '06. The Sixth IEEE International Conference on, IEEE, p. 38, 2006.
Yu, E., Kim, Y., Kim, N., Jeong, S. R., "Predictiong the Direction of the Stock Index by Using a Domain-Specific Sentiment Dictionary," Journal of Intelligence and Information Systems, Vol. 19, No. 1, pp. 95-110, 2013.
Yu, H. and Hatzivassiloglou, V., "Towards answering opinion questions: Separating facts from opinions and identifying the polarity of opinion sentences," Proceedings of the 2003 conference on Empirical methods in natural language processing, Association for Computational Linguistics, pp. 129-136, 2003.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.