뉴스데이터의 LDA 토픽 분석을 통한 장수군 농촌지역 활성화 사업의 특징 - 관광·생활 키워드를 중심으로 - Features of the Rural Revitalization Projects in Jang-su County Using LDA Topic Analysis of News Data - Focused on Keyword of Tourism and Livelihood -원문보기
In this study, we typified the project for revitalizing the rural area through text analysis using news data, and analyzed the main direction and characteristics of the project. In order to examine the factors emphasized among the issues related to the revitalization of rural areas, we used news dat...
In this study, we typified the project for revitalizing the rural area through text analysis using news data, and analyzed the main direction and characteristics of the project. In order to examine the factors emphasized among the issues related to the revitalization of rural areas, we used news data related to 'tourism' and 'livelihood', which are the main keyword of the project to promote rural areas. In the analysis, text mining techniques were used. Topic modeling was conducted on LDA techniques for major projects in 'tourism' and 'livelihood' keyword. Based on this, this study typified the projects that are carried out for the activation of rural areas by topic. As a result of the analysis, it was fount that the topics included in the project were distributed in 11 sub-types(Tourism Promotion, Regional Specialization, Local Festival, Development of Regional Scale, Urban and Rural Exchange, Agricultural Support, Community Forest Management, Improve the Settlement Environment, General Welfare Service, Low Class Support, Others). The characteristics of the rural revitalization projects were examined, and it was confirmed that domestic projects were carried out by tourism-oriented projects. To summarize, the government is making projects to revitalize rural areas through related ministries. Within the structure where the project is spreading to the region, a lot of projects are being carried out. It is understood that the tourism and welfare oriented projects are being carried out in the revitalization project of the domestic rural area. Therefore, in order to achieve the goal of rural revitalization, it is believed that it will be effective to carry out a balanced project to improve the settlement environment of the residents.
In this study, we typified the project for revitalizing the rural area through text analysis using news data, and analyzed the main direction and characteristics of the project. In order to examine the factors emphasized among the issues related to the revitalization of rural areas, we used news data related to 'tourism' and 'livelihood', which are the main keyword of the project to promote rural areas. In the analysis, text mining techniques were used. Topic modeling was conducted on LDA techniques for major projects in 'tourism' and 'livelihood' keyword. Based on this, this study typified the projects that are carried out for the activation of rural areas by topic. As a result of the analysis, it was fount that the topics included in the project were distributed in 11 sub-types(Tourism Promotion, Regional Specialization, Local Festival, Development of Regional Scale, Urban and Rural Exchange, Agricultural Support, Community Forest Management, Improve the Settlement Environment, General Welfare Service, Low Class Support, Others). The characteristics of the rural revitalization projects were examined, and it was confirmed that domestic projects were carried out by tourism-oriented projects. To summarize, the government is making projects to revitalize rural areas through related ministries. Within the structure where the project is spreading to the region, a lot of projects are being carried out. It is understood that the tourism and welfare oriented projects are being carried out in the revitalization project of the domestic rural area. Therefore, in order to achieve the goal of rural revitalization, it is believed that it will be effective to carry out a balanced project to improve the settlement environment of the residents.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
일반적으로 연구에서 활용하는 TF-IDF의 경우 단어 분석에 유용하나, 새로운 개념이나 고유명사를 분석함에 있어서 중요도가 과소·과대평가될 수 있다(Lim & Park, 2015). 따라서 본 연구에서는 이러한 한계를 보완하기 위해 TF를 중심으로 토픽모델링을 시행하였다. LDA 분석에는 정확성이 높고 분석의 속도가 개선된 붕괴된 깁스 표집(Collapsed Gibbs Sampling)을 이용한 몬테카를로 마르코프 체인(MCMC)기법(Griffiths &Steyvers, 2004)을 이용하였다.
본 연구는 토픽분석을 통해서 지역에 수행되고 있는 사업을 유형화하고, 유형이 지닌 의미를 파악할 수 있었다. 특히 지역에서 중점적으로 추진하고 있는 사업의 방향성을 살펴볼 수 있다는데 토픽모델링 분석기법의 장점이 나타났다.
뉴스데이터에 나타난 주요 사업과 평가는 정부기관·지방자치단체·사업수행기관 등에서 수행한 평가와 비교할 때 전문성 혹은 객관성이 부족할 수 있지만, 현실 사회를 반영한다는 면에서 큰 의미가 있다. 본 연구에서는 기존의 혼재되어 있던 농촌사업을 유형화하여 개별사업단위 평가와 달리 지역 전체를 대상으로 포괄적 측면에서 농촌지역 활성화 사업을 분석하는 방안을 찾는데 의의가 있다.
본 연구의 목적은 뉴스데이터를 활용한 텍스트분석을 통해서 농촌지역 활성화를 위한 사업을 유형화하고, 그 특징을 해석하는 것이다. 뉴스데이터에 나타난 주요 사업과 평가는 정부기관·지방자치단체·사업수행기관 등에서 수행한 평가와 비교할 때 전문성 혹은 객관성이 부족할 수 있지만, 현실 사회를 반영한다는 면에서 큰 의미가 있다.
분석에 있어서는 텍스트마이닝 기법을 활용하였으며, ‘관광’과 ‘생활’ 키워드에 나타난 주요 사업들에 대해 토픽모델링을 실시하였다. 이를 토대로 본 연구에서는 농촌지역 활성화를 목적으로 수행되는 사업을 토픽별로 유형화하고 토픽에 나타난 사업의 특징을 살펴보았다.
농촌에서 이루어지는 지역 활성화사업은 관광·생활·문화·소득·인구 등 다양한 분야의 사업들이 있다. 이중 본 연구에서는 농촌지역 활성화를 목적으로 시행되고 있는 주요 사업의 특징을 살펴보기 위해 [Table 5] 와 같이 앞서 도출한 농촌지역 활성화에 관한 11개 유형에 포함되는 각각의 사업 수를 정리하였다.
가설 설정
따라서 문서 간에 나타난 단어 사이의 토픽이 잠정적으로 내재한다는 가정 하에 토픽모델링을 사용하였다(Blei, Ng & Jordan, 2003; Steyvers & Griffiths, 2007;Blei, 2011; Wiedemann, 2013; Kim & Baek, 2016).
제안 방법
‘관광’과 ‘생활’ 키워드로 도출된 각 토픽들이 실질적으로 지역에 미치는 영향을 파악하기 위해 키워드 및 본문을 통해 고찰하였으며, 이를 중심으로 토픽별 내용의 특성과 농촌지역 활성화에 관련된 정도에 따라 [Table 4]와 같이 11가지 세부유형(관광활성화, 지역특화, 지역행사, 권역단위거점개발, 도농교류, 농업지원, 산림관리,정주환경개선, 복지서비스, 취약계층지원, 기타)으로 구분하였다.
하지만 본 연구에서는 기존 선행연구와 다르게 뉴스의 원문을 연구에 활용하여 데이터의 양이 방대하고, 사업을 중심으로 연구를 진행한 차이점이 있다. 따라서 각 사업의 영향력을 나타내고 토픽을 형성하는데 상위 100개의 단어를 선택하는 것이 용이하다고 판단되어 단어의 수를 추가하였다.
특히 본 연구와 같이 사업을 중심으로 연구를 수행하는 경우 정제되고 홍보를 목적으로 한 보도자료가 기사화되는 경우가 있다. 따라서 본 연구에서는 토픽을 해석하는 과정에서 농촌지역 활성화에 기여하지 않는 제도, 예산 등의 항목은 특정 유형으로 분류하고, 해석에 있어 제외하였다.
또한 사업과 관련된 키워드를 중심으로한 분석을 위해 데이터 축소를 목적으로 사업 노드와 연결된 이웃 노드를 추출하여 선택적 연결중심성분석(Degree Centrality)을 한 차례 시행하였다.
본 연구는 농촌지역 활성화를 위한 사업의 성과 측정 및 유형화함에 있어서 기존 정책평가 또는 전문가 중심의 평가와 차별화된 방법으로 분석하였다. 특히 분산된 정책사업의 관계성을 파악하고, 특정 사업에 대해 단편적으로 접근하지 않아 객관성을 확보하였으며, 다양한 사업을 통합적으로 분석하였다.
본 연구에서는 NetMiner 4.0을 활용하여 LDA 토픽모델링을 수행하고 시각화 하였으며, 농촌지역 활성화 사업의 특징을 유형화하였다.
토픽의 수 선정에는 연구자가 해석가능성과 적합성 등을 고려해 임의의 수를 지정해 토픽분석을 수행하거나(Grant, Cordy & Skillicorn, 2013; Binkley, Heinz, Lawrie& Overfelt, 2014), 여러 경우의 토픽 수를 가정하고 토픽모델링을 실시한 후, 토픽이 분류하는 단어의 정확도가 높은 지점의 토픽 수를 결정하는(Griffiths & Steyvers,2004; Asuncion, Welling, Smyth & Teh, 2009; Ding &Chen, 2014; Battisti, Ferrara & Salini, 2015; Chandra,Jiang & Wang, 2016) 두 가지 방법이 있다. 본 연구에서는 자동화된 분석을 통한 토픽의 수를 결정하기 위해 후자의 방법을 이용하였다.
이후 도출된 토픽의 내용에 따라 토픽 명을 명명하였으며, 토픽을 ‘관광’과 ‘생활’ 키워드를 기반으로 구분하여 특성별로 유형화하였다. 분류한 유형은 유형별 대표적인 사업의 특성을 분석하였다.
분석에 있어서는 텍스트마이닝 기법을 활용하였으며, ‘관광’과 ‘생활’ 키워드에 나타난 주요 사업들에 대해 토픽모델링을 실시하였다.
LDA 분석에는 정확성이 높고 분석의 속도가 개선된 붕괴된 깁스 표집(Collapsed Gibbs Sampling)을 이용한 몬테카를로 마르코프 체인(MCMC)기법(Griffiths &Steyvers, 2004)을 이용하였다. 사후 분포의 추정 및 토픽모형 생성 시 표준화(Normalization)를 위해 반복수행 횟수(iteration)와 상위모수인 alpha, beta 값 및 토픽의 개수를 설정하였다.
이때 모든 토픽 및 사업이 농촌지역 활성화에기여하지 않기 때문에 사업에 관련된 제도, 예산 등의 항목은 ‘기타’ 유형으로 분류하였다.
이후 도출된 토픽의 내용에 따라 토픽 명을 명명하였으며, 토픽을 ‘관광’과 ‘생활’ 키워드를 기반으로 구분하여 특성별로 유형화하였다.
장수군을 대상으로 한 뉴스데이터의 수집에는 ‘장수군 관광’과 ‘장수군 생활’이라는 검색어로 ‘관광’ 및 ‘생활’에 관련된 지역 기사를 추출하였다.
데이터를 정제하는 전처리 단계에서는 정규화(Normalization) 작업을 수행하였다. 정규화 작업에서는 먼저 저장된 뉴스데이터에 대해 불필요한 기호, 구두점 등을 제거하는 작업과, 동일한 의미를 가지는 유의어를 처리하여 결과 값을 반환하는 사전작업을 실시하였다.
본 연구는 농촌지역 활성화를 위한 사업의 성과 측정 및 유형화함에 있어서 기존 정책평가 또는 전문가 중심의 평가와 차별화된 방법으로 분석하였다. 특히 분산된 정책사업의 관계성을 파악하고, 특정 사업에 대해 단편적으로 접근하지 않아 객관성을 확보하였으며, 다양한 사업을 통합적으로 분석하였다. 이는 기존의 목표 지향적이고 사업추진, 성과 위주의 계획을 중심으로 지역발전계획이 수립되어, 큰 틀에서 수립한 계획안이 현실에 반영되지 않는 문제점을 개선하고, 국토계획평가방법이 정성적 기법에 치중되어 있어 평가결과의 구체성이 떨어진다는 지적을 보완할 수 있을 것이다.
대상 데이터
농촌지역 활성화에 관한 뉴스데이터의 수집에는 ‘텍스톰(Textom)1)’ 사이트를 이용하여 웹크롤링(Web-crawling)을 수행하였으며, 수집된 데이터의 양은 [Table 1]과 같다.
장수군을 대상으로 한 뉴스데이터의 수집에는 ‘장수군 관광’과 ‘장수군 생활’이라는 검색어로 ‘관광’ 및 ‘생활’에 관련된 지역 기사를 추출하였다. 뉴스데이터의 검색 기간은 2017년 1월 1일에서 2017년 12월 31일의 1년 사이에 작성된 기사를 대상으로 한다.
도로정비·상하수도 정비 등 농촌지역 생활기반시설의 현대화와 거주지 기초환경정비에 중점을 두었으며,사업의 범위에 있어서도 마을 및 주택단위의 소규모 공간을 대상으로 하였다.
본 연구는 농촌지역 활성화를 목표로 추진되는 사업의 주요 키워드인 ‘관광’과 ‘생활’에 관련된 뉴스데이터를 연구에 이용하였다.
본 연구에서는 고령화·과소화를 겪고 있으며, 지역산업·경제규모가 축소되는 전형적인 농촌의 사례로 전라북도 장수군을 대상으로 하였다.
본 연구에서는 농촌지역 활성화를 위해 지방자치단체별 중점적으로 시행하는 정책사업의 유형과 특징을 파악하는데 있어서 뉴스데이터를 활용하였다. 최근에는 비정형 데이터를 분석하는 연구가 발전하면서, 뉴스데이터를 대량으로 수집하여 분석한 논문이 다수 발표되고 있다(Manyika et al.
위와 같은 과정을 거쳐 산출한 단어들을 기반으로 토픽별 상위 100개의 단어를 선정하였다. 일반적으로 단어 수의 선정에 있어서 상위 20개의 단어를 주로 이용하고 있다(Hu & Li, 2011).
데이터처리
상위모수인 Alpha와 Beta 값은 50/토픽 수와 0.01(Steyvers & Griffths, 2007)을 기준으로 결과를 비교한 후, 설명력이 가장 높은 값을 채택하여 분석에 활용하였다.
이론/모형
LDA 분석에는 정확성이 높고 분석의 속도가 개선된 붕괴된 깁스 표집(Collapsed Gibbs Sampling)을 이용한 몬테카를로 마르코프 체인(MCMC)기법(Griffiths &Steyvers, 2004)을 이용하였다.
,2015). 데이터를 정제하는 전처리 단계에서는 정규화(Normalization) 작업을 수행하였다. 정규화 작업에서는 먼저 저장된 뉴스데이터에 대해 불필요한 기호, 구두점 등을 제거하는 작업과, 동일한 의미를 가지는 유의어를 처리하여 결과 값을 반환하는 사전작업을 실시하였다.
본 연구에서는 텍스트마이닝의 대표적 기법인 토픽모델링(Topic Modeling)에 속하는 LDA(Latent Dirichlet Allocation)기법을 활용하였다. 단어 분석만으로는 여러 문서에 존재하는 복잡한 이슈를 효율적으로 분석할 수 없다.
성능/효과
개발사업에 관련된 (T9)‘가야문화유산 활용방안’의 경우 지역의 역사·문화자원인 가야유적을 활용하여 지역발전을 모색하고 있으나, 정치적 이슈로 주목받는 사업으로 연구 및 복원작업이 성급하게 이루어지고 있다는 의견이 나타났다.
또한 각 토픽별로 내포하고 있는 세부사업의 특징을 분석하였으며, ‘관광’ 및 ‘생활’ 키워드에 국한하여 연구를 진행하였음에도 수많은 사업이 지역에 투입되고, 해당 사업들이 중복·분산되어 수행되고 있어,상호 연계와 위계를 지니고 체계적인 사업이 수행되는지 평가가 필요함을 파악할 수 있었다.
이를 전국단위사업으로 살펴보면 전국의 농촌지역지방자치단체가 국비지원을 통해 명품관광지를 조성하고 있으며, 궁극적으로 우리나라 농촌지역 활성화는 전 군이 관광지화 되면 농촌이 활성화되는 것으로 인식되고 있는 것이다. 또한 농촌지역을 장기적 관점에서 활성화할 수 있는 사업에 비해 과다한 복지사업을 수행하고 있는 문제점이 나타났다. 따라서 본질적으로 농촌지역 활성화를 위해서는 공원, 문화시설, 생활기반시설, 환경개선 등 거주민의 시선에서 부족한 부분을 균형에 맞게 보완할 필요가 있다.
본 연구에서 ‘관광’과 ‘생활’의 키워드를 중심으로 뉴스 데이터를 분석한 결과 총 36개의 토픽이 도출되었다.
분석 결과 관광에 관련된 관광활성화·지역특화·지역행사·권역단위거점개발·도농교류 유형에는 사업의 40.8%가 포함되었으며, 복지에 관련된 복지서비스·취약계층지원 유형에 관련하여 사업의 19.3%가 나타나며, 2017년 1년간 장수군에 수행된 농촌지역 활성화사업의 60.1%가 관광 및 복지사업으로 파악되었다.
분석의 결과, 농촌지역 활성화사업이 포함된 토픽은 11가지 세부 유형(관광활성화, 지역특화, 지역행사, 권역 단위거점개발, 도농교류, 농업지원, 산림관리, 정주환경개선, 복지서비스, 취약계층지원, 기타) 내에 분포하고 있음을 파악하였다. 또한 각 토픽별로 내포하고 있는 세부사업의 특징을 분석하였으며, ‘관광’ 및 ‘생활’ 키워드에 국한하여 연구를 진행하였음에도 수많은 사업이 지역에 투입되고, 해당 사업들이 중복·분산되어 수행되고 있어,상호 연계와 위계를 지니고 체계적인 사업이 수행되는지 평가가 필요함을 파악할 수 있었다.
생활환경 개선에 있어서는 교통안전 및 재난안전에 대한 사업이 포함되었다. 생활환경개선을 위한 사업의 평가에서는 거주민의 삶의 질 개선에 성과(제7회 지방자치단체생산성 대상 장려상)가 있으나, 일부 사업(동부권 균형 발전사업 등)의 평가결과 낙제점을 받아 개선이 필요한 것으로 나타났다.
수집된 ‘관광’ 및 ‘생활’ 분야의 뉴스데이터를 분석하고, 나타난 사업을 중심으로 데이터를 축소한 결과,[Table 2]와 같이 단어·단어-뉴스의 관계가 도출되었다.
또한 평가(T16, L5)의 경우 지역 미래성장동력산업으로 막대한 예산을 투입하여 추진 중에 있는 말 산업이 포함되었다. 평가 결과 사업의 추진과정에 있어서 문제점(투자심사 미실시, 관리사무소 미완공 등)이 발생했으며, 효율적 운영이 이루어지지 않아 투입예산에 비해 효과가 미비한 결과가 나타났다.
주요 세부유형별 특징을 살펴보면 ‘관광활성화’의 경우 지역 관광지 조성, 홍보 등을 통하여 지역 활성화를 모색하는 토픽을 중심으로 구성하였다. 해당 유형에 포함된 토픽들은 관광홍보를 목적으로 하는 유형(T4, T5,T15)과 토픽 내에 분포한 사업들의 평가(T7, T14)에 대한 유형으로 분류할 수 있었다. 토픽별 내용을 분석한 결과 지역관광지에 대한 홍보의 뉴스가 많았으며, 사업평가결과 추진과정에서의 절차를 준수하지 않았고(T7),프로그램의 저조한 이용 및 만성적 적자발생(T14)의 문제점이 나타났다.
후속연구
하지만 특정 지역을 대상으로 연구를 수행하였고, 농촌지역 활성화에 영향을 미치는 키워드를 관광과 생활에 한해 분석을 진행하여 그 결과를 여타 지역에 일반화 하는데 한계가 있다. 따라서 추가적인 연구를 통해 농촌지역 활성화를 도모할 수 있는 잠재적 요인을 검토할 필요가 있다. 이와 같은 한계점에 대해서는 후속 연구를 통해 보완되어야 할 것이며, 본 연구는 농촌지역 활성화를 위한 사업을 필요로 하는 지역에서 우선적으로 고려해야 할 사항을 제안하여 지역에 활력을 더하고, 매력적인 농촌지역을 조성하는 발전방안을 모색하는 연구로서 기여할 것으로 기대한다.
따라서 추가적인 연구를 통해 농촌지역 활성화를 도모할 수 있는 잠재적 요인을 검토할 필요가 있다. 이와 같은 한계점에 대해서는 후속 연구를 통해 보완되어야 할 것이며, 본 연구는 농촌지역 활성화를 위한 사업을 필요로 하는 지역에서 우선적으로 고려해야 할 사항을 제안하여 지역에 활력을 더하고, 매력적인 농촌지역을 조성하는 발전방안을 모색하는 연구로서 기여할 것으로 기대한다.
이는 기존의 목표 지향적이고 사업추진, 성과 위주의 계획을 중심으로 지역발전계획이 수립되어, 큰 틀에서 수립한 계획안이 현실에 반영되지 않는 문제점을 개선하고, 국토계획평가방법이 정성적 기법에 치중되어 있어 평가결과의 구체성이 떨어진다는 지적을 보완할 수 있을 것이다. 하지만 특정 지역을 대상으로 연구를 수행하였고, 농촌지역 활성화에 영향을 미치는 키워드를 관광과 생활에 한해 분석을 진행하여 그 결과를 여타 지역에 일반화 하는데 한계가 있다. 따라서 추가적인 연구를 통해 농촌지역 활성화를 도모할 수 있는 잠재적 요인을 검토할 필요가 있다.
질의응답
핵심어
질문
논문에서 추출한 답변
토픽모델링은 어떤 기술이며, 어떤 장점이 있는가?
토픽모델링은 텍스트마이닝, 네트워크 분석 등 여러 분야에서 널리 사용되어온 머신러닝 기술로 거대한 정보에 내포된 구조, 의미, 패턴을 파악하는 장점이 있다(Blei, Ng & Jordan, 2003; Blei, 2012).
정부에서 시행해온 농촌지역 활성화 관련 사업 4단계는?
정부에서 시행해온 농촌지역 활성화 관련 사업은 시기적으로 마을단위 종합개발(1958~1979) - 농업위주 농촌개발(1980~1990) - 부처별 분산적 농촌개발(1991~2002)- 균형발전을 위한 통합적 농촌개발(2003~현재)의 4단계로 구분할 수 있다(MAFRA, 2016). 이러한 사업들은 농촌의 거점지역인 중심지, 농업활동이 주로 이루어지는 배후농촌지역, 산촌·낙도지역 등 낙후지역을 대상으로 실시되었으며, 2000년을 기준으로 전·후 사업의 특성을 구분할 수 있다(Kim & Son, 2017).
복지서비스 유형에서 분류된 토픽에서는 무엇을 독려하고 있는가?
이 유형에서는 복지사업에 대한 참여를 독려하기 위한 홍보(T12, L10, L11, L15, L17) 및 평가(T10)가 포함되었다. 이 토픽들에 분포한 사업들을 살펴보면 지역 거주민을 중심으로 한 직접적 혜택을 제공(의료비 지원, 수영장 무료개방 등)하는 사업의 참여를 독려하고 있었다.
참고문헌 (59)
Ahn, S., & Jung, W.(2014). An Analysis of Influence Factors on the Satisfaction of Rural Village Development Projects, The Korean Association for Local Government Studies, 2, 1-34.
Asuncion, A., Welling, M., Smyth, P., & Teh, Y. W. (2009). On smoothing and inference for topic models. In Proceedings of the Twenty-Fifth Conference on Uncertainty in Artificial Intelligence, AUAI Press. 27-34.
Barranco, J. & Wisler, D.(1999). Validity and systematicity of newspaper data in event analysis. Eur Sociol Rev, 15(3), 301-322.
Binkley, D., Heinz, D., Lawrie, D., & Overfelt, J.(2014). Understanding LDA in source code analysis. In Proceedings of the 22nd Int'l Conf. on Program Comprehension, ACM. 26-36.
Blei, D., & Jordan, M.(2003). Modeling annotated data. In Proceedings of the 26th annual international ACM SIGIR conference on Research and development in information retrieval, ACM. 127-134.
Blei, D.(2011). Introduction to probabilistic topic models. Communications of the ACM, 77-84.
Blei, D. M.(2012). Probabilistic topic models. Communications of the ACM, 55(4), 77-84.
Brauer, R. & Dymitrow, M.(2014). Quality of life in rural areas: A topic for the Rural Development policy?. Bulletin of Geography. Socio-economic Series, 25, 25-54.
Ding, W., & Chen, C. (2014). Dynamic topic detection and tracking: A comparison of HDP, C-word, and cocitation methods. Journal of the Association for Information Science and Technology, 65(10), 2084-2097.
Grant, S., Cordy, J. R., & Skillicorn, D. B. (2013). Using heuristics to estimate an appropriate number of latent topics in source code analysis. Science of Computer Programming, 78(9), 1663-1678.
Greene, D. & Cross, J. P.(2015). Unveiling the Political Agenda of the European Parliament Plenary: A Topical Analysis. Proceedings of the ACM Web Science Conference, ACM, 2.
Griffiths, T. L., & Steyvers, M.(2004). Finding scientific topics. Proceedings of the National academy of Sciences, 101(1), 5228-5235.
Guo, L., Vargo, C. J., Pan, Z., Ding, W., & Ishwar, P. (2016). Big social data analytics in journalism and mass communication: comparing dictionary-based text analysis and unsupervised topic modeling. Journalism & Mass Communication Quarterly, 93(2), 332-359.
Han, J., & Kamber, M.(2011). Data Mining: Concepts and Techniques, 3rd ed, Morgan Kaufmann Publishers.
Hannigan, T.(2015). Close encounters of the conceptual kind: disambiguating social structure from text. Big Data & Society, 2(2), 1-6.
Hastie, T., Tibshirani, R., & Friedman, J. H.(2008). The Elements of Statistical Learning: Data Mining, Inference, and prediction, 2nd ed, New York: Springer.
Hu, Y., & Li, W.(2011). Document sentiment classification by exploring description model of topical terms. Computer Speech and Language, 25, 386-403.
Huang, X., Wan, X. & Xiao, J.(2014). Comparative news summarization using concept-based optimization, Knowledge and information systems, 31(3). 391-716.
Jacobi, C., van Atteveldt, W., & Welbers, K.(2016). Quantitative analysis of large amounts of journalistic texts using topic modeling. Digital Journalism, 4(1), 89-106.
Jockers, M. L.(2014). Text analysis with R for students of literature. Switzerland: Springer International Publishing.
Jung, C., & Ahn, J.(2015). A Study on the Recognition of the Residential Environments Connected to Local Central Cities - Focusing on Gyeongnam Area of the West, Residential Environment Institute of Korea, 13(2), 41-52.
Karl, A., Wisnowski, J., & Rushing, W. H.(2015). A practical guide to text mining with topic extraction. Wiley Interdisciplinary Reviews: Computational Statistics, 7(5), 326-340.
Kelly, J., & Swindell, D.(2002). Service Quality Variation Across Urban Space: First Steps Toward a Model of Citizen Satisfaction, Journal of Urban Affairs, 24(3), 271-288.
Kim, E., Ahn, Y., & Lee, M.(2012). An Improvement of Evaluation Indicator System Geared towards Comprehensive Rearrangement Projects in Seats of Township and Town Offices: Based on the Existing Evaluation Indicator System of Small Town Promotion Projects, Korean Institute of Rural Architectures, 14(1), 45-56.
Kim, J., & Gim, U.(2013). Review and Proposal of Central place Improvement Project in Basic Settlement Area-Centered on Comprehensive Improvement Project of the Seat of Eup(Dong)Myon, JKRDA, 25(4), 133-152.
Kim, J., & Baek, S.(2016). Analysis of Issues on the College and University Structural Reform Evaluation Using Text Big Data Analytics, Asian Journal of Education, 17(3), 409-436.
Kim, Y., & Son, Y.(2017). The Residents' Perceptions on the Revitalization Project of Rural Centers Utilizing IPA: The Case of Janggye-myeon of Jangsu-gun, KSRP, 23(3), 133-145.
Ko, Y.(2009). Typical Development Models for Revitalization of Rural Market Towns, Department of Bio Systems & Rural Engineering, Chonnam National University.
Lee, S.(2011). An Comparative Analysis on the Regional Economic Effect of the Small Town Revitalization Project, Korean Association for Local Government Studies, 13(1), 31-54.
Lim, C., Choi, S., & Sim, H.(2009). An Analysis on Spatial Characteristics in the Center Villages of Hub-Myun Site. KSRP, 15(3), 35-46.
Lim, H., & Park, S.(2015). A Tentative Approach for Regional Futures Strategy with Big Data: Through the Analysis using the Data of SNS and Newspaper. Journal of the Korean Cadastre Information Association, 17(1), 75-90.
Lucas, C., Nielsen, R. A., Roberts, M. E., Stewart, B. M., Storer, A., & Tingley, D.(2015). Computer-assisted text analysis for comparative politics. Political Analysis, 23(2), 254-277.
MAFRA(2017). A Plan to Develop General Farming and Fishing Villages in 2019.
Manyika, J., Chui, M., Brown, B., Bughin, J., Dobbs, R., Roxburghh, C., & Byers, A. H.(2011). Big data: the next frontier for innovation, competition and productivity. McKinsey Global Institute Report.
Matthies, B., & Corners, A.(2015). Computer-aided text analysis of corporate disclosures-demonstration and evaluation of two approaches. The International Journal of Digital Accounting Research, 15, 69-98.
Moreno, A., & Redondo, T.(2015). Text analytics: the convergence of big data and artificial intelligence. International Journal of Interactive Multimedia and Artificial Intelligence, 3(6), 57-64.
Newman, M. E. J.(2004). Fast algorithm for detecting community structure in networks, Phys. Rev. E 69 066133.
Oliver. P. E. & Myer, D. T.(1999). How events enter the public sphere: conflict, location, and sponsorship in local newspaper coverage of public events. Am J Sociol, 105(1), 38-87.
Park, K., & Lee, H.(2009). Residents' Participation and Satisfaction of the Altered Environment in the Development of Rural Agricultural Area, Korean Institute of Rural Architectures, 11(1), 57-66.
Park, S., & Kim, Y.(2014). A Study on the Revitalization of the Seat of Myeon for Rural Sustainability: Focusing on the Resident's Perceptions of Seat of Myeon in Jeollanam-do, Architectural Institute of Korea, 16(5), 45-53.
Paul, M. & Dredze, M.(2012). Factorial LDA: Sparse multi-dimensional text models. Advances in Neural Information Processing Systems, 2582-2590.
Ready, J., White, M. D. & Fisher, C.(2006). Shock value: a comparative analysis of news reports and official police records on TASER deployments. Policing An Int J Police Strateg Manag. 32(1), 148-170.
Shumueli, G., Patel, N. R., & Bruce, P. C.(2010). Data Mining for Business Intelligence: Concepts, Techniques, and Applications in Microsoft Office Excel with XLMiner, 2nd ed. New York: Wiley & Sons.
Shmueli, G., & Koppius, O.(2011). Predictive Analytics in Information Systems Research, MIS Quarterly, 35(3), 553-572.
Song, M., & Sung, J.(2004). A Study on the Evaluation and Model of participatory Community Development project in Korea, Korea Rural Economic Institute.
Steyvers, M., & Griffths, T.(2007). Probabilistic topic models. In Landauer, T. K., McNamara, D. S., Dennis, S. & Kintsch, W.(Eds.), Latent Semantic Analysis: A Road to Meaning. (427-448). Mahwah, NJ, US: Lawrence Erbaum Associates Publishers.
Visvaldis, V., Ainhoa, G. & Ralfs, P.(2013). Selecting indicators for sustainable development of small towns: the case of Valmiera municipality, Procedia Computer Science, 26, 21-32.
Wiedemann, G.(2013). Opening up to big data: computer-assisted analysis of textual data in social science. Forum Qualitative Social Research, 14(2), Art. 13.
Zhang, X.-P., Zhou, X.-Z., Huang, H.-K., Feng, Q., Chen, S.-B. & Liu, B.-Y.(2011). Topic model for chinese medicine diagnosis and prescription regularities analysis: case on diabetes. Chinese journal of integrative medicine, 17, 307-313.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.