북한의 변화와 동향 파악에 대한 연구는 북한관련 정책에 대한 방향을 결정하고 북한의 행위를 예측하여 사전에 대응 할 수 있다는 측면에서 매우 중요하다. 현재까지 북한 동향에 대한 연구는 전문가를 중심으로 과거 사례를 서술적으로 분석하여, 향후에 북한의 동향을 분석하고 대응하여 왔다. 이런 전문가 서술 중심의 북한 변화 및 동향 연구에서 비정형데이터를 이용한 텍스트마이닝 분석이 더해지면 보다 과학적인 북한 동향 분석이 가능할 것이다. 특히 북한의 동향 파악과 북한의 대남 관련 행위와 연관된 연구는 통일 및 국방 분야에서 매우 유용하며 필요한 분야이다. 본 연구에서는 북한의 신문 기사 내용을 활용한 텍스트마이닝 방법으로 북한과 관련한 핵심 단어를 구축하였다. 그리고 본 연구는 김정은 집권 이후 최근의 남북관계의 극적인 관계와 변화들을 기반으로 세 개의 기간을 나누고 이 기간 내에 국내 언론에 나타난 북한과 관련성이 높은 단어들을 시계열적으로 분석한 연구이다. 북한과 관련한 주요 단어들을 세 개의 기간별로 분류하고 당시에 북한의 태도와 동향에 따라 해당 단어와 주제들의 관련성이 어떻게 변화하였는지를 파악하였다. 본 연구는 텍스트마이닝을 이용한 연구가 남북관계 및 북한의 동향을 이해하고 분석하는 방법론으로서 얼마나 유용한 것이지를 파악하는 것이었다. 앞으로 북한의 동향 분석에 대한 연구는 물론 대북관계 및 정책에 대한 방향을 결정하고, 북한의 행위를 사전에 예측하여 대응 할 수 있는 북한 리스크 측정 모델 구축을 위한 연구로 진행 될 것이다.
북한의 변화와 동향 파악에 대한 연구는 북한관련 정책에 대한 방향을 결정하고 북한의 행위를 예측하여 사전에 대응 할 수 있다는 측면에서 매우 중요하다. 현재까지 북한 동향에 대한 연구는 전문가를 중심으로 과거 사례를 서술적으로 분석하여, 향후에 북한의 동향을 분석하고 대응하여 왔다. 이런 전문가 서술 중심의 북한 변화 및 동향 연구에서 비정형데이터를 이용한 텍스트마이닝 분석이 더해지면 보다 과학적인 북한 동향 분석이 가능할 것이다. 특히 북한의 동향 파악과 북한의 대남 관련 행위와 연관된 연구는 통일 및 국방 분야에서 매우 유용하며 필요한 분야이다. 본 연구에서는 북한의 신문 기사 내용을 활용한 텍스트마이닝 방법으로 북한과 관련한 핵심 단어를 구축하였다. 그리고 본 연구는 김정은 집권 이후 최근의 남북관계의 극적인 관계와 변화들을 기반으로 세 개의 기간을 나누고 이 기간 내에 국내 언론에 나타난 북한과 관련성이 높은 단어들을 시계열적으로 분석한 연구이다. 북한과 관련한 주요 단어들을 세 개의 기간별로 분류하고 당시에 북한의 태도와 동향에 따라 해당 단어와 주제들의 관련성이 어떻게 변화하였는지를 파악하였다. 본 연구는 텍스트마이닝을 이용한 연구가 남북관계 및 북한의 동향을 이해하고 분석하는 방법론으로서 얼마나 유용한 것이지를 파악하는 것이었다. 앞으로 북한의 동향 분석에 대한 연구는 물론 대북관계 및 정책에 대한 방향을 결정하고, 북한의 행위를 사전에 예측하여 대응 할 수 있는 북한 리스크 측정 모델 구축을 위한 연구로 진행 될 것이다.
The goal of this paper is to investigate changes in North Korea's domestic and foreign policies through automated text analysis over North Korea represented in South Korean mass media. Based on that data, we then analyze the status of text mining research, using a text mining technique to find the t...
The goal of this paper is to investigate changes in North Korea's domestic and foreign policies through automated text analysis over North Korea represented in South Korean mass media. Based on that data, we then analyze the status of text mining research, using a text mining technique to find the topics, methods, and trends of text mining research. We also investigate the characteristics and method of analysis of the text mining techniques, confirmed by analysis of the data. In this study, R program was used to apply the text mining technique. R program is free software for statistical computing and graphics. Also, Text mining methods allow to highlight the most frequently used keywords in a paragraph of texts. One can create a word cloud, also referred as text cloud or tag cloud. This study proposes a procedure to find meaningful tendencies based on a combination of word cloud, and co-occurrence networks. This study aims to more objectively explore the images of North Korea represented in South Korean newspapers by quantitatively reviewing the patterns of language use related to North Korea from 2016. 11. 1 to 2019. 5. 23 newspaper big data. In this study, we divided into three periods considering recent inter - Korean relations. Before January 1, 2018, it was set as a Before Phase of Peace Building. From January 1, 2018 to February 24, 2019, we have set up a Peace Building Phase. The New Year's message of Kim Jong-un and the Olympics of Pyeong Chang formed an atmosphere of peace on the Korean peninsula. After the Hanoi Pease summit, the third period was the silence of the relationship between North Korea and the United States. Therefore, it was called Depression Phase of Peace Building. This study analyzes news articles related to North Korea of the Korea Press Foundation database(www.bigkinds.or.kr) through text mining, to investigate characteristics of the Kim Jong-un regime's South Korea policy and unification discourse. The main results of this study show that trends in the North Korean national policy agenda can be discovered based on clustering and visualization algorithms. In particular, it examines the changes in the international circumstances, domestic conflicts, the living conditions of North Korea, the South's Aid project for the North, the conflicts of the two Koreas, North Korean nuclear issue, and the North Korean refugee problem through the co-occurrence word analysis. It also offers an analysis of South Korean mentality toward North Korea in terms of the semantic prosody. In the Before Phase of Peace Building, the results of the analysis showed the order of 'Missiles', 'North Korea Nuclear', 'Diplomacy', 'Unification', and ' South-North Korean'. The results of Peace Building Phase are extracted the order of 'Panmunjom', 'Unification', 'North Korea Nuclear', 'Diplomacy', and 'Military'. The results of Depression Phase of Peace Building derived the order of 'North Korea Nuclear', 'North and South Korea', 'Missile', 'State Department', and 'International'. There are 16 words adopted in all three periods. The order is as follows: 'missile', 'North Korea Nuclear', 'Diplomacy', 'Unification', 'North and South Korea', 'Military', 'Kaesong Industrial Complex', 'Defense', 'Sanctions', 'Denuclearization', 'Peace', 'Exchange and Cooperation', and 'South Korea'. We expect that the results of this study will contribute to analyze the trends of news content of North Korea associated with North Korea's provocations. And future research on North Korean trends will be conducted based on the results of this study. We will continue to study the model development for North Korea risk measurement that can anticipate and respond to North Korea's behavior in advance. We expect that the text mining analysis method and the scientific data analysis technique will be applied to North Korea and unification research field. Through these academic studies, I hope to see a lot of studies that make important contributions to the nation.
The goal of this paper is to investigate changes in North Korea's domestic and foreign policies through automated text analysis over North Korea represented in South Korean mass media. Based on that data, we then analyze the status of text mining research, using a text mining technique to find the topics, methods, and trends of text mining research. We also investigate the characteristics and method of analysis of the text mining techniques, confirmed by analysis of the data. In this study, R program was used to apply the text mining technique. R program is free software for statistical computing and graphics. Also, Text mining methods allow to highlight the most frequently used keywords in a paragraph of texts. One can create a word cloud, also referred as text cloud or tag cloud. This study proposes a procedure to find meaningful tendencies based on a combination of word cloud, and co-occurrence networks. This study aims to more objectively explore the images of North Korea represented in South Korean newspapers by quantitatively reviewing the patterns of language use related to North Korea from 2016. 11. 1 to 2019. 5. 23 newspaper big data. In this study, we divided into three periods considering recent inter - Korean relations. Before January 1, 2018, it was set as a Before Phase of Peace Building. From January 1, 2018 to February 24, 2019, we have set up a Peace Building Phase. The New Year's message of Kim Jong-un and the Olympics of Pyeong Chang formed an atmosphere of peace on the Korean peninsula. After the Hanoi Pease summit, the third period was the silence of the relationship between North Korea and the United States. Therefore, it was called Depression Phase of Peace Building. This study analyzes news articles related to North Korea of the Korea Press Foundation database(www.bigkinds.or.kr) through text mining, to investigate characteristics of the Kim Jong-un regime's South Korea policy and unification discourse. The main results of this study show that trends in the North Korean national policy agenda can be discovered based on clustering and visualization algorithms. In particular, it examines the changes in the international circumstances, domestic conflicts, the living conditions of North Korea, the South's Aid project for the North, the conflicts of the two Koreas, North Korean nuclear issue, and the North Korean refugee problem through the co-occurrence word analysis. It also offers an analysis of South Korean mentality toward North Korea in terms of the semantic prosody. In the Before Phase of Peace Building, the results of the analysis showed the order of 'Missiles', 'North Korea Nuclear', 'Diplomacy', 'Unification', and ' South-North Korean'. The results of Peace Building Phase are extracted the order of 'Panmunjom', 'Unification', 'North Korea Nuclear', 'Diplomacy', and 'Military'. The results of Depression Phase of Peace Building derived the order of 'North Korea Nuclear', 'North and South Korea', 'Missile', 'State Department', and 'International'. There are 16 words adopted in all three periods. The order is as follows: 'missile', 'North Korea Nuclear', 'Diplomacy', 'Unification', 'North and South Korea', 'Military', 'Kaesong Industrial Complex', 'Defense', 'Sanctions', 'Denuclearization', 'Peace', 'Exchange and Cooperation', and 'South Korea'. We expect that the results of this study will contribute to analyze the trends of news content of North Korea associated with North Korea's provocations. And future research on North Korean trends will be conducted based on the results of this study. We will continue to study the model development for North Korea risk measurement that can anticipate and respond to North Korea's behavior in advance. We expect that the text mining analysis method and the scientific data analysis technique will be applied to North Korea and unification research field. Through these academic studies, I hope to see a lot of studies that make important contributions to the nation.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 연구에서는 북한의 신문 기사 내용을 활용한 텍스트마이닝 방법으로 북한과 관련한 핵심단어를 구축하였다. 그리고 본 연구는 김정은 집권 이후 최근의 남북관계의 극적인 관계와 변화들을 기반으로 세 개의 기간을 나누고 이 기간 내에 국내 언론에 나타난 북한과 관련성이 높은 단어들을 시계열적으로 분석한 연구이다. 북한과 관련한 주요 단어들을 세 개의 기간별로 분류하고 당시에 북한의 태도와 동향에 따라 해당 단어와 주제들의 관련성이 어떻게 변화하였는지를 관찰하였다.
두 번째의 목적은 앞서 제시한 기간에 북한 관련 신문기사를 텍스트마이닝 분석기법을 통하여 신문기사에 담겨진 단어들의 트렌드와 토픽의 변화과정을 살펴보는 연구를 수행하였다. 신문 기사 분석을 통하여 최근 남 · 북 · 미관계의 변화를 시계열적 변화를 살펴보았으며 빈도분석을 통해 자주 등장하는 핵심단어의 변화와 핵심단어를 시각화하여 시기별 내용 변화와 트렌드를 분석하는 연구를 수행하였다.
이렇게 시기를 구분하는 것은 1차적으로 평화 조성 이전기와 평화조성기에 나타나는 각 시기별 단어의 차이점을 파악하고 그에 따라 나타나는 북한의 특징을 분석하였다. 또한 상대적은 기간이 짧은 평화조성 침체기의 변화와 특징은 시계열적으로 단어의 순위로 그 특징을 파악하고자 하였다.
또한 소셜 네트워크 분석에서는 사회구조와 상호의존성 그리고 개인, 그룹, 조직의 작업패턴을 분석할 때 유용하며, 다양한 원천 데이터를 수집하고 관계를 분석하며, 그 관계의 품질, 효과, 영향도 등을 포괄적으로 분석하여 나타내는 것 이다. 또한 텍스트 데이터의 트렌드 연구는 기존의 전문가 의견, 설문조사 등과 같은 전통적인 방법에서 벗어나, 다양한 분야에서 발생하는 텍스트데이터 자체를 분석 연구함으로써 데이터 기반의 객관적인 결과를 탐구하는데 연구의 의의가 있을 수 있다. 이러한 데이터 마이닝의 과정을 그림으로 나타내면 [Figure 1]과 같다.
본 연구는 텍스트마이닝을 이용한 연구가 남북관계 및 북한의 동향을 파악하는 얼마나 유용한 것이지를 파악하는 것이다. 북한의 동향 분석에 대한 연구는 대북관계 및 정책에 대한 방향을 결정하고, 북한의 행위를 사전에 예측하여 대응할 수 있다는 점에서 매우 유용 할 것으로 판단한다.
다른 분야와 비교해서 북한과 안보 및 국방 분야에 대한 텍스트마이닝의 적용이 아직 미진한 현실 실정이며, 연구가 활발하게 이루어지지 않고 있다. 본 연구에서 국내 북한관련 신문 기사를 텍스트마이닝 기법을 적용하여 최근의 한반도의 변화와 북한의 정책 그리고 북한의 동향을 파악하고 분석하는 연구를 수행하였다. 이런 연구를 바탕으로 앞으로 대북관계 및 정책에 대한 방향을 결정하고, 북한의 행위를 사전에 예측하여 대응 할 수 있는 북한 리스크 측정을 위한 모델 구축을 위한 연구의 기반이 될 것이다.
본 연구에서 정의하고 있는 평화조성 이전기, 평화 조성기, 평화조성 침묵기 3기간을 구분하여 데이터를 분석함으로 각 기간 마다 나타나는 단어와 토픽의 특징을 파악하고자 한다. 평화 조성기의 시작이 2018년 1월 1일 북한 김정은 위원장 신년사로부터 시작되어 2019년 2월 24일 북미 정상회담 결렬까지이다.
본 연구에서는 2018년 이전과 이후, 그리고 최근의 변화를 파악하기 위해 북한 관련 신문기사에서 표현하고 있는 내용을 데이터 과학적으로 접근하여 최근의 변화와 정세를 파악하고 이를 바탕으로 앞으로의 남 · 북 · 미 관계를 살펴보는데 커다란 의의가 있을 것으로 판단된다.
그리고 각 기간별 남, 북, 미 관계의 특성에 따라서 북한관련 신문 기사에서 언급하고 있는 텍스트 마이닝 방법을 작용하여 핵심단어들을 도출하고, 그 단어들이 각 기간별 특성과 어떤 연관성을 갖는지 시계열적으로 파악하는 분석을 하였다. 본 연구에서는 테스트마이닝에 가장 기본적인 핵심 단어 구축과 빈도분석, 토픽분석을 수행하였으며, 본 연구를 기반으로 다양하고 심도 있는 텍스트마이닝 연구들을 수행 해 나갈 것이다.
본 연구는 북한 관련 신문의 기사 및 뉴스를 활용하여 텍스트마이닝 방법론을 적용하여 분석하였다. 본 연구의 대상이 되는 북한 관련 신문의 기사 및 뉴스에 담겨진 단어와 토픽들을 통하여 최근 한반도의 안보 및 평화의 상태를 가름해 보기 위한 연구로서 평화조성 이전기, 평화 조성기, 그리고 2019년 2월 하노이 북미 정상회담 이후 평화조성 침묵기 이상 3개의 시점으로 나누어 분석하였다. 본 연구를 위한 분석데이터는 '북한'이라는 단어가 포함된 2016년 11월 1일부터 2019년 5월 23일까지 총 406,970 건의 신문 기사를 대상으로 하였다.
신문 기사 분석을 통하여 최근 남 · 북 · 미관계의 변화를 시계열적 변화를 살펴보았으며 빈도분석을 통해 자주 등장하는 핵심단어의 변화와 핵심단어를 시각화하여 시기별 내용 변화와 트렌드를 분석하는 연구를 수행하였다. 시대별 가중치에 기반한 단어의 중요도, 그리고 출현 된 단어의 시각화를 통해 북한 관련 연구 키워드를 알아보는 데 목적이 있다.
제안 방법
2차의 데이터분석을 통하여 [Table 5]를 최종적으로 나타내었다. 그러나 1차에 추출된 단어에는 유사 단어가 같이 분류가 되지 않고 분리가 되어 2차 분석에서 유사 단어들의 분류 작업을 통하여 [Table 5]에 각 기간별 상위 50개의 단어를 제시하였다. 단어를 추출 할 때 텍스트마이닝 처리 과정 중 숫자 제거, 문장 부호 및 구두점 제거, 기능어 제거, 공백 제거, 대명사 제거, 과거형 등을 표준화하였다.
본 연구에서는 최근 몇 년 동안 남과 북 사이에서 발생하고 있는 극적인 변화들을 세 개의 기간으로 분류하였다. 그리고 각 기간별 남, 북, 미 관계의 특성에 따라서 북한관련 신문 기사에서 언급하고 있는 텍스트 마이닝 방법을 작용하여 핵심단어들을 도출하고, 그 단어들이 각 기간별 특성과 어떤 연관성을 갖는지 시계열적으로 파악하는 분석을 하였다. 본 연구에서는 테스트마이닝에 가장 기본적인 핵심 단어 구축과 빈도분석, 토픽분석을 수행하였으며, 본 연구를 기반으로 다양하고 심도 있는 텍스트마이닝 연구들을 수행 해 나갈 것이다.
이를 위해 사용된 자료는 46개 언론사의 뉴스데이터를 보유하고 있는 한국언론진흥재단의 ‘빅카인즈’ 신문 기사 데이터를 활용하여 연구주제에 맞는 핵심단어 추출 하였다. 그리고 최근 몇 년 동안 남과 북 사이에서 발생하고 있는 극적인 변화들에 따라서 북한관련 신문 기사에서 언급하고 있는 핵심단어들이 어떤 연관성을 갖는지 시계열 분석을 통해서 파악 하였다.
그리고 최근 몇년 동안 남과 북 사이에서 발생하고 있는 극적인 변화들에 따라서 2018년 이전을 ‘평화 조성이전기’, 2018년 1월부터 2019년 2월 하노이 회담 전 까지를 ‘평화 조성기’, 그리고 2019년 2월 이후를 ‘평화 조성 침묵기’로 구분하였다.
그리고 최근 몇년 동안 남과 북 사이에서 발생하고 있는 극적인 변화들에 따라서 2018년 이전을 ‘평화 조성이전기’, 2018년 1월부터 2019년 2월 하노이 회담 전 까지를 ‘평화 조성기’, 그리고 2019년 2월 이후를 ‘평화 조성 침묵기’로 구분하였다. 그리고 텍스트마이닝 기법을 적용하여 텍스트마이닝 기법을 적용하여 북한관련 신문 기사에서 언급하고 있는 핵심단어의 빈도수를 도출하고 북한의 동향과 변화에 대한 연관성을 시계열적으로 분석하였다.
이기간이 14개월이므로 연구의 객관성을 높이기 위해 평화 조성 이전기도 14개월로 설정하기 위해 2016년 11월 1일부터 2017년 12월 31일로 하였다. 기간을 동일하게 설정함으로 평화조성 이전과 이후의 차이를 분석하는 것이 1차적인 목적이며, 부가적으로 2019년 2월 24일 북미 정상회담 결렬 이후부터 5월 23일까지 3개월의 짧은 기간에 발생한 데이터를 분석하여 단어와 토픽의 시계열적인 흐름을 파악 하였다.
그러나 1차에 추출된 단어에는 유사 단어가 같이 분류가 되지 않고 분리가 되어 2차 분석에서 유사 단어들의 분류 작업을 통하여 [Table 5]에 각 기간별 상위 50개의 단어를 제시하였다. 단어를 추출 할 때 텍스트마이닝 처리 과정 중 숫자 제거, 문장 부호 및 구두점 제거, 기능어 제거, 공백 제거, 대명사 제거, 과거형 등을 표준화하였다. 3개의 기간에서 수집된 상위 50개의 단어 중에서 3 기간에 모두 채택된 단어는 ‘미사일’, ‘북핵’, ‘외교’, ‘통일’, ‘남북’, ‘군사’, ‘개성공단’, ‘국방’, ‘제재’, ‘비핵화’, ‘경제’, ‘안보’, ‘평화’, ‘교류협력’, ‘남한’ 등 16개 이다.
첫째, 본 연구에서는 기존의 북한 및 통일관련 연구에서 전문가 중심의 북한 동향 분석과 차별화 될 수 있는 과학적 텍스트마이닝 기법을 이용하여 북한의 도발과 북한의 동향을 북한관련 신문기사 내용을 중심으로 분석하는 새로운 시도를 하였다. 둘째는 2016년 1월 1일부터 2019년 5월 23일 북한 관련 신문 기사를 바탕으로 텍스트마이닝을 이용하여 핵심단어 사전 구축 및 북한 동향을 분석 하였다. 핵심단어 사전 구축을 위해 단어 빈도수를 산출하여 북한의 동향을 잘 설명할 수 있는 단어를 산정하여 핵심사전을 구축 하였다.
본 연구를 위해서 R 프로그램을 통하여 문서 내 단어를 추출하였다. 1차적으로 산출했을 때 평화조성 이전기(BPPB, 2016년 11월 1일부터 2017년 12월 31일까지)에서 9,103개의 단어가 추출 되었으며, 평화 조성기(PBP, 2018년 1월 1일부터 2019년 2월 24일까지)에는 8,675개 단어가 추출되고, 평화조성 침묵기(DPPB, 2019년 2월 25일부터 5월 24일까지)에는 8,347개 단어가 추출 되었다.
본 연구에서 이런 단편적인 추이 발견을 넘어 텍스트마이닝 방법론을 적용하여 보다 포괄적이고 세밀한 북한 관련 신문기사 및 뉴스의 분석을 수행하였다. 북한 관련 신문기사 및 뉴스의 특성을 대표하는 객관적인 주요 키워드를 추출하고, 키워드 빈도 수 와 이를 바탕으로 문서-단어 교차표를 생성하기 위한 전 처리 작업을 수행 하였다.
본 연구에서는 기존의 전문가 중심의 서술형 북한 동향 분석에서 오늘날 데이터 분석방법으로 많이 활용되는 텍스트마이닝을 이용하여 북한과 관련된 신문기사를 중심으로 최근의 극적인 북한과의 관계와 동향을 분석하였다. 이를 위해 사용된 자료는 46개 언론사의 뉴스데이터를 보유하고 있는 한국언론진흥재단의 ‘빅카인즈’ 신문 기사 데이터를 활용하여 연구주제에 맞는 핵심단어 추출 하였다.
본 연구에서는 북한의 신문 기사 내용을 활용한 텍스트마이닝 방법으로 북한과 관련한 핵심단어를 구축하였다. 그리고 본 연구는 김정은 집권 이후 최근의 남북관계의 극적인 관계와 변화들을 기반으로 세 개의 기간을 나누고 이 기간 내에 국내 언론에 나타난 북한과 관련성이 높은 단어들을 시계열적으로 분석한 연구이다.
김정은 정권 등장 이후 북한은 급격한 핵개발과 핵능력의 증강 그리고 핵무기 실험으로 촉발되어 지속적으로 한반도가 위기국면에 놓여 있었다. 본 연구에서는 분석 단위인 기간을 동일하게 맞추어 분석하기 위해 평화조성기가 14개월 이므로 평화조성 이전기의 기간을 2016년 11월 1일부터 2017년 12월 31일까지로 14개월을 설정하였다. [Table 2]은 평화조성 이전기의 날짜별 주요 이슈와 1차 데이터 전 처리 과정을 거친 후 R프로그램을 이용한 Word Cloud와 Co-Occurrence Network을 보여 주고 있다.
본 연구에서는 최근 몇 년 동안 남과 북 사이에서 발생하고 있는 극적인 변화들을 세 개의 기간으로 분류하였다. 그리고 각 기간별 남, 북, 미 관계의 특성에 따라서 북한관련 신문 기사에서 언급하고 있는 텍스트 마이닝 방법을 작용하여 핵심단어들을 도출하고, 그 단어들이 각 기간별 특성과 어떤 연관성을 갖는지 시계열적으로 파악하는 분석을 하였다.
본 연구에서 이런 단편적인 추이 발견을 넘어 텍스트마이닝 방법론을 적용하여 보다 포괄적이고 세밀한 북한 관련 신문기사 및 뉴스의 분석을 수행하였다. 북한 관련 신문기사 및 뉴스의 특성을 대표하는 객관적인 주요 키워드를 추출하고, 키워드 빈도 수 와 이를 바탕으로 문서-단어 교차표를 생성하기 위한 전 처리 작업을 수행 하였다.
그리고 본 연구는 김정은 집권 이후 최근의 남북관계의 극적인 관계와 변화들을 기반으로 세 개의 기간을 나누고 이 기간 내에 국내 언론에 나타난 북한과 관련성이 높은 단어들을 시계열적으로 분석한 연구이다. 북한과 관련한 주요 단어들을 세 개의 기간별로 분류하고 당시에 북한의 태도와 동향에 따라 해당 단어와 주제들의 관련성이 어떻게 변화하였는지를 관찰하였다. 본 연구를 위해서 한국언론진흥재단의 ‘빅카인즈’ 신문 기사 데이터베이스를 활용하여 2016년 11월부터 2019년 5월까지 북한 관련 기사를 추출 하였다.
불용어 처리를 위해 R프로그램에서 제공하는 Natural Language Toolkit에서 corpus의 불용어 사전을 활용하여 불용어를 제거하였다. 그 후 문서 내에 포함된 기호 및 무의미한 단어는 연구자가 확인하고 삭제했는데, 이때 제거된 글과 기호는 ‘들’ ‘당’, ‘비롯’, ‘하기’, ‘시’, ‘-’, ‘?’ ‘2’ 등과 같은 것이다.
핵심단어 사전 구축을 위해 단어 빈도수를 산출하여 북한의 동향을 잘 설명할 수 있는 단어를 산정하여 핵심사전을 구축 하였다. 셋째, 본 연구에서는 최근의 남북 관계에 있어 극적인 변화를 3개 기간으로 나누고 각 기간 마다 나타나는 핵심단어와 그 빈도수를 측정하였다. 그리고 시계열적으로 남북 관계 변화에 따라 도출되는 핵심단어의 빈도수가 다르게 나타나고 있을 파악 할 수 있게 되어 남북관계 및 북한의 동향을 이해하고 분석할 수 있게 되었다.
신문 기사 분석을 통하여 최근 남 · 북 · 미관계의 변화를 시계열적 변화를 살펴보았으며 빈도분석을 통해 자주 등장하는 핵심단어의 변화와 핵심단어를 시각화하여 시기별 내용 변화와 트렌드를 분석하는 연구를 수행하였다.
동시발생이란 한 문장, 문단 또는 텍스트 단위에서 같이 출현한 단어가 자주 발생할 확률을 나타내는 언어학 용어이다. 연관성 분석의 측도는 지지도(Support), 신뢰도(Confidence)와 향상도(Lift) 값을 잘 보고 결정해 한다. 지지도란 전체 문서 중 단어 A와 단어 B가 동시에 발생하는 정도를 나타낸다.
그 기간은 2018년 이전을 ‘평화 조성 이전기’, 2018년 1월부터 2019년 2월 하노이 회담 전 까지를 ‘평화조성기’, 그리고 2019년 2월 이후를 ‘평화조성 침묵기’로 구분하였다. 이렇게 시기를 구분하는 것은 1차적으로 평화 조성 이전기와 평화조성기에 나타나는 각 시기별 단어의 차이점을 파악하고 그에 따라 나타나는 북한의 특징을 분석하였다. 또한 상대적은 기간이 짧은 평화조성 침체기의 변화와 특징은 시계열적으로 단어의 순위로 그 특징을 파악하고자 하였다.
이러한 시각화는 텍스트에서 키워드의 빈도를 직관적이고 빠르게 인지할 수 있는 장점이 있다. 이를 위해 word cloud와 igraph 팩키지를 사용하였다.
그리고 시계열적으로 남북 관계 변화에 따라 도출되는 핵심단어의 빈도수가 다르게 나타나고 있을 파악 할 수 있게 되어 남북관계 및 북한의 동향을 이해하고 분석할 수 있게 되었다. 즉, 북한 관련 핵심단어들과 남북관계의 변화와의 경향적인 연관성을 확인하였다. 넷째는 텍스트마이닝 방법론이 남북관계 및 북한의 동향 분석을 위해 유용하게 활용 될 수 있음을 파악하는 것이었다.
첫 번째는 최근의 남 · 북 · 미 관계의 극적인 변화를 반영하여 기간을 나누어 각 기간별로 북한 관련 신문기사를 텍스트마이닝 기법을 적용하여 연구를 수행하였다.
본 연구의 특징은 다음과 같다. 첫째, 본 연구에서는 기존의 북한 및 통일관련 연구에서 전문가 중심의 북한 동향 분석과 차별화 될 수 있는 과학적 텍스트마이닝 기법을 이용하여 북한의 도발과 북한의 동향을 북한관련 신문기사 내용을 중심으로 분석하는 새로운 시도를 하였다. 둘째는 2016년 1월 1일부터 2019년 5월 23일 북한 관련 신문 기사를 바탕으로 텍스트마이닝을 이용하여 핵심단어 사전 구축 및 북한 동향을 분석 하였다.
연관성 분석은 항목 간의 상호 관계를 분석하는 것이다. 텍스트 분석에서는 단어와 단어의 상호 관계를 분석하기 위하여 단어의 동시발생 (Co-Occurrence)을 분석한다. 동시발생이란 한 문장, 문단 또는 텍스트 단위에서 같이 출현한 단어가 자주 발생할 확률을 나타내는 언어학 용어이다.
둘째는 2016년 1월 1일부터 2019년 5월 23일 북한 관련 신문 기사를 바탕으로 텍스트마이닝을 이용하여 핵심단어 사전 구축 및 북한 동향을 분석 하였다. 핵심단어 사전 구축을 위해 단어 빈도수를 산출하여 북한의 동향을 잘 설명할 수 있는 단어를 산정하여 핵심사전을 구축 하였다. 셋째, 본 연구에서는 최근의 남북 관계에 있어 극적인 변화를 3개 기간으로 나누고 각 기간 마다 나타나는 핵심단어와 그 빈도수를 측정하였다.
대상 데이터
결국 이는 UN 안전보장이사회(안보리) 결의 2270호에 입각한 대북 제재로 이어졌다. 2016년 9월 9일 5차 핵실험의 결과 더 격상된 제재를 의미하는 UN 안보리 결의 2321호가 채택되었다. 이러한 상황 하에서 독자적인 생존을 모색하기 위해서는 무엇보다 내부 역량의 동원과 결집을 모색할 수밖에 없으며, 이것이 결국 '자강'의 강조로 이어졌다.
본 연구의 분석대상인 3개 기간의 북한관련 신문기사를 대상으로 빈도분석을 실시하였다. 그리고 형태소 분석에는 R의 KoNLP패키지에서 제공하는 SimplePos09 형태소분석기를 사용하였다. 형태소분석을 통해 단어를 추출하는 과정을 텍스트 분석에서는 전처리(Preprocessing)라고 부른다.
데이터 수집을 위한 검색 키워드로는 ‘북한’을 키워드로 사용하였다.
본 연구를 위한 분석데이터는 '북한'이라는 단어가 포함된 2016년 11월 1일부터 2019년 5월 23일까지 총 406,970 건의 신문 기사를 대상으로 하였다.
본 연구를 위해서 한국언론진흥재단의 ‘빅카인즈’ 신문 기사 데이터베이스를 활용하여 2016년 11월부터 2019년 5월까지 북한 관련 기사를 추출 하였다.
본 연구에서 사용된 데이터는 46개 언론사의 뉴스데이터를 보유하고 있는 한국언론진흥재단의 ‘빅카인즈’ 데이터베이스를 활용하여, 2016년 11월 1일 부터 2019년 5월 23일까지 북한이 언급된 406,970건의 뉴스를 기반으로 텍스트마이닝 분석을 실시하였다.
본 연구의 분석대상인 3개 기간의 북한관련 신문기사를 대상으로 빈도분석을 실시하였다. 그리고 형태소 분석에는 R의 KoNLP패키지에서 제공하는 SimplePos09 형태소분석기를 사용하였다.
이 개념에서 출발한 동시출현 네트워크 (Co-Occurrence Networks)는 특정 텍스트 단위에서 공동으로 출현한 단어의 집합적 상호 연결을 표현하는 방식이다. 시각화를 위해 R의 qgraph 와 networkD3 팩키지를 활용하였다.
R은 통계분석, 데이터 시각화, 데이터마이닝, 빅 데이터, 인공지능 등에 강점을 가지고 있고, 다양한 전공 분야에서 활발히 이용되고 있다. 이 프로그램에는 패키지 (Package)라는 추가 기능이 있고, 현재 약 1만 4천여 개가 넘는 팩키지로 구성되어 있다.
평화 조성기의 시작이 2018년 1월 1일 북한 김정은 위원장 신년사로부터 시작되어 2019년 2월 24일 북미 정상회담 결렬까지이다. 이기간이 14개월이므로 연구의 객관성을 높이기 위해 평화 조성 이전기도 14개월로 설정하기 위해 2016년 11월 1일부터 2017년 12월 31일로 하였다. 기간을 동일하게 설정함으로 평화조성 이전과 이후의 차이를 분석하는 것이 1차적인 목적이며, 부가적으로 2019년 2월 24일 북미 정상회담 결렬 이후부터 5월 23일까지 3개월의 짧은 기간에 발생한 데이터를 분석하여 단어와 토픽의 시계열적인 흐름을 파악 하였다.
이를 위해 사용된 자료는 46개 언론사의 뉴스데이터를 보유하고 있는 한국언론진흥재단의 ‘빅카인즈’ 신문 기사 데이터를 활용하여 연구주제에 맞는 핵심단어 추출 하였다.
데이터처리
데이터 수집을 위한 검색 키워드로는 ‘북한’을 키워드로 사용하였다. 메모장 파일 형식으로 저장, 정리한 후 오픈소스 통계프로그램인 R 프로그램의 텍스트마이닝 Word Cloud 패키지로 시각화하였고, TF-IDF 기법으로 트렌드 분석을 하였다. [Figure 3]은 월별로 ‘북한’을 키워드로 신문 기사 발생 건수를 나타낸 것이다.
이론/모형
본 연구는 북한 관련 신문의 기사 및 뉴스를 활용하여 텍스트마이닝 방법론을 적용하여 분석하였다. 본 연구의 대상이 되는 북한 관련 신문의 기사 및 뉴스에 담겨진 단어와 토픽들을 통하여 최근 한반도의 안보 및 평화의 상태를 가름해 보기 위한 연구로서 평화조성 이전기, 평화 조성기, 그리고 2019년 2월 하노이 북미 정상회담 이후 평화조성 침묵기 이상 3개의 시점으로 나누어 분석하였다.
성능/효과
3개의 기간에서 수집된 상위 50개의 단어 중에서 3 기간에 모두 채택된 단어는 ‘미사일’, ‘북핵’, ‘외교’, ‘통일’, ‘남북’, ‘군사’, ‘개성공단’, ‘국방’, ‘제재’, ‘비핵화’, ‘경제’, ‘안보’, ‘평화’, ‘교류협력’, ‘남한’ 등 16개 이다.
본 연구에서 나타난 평화조성 이전기에 빈도 수가 높은 단어들이 미사일, 북핵, 외교, 통일, 남북, 군사, 개성공단, 국방, 제재, 대선, 비핵화, 무기, 나라, 위기 등 이었다. 이를 살펴볼 때 북한의 상황과 유사한 단어들이 등장하는 것을 알수 있다.
본 연구에서도 이 시기에 판문점, 통일, 북핵, 외교, 군사, 남북, 비핵화, 북미, 평화, 남한, 보도, 예정, 미사일 순으로 단어들이 나타났다. 첫 번째 판문점 단어만 제외하고는 북한 신년사에서 나타나는 내용과 핵, 비핵화, 평화, 군사 등 키워드와 그 의미가 유사하다는 것을 알 수 있다.
후속연구
넷째는 텍스트마이닝 방법론이 남북관계 및 북한의 동향 분석을 위해 유용하게 활용 될 수 있음을 파악하는 것이었다. 그래서 앞으로 북한의 동향 분석에 대한 연구는 물론 대북관계 및 정책에 대한 방향을 결정하고, 북한의 행위를 사전에 예측하여 대응 할 수 있는 북한 리스크 측정을 위한 모델 구축 연구가 지속적으로 수행 될 것이다. 본 연구를 기반으로 다양하고 심도 있는 텍스트마이닝 연구들을 수행해 나갈 것이다.
그러나 본 연구를 기반으로 북한 도발, 또는 동향분석을 위한 긍정, 부정의 감성분석과 Lim and Kim(2016) 연구에서 보여준 토픽 모델링을 통해 각 기간별 주요 이슈를 도출하고, 기간 중첩을 통해 각 이슈 간 관계를 파악한 후, 이를 이슈 흐름도로 도식화 하는 연구, 카테고리 분석을 통해 단방향 전이와 양방향 전이의 패턴을 발견하는 연구, 그리고 주제별, 기간별 특성을 찾을수 있는 군집분석과 연관분석 등 본 연구의 한계를 극복하는 연구들을 다양하게 계속 수행 할 것이다.
향후 본 연구 결과를 기초로 하여 다양한 북한 동향 관련 연구가 진행될 것이다. 그리고 본 연구에 사용된 자료를 포함하여 다양한 북한 관련 자료의 데이터베이스를 구축하고, 북한의 동향 파악과 도발에 미리 대응 할 수 있는 연구들을 수행 할 것이다. 뿐만 아니라 북한의 주요 인물 관련 변화, 북한관련 이슈별 변화 등을 특정 뉴스의 시계열적 변화에 따라서 분석하는 것도 의미 있는 연구 주제가 될 것이다.
그리고 각 기간별 남, 북, 미 관계의 특성에 따라서 북한관련 신문 기사에서 언급하고 있는 텍스트 마이닝 방법을 작용하여 핵심단어들을 도출하고, 그 단어들이 각 기간별 특성과 어떤 연관성을 갖는지 시계열적으로 파악하는 분석을 하였다. 본 연구에서는 테스트마이닝에 가장 기본적인 핵심 단어 구축과 빈도분석, 토픽분석을 수행하였으며, 본 연구를 기반으로 다양하고 심도 있는 텍스트마이닝 연구들을 수행 해 나갈 것이다.
본 연구를 기반으로 다양하고 심도 있는 텍스트마이닝 연구들을 수행해 나갈 것이다. 본 연구에서는 테스트마이닝에 가장 기본적인 핵심 단어 구축과 빈도분석, 토픽 분석을 수행하였으며, 기간별 시계열적인 분석을 수행하였으며, 테스트마이닝의 가장 기초적인 분석만 담겨있다는 점에서 본 연구의 한계이기도 하다.
북한 관련 신문의 기사 및 뉴스에 담긴 내용 변화와 언어 활용의 차이점을 텍스트마이닝 방법으로 분석함으로서 한반도의 변화 및 북한의 정책의 기본 방향을 가늠해보는 연구가 될 것이다. 키워드 분석 및 토픽분석이 본 연구의 주제 및 분야에 활용 될 것이며, [Figure 2]는 연구단계 및 방법을 정리한 것이다.
그리고 본 연구에 사용된 자료를 포함하여 다양한 북한 관련 자료의 데이터베이스를 구축하고, 북한의 동향 파악과 도발에 미리 대응 할 수 있는 연구들을 수행 할 것이다. 뿐만 아니라 북한의 주요 인물 관련 변화, 북한관련 이슈별 변화 등을 특정 뉴스의 시계열적 변화에 따라서 분석하는 것도 의미 있는 연구 주제가 될 것이다. 새로운 기술적 혁신을 기반으로 하는 텍스트마이닝 분석기법과 과학적 데이터 분석기법이 북한 및 통일 연구 분야에 적용되는 연구들이 많이 나오기를 희망한다.
세계적인 IT 리서치 전문회사인 가트너의 수석부사장 피터 선더가드(Peter Sondergaard)는“빅 데이터는 21세기의 원유”라고 정의한 바 있다1). 원유를 어떻게 가공하느냐에 따라 만들어낼 수 있는 제품의 종류가 무궁무진하듯이, 빅데이터 역시 데이터를 어떻게 활용하고 분석하느냐에 따라 이전에 사고하지 못하고 발견하지 못했던 수많은 분야에서 새로운 가치들을 창조해낼 수 있을 것이다. 이처럼 방대한 빅 데이터의 발생이 개인의 일상뿐 아니라 유통, 제조, 서비스, 방송, 언론, 패션, 바이오, 보건․의료, ICT 등 다양한 분야에서 축적되면서 데이터에 대한 분석이 점점 더 중요해지고 있다.
본 연구에서 국내 북한관련 신문 기사를 텍스트마이닝 기법을 적용하여 최근의 한반도의 변화와 북한의 정책 그리고 북한의 동향을 파악하고 분석하는 연구를 수행하였다. 이런 연구를 바탕으로 앞으로 대북관계 및 정책에 대한 방향을 결정하고, 북한의 행위를 사전에 예측하여 대응 할 수 있는 북한 리스크 측정을 위한 모델 구축을 위한 연구의 기반이 될 것이다.
현재까지 북한 동향에 대한 연구는 전문가를 중심으로 과거 사례를 서술적으로 분석하여, 향후에 북한이 어떤 행동을 할 것이고, 우리는 어떻게 대응해야 할 것인지 정보를 얻었지만 이는 전문가 마다 정치적이 성향이나 주관에 따라 매우 다르며, 전문가에 따라 영향을 많이 받는 것도 현실이다. 이런 전문가 서술 중심의 북한 변화 및 동향 연구와 더불어 비정형데이터를 이용한 텍스트마이닝 분석이 더해 지면 보다 과학적인 북한 동향 분석이 가능할 것이다. 특히 북한의 동향 파악과 북한의 대남 관련 행위와 연관된 연구는 통일 및 국방 분야에서 매우 유용하며 필요한 분야이다.
이런 측면에서 김정은 위원장이 매년 발표하는 신년사와 본 연구를 이슈별로 연결하여 텍스트마이닝 기법을 적용한다면 좋은 연구 주제가될 것이다. 이를 본연구의 한계로 가정하고 추후 이 부분의 연구도 진행 할 것이다.
이런 측면에서 김정은 위원장이 매년 발표하는 신년사와 본 연구를 이슈별로 연결하여 텍스트마이닝 기법을 적용한다면 좋은 연구 주제가될 것이다. 이를 본연구의 한계로 가정하고 추후 이 부분의 연구도 진행 할 것이다.
향후 본 연구 결과를 기초로 하여 다양한 북한 동향 관련 연구가 진행될 것이다. 그리고 본 연구에 사용된 자료를 포함하여 다양한 북한 관련 자료의 데이터베이스를 구축하고, 북한의 동향 파악과 도발에 미리 대응 할 수 있는 연구들을 수행 할 것이다.
질의응답
핵심어
질문
논문에서 추출한 답변
텍스트마이닝이란?
텍스트마이닝은 자연어 처리 기술을 기반으로 직접적인 연관을 보여주지 않는 비정형 텍스트에서 숨겨진 관계 또는 패턴을 도출하여 의미 있고 활용 가치가 높은 정보 또는 지식을 창출하는 기법이다(Judita, Stevenson, and Gaizauskas, 2015; Ronen and Daga, 1995). 텍스트마이닝을 위한 분석방법 에는 토픽트래킹(Topic Tracking), 소셜네트워크 분석(Social Network Analysis), 감성 분석 (Sentiment Analysis) (Liu, 2012), 오피니언 마이닝(Opinion Mining), 정보 추출(Information Extraction), 텍스트 분류(Classification), 텍스트군집화(Clustering) 등이 있다(Fan, et al.
북한의 변화와 동향 파악이 매우 중요한 이유는 무엇인가?
북한의 변화와 동향 파악에 대한 연구는 북한관련 정책에 대한 방향을 결정하고 북한의 행위를 예측하여 사전에 대응 할 수 있다는 측면에서 매우 중요하다. 현재까지 북한 동향에 대한 연구는 전문가를 중심으로 과거 사례를 서술적으로 분석하여, 향후에 북한의 동향을 분석하고 대응하여 왔다.
텍스트마이닝을 이용하여 북한과의 관계와 동향을 분석할때 사용한 자료는 무엇인가?
본 연구에서는 기존의 전문가 중심의 서술형 북한 동향 분석에서 오늘날 데이터 분석방법으로 많이 활용되는 텍스트마이닝을 이용하여 북한과 관련된 신문기사를 중심으로 최근의 극적인 북한과의 관계와 동향을 분석하였다. 이를 위해 사용된 자료는 46개 언론사의 뉴스데이터를 보유하고 있는 한국언론진흥재단의 ‘빅카인즈’ 신문 기사 데이터를 활용하여 연구주제에 맞는 핵심단어 추출 하였다. 그리고 최근 몇 년 동안 남과 북 사이에서 발생하고 있는 극적인 변화들에 따라서 북한관련 신문 기사에서 언급하고 있는 핵심단어들이 어떤 연관성을 갖는지 시계열 분석을 통해서 파악 하였다.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.