정진명
(School of Information Security, Kyungpook National Univ.)
,
박영호
(School of Electronics Engineering, Kyungpook National Univ.)
,
김우주
(Department of Industrial Engineering, Yonsei Univ.)
정보를 전달하고 여론을 형성하는 전통적인 매스미디어의 기능이 ICT 기술의 발전으로 소셜미디어를 통해 정보와 의견을 공유하는 환경으로 급격하게 변해 왔으며, 그 영향력을 더욱 강화시키고 있다. 즉, 일반 대중들이 소셜미디어를 통해 정치 사회 경제 변화에 대한 여론을 생산하고 공유하는 여론의 영향력이 갈수록 커지고 있는 것이 확인되고 있으며, 그 변화는 선거활동과 같은 정치 분야에서 활용되고 있다. 소셜미디어를 활용해서 대중들의 의사를 파악하고, 반영하기 위한 노력은 정치 영역뿐만 아니라 공공 영역에서도 활발하게 이루어지고 있다. 본 논문은 교육분야 정책과정에서 소셜미디어 기반 여론을 활용하기 위한 가능성을 탐색하는 것을 목적으로 한다. 이를 위해 교육정책 중 소프트웨어교육에 관한 키워드를 중심으로 데이터를 수집하고, 문서의 주요 토픽과 토픽별 출현 확률, 토픽 트렌드를 분석하였다. 그 결과 '국내 컴퓨터 교육 시간'토픽이 전체의 43.99%를 차지하였으며, '프라임 사업 선정' 토픽이 36.81%, '인공지능 프로그램'토픽이 7.94%의 출현 확률을 나타내어, 대중의 소프트웨어교육 정책에 대한 주요 관심도를 파악할 수 있었다. 또한, 시기별 토픽 추세 및 연관성 있는 토픽간의 트렌드 비교 분석을 통하여 동일한 주제의 정책이라도 교육과정의 시기와 정책의 대상에 따라 유연한 정책수립이 필요하다는 시사점을 도출할 수 있었다.
정보를 전달하고 여론을 형성하는 전통적인 매스미디어의 기능이 ICT 기술의 발전으로 소셜미디어를 통해 정보와 의견을 공유하는 환경으로 급격하게 변해 왔으며, 그 영향력을 더욱 강화시키고 있다. 즉, 일반 대중들이 소셜미디어를 통해 정치 사회 경제 변화에 대한 여론을 생산하고 공유하는 여론의 영향력이 갈수록 커지고 있는 것이 확인되고 있으며, 그 변화는 선거활동과 같은 정치 분야에서 활용되고 있다. 소셜미디어를 활용해서 대중들의 의사를 파악하고, 반영하기 위한 노력은 정치 영역뿐만 아니라 공공 영역에서도 활발하게 이루어지고 있다. 본 논문은 교육분야 정책과정에서 소셜미디어 기반 여론을 활용하기 위한 가능성을 탐색하는 것을 목적으로 한다. 이를 위해 교육정책 중 소프트웨어교육에 관한 키워드를 중심으로 데이터를 수집하고, 문서의 주요 토픽과 토픽별 출현 확률, 토픽 트렌드를 분석하였다. 그 결과 '국내 컴퓨터 교육 시간'토픽이 전체의 43.99%를 차지하였으며, '프라임 사업 선정' 토픽이 36.81%, '인공지능 프로그램'토픽이 7.94%의 출현 확률을 나타내어, 대중의 소프트웨어교육 정책에 대한 주요 관심도를 파악할 수 있었다. 또한, 시기별 토픽 추세 및 연관성 있는 토픽간의 트렌드 비교 분석을 통하여 동일한 주제의 정책이라도 교육과정의 시기와 정책의 대상에 따라 유연한 정책수립이 필요하다는 시사점을 도출할 수 있었다.
The traditional mass media function of conveying information and forming public opinion has rapidly changed into an environment in which information and opinions are shared through social media with the development of ICT technology, and such social media further strengthens its influence. In other ...
The traditional mass media function of conveying information and forming public opinion has rapidly changed into an environment in which information and opinions are shared through social media with the development of ICT technology, and such social media further strengthens its influence. In other words, it has been confirmed that the influence of the public opinion through the production and sharing of public opinion on political, social and economic changes is increasing, and this change is already in use on the political campaign. In addition, efforts to grasp and reflect the opinions of the public by utilizing social media are being actively carried out not only in the political area but also in the public area. The purpose of this study is to explore the possibility of using social media based public opinion in educational policy. We collected media data, analyzed the main topic and probability of occurrence of each topic, and topic trends. As a result, we were able to catch the main interest of the public(the 'Domestic Computer Education Time' accounted for 43.99%, and 'Prime Project Selection' topics was 36.81% and 'Artificial Intelligence Program' topics was 7.94%). In addition, we could get a suggestion that flexible policies should be established according to the timing of the curriculum and the subject of the policy even if the category of the policy is same.
The traditional mass media function of conveying information and forming public opinion has rapidly changed into an environment in which information and opinions are shared through social media with the development of ICT technology, and such social media further strengthens its influence. In other words, it has been confirmed that the influence of the public opinion through the production and sharing of public opinion on political, social and economic changes is increasing, and this change is already in use on the political campaign. In addition, efforts to grasp and reflect the opinions of the public by utilizing social media are being actively carried out not only in the political area but also in the public area. The purpose of this study is to explore the possibility of using social media based public opinion in educational policy. We collected media data, analyzed the main topic and probability of occurrence of each topic, and topic trends. As a result, we were able to catch the main interest of the public(the 'Domestic Computer Education Time' accounted for 43.99%, and 'Prime Project Selection' topics was 36.81% and 'Artificial Intelligence Program' topics was 7.94%). In addition, we could get a suggestion that flexible policies should be established according to the timing of the curriculum and the subject of the policy even if the category of the policy is same.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
김은미․이주현(2011)은 매스미디어에서 생산한 뉴스와 트위터에서 회자되는 뉴스의 빈도 경향에 대한 분석을 시도하여, 새로운 뉴스미디어로 서의 트위터에 대하여 논하였으나, 대중들에게 회자되는 내용의 공공의제 혹은 정책의제 반영에 대하여 연구되지는 않았다. 따라서 본 논문에서는 토픽 모델링기법을 이용하여 소셜미디어 기반 여론을 분석이 정책의제 설정과 정을 지원할 수 있는 가능성을 모색하고자 한다. 이를 위해 3장에서는 토픽 모델링을 수행하기 위한 데이터 수집 및 토픽 모델링 연구 방법을 기술하였으며, 4장에서는 토픽 모델링 결과를 설명하였다.
본 논문에서는 소셜미디어를 활용하여 정책과정 지원 가능성을 탐색하기 위해, 토픽모델링을 이용하여 소프트웨어교육 정책에 대한 소셜미디어 데이터를 분석하였다.
본 논문에서는 이와 같은 미디어 변화 환경을 반영하여 소셜미디어 상의 여론의 정책과정에 활용 가능성을 탐색하기 위해 교육정책에 대한 소셜미디어의 여론을 분석해보고자 한다. 이를 위하여 소셜미디어 서비스들로부터 교육정책 키워드 기반으로 데이터를 수집하고, 주제 분석에 많이 사용되고 있는 토픽모델링을 이용하여 문서 내 저자의 특정 토픽에 대한 빈도와 그 관심 주제들의 트렌드 분석을 통해 정책과정에서 소셜미디어의 활용 방안을 탐색하였다.
마지막으로 토픽모델링 추세분석을 통하여 유의미한 결과를 도출해 볼 수 있다. 소셜미디어 상에서 주요 토픽들의 비중이 어느 정도 인지, 시간이 지남에 따라 해당 토픽이 감소하는 추세인지 증가하는 추세인지, 즉 어떠한 토픽들이 소셜미디어 상에서 관심을 받고 있으며, 관심이 변화하고 있는지에 대한 정보를 통하여, 정책 의제에 반영할 수 있는 가능성을 탐색해본다. 본 연구의 결과인 (그림 4)의 내용을 토픽 군집별로 비교 분석해보면 다음과 같다.
(2011)의 연구가 있다. 이 연구에서는 대선에 대한 트윗 멘션 기반을 분석하여 사회적 네트워크 특성을 규명하고 있다[15]. 신문 기사와 같은 매스미디어 자료에 대한 토픽모델링을 활용한 연구도 많이 이루어지고 있는데, 강범일외(2013)는 토픽모델링을 이용하여 신문자료의 오피니언 마이닝분석 통해 언론 매체별 오피니언 마이닝을 통한 매체간 발생하는 입장 차이를 밝혀내고자 하였다[16].
제안 방법
토픽 타이틀을 선정하기 위해 후보 키워드들에 대한 PMI를 계산한 후 이어서 Page-Rank를 계산한다. AKE방법을 통하여 추출한 토픽타이틀 후보단어의 rdf(k) 값과 토픽타이틀 후보단어를 포함하는 문서의 토픽 포함 확률을을 합산하여, 각 토픽타이틀 후보셋의 토픽 포함 확률을 계산, 각 확률값을 rdf(k) 값으로 나누어 토픽 그룹을 대표 할 수 있는 후보 키워드들을 추출한다. 이후 후보 키워드들의 PMI와 Page-Rank 계산을 통해 최종 토픽그룹에 대한 타이틀을 선정한다.
각 문서에 대하여 공백기호와 문장부호를 기준으로 나누어진 문장의 최소 단위인 형태소분석을 하고, LDA 토픽모델 분석을 진행하는데, 예시에서는 주어진 두 문서를 그림의 문서 내 각 단어의 분포 wd,n,그리고 토픽 모델 분석결과로 문장의 각 형태소가 어떤 토픽에 분포 되었는지에 대한 정보 zd,n,각 토픽에서 v1,v2,v3 3개 단어가 각각 차지하는 비중에 대한 정보 βk, 각 문서 에서 토픽1과 토픽2가 각각 차지하는 비중에 대한 정보 Θd를 얻을 수 있다
먼저, 수집된 소셜미디어 문서들에 대하여 토픽모델 링을 수행하고 그 결과 테이터를 바탕으로 비슷한 토픽 끼리 군집화하여 토픽 그룹화를 수행하였다. 그룹화된 토픽들은 AKE(Automatic Keyword Extraction)과 PMI, Page Rank 방법론을 토픽그룹의 타이틀을 선정하였고, 토픽그룹의 트렌드를 분석하는 과정으로 진행하였다. 토픽분석을 위해 R프로그램을 이용하여 LDA 토픽모델링을 수행하였으며, 사용한 기본 파라미터와 그 기능은 다음과 같다.
네이버 뉴스의 수집 방법은 네이버 블로그와 같은 JAVA기반의 자체 웹크롤러를 이용해 네이버 뉴스 기사들을 수집하였다. 각 키워드는 일치 조건 검색을 이용하여 “키워드”로 검색된 결과를 수집하며 수집 기간과 키워드를 Input으로 받아 실행되고, 수집된 데이터는 연결된 데이터베이스에 저장된다.
먼저 주요 토픽모델링을 통해서 수집한 문서들로부터 주요 토픽을 도출할 수 있었으며, 각 토픽에서 중요한 비중을 차지하는 단어들의 그룹을 확인할 수 있었다. (표3) 에서 보면 토픽2(T2)의 경우 인공지능, 미래, 인간, AI 등 미래사회 기술관련 단어들이, 토픽18(T18)의 경우 코딩, 교육, 소프트웨어, 컴퓨터, 프로그래밍 등 소프트웨어교육관련 단어들이 중요한 비중을 차지하고 있는 것으로 나타났다.
먼저, 수집된 소셜미디어 문서들에 대하여 토픽모델 링을 수행하고 그 결과 테이터를 바탕으로 비슷한 토픽 끼리 군집화하여 토픽 그룹화를 수행하였다. 그룹화된 토픽들은 AKE(Automatic Keyword Extraction)과 PMI, Page Rank 방법론을 토픽그룹의 타이틀을 선정하였고, 토픽그룹의 트렌드를 분석하는 과정으로 진행하였다.
본 논문에서는 PMI와 Page-Rank 값을 계산하고, 이를 바탕으로 후보 키워드별 중심성 값을 계산하여 각 토픽 그룹별들에 대한 최종 타이틀을 선정하였다.
본 논문에서는 선정된 교육정책 키워드를 기반으로 수집한 소셜미디어 데이터를 분석하기 위해 토픽모델링을 이용하였으며, 추출된 문서를 분석하여 출현빈도와 트렌드 변화 분석을 수행하였다.
스코어 계산 수식은 로 표현된다. 본 논문에서는 토픽모델링 결과에 따라 도출된 토픽들 중키워드 비중을 보기 위해, 위에 설명한 두 방법 중에서 확률 분포를 이용하는 방법을 활용하여 토픽에 포함된 단어를 정렬하고, 토픽모델링 분석에 활용하였다.
본 논문에서는 토픽모델링의 결과인 20개의 토픽을 각 토픽별 단어의 출현확률을 중심으로 K-means 클러스터링을 진행하여 주제가 비슷한 토픽끼리 총 7개의 그룹을 형성하였다. 소프트웨어 교육 관련 토픽들의 군집 결과는 다음 표 4와 같다.
트위터 데이터는 이 API를 이용하여 최근 10일간 수집할 수 있으며, 10일 이내에서는 일 단위로 임의로 날짜를 선택하여 수집할 수 있다. 본 논문에서는 트위터 API 를 통하여 가져올 수 있는 사용자, 작성시간, 트위터 콘텐트 지리적 위치, 해쉬태그, 리트윗 관련정보 등을 가져올 수 있는데, 본 논문에서는 트위터 API 수집기를 이용하여 작성자, 시간, 콘텐트 등의 항목들을 활용하여 분석에 사용하였다.
소셜미디어 기반으로 교육 정책에 대한 여론 분석을 위해 최근 교육 정책에서 주요 이슈인 소프트웨어 교육에 대해 주요 키워드를 선정하여 관련 데이터를 수집하고 분석하고자 한다.
위의 PMI 공식이 일반적이나 본 논문에서는 음수가 나오지 않는 것을 고려하여, 기존의 PMI 공식을 바탕으로 아래의 공식을 이용하여 토픽그룹의 타이틀 선정 과정에 이용하였다. 아래 수식에서 hits(word)는 word에 대한 웹페이지의 검색 결과 수를 의미한다.
네이버블로그, 네이버뉴스, 트위터를 대상으로 소프트웨어교육에 대한 데이터를 4개월간 수집하여 총 1,870개의 문서를 수집하였다. 이 문서들을 대상으로 토픽분석을 통해, 주요 토픽, 토픽별 확률, 토픽 추세의 총 3가지 지표를 얻을 수 있었으며, 주요 결과는 다음과 같다.
본 논문에서는 이와 같은 미디어 변화 환경을 반영하여 소셜미디어 상의 여론의 정책과정에 활용 가능성을 탐색하기 위해 교육정책에 대한 소셜미디어의 여론을 분석해보고자 한다. 이를 위하여 소셜미디어 서비스들로부터 교육정책 키워드 기반으로 데이터를 수집하고, 주제 분석에 많이 사용되고 있는 토픽모델링을 이용하여 문서 내 저자의 특정 토픽에 대한 빈도와 그 관심 주제들의 트렌드 분석을 통해 정책과정에서 소셜미디어의 활용 방안을 탐색하였다.
AKE방법을 통하여 추출한 토픽타이틀 후보단어의 rdf(k) 값과 토픽타이틀 후보단어를 포함하는 문서의 토픽 포함 확률을을 합산하여, 각 토픽타이틀 후보셋의 토픽 포함 확률을 계산, 각 확률값을 rdf(k) 값으로 나누어 토픽 그룹을 대표 할 수 있는 후보 키워드들을 추출한다. 이후 후보 키워드들의 PMI와 Page-Rank 계산을 통해 최종 토픽그룹에 대한 타이틀을 선정한다.
1, iteration: 3000이며, 최종 토픽의 수는 20개로 지정하였다. 입력 데이터는 앞서 수집한 문서들로 하였으며, 1차적으로 토픽 분석을 통해 문서별 각 토픽의 비중과 토픽별 각 단어의 비중을 추출하였다. 그림 1은 v1,v2,v3 3개 단어로 작성된 문서1과 문 서2에 대해 2개의 토픽을 추출하는 LDA토픽모델 분석을 진행한 예시이다.
선정된 후보 키워드를의 PMI지수를 구하고, 이를 이용하여 Page-Rank(PR)를 계산하였다. 토픽 군집의 최종 타이틀을 선정하기 위해 각 토픽 그룹이 전체에서 출현할 확률 값의 순서대로 토픽그룹에 포함된 후보 키워드를 Page-Rank 순서로 정렬하여 3개씩 추출하였다. 만약 동일 후보키워드가 서로 다른 그룹의 Page-Rank 값 3위안에 각각 랭크되어 있다면, 토픽그룹이 전체 중에 출현할 확률 값이 큰 그룹이 A키워드를 선정하고, 출현 확률 값이 적은 토픽그룹은 A를 제외한 키워드 3개를 선정하게 된다.
토픽 타이틀을 선정하기 위해 후보 키워드들에 대한 PMI를 계산한 후 이어서 Page-Rank를 계산한다. AKE방법을 통하여 추출한 토픽타이틀 후보단어의 rdf(k) 값과 토픽타이틀 후보단어를 포함하는 문서의 토픽 포함 확률을을 합산하여, 각 토픽타이틀 후보셋의 토픽 포함 확률을 계산, 각 확률값을 rdf(k) 값으로 나누어 토픽 그룹을 대표 할 수 있는 후보 키워드들을 추출한다.
토픽모델링 결과로 얻은 토픽들을 바탕으로 군집분석을 진행하여 유사한 토픽끼리의 군집을 구성하였다. 토픽들의 군집화는 K-means 클러스터링 방법을 이용하였으며, 클러스터링은 R프로그램과 JAVA를 이용하여 실행 하였다.
그룹화된 토픽들은 AKE(Automatic Keyword Extraction)과 PMI, Page Rank 방법론을 토픽그룹의 타이틀을 선정하였고, 토픽그룹의 트렌드를 분석하는 과정으로 진행하였다. 토픽분석을 위해 R프로그램을 이용하여 LDA 토픽모델링을 수행하였으며, 사용한 기본 파라미터와 그 기능은 다음과 같다.
대상 데이터
교육정책에 대한 소셜미디어 기반 여론의 토픽 모델링을 실시하기 위하여 3가지 방법으로 데이터를 수집하였으며, 수집 대상 소셜미디어 서비스와 세부 수집방법은 다음과 같다.
소프트웨어 교육 관련 토픽들의 군집 결과는 다음 표 4와 같다. 군집 이름은 SG1~SG7로 하였다.
네이버블로그, 네이버뉴스, 트위터를 대상으로 소프트웨어교육에 대한 데이터를 4개월간 수집하여 총 1,870개의 문서를 수집하였다. 이 문서들을 대상으로 토픽분석을 통해, 주요 토픽, 토픽별 확률, 토픽 추세의 총 3가지 지표를 얻을 수 있었으며, 주요 결과는 다음과 같다.
트위터 OpenAPI는 트위터에서 생산하는 데이터를 외부에서 활용할 수 있도록 제공하는 인터페이스로서 다양한 사용자들이 OpenAPI를 통해 트위터 데이터를 수집 및 분석하거나 검색하고, 이를 이용한 앱을 만들고 있다. 본 논문에서는 트위터 데이터 수집을 위하여, 트위터가 제공하는 JAVA 라이브러리인 Twitter4J를 선택하여 활용하였다. Twitter4J는 가장 널리 사용하는 트위터 라이브러리로써 지속적인 업데이트가 수행되며, 관련 문서화가 잘 되어 있는 장점이 있다.
소프트웨어 교육 관련 토픽 군집에 대한 타이틀 선정을 위해, AKE 방법을 활용하여 문서들로부터 타이틀 후보 키워드를 추출하였다. 소프트웨어 교육 관련 키워드로 수집한 문서 1870개에서 후보키워드를 추출하였다. 이 키워드들 중 rdf(k)가 6 이상인 키워드를 추출하고, 각 키워드가 포함된 문서들의 토픽 그룹 확률을 계산하였다.
소프트웨어 교육 정책 키워드 선정은 교육유관기관에서 발행하는 백서, 보도자료 등을 참고로 하여 후보 키워드를 추출, 교육관련 전문가 9명의 검토를 통하여 ‘소프트웨어 교육(SW 교육), 소프트웨어 의무(SW 의무), 코딩 교육, Computer science(컴퓨터과학), Computational Thinking(컴퓨터적 사고)’을 선정하였다.
데이터처리
선정된 후보 키워드를의 PMI지수를 구하고, 이를 이용하여 Page-Rank(PR)를 계산하였다. 토픽 군집의 최종 타이틀을 선정하기 위해 각 토픽 그룹이 전체에서 출현할 확률 값의 순서대로 토픽그룹에 포함된 후보 키워드를 Page-Rank 순서로 정렬하여 3개씩 추출하였다.
이론/모형
네이버 블로그의 데이터를 수집하기 위하여 JAVA 프로그래밍 언어 기반의 웹크롤러를 활용하였다. 입력은 URL 클래스의 OpenStream 메서드; BufferedInputStream을 이용하였고, 출력은 FileOutputStream, mySql DB를 이용하였다.
또한 트위터는 REST API와 Streaming API 두 가지 방식이 있는데, REST API는 단어의 검색 결과, 사용자 정보 활용과 같은 특정 작업을 수행하는데 적절하고, Streaming API는 트위터 데이터를 실시간 활용할 경우에 유용하다. 본 논문에서는 REST API 의 Search API를 사용하였다.
본 논문에서는 앞서 분석한 토픽 그룹의 타이틀을 선정하기 위해 기존 연구 방법인 AKE(Automatic Keyword Extraction) 방법론을 사용하였다(Rose, 2010). AKE의 절차는 다음과 같다.
소프트웨어 교육 관련 토픽 군집에 대한 타이틀 선정을 위해, AKE 방법을 활용하여 문서들로부터 타이틀 후보 키워드를 추출하였다. 소프트웨어 교육 관련 키워드로 수집한 문서 1870개에서 후보키워드를 추출하였다.
토픽 그룹의 타이틀 선정을 위하여 단어의 중심성 값을 구하였으며, 입력 값으로는 용어간 밀접도를 나타내는 PMI(pointwise mutual information) 지수를 사용하였다. PMI 지수는 하나의 단어 쌍 (x, y)에 단어 x와 y가 각각 등장하는 확률과 동시 등장하는 확률을 사용하여 계산한다.
토픽모델링 결과로 얻은 토픽들을 바탕으로 군집분석을 진행하여 유사한 토픽끼리의 군집을 구성하였다. 토픽들의 군집화는 K-means 클러스터링 방법을 이용하였으며, 클러스터링은 R프로그램과 JAVA를 이용하여 실행 하였다.
성능/효과
“국내 SW교육 시간”을 나타내는 노란색 그래프를 보면 5월부터 8월까지 관심이 감소하는 추세인 것을 알 수 있고, 토픽 “인공지능 프로그램”을 나타내는 초록색 그래프 선을 보면 추세가 전체적으로 증가하고 있음을 확인 할 수 있다.
먼저 주요 토픽모델링을 통해서 수집한 문서들로부터 주요 토픽을 도출할 수 있었으며, 각 토픽에서 중요한 비중을 차지하는 단어들의 그룹을 확인할 수 있었다. (표3) 에서 보면 토픽2(T2)의 경우 인공지능, 미래, 인간, AI 등 미래사회 기술관련 단어들이, 토픽18(T18)의 경우 코딩, 교육, 소프트웨어, 컴퓨터, 프로그래밍 등 소프트웨어교육관련 단어들이 중요한 비중을 차지하고 있는 것으로 나타났다. 토픽5(T5)의 경우는 게임, 포켓몬, 게임문화 등 게임과 관련된 단어들이, 토픽16(T16)의 경우는 선발, 단계, 전형, 등급, 대학 등 대학입시와 관련된 단어들이 중요한 비중으로 출현하였다.
12%의 비중을 차지한 것이라 할 수 있다. 결과를 살펴보면 토픽 18번이 전체의 24.93%로 가장 비중이 높고, 토픽 5번이 전체의 0.91%로 비중이 가장 낮은 것을 알 수 있다.
두 번째로, 토픽군집을 통하여 비슷한 토픽을 그룹핑 하고 그에 대한 대표 타이틀을 선정하는 것을 기술적으로 구현함으로써 상향식 정책 유형 혹은 키워드 분류작업이 가능하였다. 본 논문에서는 k-means 클러스터링을 통하여 총 7개의 토픽군집을 만들었으며, 그 중 ‘국내 컴퓨터 교육 시간’ 이라는 토픽군집이 전체의 43.
또한 ‘프라임 사업 선정’ 이라는 토픽군집은 전체 토픽군집의 36.81% 를 나타내었는데, 이 토픽군집에는 총 10개의 토픽이 연결되었으며, 마찬가지로 (표3) 토픽별 상위 비중 단어를 확인해 보면 이 토픽군집이 교육과정 및 대입은 물론, 산업과도 연관이 두루두루 있음을 알 수 있었다.
마지막으로 ‘인공지능 프로그램’ 군집은 7.94%를 차지하며 T2, T17 2개 그룹이 그룹핑 되었는데 해당 토픽들은 드론, 인공지능, AI 등 미래사회 기술들을 지향하는 단어들과 연결이 되어 있는 것을 알 수 있다.
본 논문에서는 k-means 클러스터링을 통하여 총 7개의 토픽군집을 만들었으며, 그 중 ‘국내 컴퓨터 교육 시간’ 이라는 토픽군집이 전체의 43.99%를 차지하였다.
뉴만 외 2인(2014)은 2012년 한 해 동안 29가지의 정치적 이슈에 관한 전통 매스미디어와 소셜미디어의 주목도와 프레이밍에 대해 빅 데이터 분석을 하였다[6]. 이 연구에서 정치적 이슈들에 대한 의제설정이 한 가지 패턴이 아니라 두 미디어 간 복잡하고 역동적인 상호작용을 통해 이루어진다는 것을 밝혀냈다. 김은미․이주현 (2011)은 소셜미디어 서비스인 트위터를 통해서 뉴스의 유형과 트위터 저자들의 유형에 따른 뉴스 의제와 언론에서 보도되는 뉴스의 빈도수와 트위터에서 회자되는 뉴스의 빈도 경향에 대한 분석을 시도하여, 새로운 뉴스미디어로서의 트위터에 대하여 논하였다.
후속연구
향후에는 본 논문에서 실시한 토픽모델링을 통해 나온 결과와 각 토픽이 도출된 문서의 오피니언마이닝, 네트워크 분석을 병행하여 다양한 분석을 시도해 볼 필요가 있다. 또한 연구의 목적에 따라 다양한 소셜미디어를 대상으로 이와 같은 분석 연구를 추진하고, 소셜미디어의 주요 저자들 성향과 논조에 대하여 시간을 가지고 분석을 시도한다면, 소셜미디어 여론에 대한 좀 더 구체적인 분석이 가능해질 것이다. 향후 소셜미디어의 영향력이 증대되면, 이러한 데이터에 대한 분석 및 결과 활용이 무엇보다 중요해질 것이다.
또한 크게는 소프트웨어 교육의 범위이면서도 초중등학교와 관련된 “국내 SW교육 시간” 토픽과 대학교와 관련된 “프라임 사업 선정” 토픽이 서로 음의 상관관계를 보이고 있는 것은 향후 정부의 교육기관의 소프트웨어 교육 정책 검토 시 초중등학교에서 대학으로 이어 지는 교육과정의 연계성이나 대입정책 등 관련정책 분석이 필요할 것으로 판단된다.
본 논문에서는 테이터 수집이 단기간에 이루어졌다는 점과 오피니언마이닝, 네트워크 분석 등 다양한 분석 기법이 활용되지 못했다는 한계점이 있다. 향후에는 본 논문에서 실시한 토픽모델링을 통해 나온 결과와 각 토픽이 도출된 문서의 오피니언마이닝, 네트워크 분석을 병행하여 다양한 분석을 시도해 볼 필요가 있다.
또한 연구의 목적에 따라 다양한 소셜미디어를 대상으로 이와 같은 분석 연구를 추진하고, 소셜미디어의 주요 저자들 성향과 논조에 대하여 시간을 가지고 분석을 시도한다면, 소셜미디어 여론에 대한 좀 더 구체적인 분석이 가능해질 것이다. 향후 소셜미디어의 영향력이 증대되면, 이러한 데이터에 대한 분석 및 결과 활용이 무엇보다 중요해질 것이다. 또한 정책과정에서의 소셜미디어 의견 반영도 중요해지리라 판단된다.
본 논문에서는 테이터 수집이 단기간에 이루어졌다는 점과 오피니언마이닝, 네트워크 분석 등 다양한 분석 기법이 활용되지 못했다는 한계점이 있다. 향후에는 본 논문에서 실시한 토픽모델링을 통해 나온 결과와 각 토픽이 도출된 문서의 오피니언마이닝, 네트워크 분석을 병행하여 다양한 분석을 시도해 볼 필요가 있다. 또한 연구의 목적에 따라 다양한 소셜미디어를 대상으로 이와 같은 분석 연구를 추진하고, 소셜미디어의 주요 저자들 성향과 논조에 대하여 시간을 가지고 분석을 시도한다면, 소셜미디어 여론에 대한 좀 더 구체적인 분석이 가능해질 것이다.
질의응답
핵심어
질문
논문에서 추출한 답변
매스미디어의 기능이 ICT 기술의 발전으로 어떻게 변화하였는가?
정보를 전달하고 여론을 형성하는 전통적인 매스미디어의 기능이 ICT 기술의 발전으로 소셜미디어를 통해 정보와 의견을 공유하는 환경으로 급격하게 변해 왔으며, 그 영향력을 더욱 강화시키고 있다. 즉, 일반 대중들이 소셜미디어를 통해 정치 사회 경제 변화에 대한 여론을 생산하고 공유하는 여론의 영향력이 갈수록 커지고 있는 것이 확인되고 있으며, 그 변화는 선거활동과 같은 정치 분야에서 활용되고 있다.
토픽 모델링이란?
토픽 모델링은 구조화되어 있지 않은 방대한 문서에서 중심 주제를 발견해내는 알고리즘으로 발견한 주제에 따라서 수집한 문서를 구조화할 수 있다[10][11]. 토픽 모델링은 문서의 주제를 도출하기 위해 텍스트를 분석하는 방법으로서 토픽들의 확률적인 집합으로 이루어진다.
클러스터링 결과 토픽의 군집별 출현 확률 및 트렌드는 어떻게 되는가?
아래의 그림에서 x축은 위의 K-means 클러스터링 결과로 나눠진 각 군집의 타이틀을 의미하며 y 축은 각 그룹이 출현 할 확률을 의미한다. 예를 들어 “프라임 사업 선정” 군집은 전체 7개의 그룹 중 출현 확률이 36.81%가 되며 “인공지능 프로그램” 군집은 7.94%의 출현 확률을 나타낸다. “국내 SW 교육 시간” 군집이 43.99%로 가장 높은 출현확률을 보임을 알 수 있다.
참고문헌 (17)
Jin-Myeong Chung, Woo-Joo Kim, Chan-dong Koo, "Social Media Big Data Analysis for ICT Policy Agenda in Education," pp. 4, Korea Education and Research Service(KERIS), 2016. http://lib.keris.or.kr/search/detail/CATLAB000000012076?briefLink/searchA/lab?briefTypeL?stKWRD_A_siTOTAL_A_q%EB%B9%85%EB%8D%B0%EC%9D%B4%ED%84%B0
Jin-hyong Lee, "Proliferation and Trends of SNS(Social Network Service)," Journal of Communication &Radio Spectrum, Vol. 44, 2012. https://www.kca.kr/open_content/bbs.do?actdetail&msg_no10462&bcdradiotrends&keyfieldbbs_title&keywordSNS
A. Livne, M. Simmons, E. Adar, and L. Adamic, "The Party is Over Here : Structure and Content in the 2010 Election," Proceedings of 5th ICWSM(2011). https://www.aaai.org/ocs/index.php/ICWSM/ICWSM11/paper/viewFile/2852/3272
You-Jung Hong, Joo-Seong Hwang, "Social Media vs. Mass Media in the Policy Agenda-setting Process : The Case of the Gwangju Inhwa School Incident(Dogani)," Broadcasting & Communication, Vol. 16, No. 1, 2015. http://www.dbpia.co.kr/Journal/ArticleDetail/NODE06268584
Hyun-jae Yu, Ji-eun Song, "Investigation into the Styles of Articles Regarding Suicide by Different Media: Comparison of the Styles between Internet Media and Newspapers," Health and Social Welfare Review, Vol. 32, No 2, pp. 427-467, 2012. http://www.dbpia.co.kr/Journal/ArticleDetail/NODE01899750
Russell Neuman, W.Guggenheim, Lauren Mo Jang, S. Soo Young Bae, "The Dynamics of Public Attention: Agenda-Setting Theory Meets Big Data", Vol. 64, No 2, pp. 193-214, 2014 https://doi.org/10.1111/jcom.12088
Eun Mee Kim, Ju Hyun Lee "The Diffusion of News through Twitter and the Emerging Media Ecosystem," Korean Journal of Journalism & Communication Studies, Vol. 55, No. 6, pp. 152-180, 2011. http://www.dbpia.co.kr/Journal/ArticleDetail/NODE01757395
Jin-myeong Chung, Ki-young Yoo, Chan-dong Koo, "A Study on Social Media Sentiment Analysis for Exploring Public Opinions Related to Education Policies", Vol 24, No 4, pp. 3-16, 2017. http://www.papersearch.net/thesis/article.asp?key3578607
Jin-Ho Choi, Dong-Sub Han, "A Study on the Correlation of Agendas between Politicians' Twitters and traditional News Media," Journal of Communication Science, Vol. 11, No. 2, pp. 501-532, 2011.
D. Blei, "Probabilistic Topic Models," Communication of the ACM, Vol. 55, No. 4, pp. 77-84, April. 2012. https://doi.org/10.1145/2133806.2133826
M. Steyvers and T. Griffiths, "Probabilistic Topic Models," Handbook of latent semantic analysis. Analysis. Edited by T. K. Landauer, D. S. McNamara, S. Dennis, W. Kintsch. NJ: Erlbaum, 2007. http://173.236.226.255/tom/papers/SteyversGriffiths.pdf
T. Griffiths, & M. Steyvers, "Finding scientific topics," Proceedings of the National Academy of Sciences, Vol. 101, pp. 5228-5235, 2004. https://doi.org/10.1073/pnas.0307752101
S. Gerrish, and D. Blei, "A Language-based Approach to Measuring Scholarly Impact," The 27th International Conference on Machine Learning, pp. 375-382, 2010. http://citeseerx.ist.psu.edu/viewdoc/download?doi10.1.1.182.4459&reprep1&typepdf
Jung-ha Hong, Jae-Woong Choe, "Exploring the Thematic Structure in Corpora with Topic Modeling," Language & Information Society, Vol. 30, pp. 239-275, 2017. http://www.papersearch.net/thesis/article.asp?key3507933
Jung-hwan Bae, Ji-eun Son and Min Song, "Analysis of Twitter for 2012 South Korea Presidential Election by Text Mining Techniques," Journal of Intelligent Information System, Vol. 19, No. 3, pp. 141-156, 2013. http://dx.doi.org/10.13088/jiis.2013.19.3.141
Beom-il Kang, Min Song, and Wha-sun Jho, "A Study on Opinion Mining of Newspaper Texts based on Topic Modeling," Journal of the Korean Society for Library and Information Science, Vol. 47, No. 4, pp. 315-334, 2013. http://www.dbpia.co.kr/Article/NODE02321458
Sang-Min Park and Byung-Won On, "Latent topics-based product Reputation Mining," Journal of Intelligent Information System, Vol. 23, No. 2, pp. 39-70, 2017. http://dx.doi.org/10.13088/jiis.2017.23.2.03
※ AI-Helper는 부적절한 답변을 할 수 있습니다.