[논문]비지도학습 기반의 행정부서별 신문기사 자동분류 연구

김현종; 유승의; 이철호; 남광우

doi:10.5762/kais.2020.21.9.345

초록
AI-Helper

행정기관은 정책 대응성을 제고하기 위해 빅데이터 분석에 관심을 기울이고 있다. 빅데이터 중 뉴스 기사는 정책 이슈와 정책에 대한 여론을 파악하는데 중요한 자료로 활용될 수 있다. 한편으로 새로운 온라인 매체의 등장으로 뉴스 기사의 생산은 급격히 증가하고 있어 문서 자동분류를 통해 기사를 수집할 필요가 있다. 그러나 기존 뉴스 기사의 범주와 키워드 검색방법으로는 특정 행정기관 및 부서별로 업무에 관련된 기사를 자동적으로 수집하는 것에 한계가 있었다. 또한 기존의 지도학습 기반의 분류 기법은 다량의 학습 데이터가 필요한 단점을 가지고 있다. 이에 본 연구에서는 행정부서의 업무특징을 포함한 분류사전을 활용하여 기사의 분류를 효과적으로 처리하기 위한 방법을 제안한다. 이를 위해 행정 기관의 업무와 신문기사를 Word2Vec와 토픽모델링 기법으로 부서별 특징을 추출하여 분류사전을 생성하고, 행정 부서별로 신문기사를 자동분류 한 결과 71%정도의 정확도를 얻었다. 본 연구는 행정부서별 신문기사를 자동분류하기 위해 부서별 업무 특징 추출 방법과 비지도학습 기반의 자동분류 방법을 제시하였다는 학문적·실무적 기여점이 있다.

Abstract ▼ AI-Helper

Administrative agencies today are paying keen attention to big data analysis to improve their policy responsiveness. Of all the big data, news articles can be used to understand public opinion regarding policy and policy issues. The amount of news output has increased rapidly because of the emergenc...

Administrative agencies today are paying keen attention to big data analysis to improve their policy responsiveness. Of all the big data, news articles can be used to understand public opinion regarding policy and policy issues. The amount of news output has increased rapidly because of the emergence of new online media outlets, which calls for the use of automated bots or automatic document classification tools. There are, however, limits to the automatic collection of news articles related to specific agencies or departments based on the existing news article categories and keyword search queries. Thus, this paper proposes a method to process articles using classification glossaries that take into account each agency's different work features. To this end, classification glossaries were developed by extracting the work features of different departments using Word2Vec and topic modeling techniques from news articles related to different agencies. As a result, the automatic classification of newspaper articles for each department yielded approximately 71% accuracy. This study is meaningful in making academic and practical contributions because it presents a method of extracting the work features for each department, and it is an unsupervised learning-based automatic classification method for automatically classifying news articles relevant to each agency.

주제어

표/그림 (5)

그림 Fig. 1. Research procedures and methods
표 Table 1. Result of topic modeling analysis
표 Table 2. Relevance of Topic keywords and administrative departments
그림 Fig. 2. Classification result
표 Table 3. Administrative Agencies work characteristics

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 연구에서는 행정기관의 업무 특성을 포함하는 사전을 활용한 뉴스 기사 자동분류 방법을 제안하였다. 이는 행정기관에서 정책 대응성을 제고하기 위한 빅데이터 분석을 활용하기에 앞서 데이터의 수집과 관리가 필요하다.
또한 기존 신문 기사의 분류방법도 지도학습 기반의 분류 기법을 사용하고 있어서 대량의 학습 데이터가 필요하였다. 이에 본 연구에서는 분류의 기준이 되는 분류사전을 이용한 비지도 학습 기반의 문서 자동분류 방법을 제안하였다. 이를 위해서는 학습 데이터 없이 기사를 분류하기 위한 분류기법이 필요하였으며 문서의 자동분류를 위해 행정부서의 특성이 포함된 사전을 이용하였다.
이에 본 연구에서는 행정기관의 정책 대응성 제고를 위한 빅데이터 시스템에서 뉴스 기사를 해당 행정기관 및 부서별로 자동으로 분류하는 방법을 제안하고자 한다. 이 방법은 정책과정에 영향을 미치는 뉴스 기사의 수집과 분석을 위해서는 행정기관 및 부서의 업무에 적합한 기사를 분류하기 위해 학습 데이터가 필요 없는 방법이다.

가설 설정

이는 부서별 업무를 기준으로 기사의 동일한 주제를 가질 가능이 높기 때문에 이와 같은 방법을 활용하여 간접적인 정확도를 계산하였다. 자동분류 연구의 정확도는 얼마 이상이면 합격이라는 기준이 없다. 기존 기술보다 향상된 성능을 가지도록 개발하는 것이 목적이기 때문에 본 연구에서 새롭게 제안한 방법이 향후 연구의 가능성을 제시하였다는 것에 의미가 있다.

제안 방법

즉, 행정부서의 고유 업무로부터 분류 기준이 되는 특징을 추출하여 분류사전을 생성하고 이 분류사전을 이용하여 학습 데이터 없이 신문기사를 부서별로 자동분류 하는 것이다. 본 연구에서 제안하는 방법은 B시의 행정 부서별로 신문기사를 자동분류하기 위한 과정을 통해 구체적인 방법과 절차를 설명하였다. 사전 생성을 위해 텍스트 마이닝 기법을 이용하여 부서별 업무 특징을 추출하였고 생성된 사전을 활용하여 학습 데이터가 필요 없는 비지도 학습기반으로 신문기사 자동분류를 실시하였다.
본 연구에서 제안하는 연구방법은 실제 지방정부의 행정기관을 대상으로 기사 자동분류를 실험하기 위해 B시의 행정부서를 대상으로 신문기사를 분류하였다. B시는 광역지자체로 시에는 수많은 행정부서 및 산하기관을 가지고 있지만 본 연구에서는 시청 내 실국본부급 부서로 한정하였으며, 신문기사 1년 치를 분류하였다.
새로운 방법으로는 기존의 비지도학습에 준지도학습의 방법을 가미하거나 분류 기준 또는 규칙을 제시하는 방법을 사용하고 있다. 본 연구에서도 분류의 기준이 되는 분류사전을 활용하여 레이블이 없는 기사를 비지도학습으로 범주화 할 수 있는 방법을 제안한다
본 연구에서 제안하는 방법은 B시의 행정 부서별로 신문기사를 자동분류하기 위한 과정을 통해 구체적인 방법과 절차를 설명하였다. 사전 생성을 위해 텍스트 마이닝 기법을 이용하여 부서별 업무 특징을 추출하였고 생성된 사전을 활용하여 학습 데이터가 필요 없는 비지도 학습기반으로 신문기사 자동분류를 실시하였다.
이번 연구에서 실험한 자동분류기는 하나의 신문기사를 하나의 부서로 할당하게 하였다. 실제로 어떠한 기사는 2개 이상의 부서와 연관된 기사가 있을 수 있으며 해당 부서 모두에게 전달해야 하는 경우가 있을 수 있다.
이를 위해서는 학습 데이터 없이 기사를 분류하기 위한 분류기법이 필요하였으며 문서의 자동분류를 위해 행정부서의 특성이 포함된 사전을 이용하였다. 행정부서의 특성이 포함된 사전은 부서별 업무를 Word2Vec로 분석해 특성을 추출하였고 신문기사를 토픽모델링으로 분석해 나온 토픽 200개로부터 부서와 연관된 특성을 추출한 결과를 이용하여 생성하였다. 이렇게 도출한 부서별 특성을 사전으로 활용하여 신문기사를 행정부서별로 분류한 결과는 학습시 90% 이상의 정확도를 보였으며, 실제 분류에서는 71%의 정확도를 나타내었다.

대상 데이터

본 연구에서 제안하는 연구방법은 실제 지방정부의 행정기관을 대상으로 기사 자동분류를 실험하기 위해 B시의 행정부서를 대상으로 신문기사를 분류하였다. B시는 광역지자체로 시에는 수많은 행정부서 및 산하기관을 가지고 있지만 본 연구에서는 시청 내 실국본부급 부서로 한정하였으며, 신문기사 1년 치를 분류하였다.
앞서 생성한 분류사전을 활용하여 뉴스 기사를 분류하고 정확도를 검증하였다. 검증을 위한 신문기사는 특성 분석에 사용되지 않은 1개 중앙지 1년간의 기사 41,275개를 사용하였다. 분류는 비지도학습을 기반으로 행정부서와 기사의 특성을 반영하여 도출된 사전의 키워드에 가중치를 적용하여 기사를 분류하였다.
업무분장에는 구체적으로 나타나지 않지만 신문에서 다루고 있는 내용을 파악하기 위해 업무와 연관 있는 기사에 사용되는 업무 특징을 파악하는 것이다. 신문기사의 특징을 분석하기 위해 중앙지 1개와 해당 지역신문 1개의 정치, 경제, 사회 분야의 기사 6개월 치 42,000여 건을 수집한 후, 텍스트 마이닝을 이용하여 특징을 추출하였다. 수집된 기사는 형태소 분석을 통해 명사를 추출하였고 대명사, 숫자, 1글자 단어 등 불용어를 제거하였다.
행정부서별 특징을 파악하기 위해 B시 홈페이지에 게재된 실국본부에 소속된 직원의 업무를 수집하여 부서별 업무 데이터를 확보하였다. 부서 업무의 특징을 추출하기 위해 Word2Vec 기법을 활용하였다.

데이터처리

본 연구의 자동분류 실험에 사용된 신문기사에는 레이블이 없기 때문에 기사가 해당 부서로 정확히 분류되었는지 확인하기 어려우며 전체를 수작업으로 검토하는 것도 무리가 있다. 이에 따라 분류의 정확도를 간접적으로 측정하기 위해 비지도학습 기반의 대표적인 군집화 방법인 LDA(Latent Dirichlet Allocation) 결과와 비교하였다. LDA는 문서를 유사한 주제별로 그룹화하는 성능이 우수한 방법이므로 자동분류로 분류된 기사가 부서별로 유사한 주제로 모였는지 비교할 수 있다.
이렇게 표현된 단어의 벡터는 비슷한 의미를 가진 단어를 찾아내는데 활용할 수 있다. 이에 본 연구에서도 Word2Vec를 이용해 부서별 업무에 등장하는 단어들을 벡터로 얻은 결과를 통해 유사도를 분석하여 대표 업무의 단어를 추출하였다.
분류는 비지도학습을 기반으로 행정부서와 기사의 특성을 반영하여 도출된 사전의 키워드에 가중치를 적용하여 기사를 분류하였다. 자동분류기는 파이썬을 이용하였으며 기사를 전처리하여 TF-IDF와 Word2Vec를 이용하여 가중치를 계산하여 기사를 행정 부서별 분류하였다. 앞서 제외한 정치, 북한 관련 기사는 해당 부서가 없는 것으로 처리되도록 하였다.

이론/모형

핵심주제어를 도출하기 위해 빈도 분석을 실시하여 상위 100개의 단어를 추출하였다. 또한 기사의 주요 주제를 추출하기 위해 LDA(Latent Dirichlet Allocation) 토픽모델링을 활용하여 기사를 주제별로 군집화 하였다. 토픽모델링은 이슈 토픽을 분석하기 위해 문서 집합의 자주 등장하는 단어로부터 잠재되어 있는 주제를 발견하는 방법이며 비지도 학습의 대표적 군집화 기법이기도 하다.
행정부서별 특징을 파악하기 위해 B시 홈페이지에 게재된 실국본부에 소속된 직원의 업무를 수집하여 부서별 업무 데이터를 확보하였다. 부서 업무의 특징을 추출하기 위해 Word2Vec 기법을 활용하였다. Word2Vec는 인공신경망을 활용하여 대량의 텍스트 데이터를 단어의 의미와 구문의 정보를 벡터로 효율적으로 표현할 수 있는 방법이다[4].

성능/효과

행정부서의 특성이 포함된 사전은 부서별 업무를 Word2Vec로 분석해 특성을 추출하였고 신문기사를 토픽모델링으로 분석해 나온 토픽 200개로부터 부서와 연관된 특성을 추출한 결과를 이용하여 생성하였다. 이렇게 도출한 부서별 특성을 사전으로 활용하여 신문기사를 행정부서별로 분류한 결과는 학습시 90% 이상의 정확도를 보였으며, 실제 분류에서는 71%의 정확도를 나타내었다.

후속연구

최근 사용되는 인공신경망과 딥러닝 기법은 보다 정확한 결과를 보여주지만 더욱 많은 학습 데이터를 요구하기 때문에 이러한 기법을 사용하기 위해 학습 데이터의 확보가 더욱 중요해지고 있다. 지도학습은 데이터에 레이블를 작성하기 위해 많은 시간과 비용이 소요되기 때문에 이를 해결할 수 있는 비지도학습 기반의 자동분류에 대한 연구가 더욱 요구된다.
실제로 어떠한 기사는 2개 이상의 부서와 연관된 기사가 있을 수 있으며 해당 부서 모두에게 전달해야 하는 경우가 있을 수 있다. 향후 연구에서는 일정 수준 이상의 연관성을 가지는 기사에 해당 부서들에게 동시에 할당할 수 있는 기준을 마련하고 기술적 보완이 필요한 것으로 보인다.

질의응답

핵심어	질문	논문에서 추출한 답변
	빅데이터는 어떻게 나뉘는가?	행정기관에서 빅데이터를 활용하여 정책 대응성을 높이기 위한 연구가 다양하게 이루어지고 있다. 이때 사용되는 데이터는 통계자료와 같이 수치나 일정한 형태를 갖춘 정형 데이터와 텍스트, 이미지, 영상 등과 같이 일정한 형식이 없는 비정형 데이터로 나눌 수 있다. 이중 비정형 데이터는 전체 데이터의 80%를 차지하고 있으며 온라인을 통해 증가 폭이 급격히 커지고 있지만 정형 데이터에 비해 아직 연구가 부족한 실정이다.
	문서 자동분류는 일반적으로 어떻게 나뉘는가?	문서 자동분류는 컴퓨터를 이용하여 유사한 문서를 같은 집단으로 나누는 기법이다[2]. 문서 자동분류는 일반적으로 분류(classification) 기법을 이용하는 방법과 군집화(clustering)를 이용하는 방법으로 나누어진다. 분류는 사전에 정의된 범주에 따라 문서를 배치하는 방법이고 군집화는 사전 정의된 범주 없이 유사한 문서를 집단화하는 방법이다[3].
	문서 자동분류란 무엇인가?	문서 자동분류는 컴퓨터를 이용하여 유사한 문서를 같은 집단으로 나누는 기법이다[2]. 문서 자동분류는 일반적으로 분류(classification) 기법을 이용하는 방법과 군집화(clustering)를 이용하는 방법으로 나누어진다.

참고문헌 (5)

T. Kurtoglu, I. Y. Tumer, D. C. Jensen, "A functional failure reasoning methodology for evaluation of conceptual system architecture", Research in Engineering Design, Vol. 21, No. 4, pp. 209-234, Oct. 2010. DOI: http://doi.org/10.1007/s00163-010-0086-1

상세보기
S. G. Hong, H. J. Kim, N. R. Kim, "Development of a Co-creation Model for the Social Problem Resolution", Information, Vol. 19, NO.8, pp. 3395-3400, Aug. 2016.
J. S. Kim, Y. J. Kim, H. J. Mun, Y. T. Woo, " A Feature Selection Technique for an Efficient Document Automatic Classification", Journal of Information Technology Applications & Management, Vol. 8, No. 1, pp. 117-128, Jul. 2001.
D. Koller, M. Sahami, "Hierarchically Classifying Documents Using Very Few Words", Proceedings of the Fourteenth International Conference on Machine Learning, ICML 97, pp. 170-178, Jul. 1997.
J. Y Jeong, K. H. Mo, S. W. Seo, C. Y. Kim, H. D. Kim, P. S. Kang, "Unsupervised Document Multi-Category Weight Extraction based on Word Embedding and Word Network Analysis : A Case Study on Mobile Phone Reviews", Journal of the Korean Institute of Industrial Engineers, Vol. 44, No. 6, pp. 442-451, Dec. 2018.

상세보기

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

비지도학습 기반의 행정부서별 신문기사 자동분류 연구
A Study on Automatic Classification of Newspaper Articles Based on Unsupervised Learning by Departments 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

표/그림 (5)

표/그림 (5)

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (5)

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

비지도학습 기반의 행정부서별 신문기사 자동분류 연구 A Study on Automatic Classification of Newspaper Articles Based on Unsupervised Learning by Departments 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

표/그림 (5) 모든 표/그림 보기

표/그림 (5) 슬라이드로 보기

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (5)

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

비지도학습 기반의 행정부서별 신문기사 자동분류 연구
A Study on Automatic Classification of Newspaper Articles Based on Unsupervised Learning by Departments 원문보기

초록
AI-Helper

표/그림 (5)

표/그림 (5)

AI 본문요약
AI-Helper