[논문]민원 분석을 위한 텍스트 마이닝 기법 연구: 계층적 연관성 분석

김현종; 이태헌; 유승의; 김나랑

doi:10.9723/jksiis.2018.23.3.013

민원 분석을 위한 텍스트 마이닝 기법 연구: 계층적 연관성 분석
A Study on Text Mining Methods to Analyze Civil Complaints: Structured Association Analysis 원문보기

한국산업정보학회논문지 = Journal of the Korea Industrial Information Systems Research, v.23 no.3, 2018년, pp.13 - 24

김현종 (동아대학교 경영정보학과) , 이태헌 (동아대학교 산학협력단) , 유승의 (동아대학교 경영정보학과) , 김나랑 (동아대학교 경영정보학과)

초록
AI-Helper

정부 및 공공기관에 있어 시민의 직접적인 요구사항이 담겨 있는 민원은 정책 개발을 위한 중요한 데이터로 활용이 가능하다. 그러나 민원 데이터는 비정형 텍스트로 작성되어 있는 특성으로 인해 일반적인 텍스트 마이닝 기법으로는 시민의 요구사항을 정확히 도출하기 어려웠다. 이에 본 연구에서는 민원 데이터 분석을 위한 텍스트 마이닝 기법을 개선하여, 시민의 요구사항을 도출할 수 있는 방법을 제시하고자 하였다. 새로운 텍스트 마이닝 기법은 공기어구조맵의 원리에 착안하여 연관성 분석을 2단계로 실시하여 핵심주제어를 기반으로 1차 연관 단어 와 2차 연관 단어로 구조화하였다. 분석을 위해 2016년 1년간 부산시 민원게시판에 올라온 3004건을 활용하였다. 분석 결과는 빈도수와 핵심주제어를 가지고 연관성 분석만으로는 찾을 수 없었던 민원 상의 문제를 본연구에서 제시한 계층적 연관성 분석을 이용하여 시민의 요구사항을 더욱 정확하게 파악할 수 있었다. 본 연구는 민원 데이터에서 시민의 요구사항을 도출하기 용이한 방법을 제안하였다는 학문적 기여점이 있으며, 행정기관에서 민원 데이터를 통해 정책 개발에 활용할 수 있다는 실무적 기여점이 있다.

Abstract ▼ AI-Helper

For government and public institutions, civil complaints containing direct requirements of citizens can be utilized as important data in developing policies. However, it is difficult to draw accurate requirements using text mining methods since the nature of the complaint text is unstructured. In this study, a new method is proposed that draws the exact requirements of citizens, improving the previous text mining in analyzing the data of civil complaints. The new text-mining method is based on the principle of Co-Occurrences Structure Map, and it is structured by two-step association analysis, so that it consists of the first-order related word and a second-order related word based on the core subject word. For the analysis, 3,004 cases posted on the electronic bulletin board of Busan City for the year 2016 are used. This study's academic contribution suggests a method deriving the requirements of citizens from the civil affairs data. As a practical contribution, it also enables policy development using civil service data.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 연구는 비정형 텍스트 분석에서 주로 사용되는 텍스트 마이닝 방법인 빈도 분석과 연관성 분석만으로는 분석 결과에서 내용을 파악하기 힘든 점을 개선하기 위해 연관성 분석을 여러 단계를 걸쳐 계층적인 구조로 연관 단어 추출하는 방법을 제시하고 있다, 이 방법을 통해 일반적인 텍스트 마이닝 방법에서 빈도수가 적거나 핵심주제어와의 연관성이 낮아 발견하기 어려웠던 민원의 원인과 시민의 요구사항을 추출할 수 있다. 이와 같이 추출된 원인과 시민의 요구사항 통해 사회의 문제점과 정책 과제를 구체화시킬 수 있다.
본 연구는 텍스트 마이닝을 활용하여 전자민원 데이터를 분석하고 정책을 도출하기 위한 텍스트 마이닝 의 새로운 방법론을 제안하고 있다. 기존 연구에서 주로 사용되던 빈도 분석과 연관성 분석 방법을 개선하여 민원에서 시민의 요구사항을 파악하고 정책 개발에 필요한 의제를 도출하였다.
본 연구에서는 민원에서 다루어지는 주요 키워드를 분석하기 위해 데이터 전처리 과정에서 추출한 명사 단어를 이용하여 핵심 주제 분석을 실시하였다. 핵심 주제 분석은 일반적인 빈도 분석과 TF-IDF((Term Frequency Inverse Document Frequency) 분석을 활용하였다.
텍스트 마이닝은 문자(text) 기반의 데이터에서 새로운 정보를 찾기 위한 방법이다. 빅데이터 분석 기법 중 인터넷 및 소셜 미디어 등에서 발생하는 비정형 텍스트 데이터를 자연어 처리 및 문서 처리 기술을 활용하여 가치 있는 정보를 추출하는 것을 목적으로 한다. 텍스트 마이닝은 아래 Table 1과 같이 다양한 방법들이 있다.
이에 본 연구는 텍스트 마이닝 기법을 개선하여 전자민원 데이터의 새로운 분석 방법을 제안하고자 한다. 이 방법을 사용하여 부산시 전자민원 데이터에 대한 텍스트 마이닝의 연관성 분석을 2단계에 걸쳐 계층적으로 분석하였으며, 분석 결과를 통해 새로운 방법론에 대한 검증과 시민의 요구사항을 도출하고자 한다.
이에 본 연구는 텍스트 마이닝 기법을 개선하여 전자민원 데이터의 새로운 분석 방법을 제안하고자 한다. 이 방법을 사용하여 부산시 전자민원 데이터에 대한 텍스트 마이닝의 연관성 분석을 2단계에 걸쳐 계층적으로 분석하였으며, 분석 결과를 통해 새로운 방법론에 대한 검증과 시민의 요구사항을 도출하고자 한다.
전자민원은 전자정부를 기반으로 민원행정서비스를 기관에 직접 방문하지 않고도 업무를 온라인 방식으로 처리하는 방식이다[2]. 정부 2.0의 등장과 전자정부법 등을 통해 온라인 방식의 전자민원시스템이 마련되어 민원 처리의 효율성 향상과 양방향 의사소통체계를 확보하고자 하였다. 민원처리의 기본방침은 행정차치부 등의 법령으로 정해져 있으며 국민신문고와 같은 시스템의 운영 및 관리는 국민권위위원회에서 관장하고 있다.

제안 방법

계층적 연관성 분석 과정은 데이터 수집 및 전처리와 핵심주제어 분석은 일반적인 텍스트 마이닝 기법과 동일하다. 그러나 핵심 주제어 분석에서 빈도 분석과 함께 TF-IDF 분석을 추가하여 문서 내에서 단어 중요도가 높은 단어를 핵심 주제어 선정에 활용하도록 하였다. 연관 분석은 핵심 주제어를 1차 연관성 분석하여 추출한 연관단어에 대해 2차 연관성 분석을 실시하여 2단계에 걸쳐 연관 단어를 추출한다.
본 연구는 텍스트 마이닝을 활용하여 전자민원 데이터를 분석하고 정책을 도출하기 위한 텍스트 마이닝 의 새로운 방법론을 제안하고 있다. 기존 연구에서 주로 사용되던 빈도 분석과 연관성 분석 방법을 개선하여 민원에서 시민의 요구사항을 파악하고 정책 개발에 필요한 의제를 도출하였다. 특히 텍스트 마이닝의 연관성 분석을 2 단계로 실시하여 계층적인 구조의 연관 단어를 추출하고 이를 통해 민원의 요구사항을 파악하였다.
다음으로 TF-IDF 분석을 통해 개별 문서에서 중요도가 높은 단어를 분석하였다. TF-IDF 분석 결과는 Table 3과 같다.
그러나 핵심 주제어 분석에서 빈도 분석과 함께 TF-IDF 분석을 추가하여 문서 내에서 단어 중요도가 높은 단어를 핵심 주제어 선정에 활용하도록 하였다. 연관 분석은 핵심 주제어를 1차 연관성 분석하여 추출한 연관단어에 대해 2차 연관성 분석을 실시하여 2단계에 걸쳐 연관 단어를 추출한다. 이를 통해 추출된 1, 2단계의 연관 단어를 핵심 주제어 – 1단계 연관 단어 – 2단계 연관 단어로 계층화 하는 것이다.
이와 같이 일반적인 텍스트 마이닝의 분석 방법만으로는 전체 민원 데이터에서 시민의 요구사항을 파악하기가 어렵다. 이를 개선하기 위한 방법으로 연관성 분석을 여러 단계로 실시하여 구조화 하는 방법을 구상하였다. 관련 연구로 정하영외[4]는 공기어구조맵(Co-Occurrences Structure Map)을 작성하는 방법으로 주요 키워드와 동시에 출현하는 제1층 공기어를 추출하고, 이 공기어의 제2층 공기어를 다시 추출하여 주요 키워드에 대한 공기어구조맵을 작성함으로써 핵심 주제어에 대한 연관 단어를 폭넓게 구조화 할 수 있다고 주장하였다.
그러나 전체 문서에서 특정 단어가 많이 등장하는 것만으로 중요도가 높다고 할 수는 없다. 이를 보완하기 위해 TF-IDF 분석을 실시하였다. TF-IDF 분석은 문서 중에 단어의 중요성을 판정하는 방법이다[12].
문서의 맥락적 의미를 찾기 위해서는 주요 단어들의 구조적 형태와 연결 관계를 파악하여야 한다. 이를 위해 단어 간의 상호 관계를 분석하는 연관성 분석을 실시한다. 연관성 분석은 동시에 출현하는 단어의 특정 순서로 발생하는 확률로 나타내며 이를 통해 단어의 의미적 접근성 및 상호의존성을 발견할 수 있다.
이를 위해 선행연구를 통해 기존 텍스트 마이닝을 개선하기 위한 방안을 모색하였으며, 이를 검증하기 위해 부산시의 2016년 전자민원 3004건에 대하여 핵심주제어를 분석하고 이중 가장 높은 빈도를 나타내는 ‘버스’의 연관 단어 10개에 대해 2차 연관성 분석을 실시하였다.
이후 핵심 주제어를 분석하는 경우가 많고 이때 주로 등장하는 단어의 빈도를 기준으로 주요 키워드를 추출하고 키워드의 특성을 정의하거나 분석한다. 이어서 연관성 분석, 이슈 토픽 분석, 감성 분석 텍스트 마이닝의 여러 방법 등을 연구 목적에 맞게 선택하여 실시하게 된다.
이에 민원 데이터를 통해 시민의 요구사항을 더욱 정확하고 용이하게 분석하기 위한 방법으로 핵심 주제어의 연관성 분석을 계층적으로 구조화하는 Fig. 2와 같은 과정의 방법을 고안하였다.
기존 연구에서 주로 사용되던 빈도 분석과 연관성 분석 방법을 개선하여 민원에서 시민의 요구사항을 파악하고 정책 개발에 필요한 의제를 도출하였다. 특히 텍스트 마이닝의 연관성 분석을 2 단계로 실시하여 계층적인 구조의 연관 단어를 추출하고 이를 통해 민원의 요구사항을 파악하였다. 이를 위해 선행연구를 통해 기존 텍스트 마이닝을 개선하기 위한 방안을 모색하였으며, 이를 검증하기 위해 부산시의 2016년 전자민원 3004건에 대하여 핵심주제어를 분석하고 이중 가장 높은 빈도를 나타내는 ‘버스’의 연관 단어 10개에 대해 2차 연관성 분석을 실시하였다.
핵심 주제어의 1차 연관 단어를 2단계 연관성 분석을 실시하여 2차 연관 단어를 추출하였다. 이를 통해 핵심 주제어에 연관되는 단어들의 연결을 폭 넓게 조사할 수 있으며 민원에서 제기하는 내용에 가까운 단어의 배열을 찾을 수 있다.

대상 데이터

본 연구에서 부산시 홈페이지 민원 게시판의 데이터를 이용하였다. 이 민원 게시판에는 연 1만 건 이상의 민원이 접수되고 있으며, 민원 신청자에 선택에 따라 공개 또는 비공개로 등록이 되고 있다.
이에 본 연구에서는 민원 게시물 중에서 수집 가능하며, 공공적인 부분에 관한 민원이 많은 공개 게시물을 수집하였다. 수집된 민원은 2016년 1년간 등록된 3004건의 데이터이다.
비공개 게시물의 경우 시 담당자 외에 열람이 되지 않기 때문 수집할 수 없었으며 개인적인 민원이 주로 이루어지므로 수집 대상에서 제외하였다. 이에 본 연구에서는 민원 게시물 중에서 수집 가능하며, 공공적인 부분에 관한 민원이 많은 공개 게시물을 수집하였다. 수집된 민원은 2016년 1년간 등록된 3004건의 데이터이다.
Table 4에서 나타난 단어 중 상당수는 교통과 관련되어 있으며 그중에서도 버스와 관련된 것으로 추정되는 ‘정류장’, ‘노선’ 등의 단어는 제외하고 핵심 주제어를 선정하였다. 핵심 주제어는 버스, 불편, 택시, 차량, 단속, 도로, 아파트, 공사, 주차, 설치 등 10가지를 선정하였다.

데이터처리

수집된 민원 데이터는 자연어로 작성된 비정형 텍스트이기 때문에 분석을 위해 자연어처리가 필요하다. 먼저 문서형태의 자료를 품사 단위로 구분하여 필요한 데이터를 추출하는 전처리를 위해 통계 프로그램 R의 KoNLP 패키지를 이용하여 형태소 분석을 실시하여 민원 내용에서 명사 단위로 키워드를 추출하였다.
연관성 분석을 위해 통계 프로그램 R의 tm 패키지 패키지를 사용하였다. 핵심 주제어로 선정된 단어로 연관성 분석을 실시한 결과는 아래 Table 5와 같다.

이론/모형

본 연구에서는 민원에서 다루어지는 주요 키워드를 분석하기 위해 데이터 전처리 과정에서 추출한 명사 단어를 이용하여 핵심 주제 분석을 실시하였다. 핵심 주제 분석은 일반적인 빈도 분석과 TF-IDF((Term Frequency Inverse Document Frequency) 분석을 활용하였다. 빈도 분석은 전체 문서에서 등장하는 빈도로 단어의 중요성을 파악할 수 있다.

성능/효과

TF-IDF 분석 결과 ‘버스’, ‘정류장’, ‘노선’, ‘택시’, ‘차량’ 등과 같이 교통과 관련된 단어들이 높은 값을 보였다.
이를 위해 선행연구를 통해 기존 텍스트 마이닝을 개선하기 위한 방안을 모색하였으며, 이를 검증하기 위해 부산시의 2016년 전자민원 3004건에 대하여 핵심주제어를 분석하고 이중 가장 높은 빈도를 나타내는 ‘버스’의 연관 단어 10개에 대해 2차 연관성 분석을 실시하였다. 그 결과 핵심주제어-1차 연관 단어-2차 연관 단어의 연결을 통해 시민들의 버스와 관련한 요구사항을 파악할 수 있었다.
그리고 ‘택시’, ‘도로’, ‘간격’, ‘교통’, ‘주차’, ‘출퇴근’, ‘서류’, ‘차선’ 등의 단어는 TF-IDF 순위가 빈도에 비해 높은 단어로 빈도수는 적은 편이나 문서 내에서 중요도가 높은 단어인 것으로 나타났다.
또한 ‘배차’와 ‘간격’도 “배차 간격에 문제가 있다”고 하는 단편적인 문제 외에 ‘증차’에 대한 요구사항과 ‘감차’라는 원인을 비롯하여 ‘출퇴근’, ‘교통여건’에 맞는 배차 간격 조정을 요구한다는 것을 파악할 수 있었다.
요약하면, 기존의 민원 데이터를 비롯한 비정형 텍스트 분석에서 주로 빈도를 이용하여 핵심주제어를 선정하기 때문에 빈도가 낮은 단어나 핵심 주제어와 연관성이 낮은 단어는 발견되지 않는 문제가 있었다. 이러한 문제는 본 연구에서 실시한 분석 결과와 같이 핵심 주제어에서부터 1, 2차 연관어의 각 단어를 이어 주는 것만으로도 시민의 요구사항이 어렵지 않게 파악되어 질 수 있다.

후속연구

본 연구에서 제시한 계층적 연관성 분석 방법은 과거 연구된 적이 없는 방법으로 정하영 외[4]의 공기어구조맵에 착안하여 분석함으로써 의미 있는 확실한 이론적 근거가 부족하다는 한계점이 있다. 향후 연구에서는 다년간의 자료와 전체 민원 데이터를 대상으로 여러 분야에 대한 요구사항을 분석하여 민원의 시계열적 특성 및 구조적 특성을 파악할 수 있는 연구와 함께 2단계 계층구종의 타당성을 뒷받침할 수 있는 이론적 연구가 필요하다.
학문적 기여점으로 본 연구에서 제시된 텍스트 마이닝의 개선된 방법과 절차를 통해 비정형 텍스트의 분석 결과를 향상시킬 수 있으며, 텍스트 마이닝을 비롯한 민원 분석 및 행정 분야의 후속연구를 위한 자료로 활용할 수 있다는 점을 들 수 있다. 또한 행정기관에서 민원 데이터의 분석을 위한 분석 기법으로 활용하여 보다 쉽게 민원 내용을 파악하고 이를 통해 정책과제의 도출과 방안을 제안할 수 있다는 실무적인 기여점이 있다.
본 연구에서 제시한 계층적 연관성 분석 방법은 과거 연구된 적이 없는 방법으로 정하영 외[4]의 공기어구조맵에 착안하여 분석함으로써 의미 있는 확실한 이론적 근거가 부족하다는 한계점이 있다. 향후 연구에서는 다년간의 자료와 전체 민원 데이터를 대상으로 여러 분야에 대한 요구사항을 분석하여 민원의 시계열적 특성 및 구조적 특성을 파악할 수 있는 연구와 함께 2단계 계층구종의 타당성을 뒷받침할 수 있는 이론적 연구가 필요하다.

질의응답

핵심어	질문	논문에서 추출한 답변
	민원이란?	민원은 ‘국민이 행정기관에 대하여 처분 등 특정한 행위를 요구하는 것’으로 정의된다[1]. 즉, 민원은 국민이 행정기관에 답변 및 행위를 요청하는 의사표현을 통칭하는 개념으로 국민이 간편하게 이용할 수 있는 행정구제 수단이다.
	전자민원은 어떠한 방식이라 할 수 있는가?	전자민원은 전자정부를 기반으로 민원행정서비스를 기관에 직접 방문하지 않고도 업무를 온라인 방식으로 처리하는 방식이다[2]. 정부 2.
	텍스트 마이닝에서 이슈 토픽 분석은 무엇인가?	연관성 분석은 장바구니 분석 등 마케팅을 비롯한 다양한 분야에서 활용되고 있다[6]. 이슈 토픽 분석은 문서 집합에서 자주 등장하는 유사한 단어들을 통해 잠재된 주제를 발견하는 방법이다. 소셜 네트워크 분석은 전일욱 외[7]의 연구와 같이 텍스트 마이닝 기법은 아니지만 텍스트 마이닝 기법으로 추출된 단어들을 네트워크로 구성하여 각 단어들의 연결과 연관성을 수치화하고 시각화해 주는 방법이다[8].

참고문헌 (12)

e-Peple, https://www.epeople.go.kr/jsp/user/pc/cvreq/UPcCvreqInfo.paid, Accessed 23 March 2018.
Park, G. G. and Jung J. H., “A Study on the Determining Factors of the On-Line Civil Administrative Service into Civil Satisfaction,” The Korean Journal of Local Government Studies, Vol. 16, No. 4, pp. 359-380, 2012.
Chi, W. J., Sim, J. S., Nam, S. W. and Her, J. S., "A Study on Development Method of Civil Data Analysis based on Big Data," POP Consulting, 2015.
Jeong, H. Y., Lee, T. H., Hong, S. G., “A Copus Analysis of Electronic Petitions For Improving the Responsiveness of Public Services: Forcusing on Busan Petiton,” The Korean Journal of Local Government Studies, Vol. 21, No. 1, pp. 423-436, 2017.

상세보기
Cho, T. I., "Spatiotemporal Characteristics Analysis of Complaints on Officially Assessed Land Price by Big Data Mining," Graduate School of Incheon National University, 2015.
Huyn, Y. J., Kim, J. S., Jeong, J. W., Yun, S. M. and Lee, M. S., “Text Mining on Internet-news Regarding Climate Change and Food,” Journal of the Korean Data And Information Science Sociaty, Vol. 26, No. 2, pp. 419-427, 2015.

원문보기 상세보기
Jeon, I. W., Jun, O. J., Choi, M. Y., Kim, H. S. and Chung, J. H., “Characteristics of Civil Complaints to a Local Government based on Social Network Analysis: Focused on Cheonan City E-Bulletin Board (Allso 365),” Journal of Regional Studies, Vol. 25, No. 2, pp. 117-141, 2017.
Park, J. S., Hong, S. G. and Kim, N. R., “A Development Plan for Co-creation-based Smart City through the Trend Analysis of Internet of Things,” Journal of the Korea Society Industrial Information System, Vol. 21, No. 4, pp. 67-78, 2016.

원문보기 상세보기
Lee, J. H. and Lee, H. G., “A Study on Unstructured Text Mining Algorithm through R Programming Based on Data Dictionary,” Journal of the Korea Society Industrial Information System, Vol. 20, No. 2, pp. 113-124, 2015.

원문보기 상세보기
Park, J. S., Hong, S. G. and Kim J. W., “A Study on Science Technology Trend and Prediction Using Topic Modeling,” Journal of the Korea Society Industrial Information System, Vol. 22, No. 4, pp. 19-28, 2017.
Park, J. H. and, Pi, S. Y., “A Study on WT-Algorithm for Effective Reduction of Association Rules,” Journal of the Korea Society Industrial Information System, Vol. 20, No. 5, pp. 61-69, 2015.
Suchman, M. C., “Managing Legitimacy: Strategic and Institutional Approaches,” Academy of Management Review, Vol. 20, No. 3, pp. 571-610, 1995.

상세보기

저자의 다른 논문 :

LOADING...

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증