최근들어 공공 정보화와 함께 정부기관, 지자체 및 다양한 정부산하기관에서 보유하고 있는 데이터를 공개하고 있는 추세이다. 즉, 공공기관이 업무수행의 결과물로 생성 및 수집한 다양한 전자화된 형태의 데이터를 공공데이터포털사이트에서 개방하고 있다. 하지만 이를 사용하는 사용자는 데이터 형식의 이해와 데이터 처리 지식의 부족, 데이터에 대한 접근과 관리의 어려움, 수집 및 저장한 데이터의 이해를 위한 시각화 기술의 부족 등으로 빅데이터의 활용에 제한을 받고 있다. 따라서 본 연구에서는 다양한 공공 사이트에서 제공하는 빅데이터를 데이터셋의 URL 및 API를 사용하여 데이터 포맷에 관계없이 데이터를 수집하며, 수집된 데이터를 XML 구조를 이용하여 재가공하여 데이터베이스화하며, 데이터 융합을 통한 시각화가 가능하도록 하는 공공 빅데이터 수집, 선별 저장 및 시각화 플랫폼을 제안한다.
최근들어 공공 정보화와 함께 정부기관, 지자체 및 다양한 정부산하기관에서 보유하고 있는 데이터를 공개하고 있는 추세이다. 즉, 공공기관이 업무수행의 결과물로 생성 및 수집한 다양한 전자화된 형태의 데이터를 공공데이터 포털사이트에서 개방하고 있다. 하지만 이를 사용하는 사용자는 데이터 형식의 이해와 데이터 처리 지식의 부족, 데이터에 대한 접근과 관리의 어려움, 수집 및 저장한 데이터의 이해를 위한 시각화 기술의 부족 등으로 빅데이터의 활용에 제한을 받고 있다. 따라서 본 연구에서는 다양한 공공 사이트에서 제공하는 빅데이터를 데이터셋의 URL 및 API를 사용하여 데이터 포맷에 관계없이 데이터를 수집하며, 수집된 데이터를 XML 구조를 이용하여 재가공하여 데이터베이스화하며, 데이터 융합을 통한 시각화가 가능하도록 하는 공공 빅데이터 수집, 선별 저장 및 시각화 플랫폼을 제안한다.
In recent years, there have been tries to open public data from various government agencies along with publicization of public information for the public interest. In other words, various kinds of electronic data generated and collected by the public institutions as a result of their work are opened...
In recent years, there have been tries to open public data from various government agencies along with publicization of public information for the public interest. In other words, various kinds of electronic data generated and collected by the public institutions as a result of their work are opened in the public portal sites. However, users who use it are limited in their use of big data due to lack of understanding of data format, lack of data processing knowledge, difficulty in accessing and managing data, and lack of visualization data to understand collected and stored data. Therefore, in this study, we propose a big data collection, storing and visualization platform that can collect big data provided by various public sites using data set URL and API regardless of data format, re-process collected data using XML structure.
In recent years, there have been tries to open public data from various government agencies along with publicization of public information for the public interest. In other words, various kinds of electronic data generated and collected by the public institutions as a result of their work are opened in the public portal sites. However, users who use it are limited in their use of big data due to lack of understanding of data format, lack of data processing knowledge, difficulty in accessing and managing data, and lack of visualization data to understand collected and stored data. Therefore, in this study, we propose a big data collection, storing and visualization platform that can collect big data provided by various public sites using data set URL and API regardless of data format, re-process collected data using XML structure.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 연구에서는 공공기관에서 제공하는 데이터를 수집하고 저장하며 이를 재가공하고 시각화하는 자동화 플랫폼을 제안하였다. 제안한 플랫폼은 다음과 같은 분야에서의 효과를 기대할 수 있을 것이다.
공공 데이터의 종류는 과학기술, 보건의료, 사회복지, 공공행정, 재정금융 등 다양하며 API 또는 파일 형태로 지원된다. 한편으로 기업과 개인은 다양한 방법으로 빅데이터를 수집, 가공하여 다양한 목적에 활용하고자 한다. 하지만, 다음과 같은 몇 가지 문제점으로 인해 공공 빅데이터는 그 활용이 제한을 받고 있다.
가설 설정
둘째, 데이터에 대한 접근과 관리의 어려움이다. 현재 각 기관 및 지방자치단체 별로 데이터를 제공하고 있으나, 데이터 접근을 위해서는 모든 사이트별로 회원등록 및 로그인 절차가 필요하며, 수집된 데이터의 관리를 위해서는 데이터파일의 다운로드 등을 통해 자신의 컴퓨터에 저장하고 이용자 스스로 관리를 하여야 한다.
제안 방법
따라서 본 연구에서는 기존의 시스템과는 다른 다음과 같은 특징을 가지는 빅데이터 수집 및 저장 그리고 시각화 플랫폼을 제안한다. 첫째, API를 이용하여 공공 데이터를 자동으로 수집하고 원하는 항목을 골라 데이터베이스화할 수 있다.
따라서, 이와 같은 문제점을 해결하기 위해 본 연구에서는 다양한 공공 사이트에서 제공하는 빅데이터를 데이터셋의 URL 및 API를 사용하여 데이터 포맷에 관계없이 데이터를 수집하며, 수집된 데이터를 XML 구조를 이용하여 재가공하여 데이터베이스화하며, 데이터 융합을 통한 시각화가 가능하도록 하는, 공공 빅데이터 수집, 선별 저장 및 시각화 플랫폼을 제안한다.
사용자가 공공 데이터를 제공하는 사이트(Target Data Location)의 URL과 Key를 이용하여 데이터를 수집(Data Collection)하는 단계이다. 이를 위하여 제안된 플랫폼에서는 사용자가 데이터의 수집과 연계를 위해 공공데이터에 대한 정보를 카테고리 별로 등록하여 데이터 리스트를 한눈에 볼 수 있도록 처리하며, URL, Key, 파일명, 제목 등의 체크를 통해 수집된 데이터의 중복성을 배제하도록 한다. 기관별로 등록된 Key는 추후의 업데이터된 데이터의 추출에 이용될 수 있다.
제시된 플랫폼을 기반으로 빅데이터를 수집하고 저장하며 이를 재가공 및 시각화하는 빅데이터 처리 시스템이 개발된다. 구현된 시스템에 사용된 빅데이터는 기상청으로부터 받은 기상 빅데이터, 건강보험심사원으로부터 받은 보건 빅데이터, 교육부에서 제공하는 교육 빅데이터 등이다.
이를 위해서는 가치있는 인포그래픽을 생성하기 위해 그래프/차트/지도 등의 시각화 자료가 만들어 진다. 제안된 플랫폼에서는 데이터 시각화를 위해 6종(bar, line, area, step, pie, donut 등)의 그래프/차트를 지원하도록 한다.
제안된 플랫폼에서는 안정적인 데이터의 저장과 대용량 빅데이터의 빠른 처리 속도를 위해 하둡(Hadoop)기반의 분산병렬 시스템을 지원하도록 하며, NoSQL을 활용하여 데이터의 확장성과 빠른 응답을 지원하도록 한다. 그림 4는 수집된 빅데이터를 저장하고 처리하기 위한 하둡기반의 분산병렬 시스템을 보여준다.
대상 데이터
제시된 플랫폼을 기반으로 빅데이터를 수집하고 저장하며 이를 재가공 및 시각화하는 빅데이터 처리 시스템이 개발된다. 구현된 시스템에 사용된 빅데이터는 기상청으로부터 받은 기상 빅데이터, 건강보험심사원으로부터 받은 보건 빅데이터, 교육부에서 제공하는 교육 빅데이터 등이다. 보건 그림 5는 공공 빅데이터의 자동 수집을 위하여 수집원 기관의 URL과 API KEY를 등록하는 화면이다.
성능/효과
둘째, 기술우위 확보 및 정보산업 발전에 기여할 수 있다. 빅데이터 구축 및 정보제공 자동화 플랫폼 구축에 관한 기술을 보급함으로써 대외적인 기술 경쟁력을 확보할 수 있다.
셋째, 이익 창출에 기여할 수 있다. 향후 제안한 플랫폼을 웹기반 또는 앱기반 시스템으로 개발하여 운영하여 이익 창출을 기대할 수 있다.
첫째, 공공의 이익에 기여할 수 있다. 공공데이터를 수집 및 저장하고 이를 고급 정보화하여 다양한 수요자에게 공급함으로써 공공기관의 정책수립, 업무개선, 민간산업의 기술발전, 학계의 연구력 향상 등 다양한 공공의 이익에 기여할 수 있다.
후속연구
개발된 시스템은 변경된 데이터의 자동수집, 가공데이터의 고급화에 한계가 있다. 향후 정보제공기관의 수를 늘리고 변경된 데이터를 자동수집하고, 이를 재가공 및 융합함으로써 다양한 고급화된 시각화 정보를 제공할 수 있도록 할 계획이다.
셋째, 이익 창출에 기여할 수 있다. 향후 제안한 플랫폼을 웹기반 또는 앱기반 시스템으로 개발하여 운영하여 이익 창출을 기대할 수 있다. 또한 기술이전 등을 통해 기술을 확산함으로써 직접 또는 간접적으로 다양한 이익을 창출할 수 있다.
질의응답
핵심어
질문
논문에서 추출한 답변
공공 빅데이터 활용이 제한되는 이유는 무엇인가?
첫째, 데이터 형식의 이해와 데이터 처리 지식의 문제이다. 현재 국내에서는 다양한 기관 즉, 정부, 지방자치단체, 의료분야기관, 농산물기관, 날씨기관 등 다양한 분야에서 XML, EXCEL, CSV, JSON 등 다양한 데이터 형식으로 데이터를 제공하고 있다. 그러나, 데이터 형식의 불일치로 사용자의 이해를 어렵게 하고 있다. 예를 들어 개인의 경우 평범한 EXCEL유형 이외에 XML, JSON 등의 데이터 포맷에 대한 지식과 데이터 처리에 대한 지식이 낮아 데이터 활용에 어려움이 있다.
둘째, 데이터에 대한 접근과 관리의 어려움이다. 현재 각 기관 및 지방자치단체 별로 데이터를 제공하고 있으나, 데이터 접근을 위해서는 모든 사이트별로 회원등록 및 로그인 절차가 필요하며, 수집된 데이터의 관리를 위해서는 데이터파일의 다운로드 등을 통해 자신의 컴퓨터에 저장하고 이용자 스스로 관리를 하여야 한다. 또한 데이터의 분석을 위해서는 외부의 SAS등의 통계분석 시스템과 연계해야 하며, 이에 따라 절차와 시간이 매우 소모가 된다.
셋째, 수집 및 저장한 데이터의 시각화 문제이다. 수집된 빅데이터를 적절하게 저장하고 이를 가공하여 업무에 활용하기 위해서는 다양한 형태로의 시각화하는 기술이 필요하다. 시각화된 자료는 사용자에게 보다 직관적인 정보를 제공하기 때문이다. 하지만 대부분의 일반 사용자는 빅데이터의 수집 및 저장과 함께 시각화에 대한 인식과 기술이 부족하다.
마지막으로, 대용량 데이터의 빠른 저장과 검색을 위한 데이터베이스화의 어려움이다. 사용자가 필요로 하는 대용량 데이터의 안정적인 저장과 빠른 검색을 위해서는 파일 형식이 아닌 데이터베이스가 필요하다. 일반인이 인터넷 상에서 수집한 데이터를 손쉽게 데이터베이스화하는 방법이 필요하며, 기존 RDB를 이용할 경우 비정형적인 빅데이터 처리에 어려움이 있으므로 이를 극복할 수 있는 데이터베이스화 방법이 필요하다.
공공 데이터의 종류에는 무엇이 있는가?
공공 데이터의 종류는 과학기술, 보건의료, 사회복지, 공공행정, 재정금융 등 다양하며 API 또는 파일 형태로 지원된다. 한편으로 기업과 개인은 다양한 방법으로 빅데이터를 수집, 가공하여 다양한 목적에 활용하고자 한다.
데이터의 저장과 대용량 빅데이터의 빠른 처리를 위해 사용하는 시스템은 무엇인가?
제안된 플랫폼에서는 안정적인 데이터의 저장과 대용량 빅데이터의 빠른 처리 속도를 위해 하둡(Hadoop)기반의 분산병렬 시스템을 지원하도록 하며, NoSQL을 활용하여 데이터의 확장성과 빠른 응답을 지원하도록 한다. 그림 4는 수집된 빅데이터를 저장하고 처리하기 위한 하둡기반의 분산병렬 시스템을 보여준다.
참고문헌 (15)
X. Wu, X. Zhu, D. Wu and W. Ding, "Data mining with big data," IEEE Transactions on Knowledge and Data Engineering, vol. 26, no. 1, pp. 97-107, Jan. 2014.
C. Cheng and C. Zhang, "Data-intensive applications, challenges, techniques and technologies: A survey on Big Data," Information Sciences. vol. 275, pp. 314-347, Aug. 2014.
Y. Kang, K. Kim, M. Han, J. Kim, "A Study on the Business Strategies based on Big Data Analysis," Asia-pacific Journal of Multimedia Services Convergent with Art, Humanities, and Sociology, vol.5, no.5, pp.145-152, 2015.
S. Bang, H. Ha and C. Kim, "A Study on Big Data-based Software Architecture Design for Utilizing Public Open Data," Journal of Advanced Information Technology and Convergence. vol. 13, no. 10, pp. 99-107, Oct. 2015.
Y. Chol, "A Study on the Development of Public Big Data Platform Reference Model," Journal of Information Technology and Architecture. vol. 12, no. 4, pp. 495-503, April 2015.
M. Kim and D. Choi, "An Analysis of the Public Data for Making the Ambient Intelligent Service," JOURNAL OF DIGITAL CONVERGENCE, vol. 12, no. 12, pp. 313-321, Dec. 2014.
Y. Moon and J. Jung, "The visualization of application utilizing public data," The Treatise on The Plastic Media. vol. 18, no. 1, pp. 63-76, Jan. 2015.
K. Lee, G. Nam, J. Sim, K. Cho and W. Ryu, "Construction of Knowledge Base for The Utilization of Big Data in Public Domain," Communications of the Korean Institute of Information Scientists and Engineer. vol. 30, no. 6, pp. 40-46, 2012.
S. Ju, J. Jeong and G. Ryu, "Big Data Technology Trends Big Data Visualization and Public Data Visualization Examples," It's Smart Media. vol. 2, no. 3, pp. 37-43, 2013.
J. Lee and G. Oh, "A study of application development case built on public section big data - PET 119 IN SUWON," Journal of The Korea Big Data Service Society. vol. 2, no. 1, pp. 19-24, 2015.
S. Lee and S. Shin, "Design of Health Warning Model on the Basis of CRM by use of Health Big Data," Journal of the Korea Institute of Information and Communication Engineering. vol. 20, no. 8, pp. 1460-1465, 2016.
M. Lee and B. On, "An Example of Public Data Visualization based on the Big Data Approach," Information & communications magazine. vol. 29, no. 11, pp. 36-42, 2012.
S. Lee, J. Jung, G. Cha, G. Son, S. Kim and J. Kim, "Social safety net system through big data analysis of public data," Journal of Satellite, Information and Communications. vol. 10, no. 4, pp. 77-82, 2015.
I. Ha, B. Bak and B. Ahn, "MapReduce functions to analyze sentiment information from social big data," International Journal of Distributed Sensor Networks-Special issue on Advanced Big Data Management and Analytics for Ubiquitous Sensors.vol. 2015. Jan. 2015.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.