[논문]XML구조를 이용한 공공 빅데이터의 선별 저장 및 시각화 방법

백봉현; 하일규

doi:10.6109/jkiice.2017.21.12.2305

초록
AI-Helper

최근들어 공공 정보화와 함께 정부기관, 지자체 및 다양한 정부산하기관에서 보유하고 있는 데이터를 공개하고 있는 추세이다. 즉, 공공기관이 업무수행의 결과물로 생성 및 수집한 다양한 전자화된 형태의 데이터를 공공데이터 포털사이트에서 개방하고 있다. 하지만 이를 사용하는 사용자는 데이터 형식의 이해와 데이터 처리 지식의 부족, 데이터에 대한 접근과 관리의 어려움, 수집 및 저장한 데이터의 이해를 위한 시각화 기술의 부족 등으로 빅데이터의 활용에 제한을 받고 있다. 따라서 본 연구에서는 다양한 공공 사이트에서 제공하는 빅데이터를 데이터셋의 URL 및 API를 사용하여 데이터 포맷에 관계없이 데이터를 수집하며, 수집된 데이터를 XML 구조를 이용하여 재가공하여 데이터베이스화하며, 데이터 융합을 통한 시각화가 가능하도록 하는 공공 빅데이터 수집, 선별 저장 및 시각화 플랫폼을 제안한다.

Abstract ▼ AI-Helper

In recent years, there have been tries to open public data from various government agencies along with publicization of public information for the public interest. In other words, various kinds of electronic data generated and collected by the public institutions as a result of their work are opened...

In recent years, there have been tries to open public data from various government agencies along with publicization of public information for the public interest. In other words, various kinds of electronic data generated and collected by the public institutions as a result of their work are opened in the public portal sites. However, users who use it are limited in their use of big data due to lack of understanding of data format, lack of data processing knowledge, difficulty in accessing and managing data, and lack of visualization data to understand collected and stored data. Therefore, in this study, we propose a big data collection, storing and visualization platform that can collect big data provided by various public sites using data set URL and API regardless of data format, re-process collected data using XML structure.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 연구에서는 공공기관에서 제공하는 데이터를 수집하고 저장하며 이를 재가공하고 시각화하는 자동화 플랫폼을 제안하였다. 제안한 플랫폼은 다음과 같은 분야에서의 효과를 기대할 수 있을 것이다.
공공 데이터의 종류는 과학기술, 보건의료, 사회복지, 공공행정, 재정금융 등 다양하며 API 또는 파일 형태로 지원된다. 한편으로 기업과 개인은 다양한 방법으로 빅데이터를 수집, 가공하여 다양한 목적에 활용하고자 한다. 하지만, 다음과 같은 몇 가지 문제점으로 인해 공공 빅데이터는 그 활용이 제한을 받고 있다.

가설 설정

둘째, 데이터에 대한 접근과 관리의 어려움이다. 현재 각 기관 및 지방자치단체 별로 데이터를 제공하고 있으나, 데이터 접근을 위해서는 모든 사이트별로 회원등록 및 로그인 절차가 필요하며, 수집된 데이터의 관리를 위해서는 데이터파일의 다운로드 등을 통해 자신의 컴퓨터에 저장하고 이용자 스스로 관리를 하여야 한다.

제안 방법

따라서 본 연구에서는 기존의 시스템과는 다른 다음과 같은 특징을 가지는 빅데이터 수집 및 저장 그리고 시각화 플랫폼을 제안한다. 첫째, API를 이용하여 공공 데이터를 자동으로 수집하고 원하는 항목을 골라 데이터베이스화할 수 있다.
따라서, 이와 같은 문제점을 해결하기 위해 본 연구에서는 다양한 공공 사이트에서 제공하는 빅데이터를 데이터셋의 URL 및 API를 사용하여 데이터 포맷에 관계없이 데이터를 수집하며, 수집된 데이터를 XML 구조를 이용하여 재가공하여 데이터베이스화하며, 데이터 융합을 통한 시각화가 가능하도록 하는, 공공 빅데이터 수집, 선별 저장 및 시각화 플랫폼을 제안한다.
사용자가 공공 데이터를 제공하는 사이트(Target Data Location)의 URL과 Key를 이용하여 데이터를 수집(Data Collection)하는 단계이다. 이를 위하여 제안된 플랫폼에서는 사용자가 데이터의 수집과 연계를 위해 공공데이터에 대한 정보를 카테고리 별로 등록하여 데이터 리스트를 한눈에 볼 수 있도록 처리하며, URL, Key, 파일명, 제목 등의 체크를 통해 수집된 데이터의 중복성을 배제하도록 한다. 기관별로 등록된 Key는 추후의 업데이터된 데이터의 추출에 이용될 수 있다.
제시된 플랫폼을 기반으로 빅데이터를 수집하고 저장하며 이를 재가공 및 시각화하는 빅데이터 처리 시스템이 개발된다. 구현된 시스템에 사용된 빅데이터는 기상청으로부터 받은 기상 빅데이터, 건강보험심사원으로부터 받은 보건 빅데이터, 교육부에서 제공하는 교육 빅데이터 등이다.
이를 위해서는 가치있는 인포그래픽을 생성하기 위해 그래프/차트/지도 등의 시각화 자료가 만들어 진다. 제안된 플랫폼에서는 데이터 시각화를 위해 6종(bar, line, area, step, pie, donut 등)의 그래프/차트를 지원하도록 한다.
제안된 플랫폼에서는 안정적인 데이터의 저장과 대용량 빅데이터의 빠른 처리 속도를 위해 하둡(Hadoop)기반의 분산병렬 시스템을 지원하도록 하며, NoSQL을 활용하여 데이터의 확장성과 빠른 응답을 지원하도록 한다. 그림 4는 수집된 빅데이터를 저장하고 처리하기 위한 하둡기반의 분산병렬 시스템을 보여준다.

대상 데이터

제시된 플랫폼을 기반으로 빅데이터를 수집하고 저장하며 이를 재가공 및 시각화하는 빅데이터 처리 시스템이 개발된다. 구현된 시스템에 사용된 빅데이터는 기상청으로부터 받은 기상 빅데이터, 건강보험심사원으로부터 받은 보건 빅데이터, 교육부에서 제공하는 교육 빅데이터 등이다. 보건 그림 5는 공공 빅데이터의 자동 수집을 위하여 수집원 기관의 URL과 API KEY를 등록하는 화면이다.

성능/효과

둘째, 기술우위 확보 및 정보산업 발전에 기여할 수 있다. 빅데이터 구축 및 정보제공 자동화 플랫폼 구축에 관한 기술을 보급함으로써 대외적인 기술 경쟁력을 확보할 수 있다.
셋째, 이익 창출에 기여할 수 있다. 향후 제안한 플랫폼을 웹기반 또는 앱기반 시스템으로 개발하여 운영하여 이익 창출을 기대할 수 있다.
첫째, 공공의 이익에 기여할 수 있다. 공공데이터를 수집 및 저장하고 이를 고급 정보화하여 다양한 수요자에게 공급함으로써 공공기관의 정책수립, 업무개선, 민간산업의 기술발전, 학계의 연구력 향상 등 다양한 공공의 이익에 기여할 수 있다.

후속연구

개발된 시스템은 변경된 데이터의 자동수집, 가공데이터의 고급화에 한계가 있다. 향후 정보제공기관의 수를 늘리고 변경된 데이터를 자동수집하고, 이를 재가공 및 융합함으로써 다양한 고급화된 시각화 정보를 제공할 수 있도록 할 계획이다.
셋째, 이익 창출에 기여할 수 있다. 향후 제안한 플랫폼을 웹기반 또는 앱기반 시스템으로 개발하여 운영하여 이익 창출을 기대할 수 있다. 또한 기술이전 등을 통해 기술을 확산함으로써 직접 또는 간접적으로 다양한 이익을 창출할 수 있다.

질의응답

핵심어	질문	논문에서 추출한 답변
	공공 빅데이터 활용이 제한되는 이유는 무엇인가?	첫째, 데이터 형식의 이해와 데이터 처리 지식의 문제이다. 현재 국내에서는 다양한 기관 즉, 정부, 지방자치단체, 의료분야기관, 농산물기관, 날씨기관 등 다양한 분야에서 XML, EXCEL, CSV, JSON 등 다양한 데이터 형식으로 데이터를 제공하고 있다. 그러나, 데이터 형식의 불일치로 사용자의 이해를 어렵게 하고 있다. 예를 들어 개인의 경우 평범한 EXCEL유형 이외에 XML, JSON 등의 데이터 포맷에 대한 지식과 데이터 처리에 대한 지식이 낮아 데이터 활용에 어려움이 있다. 둘째, 데이터에 대한 접근과 관리의 어려움이다. 현재 각 기관 및 지방자치단체 별로 데이터를 제공하고 있으나, 데이터 접근을 위해서는 모든 사이트별로 회원등록 및 로그인 절차가 필요하며, 수집된 데이터의 관리를 위해서는 데이터파일의 다운로드 등을 통해 자신의 컴퓨터에 저장하고 이용자 스스로 관리를 하여야 한다. 또한 데이터의 분석을 위해서는 외부의 SAS등의 통계분석 시스템과 연계해야 하며, 이에 따라 절차와 시간이 매우 소모가 된다. 셋째, 수집 및 저장한 데이터의 시각화 문제이다. 수집된 빅데이터를 적절하게 저장하고 이를 가공하여 업무에 활용하기 위해서는 다양한 형태로의 시각화하는 기술이 필요하다. 시각화된 자료는 사용자에게 보다 직관적인 정보를 제공하기 때문이다. 하지만 대부분의 일반 사용자는 빅데이터의 수집 및 저장과 함께 시각화에 대한 인식과 기술이 부족하다. 마지막으로, 대용량 데이터의 빠른 저장과 검색을 위한 데이터베이스화의 어려움이다. 사용자가 필요로 하는 대용량 데이터의 안정적인 저장과 빠른 검색을 위해서는 파일 형식이 아닌 데이터베이스가 필요하다. 일반인이 인터넷 상에서 수집한 데이터를 손쉽게 데이터베이스화하는 방법이 필요하며, 기존 RDB를 이용할 경우 비정형적인 빅데이터 처리에 어려움이 있으므로 이를 극복할 수 있는 데이터베이스화 방법이 필요하다.
	공공 데이터의 종류에는 무엇이 있는가?	공공 데이터의 종류는 과학기술, 보건의료, 사회복지, 공공행정, 재정금융 등 다양하며 API 또는 파일 형태로 지원된다. 한편으로 기업과 개인은 다양한 방법으로 빅데이터를 수집, 가공하여 다양한 목적에 활용하고자 한다.
	데이터의 저장과 대용량 빅데이터의 빠른 처리를 위해 사용하는 시스템은 무엇인가?	제안된 플랫폼에서는 안정적인 데이터의 저장과 대용량 빅데이터의 빠른 처리 속도를 위해 하둡(Hadoop)기반의 분산병렬 시스템을 지원하도록 하며, NoSQL을 활용하여 데이터의 확장성과 빠른 응답을 지원하도록 한다. 그림 4는 수집된 빅데이터를 저장하고 처리하기 위한 하둡기반의 분산병렬 시스템을 보여준다.

참고문헌 (15)

X. Wu, X. Zhu, D. Wu and W. Ding, "Data mining with big data," IEEE Transactions on Knowledge and Data Engineering, vol. 26, no. 1, pp. 97-107, Jan. 2014.

상세보기
C. Cheng and C. Zhang, "Data-intensive applications, challenges, techniques and technologies: A survey on Big Data," Information Sciences. vol. 275, pp. 314-347, Aug. 2014.

상세보기
G. Kim, S. Trimi and J. Chung, "Big-data applications in the government sector," Communications of the ACM, vol. 57, no. 3, pp. 78-85, Mar. 2014.

상세보기
Y. Kang, K. Kim, M. Han, J. Kim, "A Study on the Business Strategies based on Big Data Analysis," Asia-pacific Journal of Multimedia Services Convergent with Art, Humanities, and Sociology, vol.5, no.5, pp.145-152, 2015.
S. Bang, H. Ha and C. Kim, "A Study on Big Data-based Software Architecture Design for Utilizing Public Open Data," Journal of Advanced Information Technology and Convergence. vol. 13, no. 10, pp. 99-107, Oct. 2015.
Y. Chol, "A Study on the Development of Public Big Data Platform Reference Model," Journal of Information Technology and Architecture. vol. 12, no. 4, pp. 495-503, April 2015.
M. Kim and D. Choi, "An Analysis of the Public Data for Making the Ambient Intelligent Service," JOURNAL OF DIGITAL CONVERGENCE, vol. 12, no. 12, pp. 313-321, Dec. 2014.
Y. Moon and J. Jung, "The visualization of application utilizing public data," The Treatise on The Plastic Media. vol. 18, no. 1, pp. 63-76, Jan. 2015.
K. Lee, G. Nam, J. Sim, K. Cho and W. Ryu, "Construction of Knowledge Base for The Utilization of Big Data in Public Domain," Communications of the Korean Institute of Information Scientists and Engineer. vol. 30, no. 6, pp. 40-46, 2012.
S. Ju, J. Jeong and G. Ryu, "Big Data Technology Trends Big Data Visualization and Public Data Visualization Examples," It's Smart Media. vol. 2, no. 3, pp. 37-43, 2013.
J. Lee and G. Oh, "A study of application development case built on public section big data - PET 119 IN SUWON," Journal of The Korea Big Data Service Society. vol. 2, no. 1, pp. 19-24, 2015.
S. Lee and S. Shin, "Design of Health Warning Model on the Basis of CRM by use of Health Big Data," Journal of the Korea Institute of Information and Communication Engineering. vol. 20, no. 8, pp. 1460-1465, 2016.

원문보기 상세보기
M. Lee and B. On, "An Example of Public Data Visualization based on the Big Data Approach," Information & communications magazine. vol. 29, no. 11, pp. 36-42, 2012.
S. Lee, J. Jung, G. Cha, G. Son, S. Kim and J. Kim, "Social safety net system through big data analysis of public data," Journal of Satellite, Information and Communications. vol. 10, no. 4, pp. 77-82, 2015.
I. Ha, B. Bak and B. Ahn, "MapReduce functions to analyze sentiment information from social big data," International Journal of Distributed Sensor Networks-Special issue on Advanced Big Data Management and Analytics for Ubiquitous Sensors.vol. 2015. Jan. 2015.

이 논문을 인용한 문헌

저자의 다른 논문 :

LOADING...

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

XML구조를 이용한 공공 빅데이터의 선별 저장 및 시각화 방법
A Method for Selective Storing and Visualization of Public Big Data Using XML Structure 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

성능/효과

후속연구

질의응답

참고문헌 (15)

이 논문을 인용한 문헌

저자의 다른 논문 :

연구과제 타임라인

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

XML구조를 이용한 공공 빅데이터의 선별 저장 및 시각화 방법 A Method for Selective Storing and Visualization of Public Big Data Using XML Structure 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

성능/효과

후속연구

질의응답

참고문헌 (15)

이 논문을 인용한 문헌

저자의 다른 논문 :

하일규 (7)

연구과제 타임라인

전체(0) 논문(0) 특허(0) 보고서(0)

전체(0) 논문(0) 특허(0) 보고서(0)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

XML구조를 이용한 공공 빅데이터의 선별 저장 및 시각화 방법
A Method for Selective Storing and Visualization of Public Big Data Using XML Structure 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper