공공데이터는 공공기관이 전자적으로 생성 또는 취득하여 관리하고 있는 모든 정보와 전자화된 파일이다. 공공데이터는 인공지능, 스마트 시티 등 차세대 신산업을 견인하는 중요한 요소로 인식되고 있다. 한국은 공공데이터 개방과 관련된 국제 평가에서 연속적으로 높은 순위에 위치하고 있다. 그럼에도 불구하고 공공데이터의 활용과 산업적 영향은 미흡하다. 공공데이터의 활용이 미흡한 이유는 다양할 수 있지만, 데이터 품질은 지속적으로 논의되는 주요 이슈이다. 본 논문은 공공데이터 품질 평가를 위한 지표를 검토하고, 개방된 공공데이터를 대상으로 정량적 품질 평가를 수행한다. 특히, 공공데이터 관리지침을 기준으로 구축 및 개방된 개방표준 데이터의 품질을 진단하여 정부의 가이드라인이 적합한지 검토한다. 데이터 품질평가는 개방표준 데이터의 메타데이터와 데이터값을 포함하고, 완전성과 정확성 지표를 기준으로 검토한다. 데이터 분석결과를 바탕으로 품질 개선을 위한 정책적·기술적 방안을 제안한다.
공공데이터는 공공기관이 전자적으로 생성 또는 취득하여 관리하고 있는 모든 정보와 전자화된 파일이다. 공공데이터는 인공지능, 스마트 시티 등 차세대 신산업을 견인하는 중요한 요소로 인식되고 있다. 한국은 공공데이터 개방과 관련된 국제 평가에서 연속적으로 높은 순위에 위치하고 있다. 그럼에도 불구하고 공공데이터의 활용과 산업적 영향은 미흡하다. 공공데이터의 활용이 미흡한 이유는 다양할 수 있지만, 데이터 품질은 지속적으로 논의되는 주요 이슈이다. 본 논문은 공공데이터 품질 평가를 위한 지표를 검토하고, 개방된 공공데이터를 대상으로 정량적 품질 평가를 수행한다. 특히, 공공데이터 관리지침을 기준으로 구축 및 개방된 개방표준 데이터의 품질을 진단하여 정부의 가이드라인이 적합한지 검토한다. 데이터 품질평가는 개방표준 데이터의 메타데이터와 데이터값을 포함하고, 완전성과 정확성 지표를 기준으로 검토한다. 데이터 분석결과를 바탕으로 품질 개선을 위한 정책적·기술적 방안을 제안한다.
Public data refers to all data or information created by public institutions, and public information that leads to communication and cooperation among all people. Public data is an important method to lead the next generation of new industries such as artificial intelligence and smart cities, Korea ...
Public data refers to all data or information created by public institutions, and public information that leads to communication and cooperation among all people. Public data is an important method to lead the next generation of new industries such as artificial intelligence and smart cities, Korea is continuously ranked high in the international evaluation related to public data. However, despite the continuous efforts, the use of public data or industrial influence is insufficient. Quality issues are continuously discussed in the use of public data, but the criteria for quantitatively evaluating data are insufficient. This paper reviews indicators for public data quality evaluation and performs quantitative evaluation on selected public data. In particular, the quality of open standard data constructed and opened based on public data management guidelines is examined to determine whether government guidelines are appropriate. The data quality assessment includes the metadata and data values of open standard data, and is reviewed based on completeness and accuracy indicators. Based on the data analysis results, this paper proposes policy and technical measures for quality improvement.
Public data refers to all data or information created by public institutions, and public information that leads to communication and cooperation among all people. Public data is an important method to lead the next generation of new industries such as artificial intelligence and smart cities, Korea is continuously ranked high in the international evaluation related to public data. However, despite the continuous efforts, the use of public data or industrial influence is insufficient. Quality issues are continuously discussed in the use of public data, but the criteria for quantitatively evaluating data are insufficient. This paper reviews indicators for public data quality evaluation and performs quantitative evaluation on selected public data. In particular, the quality of open standard data constructed and opened based on public data management guidelines is examined to determine whether government guidelines are appropriate. The data quality assessment includes the metadata and data values of open standard data, and is reviewed based on completeness and accuracy indicators. Based on the data analysis results, this paper proposes policy and technical measures for quality improvement.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
그러나 공공데이터 품질 평가는 메타데이터 중심으로 평가되고 있기 때문에 데이터셋이 갖고 있는 실제 데이터값의 품질도 평가가 필요하다. 본 논문은 개방표준 데이터에 포함된 데이터셋에서 데이터값을 추출하고, 개별 데이터의 값을 진단해 개별 데이터셋의 종합적인 품질평가를 수행한다.
본 논문은 개방표준 데이터의 품질 수준을 진단하고, 이를 바탕으로 공공데이터 품질 개선 방안을 제안한다. 논문의 구성은 다음과 같다.
그러나 공공데이터의 품질은 기존의 이론적 틀로 해석하는데 한계가 있기 때문에, 이에 대한 품질 평가는 체계적으로 진행되지 못하고 있는 것이 현실이다. 본 논문은 공공데이터 관리지침의 기준에 의해 구축된 개방표준 데이터를 대상으로 품질 평가를 수행했다. 분석 결과에 따르면, 개방표준 데이터는 완결성 측면에서 88% 이상이었지만, 정확성은 상대적으로 낮은 것으로 나타났다.
본 논문은 공공데이터 품질관리에 대한 선행 연구를 고찰하고, 개방표준 데이터를 대상으로 품질 평가를 수행하였다. 데이터 품질은 데이터 관리를 위해 중요한 요소이며, 일반적으로 데이터베이스의 구축과 관리에서 명시적인 지침을 마련하고 있다.
본 연구는 공공데이터 품질평가를 위해 개방 표준데이터를 수집하고, 완전성과 정확성에 대한 평가를 수행한다. 먼저 개방표준 데이터의 현황과 수집 방법을 소개하고, 데이터 품질 평가에 대해 요약한다.
제안 방법
계획과 구축 영역은 각각 품질 관리를 위한 계획과 정책 수립, 데이터 표준과 구조 관리를 평가지표로 설정하고 있고, 운영과 활용 영역은 데이터 품질 진단과 개방 및 성과 관리 요소를 포함하고 있다. 개방데이터 품질은 파일데이터, 오픈 API 등 공공데이터로 개방된 데이터의 유효성, 정확성, 일관성, 완전성을 평가한다. 13개 항목으로 구분된 진단항목은 데이터값의 구조적 형식을 진단하는데 초점이 있다.
[18]은 이탈리아의 공공데이터를 데이터 제공주체 (지역, 지방자치단체)별로 구분하여 완전성, 정확성 및 적시성 측면에서 품질을 평가하고 있다. 개별 데이터집합에서 계산된 완전성, 정확성은 데이터 포털에서 집계하고 데이터 품질 수준을 측정한다. 분석 결과에 의하면, 지방자치단체가 운영하는 포털의 40%가 완전하지 않은 데이터를 제공하고, 기계가 읽을 수 없는 형식의 데이터셋이 55% 이상으로 보고하고 있다.
다만, 개별 데이터셋에 있는 데이터의 정답, 즉 참조값을 특정하기 어렵기 때문에 의미적 정확성을 판단하는 것은 어렵다. 따라서, 정확성은 값이 가지는 의미(semantics)보다는 구문(syntax)적 특성을 측정하였다. ‘고등학교군’, ‘고등학교비평준화’, ‘교육행정구역’은 정확성 지수가 높게 나타난다.
본 연구는 공공데이터 품질평가를 위해 개방 표준데이터를 수집하고, 완전성과 정확성에 대한 평가를 수행한다. 먼저 개방표준 데이터의 현황과 수집 방법을 소개하고, 데이터 품질 평가에 대해 요약한다.
대상 데이터
개방 표준 데이터는 2014년에 주차장, 도시공원으로 시작해 4차 개정을 통해 2018년 10월 현재 총 91건이 정의되어 있다. 전체 데이터셋에서 79건은 csv, json, xml 등의 개방형 파일형식으로, 12건은 오픈 API 형식으로 제공한다.
공공데이터 품질관리 수준평가는 범정부 차원에서 시행되고 있지만, 공공데이터 관점으로 보면 평가 대상과 목표가 명확하지 않다. 첫째, 수준 평가는 기관 고유의 행정업무 수행을 위하여 생성, 취득하여 운영하는 모든 데이터베이스를 대상으로 하며, 영향도, 연계규모, 이용자 활용도 관점에서 점수가 높은 상위 25%를 대상으로 선정한다. 그러나 평가대상 데이터베이스가 공공데이터로 개방되었는지 여부와 관계없이 선정되기 때문에, 평가결과를 공공데이터의 품질평가로 해석하는데 한계가 있다.
이론/모형
그러나 평가대상 데이터베이스가 공공데이터로 개방되었는지 여부와 관계없이 선정되기 때문에, 평가결과를 공공데이터의 품질평가로 해석하는데 한계가 있다. 둘째, 공공데이터 품질관리 평가체계의 지표별 점수는 평정 척도(Rating scale)의 한 종류인 리커트 척도(Likert scale)를 이용한다. 통계적 관점으로 보면, 리커트 척도를 활용한 수준 평가는 각 문항에 대한 주관적 판단의 위험이 있고, 총점을 계산하는 과정에서 각 항목에 대한 응답점수의 편차가 사라지기 때문에 총점의 개념적 의미를 명확히 정의하기 어렵다.
지표별 점수는 평정 척도 (rating scale)의 한 종류인 리커트 척도(Likert scale)를 이용한다. 이 척도는 하나의 주제를 문구 또는 문장으로 제시하고 응답자가 응답한 전반적인 경향을 측정치로 합산하여 결과 점수를 도출하는 방법이다.
다만, 유효성의 품질평가 항목은 정확성과 결합하여 측정한다. 품질평가는 오픈리파인4을 이용하고, 진단을 위한 스크립트를 정의해 자동으로 검출한다.
성능/효과
본 논문은 공공데이터 관리지침의 기준에 의해 구축된 개방표준 데이터를 대상으로 품질 평가를 수행했다. 분석 결과에 따르면, 개방표준 데이터는 완결성 측면에서 88% 이상이었지만, 정확성은 상대적으로 낮은 것으로 나타났다. 즉, 개방표준 데이터는 국가의 표준에 의해 구축되었으나, 제공 데이터의 품질개선이 필요하다.
요약하면, 개방 표준 데이터에 대한 완전성과 정확성 지수는 각각 0.88, 0.78로 비교적 높은 수준이다. 그러나, 국가에서 인증한 표준 데이터는 더욱 높은 수준의 품질로 제공하는 것이 필요하다.
후속연구
실제, 개별 평가지표는 다양한 세부지표를 포함하고 있기 때문에 척도 기반의 점수를 부여하는 것이 효과적이지 않다. 마지막으로, 공공데이터 품질 평가의 주요 대상이 기관과 기관이 보유하고 있는 데이터베이스이기 때문에 개별 데이터 세트에 포함된 메타데이터와 데이터 값을 진단하는데 한계가 있다. [그림 1]의 개방데이터의 품질에 정의된 4개 영역을 보면, 일관성의 컬럼논리관계, 완전성의 키, 관계는 공공데이터의 개방 과정에서 손실되거나, 개방 내용에 포함되어 있지 않다.
본 연구는 한정된 데이터 세트를 대상으로 완전성과 정확성 지표로 데이터 품질을 평가했기 때문에 공공데이터 전반으로 해석하는데 한계가 있다. 공공데이터는 기존의 데이터베이스와 다른 특성이 있어 데이터 품질평가를 위해 새로운 지침이 필요하다.
실제, 개방데이터 품질의 4개 영역은 일반적인 데이터 품질 평가 항목으로 적합할 수 있으나, 공공데이터의 특성을 반영해 세부 평가 지표를 정의해야 한다. 셋째, 정부의 원천시스템에서 공공데이터로 개방되는 단계에 적용할 수 있는 프로세스를 체계화하고, 품질 평가와 개선을 지원할 수 있는 기술적 지원(예: 소프트웨어)이 필요하다.
공공데이터 품질 개선은 제도적·기술적 관점으로 구분해 검토해야 한다. 첫째, 공공데이터 품질관리에 대한 개념화가 필요하다. 전통적인 데이터 품질관리는 데이터 계획과 구축 및 관리 영역을 체계화하고 있지만, 데이터의 개방과 활용에 대한 이론적 틀은 미흡하다.
공공데이터는 기존의 데이터베이스와 다른 특성이 있어 데이터 품질평가를 위해 새로운 지침이 필요하다. 향후 연구는 공공데이터포털에 개방된 전체 데이터 세트를 평가할 수 있는 프레임워크를 개발하고, 메타데이터와 더불어 데이터 값에 대한 품질을 평가하기 위한 방법론을 포함한다.
질의응답
핵심어
질문
논문에서 추출한 답변
공공데이터란?
공공데이터는 공공기관이 전자적으로 생성 또는 취득하여 관리하고 있는 모든 정보와 전자화된 파일이다. 공공데이터는 인공지능, 스마트 시티 등 차세대 신산업을 견인하는 중요한 요소로 인식되고 있다.
우리나라가 진행하는 공공데이터 개방의 한계점은?
그러나, 지속적인 데이터 개방에도 불구하고 공공데이터 활용은 여전히 미흡하고, 데이터 사용자로부터 비판적인 의견이 존재하는 것이 현실이다[6][7]. 공공데이터는 공공기관이 보유하고 있는 원천시스템에서 일부데이터가 개방되며, 이 과정에서 데이터가 갖고 있는 의미를 잃을 수 있다. 뿐만 아니라, 개방된 공공데이터의 표현 형식, 데이터 내용에 대한 일관성이 부족하기 때문에 데이터 품질에 대한 이슈가 지속적으로 발생하고 있다[8]. 정부는 공공데이터 품질관리 수준평가를 위해 평가 모델과 지표를 구체화하고[9][10], 공공기관을 대상으로 품질 평가를 위한 실태조사를 진행하고 있다[11]. 그러나, 기관이 아닌 데이터셋 중심의 데이터 품질을 진단하는데 여전히 한계가 있다.
공공데이터에 대한 인식은 어떠한가?
공공데이터는 공공기관이 전자적으로 생성 또는 취득하여 관리하고 있는 모든 정보와 전자화된 파일이다. 공공데이터는 인공지능, 스마트 시티 등 차세대 신산업을 견인하는 중요한 요소로 인식되고 있다. 한국은 공공데이터 개방과 관련된 국제 평가에서 연속적으로 높은 순위에 위치하고 있다.
참고문헌 (20)
행정안전부, "공공데이터의 제공 및 이용 활성화에 관한 법률 (약칭:공공데이터법) 법률 제11956호", 2013.
행정안전부, "공공데이터 관리지침", 행정자치부/공공 데이터활용지원센터, 2017.
김학래, "공공데이터의 의미적 연계를 위한 행정구역 지식 그래프 구축," 한국콘텐츠학회논문지, Vol.17, No.12, pp.1-10, 2017.
H. Kim, "Analysis of standard vocabulary use of the open government data: the case of the public data portal of Korea," Quality and Quantity, Vol.53, pp.1611-1622, 2019.
D. Corsar and P. Edwards, "Challenges of Open Data Quality: More Than Just License, Format, and Customer Support," Journal of Data and Information Quality, Vol.9, No.1, pp.1-3, 2017.
C. Batini, C. Cappiello, C. Francalanci, and A. Maurino, "Methodologies for data quality assessment and improvement," ACM computing surveys (CSUR), Vol.41, No.3, p.16, 2009.
A. Vetro, L. Canova, M. Torchiano, C. O. Minotas, R. Iemma, and F. Morando, "Open data quality measurement framework: Definition and application to Open Government Data," Government Information Quarterly, Vol.33, No.2, pp.325-337, 2016.
Open Knowledge Foundation, "The Open Dat a Handbook," https://opendatahandbook.org/
Machova, Renata and Ln?ni?ka, Martin, "Evaluating the Quality of Open Data Portals on the National Level," Journal of theoretical and applied electronic commerce research, Vol.12, pp.21-41, 2017.
Viscusi Gianluigi, Spahiu Blerina, Maurino Andrea, and Batini Carlo, "Compliance with open government data policies: An empirical assessment of Italian local public administrations," Information Polity, Vol.19, 2014.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.