오픈 데이터는 전세계적으로 많은 관심을 받고 있다. 우리나라 정부는 데이터 개방에 많은 노력을 기울이고 있다. 그러나, 공공 데이터의 양적 증가에도 불구하고 데이터에 대한 부족함이 여전히 지적되고 있다. 본 논문은 공공 데이터를 의미적으로 연결해 데이터 공유 및 활용을 향상시키기 위한 방법을 제안한다. 첫째, 대한민국 행정구역의 정의와 행정구역 사이의 관계를 의미적으로 표현하기 위한 지식 모델을 제안한다. 행정구역은 국가의 영역을 국가 행정상의 목적에 따라 구분한 단위이다. 행정구역 지식모델은 지방자치법을 기준으로 행정구역체계의 구조, 행정단위별 관계를 정의한다. 둘째, 대한민국 행정구역 데이터에 대한 지식그래프를 소개한다. 공공 데이터를 의미적 수준에서 연결시키는 기준정보로써 행정구역 지식그래프의 특징과 이기종 공공데이터 연계 및 데이터 품질 개선을 위한 방법을 소개한다. 마지막으로 행정기관 데이터의 연계 결과를 통해 행정구역 지식그래프의 응용 방법을 살펴본다. 행정기관 명칭은 기관별로 상이하게 활용하고 있기 때문에 행정구역 그래프를 통한 데이터 식별 및 정제와 더불어 데이터 품질 개선에 효과적인 접근 방안으로 고려할 수 있다.
오픈 데이터는 전세계적으로 많은 관심을 받고 있다. 우리나라 정부는 데이터 개방에 많은 노력을 기울이고 있다. 그러나, 공공 데이터의 양적 증가에도 불구하고 데이터에 대한 부족함이 여전히 지적되고 있다. 본 논문은 공공 데이터를 의미적으로 연결해 데이터 공유 및 활용을 향상시키기 위한 방법을 제안한다. 첫째, 대한민국 행정구역의 정의와 행정구역 사이의 관계를 의미적으로 표현하기 위한 지식 모델을 제안한다. 행정구역은 국가의 영역을 국가 행정상의 목적에 따라 구분한 단위이다. 행정구역 지식모델은 지방자치법을 기준으로 행정구역체계의 구조, 행정단위별 관계를 정의한다. 둘째, 대한민국 행정구역 데이터에 대한 지식그래프를 소개한다. 공공 데이터를 의미적 수준에서 연결시키는 기준정보로써 행정구역 지식그래프의 특징과 이기종 공공데이터 연계 및 데이터 품질 개선을 위한 방법을 소개한다. 마지막으로 행정기관 데이터의 연계 결과를 통해 행정구역 지식그래프의 응용 방법을 살펴본다. 행정기관 명칭은 기관별로 상이하게 활용하고 있기 때문에 행정구역 그래프를 통한 데이터 식별 및 정제와 더불어 데이터 품질 개선에 효과적인 접근 방안으로 고려할 수 있다.
Open data has received a lot of attention from around the world. The Korean government is also making efforts to open government data. However, despite the quantitative increase in public data, the lack of data is still pointed out. This paper proposes a method to improve data sharing and utilizatio...
Open data has received a lot of attention from around the world. The Korean government is also making efforts to open government data. However, despite the quantitative increase in public data, the lack of data is still pointed out. This paper proposes a method to improve data sharing and utilization by semantically linking public data. First, we propose a knowledge model for expressing administrative districts and their semantic relationships in Korea. An administrative district is an administrative unit that divides the territory of a nation, which is a unit of politics, according to the purpose of the state administration. The knowledge model of the administrative district defines the structure of the administrative district system and the relationship between administrative units based on the Local Autonomy Act. Second, a knowledge graph of the administrative districts is introduced. As a reference information to link public open data at a semantic level, some characteristics of a knowledge graph of administrative districts and methods for linking heterogeneous public open data and improving data quality are addressed. Finally, some use cases are addressed for interlinking between the knowledge graph of the administrative districts and public open data. In particular, national administrative organisations are interlinked with the knowledge graph, and it demonstrates how the knowledge graph can be utilised for improving data identification and data quality.
Open data has received a lot of attention from around the world. The Korean government is also making efforts to open government data. However, despite the quantitative increase in public data, the lack of data is still pointed out. This paper proposes a method to improve data sharing and utilization by semantically linking public data. First, we propose a knowledge model for expressing administrative districts and their semantic relationships in Korea. An administrative district is an administrative unit that divides the territory of a nation, which is a unit of politics, according to the purpose of the state administration. The knowledge model of the administrative district defines the structure of the administrative district system and the relationship between administrative units based on the Local Autonomy Act. Second, a knowledge graph of the administrative districts is introduced. As a reference information to link public open data at a semantic level, some characteristics of a knowledge graph of administrative districts and methods for linking heterogeneous public open data and improving data quality are addressed. Finally, some use cases are addressed for interlinking between the knowledge graph of the administrative districts and public open data. In particular, national administrative organisations are interlinked with the knowledge graph, and it demonstrates how the knowledge graph can be utilised for improving data identification and data quality.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 논문은 대한민국 행정구역 체계에 대한 지식 모델을 제안하고, 행정구역 데이터를 관련성 있는 데이터와 연계한 지식그래프를 소개했다. 스마트 시티, 자율 주행 자동차, 인공지능 등 다양한 분야에서 공공데이터 활용 방안을 검토하고 있지만, 데이터 품질 및 연계에 대한 이슈로 인해 공공데이터의 적극적 활용은 여전히 제한적이다.
본 연구는 공공 데이터의 활용성을 높이기 위해 데이터의 의미적 연계 방식을 제안한다. 의미적으로 연결된 데이터는 이기종 데이터의 통합을 위한 기반이 될 수 있으며, 인공지능 환경에서 활용할 수 있는 지능정보의 특성을 함께 갖는다.
의미적으로 연결된 데이터는 이기종 데이터의 통합을 위한 기반이 될 수 있으며, 인공지능 환경에서 활용할 수 있는 지능정보의 특성을 함께 갖는다. 특히, 공공데이터에서 활용성이 높은 행정구역에 대한 링크드 데이터를 제안하여 공공데이터의 연계와 품질 개선에 대한 구체적인 방법을 소개한다. 본 논문의 구성은 다음과 같다.
가설 설정
• 일선행정기관 데이터는 기관코드, 전체기관명, 최하위기관명 항목이 행정기관 데이터와 일치한다.
이런 문제는 공공데이터 전반에 있어 빈번하게 발생하고 있고, 데이터 품질에 대한 신뢰를 저해하는 요인이다. 둘째, 데이터 연계를 위한 기준 정보의 미흡이다. 대부분의 공공 데이터가 행정기관이나 부처별로 개방되고 있는 상황에서 데이터셋을 연계하는 것은 필수적이다.
제안 방법
첫째, 지방자치법에서 정의한 행정구역과 행정구역간 관계를 위한 온톨로지 모델로 설계하고 정부에서 발행하는 행정구역 데이터를 지식 그래프로 변환했다. 둘째, 행정구역 정보를 포함하는 주요 공공데이터를 지식그래프와 연계했다. 결과적으로 행정구역 지식그래프는 공공데이터의 품질을 개선하고 분산적으로 개방된 데이터를 의미적으로 연결시킬 수 있는 기준점이 될 수 있다.
기술적 관점에서 보면, 온톨로지와 링크드 데이터 기술을 적용할 수 있다[4][11][16]. 본 연구에서 제안한 행정구역 지식 모델은 대한민국 행정구역의 의미적 정의와 행정구역 간의 관계를 지식화하고, 행정구역과 관련된 코드 체계를 바탕으로 일관성 있게 데이터를 사용할 수 있는 방법을 제안한다.
본 논문에서 제안하는 지식 모델과 지식 그래프는 데이터 품질과 연계를 해결하는데 효과적이다. 첫째, 지방자치법에서 정의한 행정구역과 행정구역간 관계를 위한 온톨로지 모델로 설계하고 정부에서 발행하는 행정구역 데이터를 지식 그래프로 변환했다. 둘째, 행정구역 정보를 포함하는 주요 공공데이터를 지식그래프와 연계했다.
대상 데이터
기관명(원본) 항목은 원천 데이터에서 제공하는 값이고, 기관명(개체식별) 항목은 그래프 데이터에 비교 결과이다. 행정구역 그래프의 전체기관명과 최하위기관명 정보를 적용하여 22 건 중 17건이 동일 데이터로 식별되었다. 일치하지 않는 5건은 ‘KT함양지점’과 같이 행정기관에 해당하지 않는 항목이다.
행정구역 지식그래프는 대한민국 행정구역 데이터를 행정구역 지식모델을 적용해 구축한 그래프 데이터이다. 행정구역 데이터는 행정안전부의 주민등록주소코드7 와 통계 청의 한국행정구역분류8 데이터를 기반으로 구축되었다. 전자는 법정동 (45,957건)에 대한 정보를 갖고 있고, 후자는 법정동-행정동 (21,695건) 관계를 포함하고 있다.
일선행정기관 주소와 전화번호 데이터 (12,423건)는 경상남도 함양군 기관현황 데이터 (22건)와 비교했을 때 포괄적인 내용을 담고 있지만 대한민국 행정기관의 전체 데이터는 아니다. 행정기관의 전체 데이터는 행정표준코드관리시스템 (http://code.go.kr)에서 제공한다 (356,628건). 실제 일선행정기관 주소와 전화번호 데이터는 행정표준 코드관리시스템에서 제공하는 데이터의 일부데이터이다.
이론/모형
행정구역 지식모델은 온톨로지 어휘의 재사용과 지식베이스 컨텐트의 보편적 검색 성능 향상을 위해 스키마 (schema.org) 모델의 어휘를 사용된다. 예컨대, 모든 행정구역 클래스는 schema:AdminstrativeArea의 하위 클래스 관계이다.
성능/효과
행정구역 그래프를 적용하여 공공데이터의 품질을 개선하는 것은 매우 효과적이다. 먼저, 표준 데이터를 활용하여 데이터값을 정제함으로써 데이터 품질을 개선하는 직접적인 효과를 얻을 수 있다. 뿐만 아니라, 데이터의 의미적 연결을 통해 중복적인 데이터 값을 선언하지 않고 데이터를 효율적으로 사용할 수 있다.
스마트 시티, 자율 주행 자동차, 인공지능 등 다양한 분야에서 공공데이터 활용 방안을 검토하고 있지만, 데이터 품질 및 연계에 대한 이슈로 인해 공공데이터의 적극적 활용은 여전히 제한적이다. 본 논문에서 제안하는 지식 모델과 지식 그래프는 데이터 품질과 연계를 해결하는데 효과적이다. 첫째, 지방자치법에서 정의한 행정구역과 행정구역간 관계를 위한 온톨로지 모델로 설계하고 정부에서 발행하는 행정구역 데이터를 지식 그래프로 변환했다.
후속연구
정부가 공개하는 데이터에서 행정구역, 주소, 위치와 관련된 정보는 공통적으로 포함되는 요소이다. 다시 말해, 일관성있는 행정구역 데이터는 공공데이터의 품질 향상 및 연계에 효과적으로 활용될 수 있다. 행정구역 지식그래프는 대한민국 행정구역 데이터를 행정구역 지식모델을 적용해 구축한 그래프 데이터이다.
특히, 행정구역과 밀접한 관계를 갖고 있는 국가기초구역 및 우편번호, 공간정보 등 국가 수준에서 기반 데이터가 되는 영역에 대한 연계 방안에 대해 향후 연구가 필요하다. 더불어 서로 다른 도메인이 연결된 지식그래프를 질의응답 서비스, 시각화 및 다차원 분석 등 실용적으로 활용할 수 있는 응용 분야에 대해 향후 연구가 필요하다.
공공 데이터는 다양한 분야의 주제를 포함하기 때문에 지속적으로 지식모델의 확장과 데이터 연계를 위한 연구가 필요하다. 특히, 행정구역과 밀접한 관계를 갖고 있는 국가기초구역 및 우편번호, 공간정보 등 국가 수준에서 기반 데이터가 되는 영역에 대한 연계 방안에 대해 향후 연구가 필요하다. 더불어 서로 다른 도메인이 연결된 지식그래프를 질의응답 서비스, 시각화 및 다차원 분석 등 실용적으로 활용할 수 있는 응용 분야에 대해 향후 연구가 필요하다.
질의응답
핵심어
질문
논문에서 추출한 답변
국내에서 공공데이터 활용의 저해 요인은 어떠한 것이 있는가?
그러나, 공공 데이터를 통한 사회적 변화나 산업 생태계 조성은 여전히 제한적이다. 공공데이터가 활성화되지 않는 근본적인 이유는 무엇일까? 국내에서 공공데이터 활용의 저해 요인은 성과 과시적 정책 추진, 공유문화 부족, 표준 및 품직 부족, 관련 기술 및 전문가 부족 등 다양하다[15]. 공공 데이터가 무료라는 인식이나 데이터 개방의 양적 확대로 발생하는 문화적·정책적 문제와 더불어 데이터 자체의 낮은 품질은 활용에 있어 근본적인 제약이다.
지방자치단체에서 동이 행정동과 법정동으로 혼용되어 사용되는 예로는 어떠한 것이 있는가?
지방자치단체에서 동(洞, Dong)은 행정동과 법정동으로 혼용되어 사용된다. 예를 들어, 서울특별시 중구에 있는 명동은 행정동이고, 을지로1가, 을지로2가, 남대문로1가, 삼각동, 수하동, 장교동, 회현동3가, 충무로2가, 명동1가, 명동2가, 남산동1가, 남산동2가, 남산동3가, 저동1가, 무교동, 다동, 태평로1가 등의 법정동을 포함한다. 즉, 법정동은 주소의 기준이 되는 고유한 지역 명칭이고, 행정동은 관할하는 동주민센터 (동사무소)가 있는 실제 이름이다.
공공데이터란 무엇인가?
공공데이터의 제공 및 이용 활성화에 관한 법률[6]에 따르면, 공공데이터란 “데이터베이스, 전자화된 파일 등 공공기관이 법령 등에서 정하는 목적을 위하여 생성 또는 취득하여 관리하고 있는 광(光) 또는 전자적 방식으로 처리된 자료 또는 정보”이다. 소유적 관점에서 보면, 공공데이터는 본래 정부가 보유하고 있는 데이터이지만 정부의 투명성과 효율성을 위해 민간에 제공한 것이다.
참고문헌 (17)
National Science and Technology Council (NSTC), "Preparing for the Future of Artificial Intelligence," available at https://obamawhitehouse.archives. gov/sites/default/files/whitehouse_files/microsit es/ostp/NSTC/preparing_for_the_future_of_ai.pdf, 2016.
World Wide Web Foundation, "Open Data Barometer 4th Edition," available at http://opendatabarometer.org/
H. Santos, V. Dantas, V. Furtado, P. Pinheiro, and D. L. McGuinness, "From Data to City Indicators: A Knowledge Graph for Supporting Automatic Generation of Dashboards," Proceedings of the 14th Extended Semantic Web Conference (ESWC 2017), pp.94-108, 2017.
김학래, 지식그래프, 커뮤티케이션북스, 2017.
K. Janowicz, P. Hitzler, B. Adams, D. Kolas, and C. Vardeman, "Five stars of Linked Data vocabulary use," Semantic Web 5, No.3, pp.173-176, 2014.
한국정보화진흥원, 2014 링크드 오픈 데이터 국내 구축 사례집, http://lod.seoul.go.kr/home/guide/ 2014_Linked_Open_Data_internal_build_case.pdf
윤소영, "공공데이터 활용을 위한 링크드 데이터 국가 연계체계 구축에 관한 연구," 한국정보관리학회, 제30권, 제1호, pp.259-284, 2013.
윤소영, "LOD 기반 한국사 콘텐츠 서비스 구축에 관한 연구 한국정보관리학회," 정보관리학회지, 제30권, 제3호, pp.297-315, 2013.
현은석, "링크드 데이터 관점의 빅데이터와 공공 데이터," 디지털도서관, 2014년 봄호, 제73호, pp.89-106, 2014.
이재걸, 김재홍, 김종배, 김광용, "전자정부 서비스 활성화를 위한 공공데이터 확장 모델," Asia-pacific Journal of Multimedia Services Convergent with Art, Humanities, and Sociology, Vol.7, No.3, pp.241-252, 2017(3).
김학래, "시맨틱 웹과 의미적 연결성: 웹 사이언스를 위한 출발점," 정보과학회지, 제28권, 제3호, pp.31-40, 2010.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.