보고서 정보
주관연구기관 |
한국빅데이터학회 |
연구책임자 |
박주석
|
참여연구자 |
이준기
,
김세을
,
김승현
,
김효실
,
오신호
,
임선민
,
도윤희
|
보고서유형 | 최종보고서 |
발행국가 | 대한민국 |
언어 |
한국어
|
발행년월 | 2016-12 |
과제시작연도 |
2016 |
주관부처 |
미래창조과학부 Ministry of Science, ICT and Future Planning |
등록번호 |
TRKO201700000868 |
과제고유번호 |
1711042497 |
사업명 |
ICT 진흥 및 혁신 기반조성(정보화,R&D) |
DB 구축일자 |
2017-09-20
|
초록
▼
4. 데이터인프라 분야 연구 내용 및 결과
본 연구에서는 국가 차원의 데이터인프라 전략을 도출하였다. 빅데이터 관련 기술을 하향식 접근방법(top-down approach)으로 분석하여 지능정보사회의 데이터패러다임을 상세화 하고, 5개 융합산업을 상향식 접근방법(bottom-up approach)으로 분석하여 필요한 데이터전략을 확인함으로써, 국가 데이터인프라 체계를 도출하였다.
본 연구에서 제시된 국가 데이터인프라 체계는 3개 층으로 구성된다. 상위 층은 국가 차원 데이터인프라, 중간 층은 산업 차원 데이
4. 데이터인프라 분야 연구 내용 및 결과
본 연구에서는 국가 차원의 데이터인프라 전략을 도출하였다. 빅데이터 관련 기술을 하향식 접근방법(top-down approach)으로 분석하여 지능정보사회의 데이터패러다임을 상세화 하고, 5개 융합산업을 상향식 접근방법(bottom-up approach)으로 분석하여 필요한 데이터전략을 확인함으로써, 국가 데이터인프라 체계를 도출하였다.
본 연구에서 제시된 국가 데이터인프라 체계는 3개 층으로 구성된다. 상위 층은 국가 차원 데이터인프라, 중간 층은 산업 차원 데이터인프라, 하위 층은 개별 조직 차원의 데이터인프라이다.
국가 차원 데이터인프라는 국가 데이터원칙과 함께 국가 데이터거버넌스를 제공해야 한다.
데이터 레포지터리(Repository)가 아니라 데이터 레지스트리(Registry) 관점으로 관리해야 한다.
소위 ‘국가 데이터허브’라고 부를 수도 있다.
산업 차원 데이터인프라는 산업별 데이터 생태계이다. 하나의 산업에 속하는 기업과 기관 들의 데이터 역할과 흐름을 정의하고 공유하는 것이다. 단일 기업 또는 단일 기관의 데이터만으로는 활용 가치가 높지 않다. 데이터를 융합하면 새로운 가치를 창출할 수 있고 산업 전체에 큰 효과를 줄 수 있다.
개별 조직 차원 데이터 인프라는 각 기업 또는 기관 차원에서 데이터 관리체계이다. 개별 조직 차원에서 데이터 생성, 보관, 활용, 관리 방안을 수립하고 추진하여야 한다.
본 연구팀은 3계층의 국가 데이터인프라 전략을 위한 9개 주요 테마를 도출하였다. 주요 테마는 오픈플랫폼(Open API/Platform), 데이터레이크(Data Lake), 데이터아키텍처(Data Architecture), 마스터데이터관리(Master Data Management), 데이터매핑(Data Mapping), 데이터집합자(Data Aggregator), 데이터융합(Data Convergence), 개인정보 비식별화(De-Identification), 데이터원칙(Data Principle) 등이다.
첫 번째 전략은 오픈에이피아이(Open API) 및 오픈플랫폼(Open Platform) 확산이다. 정부의 공공 데이터 개방 정책에 따라 공공 부문에서는 오픈에이피아이가 적극적으로 구축되고 있다.
최근에는 금융위원회 주관으로 은행과 증권의 공동 오픈플랫폼이 구축되었다. 하지만 민간 부문에서는 아직 Open API가 활성화되지 않았다. 정부에서는 공공과 민간 데이터의 융합을 위하오픈플랫폼 시범사업을 추진해야 한다. 이와 함께 오픈에이피아이 및 오픈플랫폼 정착 및 확산을 위한 표준화 및 제도가 마련되어야 한다.
두 번째 전략은 데이터레이크(Data Lake) 구축과 데이터아키텍처(Data Architecture) 도입이다. 빅데이터분석 과정에서 데이터를 확보하고 정비하여 분석을 준비하는 노력이 전체 노력의 70% 이상에 달한다. 이러한 노력을 줄이기 위해서 비구조데이터를 미리 축적해 놓는 기술인 데이터레이크를 적극 추진해야 한다. 기업 차원에서는 다양한 데이터레이크를 데이터베이스 및 데이터웨어하우스에 연계하여 활용해야 하는데 이를 관리하기 위한 기술이 데이터아키텍처이다.
세 번째 전략은 데이터융합(Data Convergence) 전략이다. 퍼스널데이터(Personal Data)는 데이터생태계에 흩어져 있는 개인데이터를 개인에게 제공하여 개인 스스로 활용할 수 있도록 하는 것이다. 퍼스널데이터는 국민 개인의 생활 편의성과 복리 향상을 가져다 주며 새로운 앱서비스를 창출해 낼 수 있다. 대표적인 사례가 미국의 블루버튼 서비스이다. 데이터 융합은 개인의 관점에서만 이루질 필요는 없다. 사업자의 관점에서 데이터 융합이 이루어질 수 있고 자동차의 관점에서 데이터 융합이 이루어질 수 있다. 다양한 관점의 데이터 융합은 새로운 산업을 창출해 낼 수 있다.
네 번째 전략은 데이터집합자(Data Aggregator) 육성이다. 지능정보사회에서는 데이터생태계를 도출하는 것이 중요하다. 여러 기관/기업 또는 다른 종류의 데이터베이스 정보를 함께 수집하여 분석하면 분석의 깊이를 더할 수 있다. 이런 경우에 기관/기업들의 상충되는 이해관계를 해소하기 위하여 데이터를 수집하는 제3의 조직이 필요하다. 이러한 조직을 데이터집합자라고 한다. 대표적인 사례가 공공 의료 데이터집합자인 영국의 HSCIC이다. 앞으로 데이터생태계가 발전되는데 데이터집합자의 역할이 매우 중요하다. 주목할 점은 데이터 집합자가 데이터 융합역할 뿐만 아니라 데이터 비식별화 역할도 수행한다.
다섯 번째 전략은 산업별 마스터데이터 관리와 데이터매핑 구현이다. 산업별 마스터데이터는 산업별 데이터생태계에서 공통으로 사용되는 데이터로서 여러 기업에서 자주 참조되는 데이터로 정의할 수 있다. 데이터생태계의 규모가 커지면 커질수록 마스터데이터관리는 중요해질 것이다. 데이터 폭과 깊이가 넓어지면 모든 데이터를 관리할 수는 없고 결국 핵심데이터를 중심으로 관리해야 한다. 따라서 산업별 마스터데이터 구성요소를 확인하고 관리범위를 점진적으로 확장할 필요가 있다. 산업별 마스터데이터관리는 분산된 데이터를 연계하는 레지스트리(Registry) 방식이다. 특정 기업의 마스터데이터관리와 달리, 산업내 기업 데이터를 완벽하게 통제할 수 없기 때문에 레지스트리 방식인 데이터매핑(Data Mapping)으로 관리하는 것이 효율적이다.
여섯 번째 전략은 국가 데이터원칙과 데이터거버넌스 수립이다. 우리나라는 데이터 수집, 보관, 교환 측면에서 다른 나라에 비해 규제 수준이 높다. 높은 수준의 데이터 규제는 데이터 기반 혁신의 장애요인으로 작용한다. 물론 데이터 활용을 위해서 필수불가결한 정보 보호의 규제를 풀어서도 안 되지만, 무분별한 정보보호 규제 때문에 미래 산업인 데이터산업의 경쟁력이 뒤쳐져서는 안 된다. 따라서 데이터 관리 및 활용의 기준을 제시함으로써 데이터 경제를 촉진할 수 있다. 정부는 국가 차원에서 데이터원칙과 데이터거버넌스를 수립하여 기업/기관들에게 가이드라인을 제시해 줄 수 있다.
결론적으로 본 보고서에서는 국가 데이터인프라 체계를 도출하였고 5가지 전략을 제시하였다. 5가지 전략은 오픈에이피아이 및 오픈플랫폼 확산, 퍼스널데이터와 데이터융합, 데이터집합자 육성, 산업별 마스터데이터 관리와 데이터매핑 구현, 국가 데이터원칙과 데이터거버넌스 수립이다.
(출처 : 요약문)
Abstract
▼
4. Results of the Data Infrastructure Study Area
In this study, we derived the national data infrastructure strategy. The details of data paradigm is derived from Intelligent Information Society through top-down approach, and the common components are identified from five ICT convergence indu
4. Results of the Data Infrastructure Study Area
In this study, we derived the national data infrastructure strategy. The details of data paradigm is derived from Intelligent Information Society through top-down approach, and the common components are identified from five ICT convergence industries through bottom-up approach. Then a 3-tier national data infrastructure system is proposed in this study.
The 3-tier national data infrastructure system consists of three layers. The upper layer is governmental data infrastructure, the middle layer is industrial data infrastructure, and the lower layer is the data infrastructure of the individual organization.
Governmental data infrastructure should provide national data governance with national data principles. It should be managed from a data registry perspective rather than a data repository.
It may also be called 'national data hub'.
Industrial data infrastructure is an industry-specific data ecosystem. It is to define and share the data roles and flows of enterprises and organizations belonging to one industry. Data analysis from a single organization alone is not worthy of use. Analysis of data fusion can create new value and have a big impact on the entire industry.
Individual organizational data infrastructure is a data management system at the enterprise or organization level. Establish and promote data generation, storage, utilization and management plans at the individual organization level.
This report has identified 9 main themes for a 3-tier national data infrastructure system.
The main themes are Open API/Open Platform, Data Lake, Data Architecture, Master Data Management, Data Mapping, Data Aggregator, Data Convergence, De-Identification, and Data Principle.
The first strategy is to spread Open API and Open Platform. According to the government 's open data policy, Open API has been actively established in the public sector. Recently, a joint open platform of banks and securities was developed under the supervision of the Financial Services Commission. However, the Open API has not yet been activated in the private sector. The government should promote an open platform pilot project for the convergence of public and private data. In addition, standardization and systems should be established for the establishment and diffusion of OpenAPI and Open Platform.
The second strategy is to build data lakes and adopt data architectures. More than 70% of the effort is spent trying to acquire and maintain data during the Big Data analysis process. To reduce these efforts, we must actively promote data lake, a technique for accumulating non-structural data in a system area. At the enterprise level, data lakes must be used in conjunction with databases and data warehouses. Data architecture is the technology for managing them.
The third strategy is to promote data convergences. Personal data convergence is to provide personal data scattered in a data ecosystem to individuals so that they can utilize by themselves. Personal data can improve convenience and welfare of individual people and create new app services. A typical example is the US blue button service. Data fusion does not need to be done from an individual perspective. Data convergence can be achieved from the viewpoint of an enterprise and data convergence can be achieved from the viewpoint of an automobile. Data convergence from different perspectives can create new industries.
The fourth strategy is to foster data aggregators. In Intelligence Information Society, it is important to derive the data ecosystem. Collecting and analyzing information from multiple agencies/companies or different kinds of databases together can add depth to your analysis. In this case, there is a need for a third organization to collect data to resolve the conflicting interests of organizations/companies. These organizations are called data aggregators. A typical example is HSCIC, a public health data aggregator in UK. The role of the data collector is very important in the development of data ecosystem. It is worth noting that the data aggregator plays a role of data de-identification as well as data fusion.
The fifth strategy is to manage industry-specific master and to implement data mapping techniques. The industry-specific master data can be defined as data that is commonly used in the industry-specific data ecosystem and often referred to by many companies. As the size of the data ecosystem grows, master data management will become more important. As data width and depth become wider and deeper, you can not manage all of your data, and you have to focus on your core data. Therefore, it is necessary to identify components of industry-specific master data, and gradually extend the scope of master data management. The industry-specific master data management is a registry method that links distributed data.
Unlike the master data management in an enterprise level, it is effective to manage by the data mapping technique which is a registry method, because each enterprise data in an industry can not be completely controlled.
The sixth strategy is to establish national data principles and data governance. Korea has a higher level of regulation than other countries in terms of data collection, storage and exchange. High-level data regulation is a barrier to data-driven innovation. Of course, we should not release regulations on core information protection, which is indispensable for data utilization, but the competitiveness of the data industry, which is a future industry, should not fall behind due to unreasonable information protection regulations. Therefore, the data economy can be promoted by setting standards for data management and utilization.
Governments can establish data principles and data governance at the national level and provide guidance to enterprises/organizations.
In conclusion, this report has proposed the national data infrastructure system and presented five strategies. Five strategies are spreading Open API and Open platform, personal data and data convergence, data aggregation, industry-specific master data management and data mapping, national data principles and data governance.
(출처 : SUMMARY)
목차 Contents
- 표지 ... 1제 출 문 ... 5목차 ... 7표목차 ... 12그림목차 ... 14요 약 문 ... 18SUMMARY ... 28CONTENTS ... 36Ⅰ.연구의 구성 ... 38Ⅱ. 데이터 인프라 구축 및 활용방안 연구 ... 39 제 1장 서 론 ... 39 제 1절 연구 배경 및 목적 ... 39 제 2장 지능정보사회와 데이터자원관리 ... 42 제 1절 데이터자원의 중요성 ... 42 제 2절 데이터 기술의 이론적 고찰 ... 43 제 3절 데이터 생태계의 변화 ... 47 제 3장 산업별 데이터생태계 분석 ... 55 제 1절 보건의료 분야 ... 55 제 2절 교통운송 분야 ... 61 제 3절 금융 분야 ... 67 제 4절 교육 분야 ... 74 제 5절 문화관광 분야 ... 80 제 4장 향후 국가 데이터인프라 전략 도출 ... 85 제 1절 국가 데이터인프라 도출 및 주요 테마 ... 85 제 2절 오픈API 및 오픈플랫폼 전략 ... 88 제 3절 데이터레이크와 데이터아키텍처 전략 ... 91 제 4절 데이터융합 전략 ... 96 제 5절 데이터집합자 전략 ... 100 제 6절 산업별 마스터데이터관리와 데이터매핑 전략 ... 102 제 7절 국가 데이터원칙과 데이터거버넌스 전략 ... 106 제 5장 결론 ... 110Ⅲ. 사물 인터넷 지표와 통계체계 개발 연구 ... 113 제 1장 서 론 ... 113 제 1절 연구 배경 및 목적 ... 113 제 2절 연구 보고서의 구성 ... 115 제 2장 사물인터넷 개요 및 산업의 범위 설정 ... 116 제 1절 사물인터넷 개념 및 정의 ... 116 제 2절 산업 환경 변화에 따른 사물인터넷 범위 ... 120 제 3장 사물인터넷 통계조사 현황 분석 ... 135 제 1절 사물인터넷 산업 실태조사 및 관련 통계조사 현황 ... 135 제 2절 사물인터넷 산업 실태조사 및 관련 통계조사 시사점 ... 146 제 4장 사물인터넷 통계조사체계 개선방안 ... 154 제 1절 사물인터넷 산업 실태조사 모집단 정비 조사 개선방안 ... 154 제 2절 사물인터넷 산업 실태조사 설문항목 개선방안 ... 167 제 3절 사물인터넷 회선가입자 및 서비스 유형별 통계 항목 개선방안 ... 180 제 5장 결 론 ... 184IV. 참 고 문 헌 ... 187끝페이지 ... 192
※ AI-Helper는 부적절한 답변을 할 수 있습니다.