[보고서]인터넷 융합 데이터 인프라 구축 및 활용방안 연구

박주석

인터넷 융합 데이터 인프라 구축 및 활용방안 연구
A Study on Constructing and Utilizing a Data Infra for Internet Convergence 원문보기

보고서 정보
주관연구기관	한국빅데이터학회
연구책임자	박주석
참여연구자	이준기 , 김세을 , 김승현 , 김효실 , 오신호 , 임선민 , 도윤희
보고서유형	최종보고서
발행국가	대한민국
언어	한국어
발행년월	2016-12
과제시작연도	2016
주관부처	미래창조과학부 Ministry of Science, ICT and Future Planning
등록번호	TRKO201700000868
과제고유번호	1711042497
사업명	ICT 진흥 및 혁신 기반조성(정보화,R&D)
DB 구축일자	2017-09-20

초록 ▼

4. 데이터인프라 분야 연구 내용 및 결과

본 연구에서는 국가 차원의 데이터인프라 전략을 도출하였다. 빅데이터 관련 기술을 하향식 접근방법(top-down approach)으로 분석하여 지능정보사회의 데이터패러다임을 상세화 하고, 5개 융합산업을 상향식 접근방법(bottom-up approach)으로 분석하여 필요한 데이터전략을 확인함으로써, 국가 데이터인프라 체계를 도출하였다.

본 연구에서 제시된 국가 데이터인프라 체계는 3개 층으로 구성된다. 상위 층은 국가 차원 데이터인프라, 중간 층은 산업 차원 데이터인프라, 하위 층은 개별 조직 차원의 데이터인프라이다.
국가 차원 데이터인프라는 국가 데이터원칙과 함께 국가 데이터거버넌스를 제공해야 한다.
데이터 레포지터리(Repository)가 아니라 데이터 레지스트리(Registry) 관점으로 관리해야 한다.
소위 ‘국가 데이터허브’라고 부를 수도 있다.

산업 차원 데이터인프라는 산업별 데이터 생태계이다. 하나의 산업에 속하는 기업과 기관 들의 데이터 역할과 흐름을 정의하고 공유하는 것이다. 단일 기업 또는 단일 기관의 데이터만으로는 활용 가치가 높지 않다. 데이터를 융합하면 새로운 가치를 창출할 수 있고 산업 전체에 큰 효과를 줄 수 있다.

개별 조직 차원 데이터 인프라는 각 기업 또는 기관 차원에서 데이터 관리체계이다. 개별 조직 차원에서 데이터 생성, 보관, 활용, 관리 방안을 수립하고 추진하여야 한다.
본 연구팀은 3계층의 국가 데이터인프라 전략을 위한 9개 주요 테마를 도출하였다. 주요 테마는 오픈플랫폼(Open API/Platform), 데이터레이크(Data Lake), 데이터아키텍처(Data Architecture), 마스터데이터관리(Master Data Management), 데이터매핑(Data Mapping), 데이터집합자(Data Aggregator), 데이터융합(Data Convergence), 개인정보 비식별화(De-Identification), 데이터원칙(Data Principle) 등이다.

첫 번째 전략은 오픈에이피아이(Open API) 및 오픈플랫폼(Open Platform) 확산이다. 정부의 공공 데이터 개방 정책에 따라 공공 부문에서는 오픈에이피아이가 적극적으로 구축되고 있다.
최근에는 금융위원회 주관으로 은행과 증권의 공동 오픈플랫폼이 구축되었다. 하지만 민간 부문에서는 아직 Open API가 활성화되지 않았다. 정부에서는 공공과 민간 데이터의 융합을 위하오픈플랫폼 시범사업을 추진해야 한다. 이와 함께 오픈에이피아이 및 오픈플랫폼 정착 및 확산을 위한 표준화 및 제도가 마련되어야 한다.

두 번째 전략은 데이터레이크(Data Lake) 구축과 데이터아키텍처(Data Architecture) 도입이다. 빅데이터분석 과정에서 데이터를 확보하고 정비하여 분석을 준비하는 노력이 전체 노력의 70% 이상에 달한다. 이러한 노력을 줄이기 위해서 비구조데이터를 미리 축적해 놓는 기술인 데이터레이크를 적극 추진해야 한다. 기업 차원에서는 다양한 데이터레이크를 데이터베이스 및 데이터웨어하우스에 연계하여 활용해야 하는데 이를 관리하기 위한 기술이 데이터아키텍처이다.

세 번째 전략은 데이터융합(Data Convergence) 전략이다. 퍼스널데이터(Personal Data)는 데이터생태계에 흩어져 있는 개인데이터를 개인에게 제공하여 개인 스스로 활용할 수 있도록 하는 것이다. 퍼스널데이터는 국민 개인의 생활 편의성과 복리 향상을 가져다 주며 새로운 앱서비스를 창출해 낼 수 있다. 대표적인 사례가 미국의 블루버튼 서비스이다. 데이터 융합은 개인의 관점에서만 이루질 필요는 없다. 사업자의 관점에서 데이터 융합이 이루어질 수 있고 자동차의 관점에서 데이터 융합이 이루어질 수 있다. 다양한 관점의 데이터 융합은 새로운 산업을 창출해 낼 수 있다.

네 번째 전략은 데이터집합자(Data Aggregator) 육성이다. 지능정보사회에서는 데이터생태계를 도출하는 것이 중요하다. 여러 기관/기업 또는 다른 종류의 데이터베이스 정보를 함께 수집하여 분석하면 분석의 깊이를 더할 수 있다. 이런 경우에 기관/기업들의 상충되는 이해관계를 해소하기 위하여 데이터를 수집하는 제3의 조직이 필요하다. 이러한 조직을 데이터집합자라고 한다. 대표적인 사례가 공공 의료 데이터집합자인 영국의 HSCIC이다. 앞으로 데이터생태계가 발전되는데 데이터집합자의 역할이 매우 중요하다. 주목할 점은 데이터 집합자가 데이터 융합역할 뿐만 아니라 데이터 비식별화 역할도 수행한다.

다섯 번째 전략은 산업별 마스터데이터 관리와 데이터매핑 구현이다. 산업별 마스터데이터는 산업별 데이터생태계에서 공통으로 사용되는 데이터로서 여러 기업에서 자주 참조되는 데이터로 정의할 수 있다. 데이터생태계의 규모가 커지면 커질수록 마스터데이터관리는 중요해질 것이다. 데이터 폭과 깊이가 넓어지면 모든 데이터를 관리할 수는 없고 결국 핵심데이터를 중심으로 관리해야 한다. 따라서 산업별 마스터데이터 구성요소를 확인하고 관리범위를 점진적으로 확장할 필요가 있다. 산업별 마스터데이터관리는 분산된 데이터를 연계하는 레지스트리(Registry) 방식이다. 특정 기업의 마스터데이터관리와 달리, 산업내 기업 데이터를 완벽하게 통제할 수 없기 때문에 레지스트리 방식인 데이터매핑(Data Mapping)으로 관리하는 것이 효율적이다.

여섯 번째 전략은 국가 데이터원칙과 데이터거버넌스 수립이다. 우리나라는 데이터 수집, 보관, 교환 측면에서 다른 나라에 비해 규제 수준이 높다. 높은 수준의 데이터 규제는 데이터 기반 혁신의 장애요인으로 작용한다. 물론 데이터 활용을 위해서 필수불가결한 정보 보호의 규제를 풀어서도 안 되지만, 무분별한 정보보호 규제 때문에 미래 산업인 데이터산업의 경쟁력이 뒤쳐져서는 안 된다. 따라서 데이터 관리 및 활용의 기준을 제시함으로써 데이터 경제를 촉진할 수 있다. 정부는 국가 차원에서 데이터원칙과 데이터거버넌스를 수립하여 기업/기관들에게 가이드라인을 제시해 줄 수 있다.

결론적으로 본 보고서에서는 국가 데이터인프라 체계를 도출하였고 5가지 전략을 제시하였다. 5가지 전략은 오픈에이피아이 및 오픈플랫폼 확산, 퍼스널데이터와 데이터융합, 데이터집합자 육성, 산업별 마스터데이터 관리와 데이터매핑 구현, 국가 데이터원칙과 데이터거버넌스 수립이다.

(출처 : 요약문)

Abstract ▼

4. Results of the Data Infrastructure Study Area

In this study, we derived the national data infrastructure strategy. The details of data paradigm is derived from Intelligent Information Society through top-down approach, and the common components are identified from five ICT convergence industries through bottom-up approach. Then a 3-tier national data infrastructure system is proposed in this study.
The 3-tier national data infrastructure system consists of three layers. The upper layer is governmental data infrastructure, the middle layer is industrial data infrastructure, and the lower layer is the data infrastructure of the individual organization.

Governmental data infrastructure should provide national data governance with national data principles. It should be managed from a data registry perspective rather than a data repository.
It may also be called 'national data hub'.
Industrial data infrastructure is an industry-specific data ecosystem. It is to define and share the data roles and flows of enterprises and organizations belonging to one industry. Data analysis from a single organization alone is not worthy of use. Analysis of data fusion can create new value and have a big impact on the entire industry.
Individual organizational data infrastructure is a data management system at the enterprise or organization level. Establish and promote data generation, storage, utilization and management plans at the individual organization level.
This report has identified 9 main themes for a 3-tier national data infrastructure system.
The main themes are Open API/Open Platform, Data Lake, Data Architecture, Master Data Management, Data Mapping, Data Aggregator, Data Convergence, De-Identification, and Data Principle.

The first strategy is to spread Open API and Open Platform. According to the government 's open data policy, Open API has been actively established in the public sector. Recently, a joint open platform of banks and securities was developed under the supervision of the Financial Services Commission. However, the Open API has not yet been activated in the private sector. The government should promote an open platform pilot project for the convergence of public and private data. In addition, standardization and systems should be established for the establishment and diffusion of OpenAPI and Open Platform.

The second strategy is to build data lakes and adopt data architectures. More than 70% of the effort is spent trying to acquire and maintain data during the Big Data analysis process. To reduce these efforts, we must actively promote data lake, a technique for accumulating non-structural data in a system area. At the enterprise level, data lakes must be used in conjunction with databases and data warehouses. Data architecture is the technology for managing them.

The third strategy is to promote data convergences. Personal data convergence is to provide personal data scattered in a data ecosystem to individuals so that they can utilize by themselves. Personal data can improve convenience and welfare of individual people and create new app services. A typical example is the US blue button service. Data fusion does not need to be done from an individual perspective. Data convergence can be achieved from the viewpoint of an enterprise and data convergence can be achieved from the viewpoint of an automobile. Data convergence from different perspectives can create new industries.

The fourth strategy is to foster data aggregators. In Intelligence Information Society, it is important to derive the data ecosystem. Collecting and analyzing information from multiple agencies/companies or different kinds of databases together can add depth to your analysis. In this case, there is a need for a third organization to collect data to resolve the conflicting interests of organizations/companies. These organizations are called data aggregators. A typical example is HSCIC, a public health data aggregator in UK. The role of the data collector is very important in the development of data ecosystem. It is worth noting that the data aggregator plays a role of data de-identification as well as data fusion.

The fifth strategy is to manage industry-specific master and to implement data mapping techniques. The industry-specific master data can be defined as data that is commonly used in the industry-specific data ecosystem and often referred to by many companies. As the size of the data ecosystem grows, master data management will become more important. As data width and depth become wider and deeper, you can not manage all of your data, and you have to focus on your core data. Therefore, it is necessary to identify components of industry-specific master data, and gradually extend the scope of master data management. The industry-specific master data management is a registry method that links distributed data.
Unlike the master data management in an enterprise level, it is effective to manage by the data mapping technique which is a registry method, because each enterprise data in an industry can not be completely controlled.

The sixth strategy is to establish national data principles and data governance. Korea has a higher level of regulation than other countries in terms of data collection, storage and exchange. High-level data regulation is a barrier to data-driven innovation. Of course, we should not release regulations on core information protection, which is indispensable for data utilization, but the competitiveness of the data industry, which is a future industry, should not fall behind due to unreasonable information protection regulations. Therefore, the data economy can be promoted by setting standards for data management and utilization.
Governments can establish data principles and data governance at the national level and provide guidance to enterprises/organizations.

In conclusion, this report has proposed the national data infrastructure system and presented five strategies. Five strategies are spreading Open API and Open platform, personal data and data convergence, data aggregation, industry-specific master data management and data mapping, national data principles and data governance.

(출처 : SUMMARY)

목차 Contents

표지 ... 1제 출 문 ... 5목차 ... 7표목차 ... 12그림목차 ... 14요 약 문 ... 18SUMMARY ... 28CONTENTS ... 36Ⅰ.연구의 구성 ... 38Ⅱ. 데이터 인프라 구축 및 활용방안 연구 ... 39 제 1장 서 론 ... 39 제 1절 연구 배경 및 목적 ... 39 제 2장 지능정보사회와 데이터자원관리 ... 42 제 1절 데이터자원의 중요성 ... 42 제 2절 데이터 기술의 이론적 고찰 ... 43 제 3절 데이터 생태계의 변화 ... 47 제 3장 산업별 데이터생태계 분석 ... 55 제 1절 보건의료 분야 ... 55 제 2절 교통운송 분야 ... 61 제 3절 금융 분야 ... 67 제 4절 교육 분야 ... 74 제 5절 문화관광 분야 ... 80 제 4장 향후 국가 데이터인프라 전략 도출 ... 85 제 1절 국가 데이터인프라 도출 및 주요 테마 ... 85 제 2절 오픈API 및 오픈플랫폼 전략 ... 88 제 3절 데이터레이크와 데이터아키텍처 전략 ... 91 제 4절 데이터융합 전략 ... 96 제 5절 데이터집합자 전략 ... 100 제 6절 산업별 마스터데이터관리와 데이터매핑 전략 ... 102 제 7절 국가 데이터원칙과 데이터거버넌스 전략 ... 106 제 5장 결론 ... 110Ⅲ. 사물 인터넷 지표와 통계체계 개발 연구 ... 113 제 1장 서 론 ... 113 제 1절 연구 배경 및 목적 ... 113 제 2절 연구 보고서의 구성 ... 115 제 2장 사물인터넷 개요 및 산업의 범위 설정 ... 116 제 1절 사물인터넷 개념 및 정의 ... 116 제 2절 산업 환경 변화에 따른 사물인터넷 범위 ... 120 제 3장 사물인터넷 통계조사 현황 분석 ... 135 제 1절 사물인터넷 산업 실태조사 및 관련 통계조사 현황 ... 135 제 2절 사물인터넷 산업 실태조사 및 관련 통계조사 시사점 ... 146 제 4장 사물인터넷 통계조사체계 개선방안 ... 154 제 1절 사물인터넷 산업 실태조사 모집단 정비 조사 개선방안 ... 154 제 2절 사물인터넷 산업 실태조사 설문항목 개선방안 ... 167 제 3절 사물인터넷 회선가입자 및 서비스 유형별 통계 항목 개선방안 ... 180 제 5장 결 론 ... 184IV. 참 고 문 헌 ... 187끝페이지 ... 192

표/그림 (86)

표 스맥, 사물인터넷, 그리고 데이터 대폭발
표 데이터기술의 역사 그리고 빅데이터 기술 분류
표 데이터품질관리의 역사
표 우리나라 정부의 엔터프라이즈아키텍처 프레임워크
표 일반적인 데이터아키텍처 프레임워크
표 전통적인 데이터생명주기
표 전통적인 데이터생명주기 구현방안들
표 빅데이터 환경하의 데이터생명주기
표 빅데이터 생명주기 구현방안들
표 데이터생명주기 비교
표 새로운 데이터 생태계 도래
표 국내 보건의료 분야의 정보화 추진현황 및 향후 방향
표 MU의 추진단계별 목표와 중점 추진사항
표 영국 Care.Data 프로그램의 건강데이터 제공 서비스 흐름도
표 건강정보서비스 및 제공 정보항목 예시
표 웰니스 데이터생태계 개념도
표 향후 추진방향에 대한 주요 분야의 해외전략 분석
표 미래 자동차산업 가치사슬 재편
표 자율주행차의 외부 데이터인프라와 내부 데이터인프라
표 교통운송 분야 데이터생태계 개념도
표 금융데이터 관리 체계 (자료원 : 금융위원회)
표 금융데이터 공급 흐름
표 한국신용정보원의 금융데이터 공유 체계
표 금융 핀테크 오픈플랫폼 개념도
표 우리나라 교육정보화의 5단계 기본계획
표 ICT 융합에 따른 교육 학습 분야의 4대 전략 방향
표 가상현실 STEM Lab
표 교육 콘텐츠 유통 및 관리 조직
표 학습분석(Learning Analysis)을 위한 데이터인프라
표 교육분야 데이터생태계
표 유럽 및 일본의 문화관광 정보화 분야 사례들
표 문화 및 관광 분야 데이터생태계
표 지능정보사회의 데이터패러다임 변화
표 6개 융합산업의 데이터생태계 분석
표 지능정보사회를 위한 국가 데이터인프라 전략
표 오픈 API 비즈니스모델 사례
표 국내외 핀테크 오픈플랫폼 사례
표 오픈플랫폼 표준화 과제
표 전통적 환경하의 시스템 구조와 데이터아키텍처
표 데이터레이크 기술 영역
표 빅데이터 환경하의 시스템 구조와 데이터아키텍처
표 빅데이터 환경하의 데이터아키텍처 구성요소들의 관계
표 퍼스널데이터 개념도와 효과
표 웰니스 데이터생태계와 개인데이터융합
표 영국의 midata 정책과 미국의 Smart Disclosure 정책
표 개인데이터 융합서비스인 블루버튼
표 데이터집합자의 역할
표 산업별 마스터데이터관리 개념 및 역할
표 산업별 마스터데이터관리 범위의 확장
표 마스터데이터관리의 4가지 방식
표 국가 데이터허브와 데이터매핑 전략
표 국가별 개인 데이터 보호 수준 비교
표 국가데이터원칙 정의대상 영역
표 범정부 EA 구현
표 국가 데이터아키텍처와 데이터거버넌스 전략
표 국가 데이터전략과제 프레임워크
표 2차 디지털 혁명, 사물인터넷
표 사물인터넷 주요 구성 요소
표 세 가지 관점에서의 사물인터넷 개념
표 네스트랩스 ‘Thermostat’, GE ‘Predix’, 아마존 ‘Dash’(시계방향)
표 사물인터넷과 클라우드 컴퓨팅의 융합 필요성
표 분야별 사물인터넷 서비스 사례(현재-미래)
표 사물인터넷 기반의 ICBM 환경 사례 – 사물인터넷 활성화 기반 조성
표 사물인터넷 요소 기술 및 활용 분야
표 사물인터넷 가치사슬
표 사물인터넷 가차사슬별 유형 및 내용
표 가치사슬별 사물인터넷 개념
표 S-P-N-D 관점에서의 사물인터넷
표 사물인터넷－클라우드 컴퓨팅－빅데이터의 유기적 관계
표 사물인터넷 산업 실태조사 추진 절차
표 모집단 정비조사 추진체계
표 사물인터넷 사업 분야별 영위여부 판단 기준
표 모집단 도출 결과
표 사물인터넷 유관 세세분류와 사물인터넷 산업 분류 간 연계표
표 조사 항목별 세부 조사 내용
표 ｢전기통신사업자의 통계보고 등에 관한 고시｣ 주요 고시 내용
표 한국표준산업분류 상의 사물인터넷 서비스/플랫폼 항목 도출
표 사물인터넷 플랫폼 분야의 세세분류 항목 추가 도출(안)
표 사물인터넷 서비스 분야의 세세분류 항목 추가 도출(안)
표 사물인터넷 산업 실태조사와 공급사업체 중심의 사물인터넷 세세분류 항목(안) 비교표
표 사물인터넷 산업 실태조사 서비스 구분 개선방안(안)
표 사물인터넷 산업 실태조사 시사점 부분 발췌 내용
표 사물인터넷 산업 분류 중 플랫폼 분야 개선방안(안)
표 세계 센서 시장 규모 전망 및 국내 센서 산업 수준
표 회선수 기반 사물인터넷 주요 서비스 현황
표 이동통신사업자의 스마트홈 서비스

과제명(ProjectTitle) :	-
연구책임자(Manager) :	-
과제기간(DetailSeriesProject) :	-
총연구비 (DetailSeriesProject) :	-
키워드(keyword) :	-
과제수행기간(LeadAgency) :	-
연구목표(Goal) :	-
연구내용(Abstract) :	-
기대효과(Effect) :	-

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 제목(한글), 저자명(한글), 발행일자, 전자원문, 초록(한글), 초록(영문) 관리번호, 제목(한글), 제목(영문), 저자명(한글), 저자명(영문), 주관연구기관(한글), 주관연구기관(영문), 발행일자, 총페이지수, 주관부처명, 과제시작일, 보고서번호, 과제종료일, 주제분류, 키워드(한글), 전자원문, 키워드(영문), 입수제어번호, 초록(한글), 초록(영문), 목차
저장형식	Text(ASCII format) Excel format
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

인터넷 융합 데이터 인프라 구축 및 활용방안 연구
A Study on Constructing and Utilizing a Data Infra for Internet Convergence 원문보기