본 논문에서는 수산과학 R&D 정보의 빅데이터 플랫폼 구축과 메타 데이터 관리기법에 관해 소개한다. 빅데이터 플랫폼에서는 다양한 유형의 수산과학 R&D 정보를 수집하여 통합 연계하고, 이를 데이터 레이크 형태로 구축하는 방안을 제시한다. 수산과학 분야에서 수집, 축적되고 있는 기존의 데이터와 함께 위성영상 데이터, 연구보고서 등 비정형 빅데이터까지 수집하여 다양한 분석을 지원하는 빅데이터 플랫폼의 구축방안을 제시한다. 다음으로 데이터 추출과 전처리 및 저장 과정에서 메타 데이터를 수집하고 관리함으로써 수산과학 빅데이터의 체계적인 관리가 가능하도록 한다. 빅데이터 플랫폼 구축과 함께 메타 데이터를 표준양식으로 구축함으로써 데이터의 수집, 저장, 활용 및 유통 등 데이터 수명주기 전반에 걸쳐 체계적이고도 지속적인 빅데이터 관리 방안을 제시하는데 의의가 있다.
본 논문에서는 수산과학 R&D 정보의 빅데이터 플랫폼 구축과 메타 데이터 관리기법에 관해 소개한다. 빅데이터 플랫폼에서는 다양한 유형의 수산과학 R&D 정보를 수집하여 통합 연계하고, 이를 데이터 레이크 형태로 구축하는 방안을 제시한다. 수산과학 분야에서 수집, 축적되고 있는 기존의 데이터와 함께 위성영상 데이터, 연구보고서 등 비정형 빅데이터까지 수집하여 다양한 분석을 지원하는 빅데이터 플랫폼의 구축방안을 제시한다. 다음으로 데이터 추출과 전처리 및 저장 과정에서 메타 데이터를 수집하고 관리함으로써 수산과학 빅데이터의 체계적인 관리가 가능하도록 한다. 빅데이터 플랫폼 구축과 함께 메타 데이터를 표준양식으로 구축함으로써 데이터의 수집, 저장, 활용 및 유통 등 데이터 수명주기 전반에 걸쳐 체계적이고도 지속적인 빅데이터 관리 방안을 제시하는데 의의가 있다.
In this paper, we introduce a big data platform and a metadata management technique for fishery science R & D information. The big data platform collects and integrates various types of fisheries science R & D information and suggests how to build it in the form of a data lake. In addition to existi...
In this paper, we introduce a big data platform and a metadata management technique for fishery science R & D information. The big data platform collects and integrates various types of fisheries science R & D information and suggests how to build it in the form of a data lake. In addition to existing data collected and accumulated in the field of fisheries science, we also propose to build a big data platform that supports diverse analysis by collecting unstructured big data such as satellite image data, research reports, and research data. Next, by collecting and managing metadata during data extraction, preprocessing and storage, systematic management of fisheries science big data is possible. By establishing metadata in a standard form along with the construction of a big data platform, it is meaningful to suggest a systematic and continuous big data management method throughout the data lifecycle such as data collection, storage, utilization and distribution.
In this paper, we introduce a big data platform and a metadata management technique for fishery science R & D information. The big data platform collects and integrates various types of fisheries science R & D information and suggests how to build it in the form of a data lake. In addition to existing data collected and accumulated in the field of fisheries science, we also propose to build a big data platform that supports diverse analysis by collecting unstructured big data such as satellite image data, research reports, and research data. Next, by collecting and managing metadata during data extraction, preprocessing and storage, systematic management of fisheries science big data is possible. By establishing metadata in a standard form along with the construction of a big data platform, it is meaningful to suggest a systematic and continuous big data management method throughout the data lifecycle such as data collection, storage, utilization and distribution.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
수산과학 분야에서 수집, 축적되고 있는 기존 데이터와 위성영상 데이터, 연구보고서와 연구데이터 등 비정형 빅데이터까지 수용하는 빅데이터 플랫폼 구축한다. 다음으로 데이터 추출과 관리과정에서 메타 데이터를 수집하고 관리함으로써 수산과학 빅데이터의 체계적인 관리가 가능하도록 한다. 또한 수집된 데이터의 효과적으로 공개하고, 유통하기 위한 표준 기반 오픈데이터 포털의 구축방안도 제시한다.
더블린 코어의 목적은, 데이터의 형식과 구조를 단순화함으로써 원문의 저자나 발행자가 메타 데이터를 직접 작성하고, 네트워크 출판을 위한 저작도구의 개발자가 이 정보에 대한 템플릿을 직접 소프트웨어에 포함할 수 있도록 하는 것이다. 더블린 코어의 15개 기본요소를 특정 분야에서 요구되는 상세한 수준으로 확장하여 보다 다양한 분야에 사용할 수 있다(그림1 및 표1 참고).
다음으로 데이터 추출과 관리과정에서 메타 데이터를 수집하고 관리함으로써 수산과학 빅데이터의 체계적인 관리가 가능하도록 한다. 또한 수집된 데이터의 효과적으로 공개하고, 유통하기 위한 표준 기반 오픈데이터 포털의 구축방안도 제시한다. 결과적으로 데이터의 수집, 저장, 활용 및 유통 등 데이터 수명주기 전반에 걸쳐 체계적이고도 지속적인 수산과학 R&D 빅데이터 관리 방안을 제시하는데 의의가 있다.
빅데이터 플랫폼에서는 다양한 유형의 수산과학 R&D 정보를 수집하여 통합 연계하고, 이를 데이터 레이크 형태로 구축하는 방안을 제시 한다. 또한 이 과정에서 메타 데이터를 풍부하게 확보하여 저장함으로써 빅데이터의 체계적 관리와 국내외 연동이 수월하게 이루어지도록 한다. “메타 데이터에 수록되지 않는 것은 관리할 수 없다”라는 점을 감안할 때 표준규격을 반영한 풍부한 메타 데이터 구축은 품질관리 등 데이터 거버넌스 구축에 출발점이라 할 수 있다[1].
본 논문에서는 수산과학 R&D 정보의 빅데이터 플랫폼 구축과 메타 데이터 관리기법을 제안 한다.
본 논문에서는 수산과학 빅데이터 플랫폼 구축 방안과 메타 데이터 구축 방안을 제시하였다. 빅데이터 플랫폼의 경우 기존 데이터와 빅데이터를 모두 수집하는 것을 목표로 하고 있으며, 대용량 저장소로 Hadoop 기반의 분산저장시스템을 구축하였다.
다양한 유형의 데이터를 빅데이터 플랫폼에 저장하는 단계에서 어떤 데이터가 유입되는지에 관한 메타 데이터를 구축하는 것이 중요하다. 여기서는 연구데이터 관리 및 공유를 위한 메타 데이터 표준화 문서[9]를 근간으로 하여 수산과학 빅데이터 플랫폼에서 활용할 수 있는 메타 데이터를 제안한다.
제안 방법
본 장에서는 수산과학 빅데이터 플랫폼 구축에 관해 소개한다. 기존의 데이터베이스에 축적된 데이터와 위성 영상 데이터 및 연구보고서 데이터 등을 통합하여 빅데이터 플랫폼을 구축한다.
다양한 소스로부터 데이터가 수집, 축적됨을 감안하여 표준화된 풍부한 메타 데이터 구축방안을 제시하였다. 연구데이터셋에 관한 표준 메타 데이터 구조를 기반으로 위성영상 데이터와 연구 보고서에 관한 메타 데이터를 해당 분야 표준규격을 활용하여 제시하였다.
빅데이터 플랫폼의 경우 기존 데이터와 빅데이터를 모두 수집하는 것을 목표로 하고 있으며, 대용량 저장소로 Hadoop 기반의 분산저장시스템을 구축하였다. 또한 실시간 데이터 저장과 분석을 위한 시스템과 기존 정형화된 데이터 분석용으로 데이터 웨어하우스 구축방안으로 나누어 제시하였다.
본 장에서는 수산과학 빅데이터 플랫폼에서 메타 데이터 관리방안을 제시한다. 빅데이터 플 랫폼에 수집되는 데이터는 크게 정형화된 기존 데이터, 위성영상 데이터, IoT 데이터, 연구 보고서 및 연구데이터 등으로 구분할 수 있으며, 이들 각각에 대한 메타 데이터 관리방안을 설명한다.
빅데이터 플랫폼에서는 다양한 유형의 수산과학 R&D 정보를 수집하여 통합 연계하고, 이를 데이터 레이크 형태로 구축하는 방안을 제시 한다.
먼저, 수산과학 분야의 특수성을 감안한 빅데이터 플랫폼 구축 방안을 제시한다는 검이다. 수산과학 분야에서 수집, 축적되고 있는 기존 데이터와 위성영상 데이터, 연구보고서와 연구데이터 등 비정형 빅데이터까지 수용하는 빅데이터 플랫폼 구축한다. 다음으로 데이터 추출과 관리과정에서 메타 데이터를 수집하고 관리함으로써 수산과학 빅데이터의 체계적인 관리가 가능하도록 한다.
다양한 소스로부터 데이터가 수집, 축적됨을 감안하여 표준화된 풍부한 메타 데이터 구축방안을 제시하였다. 연구데이터셋에 관한 표준 메타 데이터 구조를 기반으로 위성영상 데이터와 연구 보고서에 관한 메타 데이터를 해당 분야 표준규격을 활용하여 제시하였다.
이 표준에서는 그림 2와 같이 연구 데이터를 저장소인 리포지터리(Repository), 연구주제 혹은 부서별 데이터인 컬렉션(Collection), 연구데이터 파일의 묶음(공유 및 활용의 단위)인 데이터셋 (Dataset)으로 구분하여 각 수준에서의 메타 데이터 표준을 제안하였다.
성능/효과
결과적으로 데이터의 수집, 저장, 활용 및 유통 등 데이터 수명주기 전반에 걸쳐 체계적이고도 지속적인 수산과학 R&D 빅데이터 관리 방안을 제시하는데 의의가 있다.
연구 과제의 결과물인 연구보고서에 관한 메타 정보를 표준화된 형태로 관리함으로써 국가전 체적으로 통합검색의 효율성을 높일 수 있다. 한국정보통신기술협회에서는 연구보고서에 관한 메타 데이터 표준을 개발하였으며, 이를 기반으로 수산과학 연구보고서의 메타 데이터 구축에 활용하고자 한다.
후속연구
(시각화와 활용 및 포털) 마지막으로 상단에서는 데이터 분석결과를 시각화하여 직관적인 의사 결정이 가능하게 하고, 필요한 응용 프로그램을 지속적으로 개발하여 추가해 나가며, 전체 빅데이터 플랫폼을 관리하는 도구를 확충해 나간다. 또한, 다양한 데이터 셋이 만들어지고, 이들이 유통될 수 있도록 오픈데이터 포털을 제공하는 것이 필요하다.
이 표준에서는 연구를 수행하며 생산되는 연구데이터들을 메타데이터 기반으로 효율적으로 관리, 공유 및 활용할 수 있도록 메타데이터 관리체계, 요소 및 세부 사항을 표준(안)으로 명시하고 있다. 이를 사용함으로써 연구자 및 기관의 자산인 데이터를 보존하고 데이터의 재활용을 통해 연구의 효율성을 제고할 수 있을 것이다.
향후에는 수산과학분야에서 IoT 센서의 활용이 증가할 것으로 보이며, 이에 따라 IoT 혹은 센서 데이터 수집과 저장이 급증할 것으로 보인다. 따라서 IoT 센서 데이터를 수용할 수 있도록 메타 데이터를 추가하는 연구 및 실시간으로 데이터가 가용하도록 품질관리의 정확도를 높이는 개선이 요구된다.
질의응답
핵심어
질문
논문에서 추출한 답변
메타 데이터란 무엇인가?
메타 데이터(metadata)는 “다른 데이터에 대한 정보를 제공하는 데이터”로 정의한다. 예를들어, 이미지 데이터에 대하여 크기, 색상 깊이, 이미지 해상도, 이미지 생성시기 및 기타 데이터를 설명 하는 메타 데이터를 포함 할 수 있다.
수산과학 R&D 빅데이터 플랫폼에 존재하는 데이터의 종류는?
수산과학 분야에서도 그동안 축적한 데이터와 새로 수집되는 데이터를 통합연계하여 수산과학 R&D 빅데이터 플랫폼을 구축하고 있다[4]. 이 플랫폼에는 해양 및 어장환경 정보, 어업자원 정보, 양식연구 정보, 생명자원 정보, 수산물 안전 정보 등과 함께 위성영상 정보, 각종 IoT 센서 정보, 논문과 연구보고서 데이터 등이 포함되어 있다. 또한, 수협의 연근해 어업정보, 해양수산부의 원양어업 정보, 국립수산물품질관리원의 수산동식물 검역정보 등 외부기관의 관련 데이터와 연계 되어 시너지 창출이 기대되고 있다[7].
빅데이터 플랫폼은 무엇을 기반으로 구축되는가?
이러한 빅데이터 플랫폼들은 실시간 수집과 분석이 필요한 일부 영역을 제외하고는 기존의 상용 데이터 관리 프로그램 보다는 Hadoop 등 오픈소스를 기반으로 구축되고 있다. 또한 빅데이터 플랫폼의 데이터는 다양한 수요자들에 의해 추출되어 데이터셋을 생성할 수 있어야 하고, 이를 바탕으로 데이터 마이닝이나 인공지능 기술을 편리하게 접목할 수 있어야 하며, 분석결과는 시각화를 통해 직관적으로 의사결정을 수행할 수있도록 지원해야 한다.
참고문헌 (15)
조완섭 외, 빅데이터 거버넌스, 홍릉과학출판사, 2014.
조완섭 외, 농업기초기반 R&D 데이터의 고품질 자원화 및 활용방안, 농업과학원 연구보고서, 2019.12.
조완섭 외, 보건의료빅데이터 연계 플랫폼, 보건복지부R&D사업 보고서, 2018.2.
최영진 외, 수신과학 빅데이터 시스템 구축 및 표준화 기술개발, 수산과학원 연구보고서, 2018.12.
CKAN, https://ckan.org/ (CKAN사이트).
https://www.data.go.kr (공공데이터 포털).
홍봉희, 국립수산과학원 빅데이터 추진 기획보고서 작성, 국립수산과학원, 2016.4.
김철수 외, USN 메타 데이터 모델, TTA Standard, 한국정보통신기술협회, 2009.
김선태 외, 연구데이터 관리 및 공유를 위한 메타데이터, TTA Standard, 한국정보통신기술협회, 2016.
고영만 외, 연구보고서 정보 메타 데이터의 구성요소 및 형식, TTA Standard, 한국정보통신기술협회, 2008.12.
권형진, 지식정보자원 메타 데이터, TTA저널, 제 78호.
박종현, 강지훈, 유비쿼터스 센스 네트워크를 위한 USN 메타 데이터 정의 및 메타 데이터 관리 시스템, 한국컴퓨터정보학회 논문지, 2011. 06.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.