보고서 정보
주관연구기관 |
한국과학기술정보연구원 Korea Institute of Science and Technology Information |
연구책임자 |
황순욱
|
참여연구자 |
허태상
,
박근철
,
김상완
,
곽재혁
,
김직수
,
남덕윤
,
변은규
,
조금원
,
안선일
,
유진승
|
보고서유형 | 최종보고서 |
발행국가 | 대한민국 |
언어 |
한국어
|
발행년월 | 2017-03 |
과제시작연도 |
2016 |
주관부처 |
환경부 Ministry of Environment |
등록번호 |
TRKO201900002399 |
과제고유번호 |
1485013726 |
사업명 |
환경정책기반공공기술개발사업 |
DB 구축일자 |
2019-07-06
|
키워드 |
생태관측데이터.메타데이터.스키마.데이터저장소.사이언스게이트웨이.장기생태연구.데이터 플랫폼.Ecological/Observatory Data.Metadata.Schema.Data Repository.Science Gateway.Long-Term Ecological Research.Data Platform.
|
DOI |
https://doi.org/10.23000/TRKO201900002399 |
초록
▼
□ 개발 목적 및 필요성
□ 환경오염 및 생태변화는 미래사회의 최대 위협으로 이에 대한 정부의 장기적이고 체계적인 대책이 필요함.
□ 환경 및 생태변화 감시와 추적의 어려움 등을 해결하고 환경 및 생태변화가 미치는 파급효과와 공공성 등을 고려할 때 정부의 적극적인 기술개발 지원이 요구됨.
□ 생태 환경 문제는 국내뿐만 아니라 국외에도 많은 영향을 받기 때문에 국제 사회와의 정보 공유 및 교환도 중요하고, 이에 국가 차원에서 생태 데이터의 활용도를 더욱 증대시킬 수 있는 데이터 수집, 가공, 저장, 분석, 공유의 기반
□ 개발 목적 및 필요성
□ 환경오염 및 생태변화는 미래사회의 최대 위협으로 이에 대한 정부의 장기적이고 체계적인 대책이 필요함.
□ 환경 및 생태변화 감시와 추적의 어려움 등을 해결하고 환경 및 생태변화가 미치는 파급효과와 공공성 등을 고려할 때 정부의 적극적인 기술개발 지원이 요구됨.
□ 생태 환경 문제는 국내뿐만 아니라 국외에도 많은 영향을 받기 때문에 국제 사회와의 정보 공유 및 교환도 중요하고, 이에 국가 차원에서 생태 데이터의 활용도를 더욱 증대시킬 수 있는 데이터 수집, 가공, 저장, 분석, 공유의 기반이 마련되어야 함.
□ 세계적 데이터 기반의 협업연구에 동참하기 위해서는 생태관측자료 수집과 공유를 위한 국가 차원의 생태계정보 인프라 구축이 시급함.
□ 생태관측 인프라는 생태분야의 관측데이터를 장기적으로 보관 가능하고, 발견되는 생태종의 증가에 따라 유연한 플랫폼이 요구되고 다양한 생태관련 분석 툴과의 접근성과 글로벌 생태데이터와의 비교 및 분석 연구를 위해 다수의 국가에서 추구하는 표준 메타데이터 스키마 및 전송 프로토콜을 수용해야 하며 장기적인 기초연구를 목적으로 국가차원의 인프라로 구축되어 공공의 목적을 위해서 개방된 정책으로 운영되어야 함.
□ 연구개발결과
□ 과거 장기생태연구의 데이터 관리 문제점을 레거시 데이터 분석을 기반으로 파악
○ 문제점: 프로토콜 부재, 통합 저장소 부재, 데이터 파편화, 낮은 데이터 품질, 해외 연계 미흡, 데이터 활용성 미흡
□ 세계 유수의 장기생태연구 관련 데이터 플랫폼을 분석하여 한국 실정에 맞는 요소기술을 도출함.
□ 데이터 품질보증을 위해 시스템에서 유효성 검사를 지원하고 데이터 이해관계자들이 시스템의 리포팅 기능을 통해 데이터 검증 절차를 수행할 수 있도록 데이터 품질관리 프로세스를 개발함.
□ 데이터의 생성부터 출판까지 전 주기에 이르는 체계적인 관리체계를 설계 및 개발함.
□ 센서기술의 발달로 인해 데이터의 유형과 크기가 다양화되고 축적되는 데이터양이 방대해짐에 따라 빅데이터를 수용할 수 있는 확장성 있는 데이터 저장소 기술을 개발함.
□ 글로벌 데이터 공유를 지원할 수 있도록, 데이터 플랫폼의 영문지원, KOGL( ), CCL과 같은 이원적 데이터 라이센스의 적용, 국제 표준 식별체계인 DOI 연계 절차 및 관리 기능 반영, 글로벌 데이터 복제(Replication)과 Harvesting(수확)을 지원하기 위해 표준 메타데이터인 EML 적용과 Metacat 서버를 연계 기술 개발함.
□ 이를 통해 글로벌 데이터 공유와 데이터 품질관리가 가능한 전주기 장기생태연구 데이터 관리 플랫폼을 PoC로 개발하여 레퍼런스 사이트로 제시함.
□ 성능사양 및 기술개발 수준
□ 주요기능
○ 체계적인 데이터 저장소 관리 및 확장
- 프로토콜을 가질 수 없는 개인 연구자 데이터(private data) 관리 가능
- 프로토콜 데이터, 프로토콜 확장 데이터, 프로토콜 유사 데이터, 개인 데이터 등을 모두 아카이빙할 수 있도록 확장성 제공
- DOI 발급 및 관리
- 다양한 데이터 타입을 가지는 큰 사이즈의 데이터에 대한 리포지토리 제공
○ 영구적 데이터 보관 및 높은 확장성(High Availability)
- Drupal File 시스템, NoSQL(MongoDB), Cloud Storage(Amazon S3)
○ 데이터 품질관리
- 데이터 유효성 검사 룰 기반의 시스템적으로 데이터 품질관리
- 데이터 관리 주체별(데이터 기여자, 데이터 관리자, 데이터 리뷰어)로 체계적인 데이터 품질 절차를 지원
○ 글로벌 데이터 네트워크의 데이터 센터 역할 수행
- CCL Data License 및 DOI 연계 기반 마련
- Metacat을 활용한 국제 Data Replication 기반 마련
○ 국내외 서비스
- 한/영 변환 서비스 및 한/영 Data license 지원(국내: KOGL, 국외: CCL)
○ 장기적 데이터 보존 체계 (using NoSQL, Cloud Storage)
- 메타데이터 및 데이터 버전 관리
- 데이터 아카이빙(저장소의 로드밸런싱) 및 데이터 백업
○정보보호
- 민감 데이터의 별도 관리 기능으로 외부 공개 방지
(ACL: 커뮤니티 내 authorized user에 대해 데이터 레코드별 보기 권한 설정)
○ 개인정보보호
- 개인정보 보호법에 준하고, 국제 데이터 연계를 위한 개인정보 보호 정책 적용
○ 데이터 메트릭스 체계 고도화
- 프로젝트 기반의 데이터 관리
- 프로토콜을 확장 또는 유사 프로토콜을 적용하여 조사한 데이터에 대한수집체계 마련과 프로토콜 데이터와의 연계 마련
- 거의 모든 객체(Species Taxonomy, Controlled Vocabulary, Site, Measurement,프로젝트, DOI 등)에서 관련 데이터 연계 제공
- Weather API를 통해 사이트 날씨정보를 수집하고, 이를 데이터들과 연계하여활용
○ 검색 및 활용 기능 강화
- 데이터 검색: 맵 검색, facet 검색, 통합검색, 각종 Taxonomy와 연계된 데이터 검색 뿐만 아니라 데이터셋에 대한 데이터 검색까지 지원
- 검색/관리 기능 강화: Species, CV, User, project, DOI, Site 등 레거시 메타데이터를 입력하는 양식의 모든 검색기 및 메타데이터 관리기
- 모바일 전용의 반응형 웹 제공으로 다양한 모바일 기기에서 데이터 접근 가능
□ 기술개발 수준
○ 기능별 성능에 대해 절대적으로 평가할 수는 없지만, K-Ecohub 의 기능 구성측면에서는 장기생태연구 분야 단일 플랫폼으로 세계 최고 수준의 가능성을 보이기엔 충분함.
□ 활용계획
□ 국제 LTER 데이터 관리 플랫폼으로 활용
□ KNLTER의 데이터 센터 역할 수행을 맡은 국립생태원(NIE)에 적용에 대한 방향성 제시
□ 다양한 연구 커뮤니티의 데이터 협업 연구를 위한 표준 데이터 플랫폼으로의 확장
(출처 : 요약서 4p)
Abstract
▼
Ⅳ. Results
LTER(Long-Term Ecological Research) aims to cope with ecological, environmental, and climate problems that may occur in the present and future through long-term monitoring of ecology, environment, and climate. The correlation between ecological system change and climate change is diffi
Ⅳ. Results
LTER(Long-Term Ecological Research) aims to cope with ecological, environmental, and climate problems that may occur in the present and future through long-term monitoring of ecology, environment, and climate. The correlation between ecological system change and climate change is difficult to understand by analyzing short-term data alone, so we need comparative analysis from datasets collected for a long period of time. To do so, a proper data platform is required to continuously collect and manage monitoring data on ecology,environment, and weather.
In Korea, for 10 years from 2004, KNLTER project has established and collected data related to LTER focusing on: 1) long-term ecological change investigation, research and monitoring, 2) verifying correlation among climate change and environmental pollution and ecosystem change, 3) biodiversity research 4) protocol selection, and 5) study of biodiversity and biological resource conservation policies according to ecosystem change. In consequence,many excellent research results were derived. However, in the past decade of long-term ecological research, there have been some problems with data integration management.
Because the protocol describing the research method is not well defined, it is difficult to collect consistent accurate data, and individual researchers have managed data on their PCs because there is no repository for data integration. Since there was no interworking system to exchange data with other countries and the representation of dataset consisted only in Korean language, it was lack of preparation for global data sharing. Since data security for location-based sensitive information was not considered, there was a problem of protection of species when disclosing data. Moreover, there was no publishing system including systematic data quality management and lack of no interworking system between datasets and expert searching function for the use of data. In order to solve the problems of data management and establish a cooperative system of global long-term ecological research, this study found solutions after reflecting them in design through global trend analysis and related platform technology and suggested the data platform, which can be shared with global network, as areference model. The main achievements of this study are as follows:
First, applying the identical data schema, data validation, and data QA / QC in the same protocol, the data fragmentation problem collected through existing KNLTER is solved through data management workflow.
Second, we have secured a metadata management technology that can store, manage, search, and share standard ecological information and data retrieval technology based-on map on the web.
Third, we established a standardized ecological metadata schema and an interoperable environment, which enable international data interworking, through appling the ECN protocol and data of the UK.
Fourth, it can be utilized for constructing efficient integrated system for national ecosystem information, by improving the interoperability between different ecologicalinformation systems established by each institution or project through metadata standardization of eco-observation field.
Fifth, the type, size, and storage method of eco-observation data are analyzed. As a result, we suggested various storage technologies which are utilized and integrated, since the characteristics of data are very various.
Sixth, we derived necessary storage technology through data characteristics and storage technology analysis. In addition, we constructed: 1) unstructured DB for multimedia data, 2) file storage and backup / archiving device for raw data storage and 3) network function and interworking interface of metadata catalog system and web portal for data sharing.
Seventh, it is designed to accommodate various protocols as well as to expand easily with increasing the number of protocols.
Eighth, it is designed to facilitate the accumulation of long-term large-scale data and expansion of storage, so that it can support the national data center role.
The significance of the study through the implementation of K-Ecohub data platform is as follows:
First, to support systematic data quality management, ‘Data Validation’ is supported from data input, and data suitable for validation rule managed by Data Manager is input to reduce the possibility of data error. Furthermore, it supports the reviewer's semantic data verification procedure and enables strict data quality management through data QC through statistical analysis information by Data Manager stage by stage.
Second, it provides the English service combined with the Korean service for international distribution and utilization of data. In order to apply the KOGL Data License in Korea and the CCL Data License in other countries, we implemented a dual data license service through mapping. We also improved the accessibility of user datasets by assigning DOI to data.
Metacat servers can be interworked to enable data sharing bassed-on EML so that K-Ecohub can perform an international data node using data replication function.
Third, it expanded the user support in order to store and manage personal datasets as well as public datasets based-on the long-term ecosystem protocols, and enabled to manage them in conjunction with the projects so that it can act as national data repository. In addition, we considered data consistency as well as integrity and reliability, managing the data version using dataset’s moderation function.
Fourth, we have developed a personal information disclosure policy that does not infringe on personal information. We have applied it to the platform to support researchers' collaboration through the consent of disclosure of personal information and we have prevented the leaking of sensitive data(protected species) outside using separated management function for sensitive data.
Fifth, we enabled data storage to archive data through load-balancing and data replication of data storage, and implemented streaming services for video data type, one of large-scale of data.
Sixth, we built species taxonomy and CV as reference data for data validation check and have maximized integrated use of data by enhancing the correlation between datasets through providing various related information based-on sites and protocols.
Seventh, we strengthened the GUI search functions such as the Google Map search based-on Open Layer, faceted search, unified search, data search related with taxonomy.
Furthermore, the user's usability is improved by providing a responsive web for mobile use as mobile devices have proliferated recently.
We proposed data integration management model for ecology field as the K-Ecohub, data platform which not only enables data integrated storage by standardizing the metadata and data schema, but also supports enhancement of data retrieval and construction of CV for use of semantic data and grated analysis of heterogeneous data.
Although various countries have a their own data platform for LTER, they do not include all of the major functions on a singular platform. Considering the difference in maturity level by function, it is regarded as an equivalent level to world-class and the main function organization of a single data platform is considered to be world-class.
The K-Ecohub is implemented for centralized data management for the purpose of reference sites, and data processing for data analysis is left to the researchers at present.
For this reason, in future research, it is necessary to study rule-based data processing process to enable various data processing according to the analysis method. In addition, it is necessary to study data interworking and distributed management, if single site system is constructed together with assignment of research sites.
(출처 : SUMMARY 15p)
목차 Contents
- 표지 ... 1
- 제 출 문 ... 3
- 요 약 서 ... 4
- 요 약 문 ... 8
- SUMMARY ... 13
- 목차 ... 18
- 표목차 ... 19
- 그림목차 ... 21
- 1. 연구개발과제의 개요 ... 25
- 1-1. 연구개발 목적 ... 25
- 1-2. 연구개발의 필요성 ... 25
- 1-3. 연구개발 범위 ... 27
- 2. 국내외 기술개발 현황 ... 29
- 2-1. 인프라 구축 동향 ... 29
- 2-2. 플랫폼 기술 개발 동향 ... 30
- 3. 연구수행 내용 및 결과 ... 35
- 3-1. 연구개발의 내용(범위) 및 최종목표 ... 35
- 3-2. 연구개발 결과 및 토의 ... 189
- 3-3. 연구개발 결과 요약 ... 197
- 4. 목표달성도 및 관련분야 기여도 ... 207
- 4-1. 목표달성도 ... 207
- 4-2. 관련분야 기여도 ... 208
- 5. 연구결과의 활용계획 ... 210
- 6. 연구과정에서 수집한 해외과학기술정보 ... 211
- 7. 연구개발결과의 보안등급 ... 212
- 8. 국가과학기술종합정보시스템 (NTIS)에 등록한 연구시설·장비 현황 ... 213
- 9. 연구개발과제 수행에 따른 연구실 등의 안전조치 이행실적 ... 214
- 9-1. 기술적 위험요소 분석 ... 214
- 9-2. 안전관리대책에 준수하였음 ... 214
- 10. 연구개발과제의 대표적 연구실적 ... 215
- 11. 기타사항 ... 216
- 12. 참고문헌 ... 217
- 끝페이지 ... 223
※ AI-Helper는 부적절한 답변을 할 수 있습니다.