$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

과학 데이터 공유와 접근 : 데이터를 보존하고 접근할 수 있도록 하지 않으면 연구는 발전하지 않는다

2009-09-23

9월 10일자 Nature지는 과학 분야의 데이터 공유에 관해 일련의 기사를 발표했다. 과학 커뮤니티가 부끄러울 정도로 데이터 공유를 무시하고 있다는 내용의 칼럼과 데이터 리포지터리를 이용하지 않는 이유를 연구한 “텅 빈 아카이브”(Empty Archives) 라는 특집기사, 그리고 두 편의 오피니언 기사를 수록하였다. 이 기사들은 과학 커뮤니티에서 데이터 공유가 필요하다고 강조하고 있다. 과학데이터 공유는 정부의 공적 자금으로 대다수 연구가 수행되며, 연구결과 산출된 정보가 공공정보(Public Sector Information, PSI) 또는 정부데이터라는 점에서 타당성을 갖는다.

2009년 5월 토론토와 로마에서 논문 출판 전 데이터 공유와 논문 출판 이후 데이터 공유에 관해 각기 논의하고 공유지침을 개정하였다.


논문 출판 전 데이터 공유(Prepublication data sharing)
첫 번째 오피니언 기사는 토론토에서 개최된 워크숍과 연관 지어 출판 전 디포짓(pre-publication deposit) 를 담고 있다. 2009년 5월 캐나다 토론토에서 논문 출판 이전에 게놈 데이터셋트를 공유하는 것을 논의하기 위해 Data Release Workshop을 개최하였다. 이 연구커뮤니티는 게놈 데이터를 공유함으로써 엄청난 혜택을 경험한 바 있다. 워크숍에서는 게놈 분야의 데이터이외에도 생물학 분야까지 확장하여 데이터 셋트를 공유하자는 의견이 있었다. 이 워크숍에서 발표된 토론토 선언문(Toronto Statement)에는 연구지원기관, 데이터 생산자, 데이터 분석자, 이용자, 학술지 편집자를 위한 권고사항을 담고 있다. 이 선언문은 ① 대규모 ② 광범위한 활용성 ③ 참조데이터셋트 생성 ④ 커뮤니티와 관련성을 가진 데이터셋트의 경우 출판 전에 신속하게 디포짓할 것을 권고하고 있다.
토론토 워크숍 이후 버뮤다(Bermuda)과 포트 로더데일(Fort Lauderdale)에서도 데이터공유에 관한 워크숍이 이어졌다.

논문 출판 후 데이터 공유(Postpublication data sharing)
두 번째 오피니언 기사는 로마에서 개최된 회의와 연관 지어 ‘출판 후 디포짓’(post-publication deposit)을 담고 있다. 2009년 5월 생쥐실험 연구자들이 논문 출판 이후 데이터와 도구의 공유에 관한 이슈를 해결하고자 회의를 개최하였다. 이 로마회의에서는 생쥐와 세포주(cell-lines)라는 연구재료에 관해 다루었지만, 회의결과를 대다수 데이터에도 적용할 수 있다.
데이터와 도구의 공유를 촉진시킬 수 있는 자원들이 많을 지라도, 과학자들은 물질이전협정(Material Transfer Agreements, MTAs)에 의한 어려움을 안고 있다. 로마회의는 데이터와 물질에 대한 접근성, 라이선스와 특허활동, 데이터와 자원공유 인프라구조, 표준 및 도구개발, 기여와 보상처럼 커뮤니티 안에서 공유문화를 촉진시킬 수 있는 방법을 제안했다.


오픈 데이터 접근을 위한 프레임워크 구축
데이터를 보존하고 접근할 수 있도록 하지 않는다면 연구는 발전하지 않는다.

데이터와 자원을 공공 리포지터리에 디포짓하는 것은 논문에 발표된 결과를 검증하거나, 데이터를 용이하게 재이용하는데 있어 중요하다. 연구 프로젝트의 성공여부를 측정하는 기준에는 연구성과물인 논문과 연구 데이터가 있다. 연구 데이터의 이용 가능성은 현재 연구 성과의 새로운 측정기준으로 떠오르고 있다. GenBank와 같은 선도적인 아카이브는 데이터셋트가 새로운 발견을 창출하는데 얼마나 강력할 수 있는지를 보여준다. 특히 최초 연구자가 의도하지 않은 방식으로 많은 실험실에서 나온 데이터와 결합하여 분석할 때 강력해질 수 있다.

데이터 접근 및 공유를 활성화하기 위해 기술적, 조직적, 문화적 프레임워크를 긴급히 해결해야 한다.
첫째 연구지원기관은 디지털 데이터의 보존과 접근이 기관의 사명을 달성하기 위한 핵심임을 인지하고, 데이터 보존 및 접근성 증대를 위해 지원해야 한다. 1993년 영국의 7개 연구위원회(UK research councils)가 설립한 JISC는 데이터공유(data sharing)에 우선순위를 부여하여 Digital Curation Centre(이하, DCC)를 설립하였다. DCC는 에딘버러대학(University of Edinburgh)에 본부를 두고 있으며, 연구개발을 위한 국가중점사항으로 데이터 이슈를 설정하였다. 미국은 2005년 이후 29개 회원으로 구성된 Interagency Working Group on Digital Data가 데이터 아카이빙 지원계획 개발하는데 필요한 재원을 마련하기 위해 노력중이다. 중요한 점은 어떤 데이터를 보존해야 하고 어떤 데이터를 보존하지 말아야 하는지 정책을 개발하는 것이다.

둘째, 연구데이터를 저장하는데 필요한 하드웨어뿐만 아니라 연구자들이 직접 데이터를 저장할 수 있도록 지원할 소프트웨어를 구비해야 한다. 메타데이터관리 소프트웨어가 다른 과학자들이 데이터를 효과적으로 재사용하는데 중요하다. 이 소프트웨어는 데이터를 수집하고 처리하는데 필요한 사항을 기술하고, 데이터에 주석을 달 수 있는 도구이다. 특히 예기치 못한 방식으로 데이터를 혼합하고 결합할 때 어떤 데이터가 누구로부터 왔는지를 추적할 수 있는 기능을 갖춘 소프트웨어가 기본적으로 필요하다.

셋째, 디지털데이터를 보존하고 장기적으로 접근할 수 있도록 하는데 책임을 질 수 있는 기관을 만들어야 한다. 누가 이 역할을 담당하든지간에 데이터보존은 강력하고 장기적인 재정지원을 필요로 할 것이다. 미국과학재단(US National Science Foundation)은 DataNet 프로그램을 통해 구독서비스(subscription services)와 회비(membership fees)와 같은 메커니즘을 연구 중이다.

마지막으로, 데이터에 관한 교육 및 아웃리치 프로그램을 적극적으로 취해야 한다. 과학커뮤니티에서는 데이터에 기반한 연구를 수행하고 있지만 정보관리에 대해 전혀 언급하지 않고 있다. 정보관리는 데이터의 전 수명주기-데이터의 수집, 조직, 저장, 검색, 유지관리-에 관해 다루는 분야이다.

관련 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로