연구데이터의 개방과 공유는 연구의 효율성과 연구 과정의 투명성을 제고할 뿐 아니라, 데이터 통합과 재해석을 통해 새로운 과학으로의 창출도 가능하다. 서구를 중심으로 연구데이터 공개와 재사용을 위한 다양한 정책이 개발되면서 표준적인 인용 체계도 자리를 잡아가고 있다. 본 연구는 연구데이터 인용색인 DCI(Data Citation Index)를 기반으로 연구데이터의 구축 규모와 인용 정도를 파악하고, 기술통계분석과 Kruskal-Wallis H 분석을 통해서 고인용 데이터의 특성과 인용 경향을 분석해 보았다. 또한 알트매트릭스(Altmetrics) 분석 도구인 Impactstory를 통하여 연구데이터의 사회적 영향력도 진단해 보았다. 그 결과 연구데이터의 규모는 유전학과 생명공학 분야가 압도적으로 크지만, 다수 인용된 분야는 인구, 고용 등 경제 사회과학분야인 것으로 나타났으며, UK Data Archive, ICPSR(Inter-University Consortium For Political And Social Research)에 구축된 연구데이터가 가장 많이 인용되고 있는 것으로 분석되었다. 또한 데이터세트보다는 조사방법과 연구방법론이 포함된 데이터스터디가 높은 피인용도를 보이는 것으로 나타났으며, 연구데이터의 알트매트릭스 분석 결과에서도 사회과학분야의 데이터스터디가 상대적으로 많이 참조되고 있는 것으로 나타났다.
연구데이터의 개방과 공유는 연구의 효율성과 연구 과정의 투명성을 제고할 뿐 아니라, 데이터 통합과 재해석을 통해 새로운 과학으로의 창출도 가능하다. 서구를 중심으로 연구데이터 공개와 재사용을 위한 다양한 정책이 개발되면서 표준적인 인용 체계도 자리를 잡아가고 있다. 본 연구는 연구데이터 인용색인 DCI(Data Citation Index)를 기반으로 연구데이터의 구축 규모와 인용 정도를 파악하고, 기술통계분석과 Kruskal-Wallis H 분석을 통해서 고인용 데이터의 특성과 인용 경향을 분석해 보았다. 또한 알트매트릭스(Altmetrics) 분석 도구인 Impactstory를 통하여 연구데이터의 사회적 영향력도 진단해 보았다. 그 결과 연구데이터의 규모는 유전학과 생명공학 분야가 압도적으로 크지만, 다수 인용된 분야는 인구, 고용 등 경제 사회과학분야인 것으로 나타났으며, UK Data Archive, ICPSR(Inter-University Consortium For Political And Social Research)에 구축된 연구데이터가 가장 많이 인용되고 있는 것으로 분석되었다. 또한 데이터세트보다는 조사방법과 연구방법론이 포함된 데이터스터디가 높은 피인용도를 보이는 것으로 나타났으며, 연구데이터의 알트매트릭스 분석 결과에서도 사회과학분야의 데이터스터디가 상대적으로 많이 참조되고 있는 것으로 나타났다.
Sharing and reutilizing of research data could not only enhance efficiency and transparency of research process, but also create new science through data integrating and reinterpretationing. Diverse policies about research data sharing and reutilizing have been developing, along with extending of re...
Sharing and reutilizing of research data could not only enhance efficiency and transparency of research process, but also create new science through data integrating and reinterpretationing. Diverse policies about research data sharing and reutilizing have been developing, along with extending of research evaluating spectrum that across research data citation rate to social impact of research output. This study analyzed the scale and citation number of research data which has not been analyzed before in korea through data citation index using Kruskal-Wallis H analysis. As result, genetics and biotechnology are identified as subject areas which have most huge number of research data, however the subject areas that have been highly cited are identified as economics and social study such as, demographic and employment. And Uk Data Archive, Inter-university Consortium for Political and Social Research are analyzed as data repositories which have most highly cited research data. And the data study which describes methodology of data survey, type and so on shows high citation rate than other data type. In the result of altmetrics of research data, data study of social science shows relatively high impact than other areas.
Sharing and reutilizing of research data could not only enhance efficiency and transparency of research process, but also create new science through data integrating and reinterpretationing. Diverse policies about research data sharing and reutilizing have been developing, along with extending of research evaluating spectrum that across research data citation rate to social impact of research output. This study analyzed the scale and citation number of research data which has not been analyzed before in korea through data citation index using Kruskal-Wallis H analysis. As result, genetics and biotechnology are identified as subject areas which have most huge number of research data, however the subject areas that have been highly cited are identified as economics and social study such as, demographic and employment. And Uk Data Archive, Inter-university Consortium for Political and Social Research are analyzed as data repositories which have most highly cited research data. And the data study which describes methodology of data survey, type and so on shows high citation rate than other data type. In the result of altmetrics of research data, data study of social science shows relatively high impact than other areas.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
첫 번째, 연구데이터 공유 및 재활용의 필요성을 살펴보고 이를 위한 국제적 움직임을 조망해 본다. 또한 연구데이터 인용이 가지는 의미와 표준적 인용을 위한 기본 조건을 고찰해본다. 두 번째, DCI를 기반으로 기술통계분석을 수행해 데이터 규모와 유형, 주제별 분포와 다수 생성 국가 등을 파악해 본다.
본 연구는 DCI를 통해 연구데이터의 구축 규모와 주제 분야를 파악하고 고인용 데이터를 추출하여 그 특성과 인용 경향을 자세히 분석해본다. 본 연구의 목적을 좀 더 상세히 기술하면 다음과 같다.
2015)에서 다각도로 검증이 이루어지고 있어 관심이 집중되고 있다. 알트매트릭스는 DOI와 같은 고유 식별자가 있는 경우, 연구 부속물의 영향력까지도 기계적으로 측정할 수 있는데, 본 장에서는 피인용도 매트릭스에서 보여지지 않았던 연구데이터의 사회적 영향력을 파악해 보기 위하여 오픈소스 알트매트릭스 분석 도구인 Impactstory를 통하여 측정해 보았다. 500건의 고인용 데이터 중 DOI가 존재하는 161건의 데이터를 대상으로 알트매트릭스를 측정한 결과는 다음과 같이 나타났다.
여기에서는 고인용 연구데이터의 피인용 경향을 살펴보고, 데이터 유형과 주제가 과연 연구데이터의 인용에 어떠한 영향을 미치는지 분석해 보았다.
피인용도가 높은 데이터를 추출하여 특징을 파악하기 위하여 DCI에서 상위 인용도를 보이는 500건의 연구데이터를 추출하였다. 추출된 데이터의 주제, 타입, 유형, 조사 방법론을 분석하고 어떠한 데이터 레포지토리에 출판된 연구데이터가 가장 높은 인용도를 보였는지 기술통계분석을 수행해 보았다.
제안 방법
두 번째, 피인용도가 높은 연구데이터 500건을 추출하여 고인용 데이터의 특성을 파악하였다. 기술 분석을 통해 주제 분야와 주제어를 분석해 보며, 데이터 레포지토리, 구축 연도, 데이터 유형, 데이터 조사 방법 등을 파악하였다.
네 번째, 고인용 데이터 중 DOI가 있는 데이터 161건을 추출하여 오픈소스인 Impactstory를 통해 연구데이터의 알트매트릭스를 분석함으로써, 고인용 데이터가 가지는 사회적 영향력을 살펴보았고, DCI를 통해 도출된 피인용도와 차이가 나타나는지 비교해 보았다.
세 번째, 고인용 연구데이터 500건을 추출하여 그 특성과 인용 경향을 자세히 조사하고 Kruskal-Wallis H 분석을 통해 데이터 유형과 주제 분야가 피인용도에 어떠한 영향을 주고 있는지 분석해 본다. 네 번째, 연구데이터가 가지는 사회적 영향력을 알트매트릭스 측정 도구인 Impactstory를 통해서도 파악해 보며, 측정 결과를 DCI의 피인용 정도와 비교함으로써 연구데이터의 영향력을 다각도로 진단해 본다.
또한 연구데이터 인용이 가지는 의미와 표준적 인용을 위한 기본 조건을 고찰해본다. 두 번째, DCI를 기반으로 기술통계분석을 수행해 데이터 규모와 유형, 주제별 분포와 다수 생성 국가 등을 파악해 본다. 세 번째, 고인용 연구데이터 500건을 추출하여 그 특성과 인용 경향을 자세히 조사하고 Kruskal-Wallis H 분석을 통해 데이터 유형과 주제 분야가 피인용도에 어떠한 영향을 주고 있는지 분석해 본다.
두 번째, 피인용도가 높은 연구데이터 500건을 추출하여 고인용 데이터의 특성을 파악하였다. 기술 분석을 통해 주제 분야와 주제어를 분석해 보며, 데이터 레포지토리, 구축 연도, 데이터 유형, 데이터 조사 방법 등을 파악하였다.
먼저 DCI를 통하여 2006년도부터 2015년 3월까지 생성된 연구데이터의 규모를 분야별로 파악해 보았다. 최소 레코드 임계값을 100건으로 설정한 후 분석을 수행한 결과, 총 79개 분야의 3,379,301건의 데이터가 축적되어 있는 것으로 나타났다.
두 번째, DCI를 기반으로 기술통계분석을 수행해 데이터 규모와 유형, 주제별 분포와 다수 생성 국가 등을 파악해 본다. 세 번째, 고인용 연구데이터 500건을 추출하여 그 특성과 인용 경향을 자세히 조사하고 Kruskal-Wallis H 분석을 통해 데이터 유형과 주제 분야가 피인용도에 어떠한 영향을 주고 있는지 분석해 본다. 네 번째, 연구데이터가 가지는 사회적 영향력을 알트매트릭스 측정 도구인 Impactstory를 통해서도 파악해 보며, 측정 결과를 DCI의 피인용 정도와 비교함으로써 연구데이터의 영향력을 다각도로 진단해 본다.
세 번째로 고인용 연구데이터의 데이터 형식과 조사방법론을 살펴보았다. 분석 대상 데이터 중에는 하나의 레코드에 다양한 형식과 방법론이 혼재되어 있는 경우가 존재하였는데, 우선 기술된 데이터 형식을 추출하여 레코드별로 분석한 결과, 서베이 데이터가 118회로 가장 많은 것으로 나타났으며 그 밖에 게놈 유전자데이터, 추적데이터, 클리니칼 데이터 등 다양한 유형이 존재하는 것으로 나타났다.
첫 번째, 2006년도부터 2015년 3월까지 10년간 구축된 연구데이터를 추출하여 전반적인 데이터의 규모와 유형, 주제별 분포를 살펴보고 다수 생성 국가와 주요 데이터 레포지토리를 파악하였다.
첫 번째, 데이터의 유형과 인용도간에 어떠한 차이가 나타나는지를 살펴보기 위하여 데이터유형을 독립변수로 설정하고 피인용도를 종속변수로 설정하여 Kruskal-Wallis H을 실시한 결과는 다음과 같이 나타났다. 먼저 기술통계분석을 통한 변수집단간의 차이를 살펴보면 세 집단의 평균 피인용도는 데이터 레포지토리가 압도적으로 높게 나타난 것을 확인할 수 있다.
대상 데이터
510회 인용된 2번째 고인용 데이터는 “General Social Surveys, 1972-2006”으로 Web of Science 핵심 컬렉션 444회, Biosis Citation Index에서 3회 인용되었다.
톰슨로이터는 Web of Science에 인덱스(Index)할 학술지를 선정하는 절차와 마찬가지로 연구데이터를 인덱스할 데이터 레포지토리를 엄격한 기준으로 선정하고 있다. 데이터 레포지토리는 데이터 홀더(Data Holder)나 디스트리뷰터(Distributer)를 의미하는데, 연구비 지원 정보와 표준화된 인용 정보를 가지고 있는 영어 기반의 데이터 레포지토리를 그 대상으로 하고 있다. 대상 데이터 레포지토리 중 지속성과 안정성이 보장되고, 수록 범위의 양과 질, 저자의 다양성, 학술 커뮤니케이션 측면의 유용성, 데이터 큐레이션의 안정성이 보장되는 데이터 레포지토리가 선정되고 있다.
분석 대상 연구데이터 중에서는 와 같이 데이터세트가 3,200,752건으로 압도적으로 많은 것으로 나타났으며, 그 다음이 178,458건인 데이터스터디로 나타났다.
피인용도가 높은 데이터를 추출하여 특징을 파악하기 위하여 DCI에서 상위 인용도를 보이는 500건의 연구데이터를 추출하였다.
데이터처리
두 번째, 주제 분야와 피인용도 간에도 어떠한 관계가 존재하는지 파악하기 위하여 4개의 주제 분야를 독립변수, 피인용도를 종속변수로 설정해 Kruskal-Wallis H 분석을 실시하였다. 먼저 기술통계분석을 통한 변수집단간의 차이를 살펴보면 사회과학분야의 인용도가 평균 80회로 가장 높게 나타났고 그 다음이 71회로 생명공학 분야, 그 다음이 65회로 인문학 분야, 마지막이 34회인 자연/응용과학 분야 순인 것으로 나타났다.
본 연구는 톰슨 로이터의 DCI를 기반으로 데이터를 수집하고, SPSS Statistics 21을 통해 기술통계분석과 Kruskal-Wallis H 분석을 수행하여 다음과 같이 해석하였다. 또한 피인용도에는 나타나지 않는 연구데이터의 영향력을 추적하기 위하여 알트매트릭스 측정 도구인 Impactstory(Impactstory.org)를 활용하여 분석을 수행하고, 그 결과를 DCI 분석 결과와 비교하였다. 조금 더 구체적으로 설명하면 다음과 같다.
본 연구는 톰슨 로이터의 DCI를 기반으로 데이터를 수집하고, SPSS Statistics 21을 통해 기술통계분석과 Kruskal-Wallis H 분석을 수행하여 다음과 같이 해석하였다. 또한 피인용도에는 나타나지 않는 연구데이터의 영향력을 추적하기 위하여 알트매트릭스 측정 도구인 Impactstory(Impactstory.
세 번째, 데이터 유형과 주제가 인용도에 어떠한 영향을 미치는 지 파악하기 위하여 고인용 데이터 500건을 대상으로 기술통계분석과 세집단의 평균 차이를 검증하는 비모수기법인 Kruskal-Wallis H 분석을 수행하였다.
성능/효과
Web of Science 핵심 컬렉션에서 889회, Biosis Citation Index에서 185회 인용된 것으로 나타났으며, 주제는 건강관리 및 서비스(Health Care Sciences & Services) 분야, 유형은 데이터스터디인 것으로 분석되었다.
가장 많이 멘델리에 저장된 연구데이터는 사회과학 분야의 서베이 데이터인 “Project on Human Development in Chicago Neighborhoods: Community Survey, 1994-1995”로 23회 저장되어 있는 것으로 나타났는데, 이는 DCI에서도 43회 인용된 것으로 나타난 데이터이다.
가장 많이 인용된 연구데이터는 ICPSR에 저장된 “National Longitudinal Study of Adolescent Health(Add Health), 1994-2008”으로 총 1,135회 인용된 것으로 나타났다.
구축된 데이터는 생명공학분야가 가장 많았지만 광범위한 재활용과 인용이 이루어지고 있는 분야는 의 분석과 같이 사회과학분야인 것으로 나타났다.
정리하자면 아직까지 연구데이터의 알트매트릭스 민감도는 높지 않지만, 참고문헌 관리도구인 멘델리에 남겨진 흔적을 통해 추적해 볼 수 있었다. 그 결과 사회과학 분야의 데이터스터디가 가장 높은 알트매트릭스 수치를 보여, 앞서 분석한 피인용 정도와 비슷한 경향을 보이는 것으로 분석되었다.
com) 세이브드에서는 132건의 기록이 존재하는 것으로 나타났다. 그러나 단지 24개의 연구데이터에서만 기록이 존재해, 학술논문에 비하여 연구데이터의 알트매트릭스 민감도는 아직까지 매우 저조한 것으로 판단되었다. 가장 많이 멘델리에 저장된 연구데이터는 사회과학 분야의 서베이 데이터인 “Project on Human Development in Chicago Neighborhoods: Community Survey, 1994-1995”로 23회 저장되어 있는 것으로 나타났는데, 이는 DCI에서도 43회 인용된 것으로 나타난 데이터이다.
네 번째, 고인용 연구데이터 중 DOI가 존재하는 데이터를 대상으로 알트매트릭스 분석을 수행해 본 결과, 참고문헌관리도구인 멘델리의 저장 기록만이 나타나, 연구데이터의 전체적인 사회적 영향도는 높지 않은 것으로 분석되었다. 멘델리에 저장된 연구데이터의 특성은 데이터스터디가 대다수이고 사회과학분야가 가장 많아 DCI의 분석 결과와 유사하게 나타났다.
세 번째, 연구지원기관의 입장에서는 연구 결과의 검증을 통해 과학 발전을 도모할 수 있으며, 중복 연구비용을 절감시킬 수 있다. 네 번째, 연구자 개인의 입장에서는 연구의 과학적 처리 과정을 추적할 수 있으며 연구자간 데이터 교환을 통해 협력의 기회도 증가시킬 수 있다.
네 번째로 연도별 연구데이터의 피인용도 평균을 살펴본 결과, 최신 년도로 올라갈수록 점차적으로 증가하다가, 2010년도부터 급증하는 추세를 나타냈으며, 2014년과 2011년에 출판된 연구데이터의 피인용도 평균이 가장 높은 것으로 나타났다.
다섯 번째로 고인용 데이터가 출판된 데이터 레포지토리를 분석해 본 결과, 인용순위 500위 내에 포함되는 데이터 레포지토리의 수는 단 20개로 요약되었다. Uk Data Archive와 InterUniversity Consortium For Political and Social Research(ICPSR)가 각각 53.
<표 6>에서 제시하고 있는 것과 같이 500개의 연구데이터에서 총 20,226개의 주제어가 추출되었는데, 상위 빈도로 출현한 키워드는 가구(Households, 334회), 피고용인(Employees, 236회) 이외에도 교육배경(Educational Background, 225회), 정규직원(Full-Time Employment, 208회), 고용(Employment, 201회), 성별(Gender, 197회)순으로 나타나, 유전학 등 생명공학분야보다 인구, 고용 등 사회, 경제 분야 데이터의 인용도가 높은 것으로 나타났다. 다시 말해, 연구데이터의 절대적 구축량은 유전학, 생화학 분야가 많지만, 재활용성이 높아 다수의 후속 연구자에 의해 인용되고 있는 분야는 사회, 경제 분야인 것으로 분석되었다.
나머지 데이터는 상대적으로 저조한 인용 회수를 보여 인용 횟수 분포표는 긴꼬리 모양의 그래프를 나타냈다. 데이터 유형과 인용도간의 관계 분석 결과에서는 데이터스터디의 인용도가 확연히 높게 났으며, 주제와 인용도간의 분석 결과에서는 사회과학분야가 가장 높은 인용도를 보이는 것으로 나타났다. 또한 집단간 모두 통계적으로 유의한 수치를 보여, 데이터 유형과 주제가 피인용도에 영향을 주는 것으로 분석되었다.
첫 번째, 최근 10년간 생성되어 공유되고 있는 연구데이터의 규모는 300만건을 육박하며 유전학과 생명공학이 압도적인 비중을 차지한다. 데이터를 출판하는 레포지토리로는 생명공학 분야의 Gene Expression Omnibus와 전분야를 망라하는 Figshare가 가장 큰 규모를 보였으며 데이터의 유형으로는 데이터세트가 가장 많이 구축되어 있는 것으로 나타났다.
두 번째, 멘델리에 저장된 모든 연구데이터는 데이터스터디인 것으로 나타났다. 데이터세트와 레포지토리는 멘델리에 한 건도 저장되지 않은 것으로 나타났다. 구축량 자체가 많지 않은 레포지토리를 배제하고 설명하면, 데이터피인용도 분석에서와 마찬가지로 데이터세트보다 데이터스터디가 많이 참조되고 있는 것으로 추정해 볼 수 있겠다.
두 번째, 멘델리에 저장된 모든 연구데이터는 데이터스터디인 것으로 나타났다. 데이터세트와 레포지토리는 멘델리에 한 건도 저장되지 않은 것으로 나타났다.
두 번째, 상위 인용된 500건을 대상으로 한 분석에서는 유전학보다 경제학, 사회학, 인구통계학의 비중이 더 높았으며, 전 분야를 포괄하는 UK Data Archive와 사회과학 분야인 ICPSR(Inter-University Consortium for Political and Social Research)이 가장 높은 비중을 차지하는 것으로 나타났다. 또한 고인용 연구데이터의 유형은 데이터세트보다는 데이터스터디가 많았으며, 데이터의 형식은 서베이 데이터가, 데이터 조사방법으로는 인터뷰가 가장 높은 비중을 나타냈다.
데이터 공개 필요성을 좀 더 구체적으로 정리해보면, 첫 번째, 연구자 커뮤니티에 있어서 잘 관리되어 공개된 데이터는 재사용 및 통합을 통해 새로운 과학으로 창출이 가능하다. 두 번째, 연구결과에 대한 반복적 실험과 연구 방법론의 검증과 발전이 가능해진다. 세 번째, 연구지원기관의 입장에서는 연구 결과의 검증을 통해 과학 발전을 도모할 수 있으며, 중복 연구비용을 절감시킬 수 있다.
두 번째로 데이터 유형을 살펴 본 결과, 데이터스터디가 고인용된 500건의 연구데이터 중 96%를 차지하고 있는 것으로 나타났다. <표 2>와 같이 최근 10년내 구축된 데이터 전체를 대상으로 데이터 유형을 분석한 결과에서는 데이터세트가 가장 높은 비중을 차지하는 것으로 나타났지만, 고인용된 데이터 유형은 대부분 데이터스터디인 것으로 분석되었다.
두 번째, 상위 인용된 500건을 대상으로 한 분석에서는 유전학보다 경제학, 사회학, 인구통계학의 비중이 더 높았으며, 전 분야를 포괄하는 UK Data Archive와 사회과학 분야인 ICPSR(Inter-University Consortium for Political and Social Research)이 가장 높은 비중을 차지하는 것으로 나타났다. 또한 고인용 연구데이터의 유형은 데이터세트보다는 데이터스터디가 많았으며, 데이터의 형식은 서베이 데이터가, 데이터 조사방법으로는 인터뷰가 가장 높은 비중을 나타냈다.
데이터 유형과 인용도간의 관계 분석 결과에서는 데이터스터디의 인용도가 확연히 높게 났으며, 주제와 인용도간의 분석 결과에서는 사회과학분야가 가장 높은 인용도를 보이는 것으로 나타났다. 또한 집단간 모두 통계적으로 유의한 수치를 보여, 데이터 유형과 주제가 피인용도에 영향을 주는 것으로 분석되었다.
두 번째, 주제 분야와 피인용도 간에도 어떠한 관계가 존재하는지 파악하기 위하여 4개의 주제 분야를 독립변수, 피인용도를 종속변수로 설정해 Kruskal-Wallis H 분석을 실시하였다. 먼저 기술통계분석을 통한 변수집단간의 차이를 살펴보면 사회과학분야의 인용도가 평균 80회로 가장 높게 나타났고 그 다음이 71회로 생명공학 분야, 그 다음이 65회로 인문학 분야, 마지막이 34회인 자연/응용과학 분야 순인 것으로 나타났다. 구축된 데이터는 생명공학분야가 가장 많았지만 광범위한 재활용과 인용이 이루어지고 있는 분야는 <표 5>의 분석과 같이 사회과학분야인 것으로 나타났다.
첫 번째, 데이터의 유형과 인용도간에 어떠한 차이가 나타나는지를 살펴보기 위하여 데이터유형을 독립변수로 설정하고 피인용도를 종속변수로 설정하여 Kruskal-Wallis H을 실시한 결과는 다음과 같이 나타났다. 먼저 기술통계분석을 통한 변수집단간의 차이를 살펴보면 세 집단의 평균 피인용도는 데이터 레포지토리가 압도적으로 높게 나타난 것을 확인할 수 있다. <표 7>에서 분석한 고인용 연구데이터의 유형에서는 데이터스터디가 480건으로 96%를 차지하고 데이터세트가 15건으로 3%, 레포지토리가 5건으로 1% 분포하고 있는 것으로 나타났으나, 개별 연구데이터의 피인용건수 평균을 비교해 본 결과에서는 레포지토리가 116회로 가장 높게 나타났고 그 다음이 데이터스터디로 평균 78회, 마지막으로 데이터세트가 평균 37회로 가장 적게 인용되는 것으로 나타났다.
백분위 수로 구분해 보아도 아래와 같이 50회 정도에 50%의 연구데이터가 분포하는 것으로 나타났으며, 10%의 연구데이터만이 인용횟수가 164건 이상인 것으로 나타나, 의 그래프와 같이 긴꼬리 모양의 그래프를 보이고 있는 것으로 나타났다.
세 번째로 고인용 연구데이터의 데이터 형식과 조사방법론을 살펴보았다. 분석 대상 데이터 중에는 하나의 레코드에 다양한 형식과 방법론이 혼재되어 있는 경우가 존재하였는데, 우선 기술된 데이터 형식을 추출하여 레코드별로 분석한 결과, 서베이 데이터가 118회로 가장 많은 것으로 나타났으며 그 밖에 게놈 유전자데이터, 추적데이터, 클리니칼 데이터 등 다양한 유형이 존재하는 것으로 나타났다. 한편, 조사방법론도 하나의 레코드에 다양한 방식이 혼합되어 있어, 이 역시 우선 기술된 방법론을 추출하여 분석하였는데, 인터뷰 방식과 설문 방식이 가장 많은 것으로 나타났으며, 그 밖에 랜덤 샘플링, 팀평가, 병원기록, 통계기록 등 다양한 조사방법론이 존재하는 것으로 나타났다.
Torres-Salinas, Martín-Martín, FuenteGutiérrez(2014)는 2013년 4월을 기준으로 DCI에 구축된 데이터 현황을 다음과 같이 분석하였다. 생명과학분야가 80%, 사회과학이 18%, 인문예술 2%, 기술공학 0.01%를 차지하고 있으며, 가장 큰 비중을 차지하고 있는 데이터 레포지토리로 생명과학분야의 Gene Expression Omnibus를 꼽았다.
두 번째, 연구결과에 대한 반복적 실험과 연구 방법론의 검증과 발전이 가능해진다. 세 번째, 연구지원기관의 입장에서는 연구 결과의 검증을 통해 과학 발전을 도모할 수 있으며, 중복 연구비용을 절감시킬 수 있다. 네 번째, 연구자 개인의 입장에서는 연구의 과학적 처리 과정을 추적할 수 있으며 연구자간 데이터 교환을 통해 협력의 기회도 증가시킬 수 있다.
세 번째, 주제가 부여되어 있는 데이터를 대상으로 분야를 살펴보면 사회과학분야(6.38회)가 가장 높고 그 다음 생명공학 분야(4.60회)가 높은 것으로 나타났다. 이는 DCI의 분야별 인용 결과와 유사한 경향을 보인다.
세 번째, 피인용도 횟수를 살펴본 결과, 500건 이상 인용된 데이터는 단 2건뿐인 것으로 나타났고 20-50회 사이에 238건이 분포하였다. 나머지 데이터는 상대적으로 저조한 인용 회수를 보여 인용 횟수 분포표는 긴꼬리 모양의 그래프를 나타냈다.
먼저 기술통계분석을 통한 변수집단간의 차이를 살펴보면 세 집단의 평균 피인용도는 데이터 레포지토리가 압도적으로 높게 나타난 것을 확인할 수 있다. <표 7>에서 분석한 고인용 연구데이터의 유형에서는 데이터스터디가 480건으로 96%를 차지하고 데이터세트가 15건으로 3%, 레포지토리가 5건으로 1% 분포하고 있는 것으로 나타났으나, 개별 연구데이터의 피인용건수 평균을 비교해 본 결과에서는 레포지토리가 116회로 가장 높게 나타났고 그 다음이 데이터스터디로 평균 78회, 마지막으로 데이터세트가 평균 37회로 가장 적게 인용되는 것으로 나타났다. 레포지토리는 500순위 내에 5개밖에 존재하지 않았지만, 그 자체에 데이터 구조와 조직을 반영하고 있으며, 검색 메카니즘까지 포함하고 있어 다른 데이터 유형에 비해 인용도가 높게 나타났을 것으로 추정된다.
저자가 연구데이터에 부여한 주제어를 모두 추출하여 빈도분석을 수행한 결과도 역시 비슷하다. <표 6>에서 제시하고 있는 것과 같이 500개의 연구데이터에서 총 20,226개의 주제어가 추출되었는데, 상위 빈도로 출현한 키워드는 가구(Households, 334회), 피고용인(Employees, 236회) 이외에도 교육배경(Educational Background, 225회), 정규직원(Full-Time Employment, 208회), 고용(Employment, 201회), 성별(Gender, 197회)순으로 나타나, 유전학 등 생명공학분야보다 인구, 고용 등 사회, 경제 분야 데이터의 인용도가 높은 것으로 나타났다. 다시 말해, 연구데이터의 절대적 구축량은 유전학, 생화학 분야가 많지만, 재활용성이 높아 다수의 후속 연구자에 의해 인용되고 있는 분야는 사회, 경제 분야인 것으로 분석되었다.
연구데이터의 개방과 공유는 연구의 효율성과 연구 과정의 투명성을 제고할 뿐 아니라 데이터 통합과 재해석을 통해 새로운 과학으로의 창출도 가능하다. 공공 기금으로 수행된 연구성과의 부산물을 공개하여 재사용할 수 있도록 하는 다양한 정책이 수립되면서, 자연과학 분야에서부터 인문사회과학 분야에 이르기까지 원시데이터를 공개하고 공유하는 움직임이 전세계적으로 확산되고 있다(Sayogo and Pardo 2013).
이 연구데이터는 사회학 분야로 ICPSR에 출판된 것으로 나타났으며, 역시 유형은 데이터스터디인 것으로 분석되었다. 연구데이터의 인용 회수를 몇 개 구간으로 나누어 자세히 살펴 본 결과, 500회 이상 인용된 데이터는 단 2건뿐이며, 20-50회 사이에 절반 가까이가 분포되어 있는 것으로 나타났다. 백분위 수로 구분해 보아도 아래와 같이 50회 정도에 50%의 연구데이터가 분포하는 것으로 나타났으며, 10%의 연구데이터만이 인용횟수가 164건 이상인 것으로 나타나, <그림 1>의 그래프와 같이 긴꼬리 모양의 그래프를 보이고 있는 것으로 나타났다.
510회 인용된 2번째 고인용 데이터는 “General Social Surveys, 1972-2006”으로 Web of Science 핵심 컬렉션 444회, Biosis Citation Index에서 3회 인용되었다. 이 연구데이터는 사회학 분야로 ICPSR에 출판된 것으로 나타났으며, 역시 유형은 데이터스터디인 것으로 분석되었다. 연구데이터의 인용 회수를 몇 개 구간으로 나누어 자세히 살펴 본 결과, 500회 이상 인용된 데이터는 단 2건뿐이며, 20-50회 사이에 절반 가까이가 분포되어 있는 것으로 나타났다.
구축된 데이터는 생명공학분야가 가장 많았지만 광범위한 재활용과 인용이 이루어지고 있는 분야는 <표 5>의 분석과 같이 사회과학분야인 것으로 나타났다. 주제 분야가 인용도에 영향을 주는지 통계적으로 파악하기 위하여 Kruskal-Wallis H 분석을 실시한 결과, 유의확률이 0.000으로 나타나 주제에 따라 피인 용도에 통계적으로 유의한 차이를 보이는 것으로 나타났다.
첫 번째, DOI가 존재하는 161건의 데이터에 대한 알트매트릭스 분석 결과, 페이스북, 블로그 등의 SNS 지표에서는 평가결과가 나타나지 않았으나, 참고문헌 관리도구인 멘델리(Mendeley, www.mendeley.com) 세이브드에서는 132건의 기록이 존재하는 것으로 나타났다. 그러나 단지 24개의 연구데이터에서만 기록이 존재해, 학술논문에 비하여 연구데이터의 알트매트릭스 민감도는 아직까지 매우 저조한 것으로 판단되었다.
첫 번째, 최근 10년간 생성되어 공유되고 있는 연구데이터의 규모는 300만건을 육박하며 유전학과 생명공학이 압도적인 비중을 차지한다. 데이터를 출판하는 레포지토리로는 생명공학 분야의 Gene Expression Omnibus와 전분야를 망라하는 Figshare가 가장 큰 규모를 보였으며 데이터의 유형으로는 데이터세트가 가장 많이 구축되어 있는 것으로 나타났다.
먼저 DCI를 통하여 2006년도부터 2015년 3월까지 생성된 연구데이터의 규모를 분야별로 파악해 보았다. 최소 레코드 임계값을 100건으로 설정한 후 분석을 수행한 결과, 총 79개 분야의 3,379,301건의 데이터가 축적되어 있는 것으로 나타났다. 그 중 유전학(Genetics Heredity)이 1,772,377건으로 가장 많았으며, 생화학/분자 생물학(Biochemistry Molecular Biology)이 1,355,128건으로 두 번째로 많은 것으로 나타났다.
분석 대상 데이터 중에는 하나의 레코드에 다양한 형식과 방법론이 혼재되어 있는 경우가 존재하였는데, 우선 기술된 데이터 형식을 추출하여 레코드별로 분석한 결과, 서베이 데이터가 118회로 가장 많은 것으로 나타났으며 그 밖에 게놈 유전자데이터, 추적데이터, 클리니칼 데이터 등 다양한 유형이 존재하는 것으로 나타났다. 한편, 조사방법론도 하나의 레코드에 다양한 방식이 혼합되어 있어, 이 역시 우선 기술된 방법론을 추출하여 분석하였는데, 인터뷰 방식과 설문 방식이 가장 많은 것으로 나타났으며, 그 밖에 랜덤 샘플링, 팀평가, 병원기록, 통계기록 등 다양한 조사방법론이 존재하는 것으로 나타났다.
후속연구
연구데이터의 인용은 데이터 기여자의 크레딧에 대한 인식 부족, 데이터에 대한 표준적 기술방식 미비 등의 요인으로 학술 논문에 비해 활성화되고 있지 않으며 인용 방식의 비정형화, 비표준화에 의해 발견이 쉽지 않은 것도 사실이다. 따라서 후속 연구에 의해 피인용되지는 않았으나, 연구데이터가 얼마나 연구자들에 의해 관심을 받고 있으며, 사회적으로는 어떠한 영향력을 가지고 있는지 다면적으로 살펴볼 필요가 있겠다.
백분위 수로 구분해 보아도 아래와 같이 50회 정도에 50%의 연구데이터가 분포하는 것으로 나타났으며, 10%의 연구데이터만이 인용횟수가 164건 이상인 것으로 나타나, <그림 1>의 그래프와 같이 긴꼬리 모양의 그래프를 보이고 있는 것으로 나타났다. 이러한 분석 결과를 가지고 유추해 볼 때, 전체 데이터를 대상으로 인용 경향을 분석한다면, 더욱 극단적인 긴 꼬리 모양을 보일 것으로 추론된다. 다시 말해 아주 극소수의 데이터만이 다수의 인용도를 보이고 있는 것으로 해석할 수 있겠다.
연구데이터 관리와 공유에 대한 인식이 부족한 우리나라에서는 먼저 개인 연구자의 연구데이터 관리를 위한 교육과 지원을 시작할 필요가 있겠으며, 연구지원기관에서도 연구에 딸린 부속물이 재활용될 수 있도록 각종 기반 마련을 서둘러야 할 것이다. 이와 더불어 데이터 출판이 가능한 레포지토리의 설치, 기관 레포지토리의 데이터 레포지토리 통합 방안 등도 포괄적으로 논의되어야 할 것이며, 이러한 기반이 마련된 후에는 연구 영향력 평가 체계의 확장에 대해서도 고민이 필요할 것이다.
질의응답
핵심어
질문
논문에서 추출한 답변
연구데이터의 인용이 학술 논문에 비해 활성화되지 않는 이유는 무엇인가?
연구데이터의 인용은 데이터 기여자의 크레딧에 대한 인식 부족, 데이터에 대한 표준적 기술방식 미비 등의 요인으로 학술 논문에 비해 활성화되고 있지 않으며 인용 방식의 비정형화, 비표준화에 의해 발견이 쉽지 않은 것도 사실이다. 따라서 후속 연구에 의해 피인용되지는 않았으나, 연구데이터가 얼마나 연구자들에 의해 관심을 받고 있으며, 사회적으로는 어떠한 영향력을 가지고 있는지 다면적으로 살펴볼 필요가 있겠다.
연구데이터의 개방과 공유는 어떤 것들을 가능하게 하는가?
연구데이터의 개방과 공유는 연구의 효율성과 연구 과정의 투명성을 제고할 뿐 아니라, 데이터 통합과 재해석을 통해 새로운 과학으로의 창출도 가능하다. 서구를 중심으로 연구데이터 공개와 재사용을 위한 다양한 정책이 개발되면서 표준적인 인용 체계도 자리를 잡아가고 있다.
DCI에서 구분하는 데이터 형식에는 무엇이 있는가?
DCI에서는 데이터 형식을 레포지토리, 데이터스터디, 데이터세트의 세 가지의 유형으로 구분하고 있다. 첫 번째 레포지토리는 데이터 그 자체뿐 아니라, 조사방법론, 연구방법론과 같은 데이터에 대한 기술과 검색 메카니즘까지 포함하고 있는 포괄적 객체를 의미한다. 두 번째 데이터스터디는 연구에 사용된 데이터를 기술하고 있는 단위로, 데이터의 조사방법과 연구방법론, 데이터의 유형 등이 기술되어 있다. 마지막으로 데이터세트는 연구와 실험 산출물의 일부로서 데이터 그 자체를 의미한다. 따라서 데이터스터디와 같이 데이터 조사방법론 등을 설명하지 않으며, 레포지토리와 같이 검색 메카니즘을 포함하지도 않는다(Force and Robinson 2014). 분석 대상 연구데이터 중에서는 <표 2>와 같이 데이터세트가 3,200,752건으로 압도적으로 많은 것으로 나타났으며, 그 다음이 178,458건인 데이터스터디로 나타났다.
참고문헌 (20)
김운봉, 김용민, 양진옥. 2014. 유전체 빅데이터 연구 동향. [online] [cited 2015. 10. 10.] (Kim, U. B., Kim, Y. M. and Yang, J. O. 2014. Study on Trend of Research about GenomBigdata. [online] [cited 2015. 10. 10.] )
김지현. 2014. 대학도서관의 연구데이터관리서비스에 관한 연구: 미국 연구중심대학도서관을 중심으로. 한국비블리아학회지, 25(3): 165-189.(Kim, Jihyun. 2014. "A Study on Research Data Management Services of Research UniversityLibraries in the U.S." Journal of Korea Biblia Society for Library and Information Science,25(3): 165-189.)
DataCite. 2015. DataCite Metadata Schema for the Publication and Citation of Research Data. [online] [cited 2015. 8. 15.]
Department for Business, Innovation & Skills Prime Minister's office. 2013. G8 Science Ministers Statement London UK. [online] [cited 2015. 8. 15.]
Force, M. M. and Auld, D. M. 2014. "Data Citation Index: Promoting Attribution, Use and Discovery of Research Data." Information Services and Use, 34: 97-98.
Force, M. M. and Robinson, N. J. 2014. "Encouraging Data Citation and Discovery with the Data Citation Index." J Comput Aided Mol Des, 28: 1043-1048. [online] [cited 2015. 8. 15.]
Haustein, S., Costas, R. and Lariviere, V. 2015. "Characterizing Social Media Metrics of Scholarly Papers: The Effect of Document Properties and Collaboration Patterns." PLoS ONE, 10(3): e0120495.
Havard Library. Citing Your Data Homepage. [online] [cited 2015. 8. 10.]
Mohammadi, E. and Thelwall, M. 2014. "Mendeley Readership Altmetrics for the Social Sciences and Humanities: Research Evaluation and Knowledge Flows." Journal of the Association for Information Science and Technology, 65(8): 1627-1638.
National Science Foundation. 2012. Issuance of a New NSF Proposal & Award Policies and Procedures Guide. [online] [cited 2015. 8. 15.]
OECD. 2007. OECD Principles and Guidelines for Access to Research Data from Public Funding. Paris: OECD Publication. [online] [cited 2015. 9. 10.]
Sayogo, D. S. and Pardo, T. A. 2013. "Exploring the Determinants of Scientific Data Sharing: Understanding the Motivation to Publish Research Data." Government Information Quarterly, 30(1): S19-S31.
Torres-Salinas, D., Martin-Martin, A. and Fuente-Gutierrez, E. 2014. "Analysis of the Coverage of the Data Citation Index-Thomson Reuters: Disciplines, Document Types and Repositories." Revista Espanola de Documentacion Cientifica, 37(1): 1-6. [online] [cited 2015. 9. 10.]
The Office of Science and Technology Policy. 2013. Increasing Access to the Results of Federally Funded Scientific Research. Washington, D.C. [online] [cited 2015. 8. 15.]
Thomson Reuters. 2015. "Data Citation Index, 2 November 2015". Personal Communication.
Zahedi, Z., Costas, R. and Wouters, P. 2014. "How Well Developed Are Altmetrics? A Cross-Disciplinary Analysis of the Presence of 'Alternative Metrics' in Scientific Publications." Scientometrics, 101(2): 1491-1513.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.