학술 커뮤니케이션의 변화로 인해 오픈 액세스 분야는 상대적으로 최근에 많은 연구가 이루어지고 있다. 본 연구는 동시출현단어 분석을 사용하여 오픈 액세스 분야의 지적구조를 규명하여 연구동향을 제시하고자 하였다. 이를 위해서 데이터 수집은 Web of Science 기반으로 수행하였다. 검색 대상 기간은 1998년 1월 1일부터 2012년 7월 31일까지이며, Topic검색을 통하여 총 479건의 저널 논문을 수집하였다. 총 479건의 저널 논문 제목과 초록에서 명사구 형태의 키워드는 총 8,643개(문헌 당 18.04개)를 추출하였다. 오픈 액세스 분야의 지적구조 규명을 위해 첫째, 네트워크 분석을 통하여 18개의 세부 주제 영역을 밝혔으며, 오픈 액세스 분야 키워드들의 지적 관계를 시각화하여, 키워드 관계, 중심성 분석을 통한 전역 중심 키워드와 지역 중심이 높은 키워드를 제시하였다. 둘째, 군집분석을 실시하여 형성된 4개의 군집을 MDS지도에 표시하였으며, 각 키워드들 간의 상관관계에 따른 지적구조를 제시하였다. 이러한 연구의 결과는 오픈 액세스 분야의 지적구조를 밝히며, 향후 연구 방향성 모색에 유용하게 사용될 수 있을 것으로 기대한다.
학술 커뮤니케이션의 변화로 인해 오픈 액세스 분야는 상대적으로 최근에 많은 연구가 이루어지고 있다. 본 연구는 동시출현단어 분석을 사용하여 오픈 액세스 분야의 지적구조를 규명하여 연구동향을 제시하고자 하였다. 이를 위해서 데이터 수집은 Web of Science 기반으로 수행하였다. 검색 대상 기간은 1998년 1월 1일부터 2012년 7월 31일까지이며, Topic검색을 통하여 총 479건의 저널 논문을 수집하였다. 총 479건의 저널 논문 제목과 초록에서 명사구 형태의 키워드는 총 8,643개(문헌 당 18.04개)를 추출하였다. 오픈 액세스 분야의 지적구조 규명을 위해 첫째, 네트워크 분석을 통하여 18개의 세부 주제 영역을 밝혔으며, 오픈 액세스 분야 키워드들의 지적 관계를 시각화하여, 키워드 관계, 중심성 분석을 통한 전역 중심 키워드와 지역 중심이 높은 키워드를 제시하였다. 둘째, 군집분석을 실시하여 형성된 4개의 군집을 MDS지도에 표시하였으며, 각 키워드들 간의 상관관계에 따른 지적구조를 제시하였다. 이러한 연구의 결과는 오픈 액세스 분야의 지적구조를 밝히며, 향후 연구 방향성 모색에 유용하게 사용될 수 있을 것으로 기대한다.
Due to the advance of scholarly communication, the field of open access has been studied over the last decade. The purpose of this study is to analyze and demonstrate the field of open access via co-word analysis. The data set was collected from Web of Science citation database during the period fro...
Due to the advance of scholarly communication, the field of open access has been studied over the last decade. The purpose of this study is to analyze and demonstrate the field of open access via co-word analysis. The data set was collected from Web of Science citation database during the period from January 1998 to July 2012 using the Topic category. A total of 479 journal articles were retrieved and 8,643 noun keywords were extracted from the titles and abstracts. In order to achieve the purpose of this study, network analysis, clustering analysis and multidimensional scaling mapping were used to examine the domain and the sub-domains of open access field. 18 clusters in the network analysis are recognized and 4 clusters are shown in the map of multidimensional scaling. In addition, the centrality analysis in the weighted networks was used to explore the significant keywords in this field. The results of this study are expected to demonstrate and guide the intellectual structure and new approaches of open access field.
Due to the advance of scholarly communication, the field of open access has been studied over the last decade. The purpose of this study is to analyze and demonstrate the field of open access via co-word analysis. The data set was collected from Web of Science citation database during the period from January 1998 to July 2012 using the Topic category. A total of 479 journal articles were retrieved and 8,643 noun keywords were extracted from the titles and abstracts. In order to achieve the purpose of this study, network analysis, clustering analysis and multidimensional scaling mapping were used to examine the domain and the sub-domains of open access field. 18 clusters in the network analysis are recognized and 4 clusters are shown in the map of multidimensional scaling. In addition, the centrality analysis in the weighted networks was used to explore the significant keywords in this field. The results of this study are expected to demonstrate and guide the intellectual structure and new approaches of open access field.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
따라서 본 연구는 동시출현단어 분석을 사용하여 오픈 액세스 분야의 연구 경향을 반영하는 지적구조를 제시하고 하위 주제 영역의 구성을 규명하는데 목적이 있다. 이를 위해서 1998년부터 2012년 사이에 발간된 오픈 엑세스 주제의 저널 논문을 Web of Science 데이터베이스에서 수집하였다.
각 클러스터들은 디지털 도서관 분야의 연구 방향을 나타내며, 연구 주제 간의 상관관계가 대체로 낮은점은 다른 나라의 연구들과 비교하여 볼 때, 중국의 디지털 도서관이 상대적으로 분권화 되어져 있음을 보여준다고 하였다. 또한 이 연구가 진행되는 2011년의 중국의 디지털도서관 분야에서 연결중심성이 높은 연구 주제들과 연구 주제 간에 이어주는 역할을 하는 매개중심성이 높은 키워드들을 파악하여 제시하였다. 김희정 (2011)은 동시출현단어 분석을 통하여 네트워크 분석만을 적용하여 웹 아카이빙 영역에서 다양한 연구 주제 간의 관련성과 세부 주제 영역을 확인하였다.
본 연구는 Web of Science에서 오픈 액세스를 주제로 한 연구 문헌들을 수집하여, 동시출현단어기법을 활용하여 분석함으로써 오픈 액세스 연구 경향을 반영하는 지적구조 분석의 결과를 제시하였다. 네트워크 분석을 실시하여, 키워드들 간의 관계를 패스파인더 네트워크로 시각화하고, 병렬 최근접 이웃 클러스터링 군집으로 형성하여 오픈 액세스 분야의 세부 주제 영역을 살펴보았다.
본 연구에서는 오픈 액세스 분야의 지적구조를 규명하기 위하여 핵심 키워드들의 코사인 유사도 행렬을 산출하였고, 이를 입력데이터로 하여 r=∞, q=n-1 조건의 패스 파인더 네트워크 알고리즘을 적용하여 네트워크를 생성하였다.
이와 같은 학술 정보 유통의 새로운 패러다임인 오픈 액세스의 움직임은 연구자뿐만 아니라 학회, 도서관, 출판사로 확산되고 있으며, 이에 따른 발전과 그 변화의 폭에 주목할 필요가 있다. 이를 위해서 본 연구는 오픈 액세스 분야의 지적구조 분석을 수행하고자 한다. 일반적으로 지적구조 분석은 문헌이나 저자의 동시인용 분석, 서지결합법, 동시출현단어 분석 등의 기법이 활용된다.
또한 NodeXL을 이용하여 매개중심성 지수를 측정하였다. 이를 통해 오픈 액세스 연구 영역에서 각 군집들을 연결해 주는 역할을 하는 키워드들을 확인하였다. 오픈 액세스 분야에서 각 주제어들을 연결해 주는 역할을 하는 키워드들은 매개중심성 값 상위 11위까지를 기준으로 open access(1), institutional repositories(2), scholarly communication(4), open access journals(3), oa article(20), impact factor(42), google scholar(19), citation counts(57), scholarly publishing(8), self-archiving(11), information science(16) 순이었다.
제안 방법
이 연구는 검색된 288건의 논문들을 계량분석 소프트웨어인 Network Workbench를 활용하여 최종적 분석 대상으로 93개의 핵심 용어 군을 선정하였다. 93개의 핵심 용어 군을 대상으로 동시출현단어 네트워크를 나타내기 위해 행렬 데이터를 재산출 한 후, 패스파인더 네트워크 방식을 선택하여 NodeXL을 이용하여 네트워크 지도를 작성하였다. 분석 결과 웹아카이빙 주제 영역의 논문은 1995년도부터 출현하기 시작하였고, 2003년부터 급속히 증가해왔으며, 의학영역 정보기술 및 시스템과 관련된 이미지 아카이빙 관련 연구들이 가장 중점적으로 수행된 것을 확인할 수 있었다고 하였다.
<그림 2>는 18개의 군집의 각 세부 영역을 병합하여 나타내었으며 각 군집의 번호를 부여하였다. 각 군집에서 빈도수가 가장 높은 키워드를 각 군집을 대표하는 주제명으로 부여하였고, golden road와 green open access의 빈도수는 12로 동일하였으므로 golden road, green open access로 표현하였다.<그림 2>의 병합을 해제하여, <그림 3>과 <그림 4>와 같이 각 18개의 군집에 속한 하위 주제 영역을 나타내고 네트워크 중심성 분석을 통하여 오픈 액세스 분야의 전역중심성이 높은 주제어와 지역중심성이 높은 주제어, 매개중심성이 높은 주제어를 확인하였다.
각 키워드들 간의 위치를 2차원 공간상에 점으로 나타냈고, 군집분석 결과에 따라 4개의 클러스터영역에 속한 점을 색깔별로 구분하였다. 이를 <그림 5>와 같이 키워드지도상에 나타냈으며, 각 클러스터영역의 경계를 점선으로 표시하고 대표되는 군집명을 표기하였다.
다음으로 네트워크 기반으로 형성된 18개 각 군집의 세부 주제 영역 분석을 위해 지역중심성 지수를 측정하였다. 군집 내의 중심 키워드를 파악하여 이를 중심으로 군집의 세부 키워드들을 해석하고자, 상대적 최근접이웃중심성 값을 구하였다. 상대적 최근접이웃중심성은 최근접이웃중심성의 값을 정규화 한 것으로 군집에서 영향력이 높은 키워드를 확인할 수 있는 지역중심성의 지표이다.
네트워크 분석 및 선행연구들의 검토를 기반으로 오픈 액세스의 연구 경향을 잘 나타내주는 적절한 군집의 수를 최종 4개로 결정하였다. 군집명은 네트워크 분석과 선행연구를 기반으로 전문가 검토 후, 각 군집에 속한 전체 키워드를 대표할 수 있는 단어를 사용하여 부여하였다. 이를 <표 3>과 같이 정리하였으며, <표 3>은 군집분석에 의한 오픈 액세스 분야의 4개의 군집별 세부 주제 분야이다.
그러나 본 연구의 분석에서 필요한 키워드는 각 논문에서 한번 씩 출현한 횟수이다. 그러므로 90개의 리스트를 대상으로 키워드들의 문헌 빈도를 조사하였다. 6개 이상의 논문에서 출현한 키워드(문헌 빈도 6회 이상의 키워드)를 선정하여, 최종 키워드 리스트 총 84개를 재선정하였다.
추출된 키워드를 기반으로 오픈 액세스 영역의 지적구조를 다각적으로 분석하기 위해 네트워크 분석을 실시하여, 키워드관계 네트워크의 시각화 통해 중심 주제와 세부 주제 영역을 파악하고, 중심성 분석으로 전역 중심 키워드와 지역 중심 키워드를 확인하고자 한다. 그리고 네트워크 분석을 보완하기 위하여 군집분석을 수행하고, 이 결과를 다차원축척지도로 나타내어 오픈 액세스 영역의 전체적인 주제 영역의 흐름 및 구성을 제시하였다. 본 연구의 분석결과는 오픈 액세스 분야의 두 명의 연구자와의 면담을 통해 결과해석에 대한 전문성을 높였다.
전역중심성이 높은 키워드들을 확인하기 위하여 삼각매개중심성과 평균연관성을 측정하였다. 그리고 링크의 굵기에 키워드 간의 빈도에 의한 연관도 가중치를 반영하여 연결 강도를 나타냈다.
네트워크 분석 및 선행연구들의 검토를 기반으로 오픈 액세스의 연구 경향을 잘 나타내주는 적절한 군집의 수를 최종 4개로 결정하였다. 군집명은 네트워크 분석과 선행연구를 기반으로 전문가 검토 후, 각 군집에 속한 전체 키워드를 대표할 수 있는 단어를 사용하여 부여하였다.
본 연구는 Web of Science에서 오픈 액세스를 주제로 한 연구 문헌들을 수집하여, 동시출현단어기법을 활용하여 분석함으로써 오픈 액세스 연구 경향을 반영하는 지적구조 분석의 결과를 제시하였다. 네트워크 분석을 실시하여, 키워드들 간의 관계를 패스파인더 네트워크로 시각화하고, 병렬 최근접 이웃 클러스터링 군집으로 형성하여 오픈 액세스 분야의 세부 주제 영역을 살펴보았다. 중심성 분석으로 전역 중심의 키워드와 지역 중심의 키워드, 매개 키워드를 확인하여, 오픈 액세스 분야의 핵심 주제어와 군집 내에서 영향력이 있는 주제어, 군집들의 매개가 되는 주제어를 파악하였다.
다음으로 네트워크 기반으로 형성된 18개 각 군집의 세부 주제 영역 분석을 위해 지역중심성 지수를 측정하였다. 군집 내의 중심 키워드를 파악하여 이를 중심으로 군집의 세부 키워드들을 해석하고자, 상대적 최근접이웃중심성 값을 구하였다.
또한 NodeXL을 이용하여 매개중심성 지수를 측정하였다. 이를 통해 오픈 액세스 연구 영역에서 각 군집들을 연결해 주는 역할을 하는 키워드들을 확인하였다.
지금까지 키워드 84개의 네트워크 지도를 기반으로 병렬 최근접 이웃 클러스터링 알고리즘에 의해 형성된 18개 군집의 세부 주제 영역을 확인하였다. 또한 네트워크 중심성 분석을 통해 오픈 액세스 분야의 핵심 주제어들과 각 군집내의 영향력이 높은 주제어들 그리고 각 군집을 연결 시켜주는 매개 주제어들을 확인하여 네트워크 기반 오픈 액세스 분야의 지적구조를 규명하였다.
추가적으로 독립된 2개의 하위영역인 정보추구행위와 도서관 서지교육을 확인할 수 있었다고 보고하였다. 또한 다차원축적지도를 사용하여 2차원 상에서 시기에 따른 문헌정보학 분야의 지적구조 변화를 나타내었다. 박재신과 정영미(2010)는 다차원척도법과 네트워크 분석을 통해 환경 관련 분야를 학술적 영역과 실천적 영역으로 구분하여 인용분석과 웹링크 분석을 통해 지적구조를 제시하였다.
중심성 분석으로 전역 중심의 키워드와 지역 중심의 키워드, 매개 키워드를 확인하여, 오픈 액세스 분야의 핵심 주제어와 군집 내에서 영향력이 있는 주제어, 군집들의 매개가 되는 주제어를 파악하였다. 또한, 군집분석을 실시하여 네트워크 분석을 보완하였고, 군집분석의 결과를 다차원축척 지도에 반영하여 키워드지도를 통해 오픈 액세스 분야의 지적구조를 제시하고 세부 주제 영역의 구성을 규명하였다.
분석 대상이 되는 오픈 액세스 관련 문헌들을 추출하기 위해 사용된 질의키워드 “open access”, “open access journal”, “institutional repositor*”를 이용하여 주제(Topic) 검색을 실시하였다.
장임숙, 장덕현, 이수상 (2011)은 2005년부터 2010년 사이에 발행된 다문화 분야의 논문을 대상으로 동시출현단어 네트워크와 k-core를 제시하였다. 분석된 결과를 통해서 다문화 관련 연구 분야의 주요 핵심 주제와 학제성의 정도, 하위 주제 분야의 응집력 등을 제시하였다.
키워드들의 각 전역중심성 지수의 측정된 결과 값을 반영하여 네트워크 지도를 <그림 3>과 같이 작성하였다. 상대적 삼각매개중심성 값은 노드의 크기에 반영하였고, 평균연관성은 중심성 값이 0.05이상인 노드들의 형태를 사각형으로 바꾸어 표현하였다. 상대적 삼각매개중심성지수와 평균연관성 지수를 비교하기 위해 상위 10위 이상까지의 결과 값들을 살펴본 후, 측정 값의 상위 11위까지가 0.
의 병합을 해제하여, 과 와 같이 각 18개의 군집에 속한 하위 주제 영역을 나타내고 네트워크 중심성 분석을 통하여 오픈 액세스 분야의 전역중심성이 높은 주제어와 지역중심성이 높은 주제어, 매개중심성이 높은 주제어를 확인하였다.
04)이다. 이 중 CiteSpace에서 자동으로 산출해 주는 가장 자주 출현한 명사구 6,452개가 추출된 리스트를 이용하여, 분석과 해석의 용이성을 위해 불용어들을 제거하고 방대한 규모를 축소하였다.
이들의 연구에서는 16개의 문헌정보학 학술지에서 1998-2007년 기간 동안의 연구와 리뷰 논문 10,344건을 대상으로 하였다. 이 키워드들은 덴드로그램을 이용하여 계층적인 클러스터링을 통해 3개의 주요 하위 분야로써 도서관학, 정보학, 계량과학/계량정보학으로 제시하였다. 추가적으로 독립된 2개의 하위영역인 정보추구행위와 도서관 서지교육을 확인할 수 있었다고 보고하였다.
동시출현단어 분석은 동시에 출현한 빈도수에 의한 연결 강도를 나타내는 가중 네트워크이므로 중심성 분석에는 가중 네트워크에 적용되는 이재윤(2006c)이 제안한 중심성 분석 척도를 사용하였다. 전역중심성이 높은 키워드들을 확인하기 위하여 삼각매개중심성과 평균연관성을 측정하였다. 그리고 링크의 굵기에 키워드 간의 빈도에 의한 연관도 가중치를 반영하여 연결 강도를 나타냈다.
전처리 과정은 색인자 효과를 최대한 배제하기 위하여, 동시출현단어 분석에서 보편적으로 적용되는 정규화 작업인 단·복수 교정을 중심으로 하였으며, 오픈 액세스 영역에 관한 용어의 표준적인 기준이 없기 때문에 동의어, 약어 들은 상위 빈도수의 용어를 기준으로 정리하였다.
네트워크 분석을 실시하여, 키워드들 간의 관계를 패스파인더 네트워크로 시각화하고, 병렬 최근접 이웃 클러스터링 군집으로 형성하여 오픈 액세스 분야의 세부 주제 영역을 살펴보았다. 중심성 분석으로 전역 중심의 키워드와 지역 중심의 키워드, 매개 키워드를 확인하여, 오픈 액세스 분야의 핵심 주제어와 군집 내에서 영향력이 있는 주제어, 군집들의 매개가 되는 주제어를 파악하였다. 또한, 군집분석을 실시하여 네트워크 분석을 보완하였고, 군집분석의 결과를 다차원축척 지도에 반영하여 키워드지도를 통해 오픈 액세스 분야의 지적구조를 제시하고 세부 주제 영역의 구성을 규명하였다.
Liu 등(2012)은 2002-2011년 기간을 범위로 중국의 디지털도서관분야의 지적구조를 분석하였다. 총 2,647개의 관련 문헌들 중에 9,538개의 키워드들(문헌 당 3.6개)이 수집되었으며, 이 키워드들의 동시출현행렬에 클러스터링과 다차원축적지도 그리고 네트워크 분석을 적용하여 매핑결과를 제시하였다. 분석의 결과는 디지털도서관 분야의 7개의 클러스터로 제시하였다.
총 479건의 논문을 수집하였으며, 제목과 초록에서 추출된 키워드는 총 8,643개 이다. 추출된 키워드를 기반으로 오픈 액세스 영역의 지적구조를 다각적으로 분석하기 위해 네트워크 분석을 실시하여, 키워드관계 네트워크의 시각화 통해 중심 주제와 세부 주제 영역을 파악하고, 중심성 분석으로 전역 중심 키워드와 지역 중심 키워드를 확인하고자 한다. 그리고 네트워크 분석을 보완하기 위하여 군집분석을 수행하고, 이 결과를 다차원축척지도로 나타내어 오픈 액세스 영역의 전체적인 주제 영역의 흐름 및 구성을 제시하였다.
키워드들의 각 전역중심성 지수의 측정된 결과 값을 반영하여 네트워크 지도를 과 같이 작성하였다.
대상 데이터
그러므로 90개의 리스트를 대상으로 키워드들의 문헌 빈도를 조사하였다. 6개 이상의 논문에서 출현한 키워드(문헌 빈도 6회 이상의 키워드)를 선정하여, 최종 키워드 리스트 총 84개를 재선정하였다. 문헌 빈도수 7회 이상의 키워드는 73개였고, 문헌 빈도수 5회 이상의 키워드는 87개였다.
WoS 데이터베이스에서 제공하는 저널 범주를 문헌정보학범주로 제한하여, 기간은 1998년 1월 1일부터 본 연구의 수행 시점인 2012년 7월 31일까지로 설정하였다. 분석 대상이 되는 오픈 액세스 관련 문헌들을 추출하기 위해 사용된 질의키워드 “open access”, “open access journal”, “institutional repositor*”를 이용하여 주제(Topic) 검색을 실시하였다.
분석 대상이 되는 오픈 액세스 관련 문헌들을 추출하기 위해 사용된 질의키워드 “open access”, “open access journal”, “institutional repositor*”를 이용하여 주제(Topic) 검색을 실시하였다. 검색 결과, 이 기간 동안 발표된 오픈 액세스에 관한 순수 연구 논문 464건과 리뷰 15건, 총 479건이 수집되었다. 단어 추출을 위해 본 연구에서는 수집된 479건의 문헌들을 계량분석을 위한 공개 소프트웨어인 CiteSpace1)를 활용하여 제목과 초록에서 키워드와 키워드의 빈도수를 추출하였다.
김희정 (2011)은 동시출현단어 분석을 통하여 네트워크 분석만을 적용하여 웹 아카이빙 영역에서 다양한 연구 주제 간의 관련성과 세부 주제 영역을 확인하였다. 이 연구는 검색된 288건의 논문들을 계량분석 소프트웨어인 Network Workbench를 활용하여 최종적 분석 대상으로 93개의 핵심 용어 군을 선정하였다. 93개의 핵심 용어 군을 대상으로 동시출현단어 네트워크를 나타내기 위해 행렬 데이터를 재산출 한 후, 패스파인더 네트워크 방식을 선택하여 NodeXL을 이용하여 네트워크 지도를 작성하였다.
이렇게 만들어진 리스트는 총 7,879행이었으며, 이 리스트에서 을 기준으로 키워드 전처리 작업을 끝낸 후, 필요한 최종 키워드를 포함한 행만을 남겨서 총 1,589행의 최종 분석 대상 출현단어 정보 리스트를 과 같이 완성하였다.
따라서 본 연구는 동시출현단어 분석을 사용하여 오픈 액세스 분야의 연구 경향을 반영하는 지적구조를 제시하고 하위 주제 영역의 구성을 규명하는데 목적이 있다. 이를 위해서 1998년부터 2012년 사이에 발간된 오픈 엑세스 주제의 저널 논문을 Web of Science 데이터베이스에서 수집하였다. 총 479건의 논문을 수집하였으며, 제목과 초록에서 추출된 키워드는 총 8,643개 이다.
지금까지 키워드 84개의 네트워크 지도를 기반으로 병렬 최근접 이웃 클러스터링 알고리즘에 의해 형성된 18개 군집의 세부 주제 영역을 확인하였다. 또한 네트워크 중심성 분석을 통해 오픈 액세스 분야의 핵심 주제어들과 각 군집내의 영향력이 높은 주제어들 그리고 각 군집을 연결 시켜주는 매개 주제어들을 확인하여 네트워크 기반 오픈 액세스 분야의 지적구조를 규명하였다.
이를 위해서 1998년부터 2012년 사이에 발간된 오픈 엑세스 주제의 저널 논문을 Web of Science 데이터베이스에서 수집하였다. 총 479건의 논문을 수집하였으며, 제목과 초록에서 추출된 키워드는 총 8,643개 이다. 추출된 키워드를 기반으로 오픈 액세스 영역의 지적구조를 다각적으로 분석하기 위해 네트워크 분석을 실시하여, 키워드관계 네트워크의 시각화 통해 중심 주제와 세부 주제 영역을 파악하고, 중심성 분석으로 전역 중심 키워드와 지역 중심 키워드를 확인하고자 한다.
본 연구의 주제 영역인 오픈 액세스는 부다페스트 오픈 액세스 회의, IFLA 선언, 베를린 선언, 베데스타 선언 등의 국제적인 관심과 지지와 함께 국외에서 이와 관련한 연구가 활발하게 이루어지고 있다. 현재 국외의 오픈 액세스 연구의 결과가 분석할 만큼 축적이 되어있기 때문에 본 연구에서는 Web of Science에 등재된 저널에 게재된 논문을 수집하였다.
데이터처리
군집분석을 기반으로 다차원축적지도를 작성하기 위해 통계프로그램 SPSS ver 20.0으로 PROXSCAL 알고리즘을 사용하면서 변수를 z 점수로 표준화하여 처리하였다. 본 연구에서의 스트레스 값은 0.
네트워크 분석 알고리즘에 의해 형성된 군집의 결과를 보완하기 위하여, 산출된 2차 연관성 행렬을 가지고 통계프로그램 SPSS ver 20.0을 이용하여 군집분석을 실시하였다. 클러스터링 알고리즘으로는 계층적 클러스터링 기법인 Ward 기법을 사용하였으며, z점수로 표준화하고 제곱 유클리디안 거리를 사용하여 덴드로그램으로 나타내었다.
네트워크를 생성하고 클러스터링을 하기 위하여 이재윤의 WNET ver 0.4 프로그램을 사용하였고, 이를 시각화하기 위하여 NodeXL 프로그램(Hansen, Shneiderman, & Smith 2011)을 사용하였다.
검색 결과, 이 기간 동안 발표된 오픈 액세스에 관한 순수 연구 논문 464건과 리뷰 15건, 총 479건이 수집되었다. 단어 추출을 위해 본 연구에서는 수집된 479건의 문헌들을 계량분석을 위한 공개 소프트웨어인 CiteSpace1)를 활용하여 제목과 초록에서 키워드와 키워드의 빈도수를 추출하였다. 오픈 액세스와 관련한 선행연구들을 검토한 결과, open access라는 단어가 명사구이고 초록에서 키워드를 추출한다는 점을 고려하여 명사와 명사구를 모두 사용하는 것이 적절하며, 명사구의 구성 명사의 숫자는 보다 상세한 주제 표현을 위해서 2개에서 4개 사이로 지정하였다.
분석 대상 키워드 84개가 선정된 이후에 각 문헌 479건에 키워드의 출현정보를 액셀에 입력하여 이재윤이 개발한 COOC ver 0.3.1 프로그램을 이용하여 동시출현단어 행렬을 작성하였다. 먼저 액셀에 첫 번째 열에 각 문헌 번호를 입력하고, 두 번째 열에 각 문헌 번호에 해당하는 CiteSpace를 통해 제목과 초록에서 추출된 키워드를 입력하여 (문헌번호, 키워드) 쌍을 만든다.
이론/모형
본 연구에서는 오픈 액세스 분야의 지적구조를 규명하기 위하여 핵심 키워드들의 코사인 유사도 행렬을 산출하였고, 이를 입력데이터로 하여 r=∞, q=n-1 조건의 패스 파인더 네트워크 알고리즘을 적용하여 네트워크를 생성하였다. 그리고 패스파인더 네트워크상에서 군집들을 식별하여 세부 주제를 분명하게 파악하고 주제 분석의 식별력을 높이기 위하여 이재윤(2006b)이 제안한 기법인 병렬 최근접 이웃 클러스터링 알고리즘(PNNC)을 적용하였다. 네트워크를 생성하고 클러스터링을 하기 위하여 이재윤의 WNET ver 0.
동시출현단어 분석은 동시에 출현한 빈도수에 의한 연결 강도를 나타내는 가중 네트워크이므로 중심성 분석에는 가중 네트워크에 적용되는 이재윤(2006c)이 제안한 중심성 분석 척도를 사용하였다. 전역중심성이 높은 키워드들을 확인하기 위하여 삼각매개중심성과 평균연관성을 측정하였다.
빈도 값을 그대로 이용한 경우에는 네트워크 분석에서 핵심노드 위주의 분석이 가능하지만 비 핵심 노드 간의 관계는 드러나지 않는 단점이 있다(이재윤 2006a). 본 연구에서는 분석 대상 키워드 간 연관도를 산출하는 과정에서 벡터 유사도 공식인 코사인 계수와 피어슨 상관계수를 적용하였다.
0을 이용하여 군집분석을 실시하였다. 클러스터링 알고리즘으로는 계층적 클러스터링 기법인 Ward 기법을 사용하였으며, z점수로 표준화하고 제곱 유클리디안 거리를 사용하여 덴드로그램으로 나타내었다.
성능/효과
군집분석 결과를 살펴보면, 총 4개의 군집으로 분류되었으며, 형성된 군집은 제 1군집 Institutional Repositories, 제 2군집 Informetric Analysis on Open Access, 제 3군집 Open Access Journals, 제 4군집 Scholarly Publishing으로 표현될 수 있다. 군집분석 결과를 MDS 지도에 표시하여 해석한 결과, MDS 지도상에서 군집분석에 의해 형성된 제 1군집과 제 2군집의 세부 키워드들이 확연하게 분리되어 위치하였다. 지도상의 중심부에는 제 3군집과 제 4군집에 해당하는 키워드들이 위치하고 있으며, 이는 이 두 군집의 키워드들이 다른 모든 연구와 상관관계가 높으며, 오픈 액세스 분야 연구의 중심축에 위치하고 있음을 보여준다.
군집분석 결과를 MDS 지도에 표시하여 해석한 결과, 지도의 X축을 기준으로 살펴보면 우측에는 군집분석에 의해 형성된 제 1군집인 Institutional Repositories의 세부 키워드들과 유사하게 키워드들이 분포되어 있는 것을 확인할 수 있다. 그리고 좌측에 위치한 키워드들은 제 2군집인 Informetric Analysis on Open Access의 세부 키워드들과 유사하게 나타났다.
군집분석 결과를 살펴보면, 총 4개의 군집으로 분류되었으며, 형성된 군집은 제 1군집 Institutional Repositories, 제 2군집 Informetric Analysis on Open Access, 제 3군집 Open Access Journals, 제 4군집 Scholarly Publishing으로 표현될 수 있다. 군집분석 결과를 MDS 지도에 표시하여 해석한 결과, MDS 지도상에서 군집분석에 의해 형성된 제 1군집과 제 2군집의 세부 키워드들이 확연하게 분리되어 위치하였다.
제 18군집의 research fund(59)와 authorpays model(67)의 관계는 오픈 액세스를 둘러싸고 있는 논쟁 중에서 경제 모델과 관련 있는 주제어이다. 그러나 오픈 액세스 모델과 경제 모델이라는 키워드를 포함하고 있는 제 7군집이 생성되어 있으며, 제 7군집의 생성으로 오픈 액세스 분야에서 오픈 액세스의 모델과 그에 따른 경제 모형을 다루는 연구가 별도로 진행되고 있음을 확인할 수 있었다. 제 18군집이 제 7군집이 아닌 제 2군집의 키워드 journal publishing(35)과 연결되어 더 강하게 네트워크를 구성하고 있는 것을 바탕으로 학술 출판 영역에서 연구자금제공자와 저자 지불형 모델을 둘러싼 논쟁과 취해야 할 전략 및 발전 방향에 관한 연구가 진행되고 있음을 유추 해석할 수 있다.
과학 분야와 의학 분야에서 오픈 액세스 출판사들이 다수의 OAJ를 출판하였으며, 이러한 OAJ는 새로운 비즈니스 모형을 요구한다. 그에 따라 제안되고 채택된 오픈 액세스 모델들과 모형 개발, 비용부담의 문제, 기존 무료 액세스(free access(45)) 저널의 오픈 액세스화 추진 등 OAJ와 관련한 연구들이 다양한 형태로 전개되고 진행 중임을 확인할 수 있다.
다차원축척지도에서의 제 2군집 Informetric Analysis on Open Access의 세부 키워드들은 좌측 하단에 위치하여 다른 군집의 키워드들과 비교적 확연하게 분리되어 있음을 확인할 수 있다. 그러나 제 3군집인 Open Access Journalsl과 제 4군집인 Scholarly Publishing의 세부 키워드들은 지도 중심부의 상단과 하단에서 서로 조금 겹쳐져서 위치해 있다.
그리고 좌측에 위치한 키워드들은 제 2군집인 Informetric Analysis on Open Access의 세부 키워드들과 유사하게 나타났다. 마지막으로 중앙부분에는 제 3군집인 Open Access Journals와 제 4군집인 Scholarly Publishing의 세부 키워드들이 두루 분포되어 있는 것을 확인할 수 있다.
그리고 네트워크 분석을 보완하기 위하여 군집분석을 수행하고, 이 결과를 다차원축척지도로 나타내어 오픈 액세스 영역의 전체적인 주제 영역의 흐름 및 구성을 제시하였다. 본 연구의 분석결과는 오픈 액세스 분야의 두 명의 연구자와의 면담을 통해 결과해석에 대한 전문성을 높였다.
93개의 핵심 용어 군을 대상으로 동시출현단어 네트워크를 나타내기 위해 행렬 데이터를 재산출 한 후, 패스파인더 네트워크 방식을 선택하여 NodeXL을 이용하여 네트워크 지도를 작성하였다. 분석 결과 웹아카이빙 주제 영역의 논문은 1995년도부터 출현하기 시작하였고, 2003년부터 급속히 증가해왔으며, 의학영역 정보기술 및 시스템과 관련된 이미지 아카이빙 관련 연구들이 가장 중점적으로 수행된 것을 확인할 수 있었다고 하였다. 문헌정보학 및 기록 관리학 영역에서의 웹 아카이빙 연구는 2004년부터 출현하고 있으며, 2009년에 가장 활발하게 이루어졌고, 주제 범주를 크게 웹 아카이빙 및 디지털 보존 프로젝트 영역과 웹 아카이빙 툴과 방법론 영역으로 구분할 수 있다고 하였다.
분석결과, 1차 연관성 행렬인 코사인 유사도 행렬에서 유사도가 가장 높은 키워드 쌍은 golden road-green open access(0.5)로 나타났으며, 최댓값을 제외하고 유사도 값이 0.4 이상인 키워드 쌍은 총 3쌍으로 metadata-dublincore (0.48349), oa article-citation counts(0.4714), research article-webcitations(0.43033) 순으로 나타났다. 유사도가 0인 키워드 쌍 2,268개를 제외하고, 유사도가 가장 낮은 것으로 나타난 키워드 쌍은 information science-institutional repositories(0.
이들은 온라인상에서 과학 분야 공공도서관을 구축한다는 목적을 지니고 있다. 생성된 scientific information(25) 군집의 세부 영역이 scientific으로 시작되는 용어들의 출현으로 이루어져 있는 것을 기반으로 오픈 액세스의 배경에 과학 분야와 과학정보의 자유로운 유통이 차지하는 비중이 크다는 것을 알 수 있다.
이를 <그림 5>와 같이 키워드지도상에 나타냈으며, 각 클러스터영역의 경계를 점선으로 표시하고 대표되는 군집명을 표기하였다. 유사도에 의해 점으로 나타낸 각 키워드들의 좌표 값을 확인한 결과, 키워드지도상의 키워드의 위치는 키워드 사이의 상관관계에 따라 나타나는 것임을 알 수 있다.
제 14군집에서 지역중심성 지수가 가장 높은 키워드는 scientific literature(60)이다. 이 군집의 생성은 오픈 액세스 영역에서 과학 문헌을 배포하기 위한 새로운 경로로 회의록과 웹페이지가 있다는 것을 확인할 수 있으며, 특히 두 키워드 과학문헌과 회의록 사이의 굵은 링크는 서로 연관도가 높은 관계임을 파악할 수 있다.
그리고 키워드 biomedical(51)의 매개중심성 값이 0인데 반해, 같은 군집내의 키워드 bibliographic database(84)의 매개중심성 지수가 82이며, 키워드 citation impact(46)와의 링크가 남아있다. 이를 바탕으로 수집된 논문들을 검토한 결과, 각 주제 분야별로 데이터베이스를 선정하여 오픈 액세스 저널과 논문에 관한 계량서지적 연구가 실시되고 있으며, 특정한 주제 분야인 생의학 분야를 대상으로 한 연구들이 수행되고 있음을 확인할 수 있었다.
이상의 결과를 종합해 보면, 1998년부터 2012년까지 문헌정보학 범주에서 수행된 오픈 액세스 분야의 핵심적인 연구 영역은 오픈 액세스 기반의 학술 출판을 둘러싼 연구들을 중심으로 기관 리포지터리에 관한 연구 영역, 오픈 액세스 저널과 논문을 분석 대상으로 실시되는 계량정보학적 연구 영역들이다. 본 연구에서는 오픈액세스에 관한 주제를 다루는 문헌 수집의 범주를 문헌정보학으로 한정하였고, 이러한 특성이 결과 해석에 있어서 제한적이라고 볼 수 있다.
패스파인더 네트워크와 병렬 최근접 이웃 클러스터링 기법으로 키워드들 사이의 관계를 시각화 하고 군집을 형성한 결과, 18개의 군집으로 파악되었다. 중심성을 살펴보면, 전역중심성이 가장 높은 키워드는 open access였으며, 그다음으로는 open access journals, institutional repositories, scholarly communication 등의 순으로 나타났다. 이러한 결과는 오픈 액세스 분야는 크게, 오픈 액세스 저널, 기관리파지토리, 학술커뮤니케이션 등으로 구성되었다고 볼 수 있다.
키워드 84개에 관한 동시출현단어의 네트워크 분석 결과, PNNC알고리즘으로 18개의 최적의 군집이 생성되었다. <그림 2>는 18개의 군집의 각 세부 영역을 병합하여 나타내었으며 각 군집의 번호를 부여하였다.
이 군집을 구성하고 있는 주제어들을 기반으로 오픈 액세스 영역에서 오픈 액세스 논문을 대상으로 계량서지학(bibliometric(66)) 분야의 연구들이 활발하게 진행되고 있음 확인할 수 있다. 키워드 oa article(20)과 인용 빈도(citation counts(57)), 인용 영향력(citation impact(46)), 인용의 장점(citation advantage(58)) 간의 링크의 굵기를 바탕으로 연결 강도가 높은 관계이며, 정보학 분야에서 연구자들이 이 키워드들을 자주 함께 사용하고 있음을 확인할 수 있다.
패스파인더 네트워크와 병렬 최근접 이웃 클러스터링 기법으로 키워드들 사이의 관계를 시각화 하고 군집을 형성한 결과, 18개의 군집으로 파악되었다. 중심성을 살펴보면, 전역중심성이 가장 높은 키워드는 open access였으며, 그다음으로는 open access journals, institutional repositories, scholarly communication 등의 순으로 나타났다.
2이하는 거의 무시할 정도의 경미한 상관관계를 가진다고 하였다. 피어슨 상관계수의 값을 분석한 결과, 상관관계가 가장 높은 키워드 쌍은 metadata-dublincore(0.8426)이며, 최댓값을 제외하고 상관계수 값이 0.7 이상인 키워드 쌍은 총 5쌍으로 golden road-green open access (0.83907), oa article-citation counts(0.80733), research article-web citations(0.78096), oa article-citation advantage(0.77018), oa articlecitation impact(0.74645)순으로 나타났으며, Guilford의 해석에 따라 이들은 정적인 높은 상관관계를 갖는다. 음의 상관관계가 가장 큰 키워드 쌍은 protocol-scholarly literature(-0.
후속연구
오픈 액세스의 범주를 의학 분야 등으로 더 확대하여 분석을 실시한다면, 학제적 성격의 오픈 액세스 분야의 지적 구조로서 결과가 다르게 도출될 가능성이 있다. 그러나 본 연구는 오픈 액세스 분야가 먼저 이루어진 국외 문헌정보학기반 오픈 액세스 분야의 지적구조를 나타낼 수 있다는 점에서 의의를 가지며, 오픈 액세스 분야의 연구 방향성 모색에 유용하게 사용될 수 있을 것으로 기대한다.
이러한 연구결과는 학술 커뮤니케이션의 패러다임 변화에 있어서 중요한 축인 오픈 액세스 분야에 대한 학문적 구조와 하위 분야에 대한 정보를 제공할 수 있으며, 이를 바탕으로 학문의 발전방향 제시 등에 유용하게 사용될 수 있을 것으로 기대한다.
질의응답
핵심어
질문
논문에서 추출한 답변
2002년 부다페스트 선언에서 제시한 것은 무엇인가?
오픈 액세스 출판물은 일반적으로 온라인에서 누구나, 어디에서나 무료로 이용 가능하도록 만들어진 학술 출판물의 배포 유형이라 정의할 수 있다. 2002년 부다페스트 선언에서는 전통적인 학술 커뮤니케이션의 대안적 전략으로 오픈 액세스 저널과 셀프아카이빙을 제시하였다 (Koehler 2006). 본 연구의 분석 대상이 되는 오픈 액세스는 출현배경을 시작으로 개념을 둘러싼 이슈들이 끊임없이 논의되며 발전하고 있다.
오픈 액세스 출판물이란 무엇인가?
오픈 액세스 출판물은 일반적으로 온라인에서 누구나, 어디에서나 무료로 이용 가능하도록 만들어진 학술 출판물의 배포 유형이라 정의할 수 있다. 2002년 부다페스트 선언에서는 전통적인 학술 커뮤니케이션의 대안적 전략으로 오픈 액세스 저널과 셀프아카이빙을 제시하였다 (Koehler 2006).
참고문헌 (18)
김희정. 2011. 네트워크 분석을 기반으로 한 웹 아카이빙 주제 영역 연구. , 22(2): 235-248.
Ding, Y., G. G. Chowdhury, and S. Foo. 2001. "Bibliometric cartography of information retrieval research by using co-word analysis." Information Processing & Management, 37(6): 817-842.
Guilford, J. P. 1950. Fundamental statistics in psychology and education. New York: McGraw-Hill.
Hansen, D.L., B. Shneiderman, and M. A. Smith. 2011. Analyzing social media networks with NodeXL: insights from a connected world. MA: Morgan Kaufmann.
Koehler, A. E. C. 2006. "Some Thoughts on the Meaning of Open Access for University Library Technical Services." Serials Review, 32(1): 17-21.
Milojevic, S., C. R. Sugimoto, E. J. Yan, and Y. Ding. 2011. "The cognitive structure of library and information science: Analysis of article title words." Journal of the American Society for Information Science and Technology, 62(10): 1933-1953.
White, H. D. and B. C. Griffith. 1981. "Author cocitation: A literature measure of intellectual structure." Journal of the American Society for Information Science & Technology, 32(3): 163-171.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.