동시출현단어 분석을 활용한 오픈액세스 분야의 지적구조 분석: 2013년부터 2018년까지 출판된 문헌정보학 저널을 기반으로 Domain Analysis on the Field of Open Access by Co-Word Analysis: Based on Published Journals of Library and Information Science during 2013 to 2018원문보기
기존 상업 출판사 중심의 학술 커뮤니케이션 체제가 가져온 위기를 해소할 수 있는 대안으로 오픈액세스가 등장하였다. 본 연구는 계량정보분석 기법 가운데 하나인 동시출현단어 분석을 활용하여 오픈액세스 분야의 최신 연구 경향을 반영하는 지적구조를 제시하고 주제영역이 어떻게 구성되었는지 확인하는 것을 주된 목적으로 두며, 기존에 수행되었던 오픈액세스 지적구조 분석 연구와 비교분석하였다. 이를 위해 Web of Science로부터 오픈액세스 관련 키워드 검색을 통하여 2013년 1월 1일부터 2018년 11월 31일까지 출판된 문헌정보학 분야 논문 총 761편을 수집하였으며, 이들 논문 가운데 제목과 초록으로부터 명사구 형태의 키워드 총 2,321개를 추출하였다. 오픈액세스 지적구조 분석을 위해 네트워크 분석을 통하여 13개의 세부 주제영역이 추출되었으며, 지적관계를 시각화하여 전역 및 지역 중심성이 높은 키워드를 도출하였다. 또한 군집분석을 실시하고 이 결과를 다차원축적지도에 표시하여 키워드들과의 상관관계를 분석하였다. 이를 통해 앞으로 오픈액세스 영역에서의 연구 방향성 모색에 도움이 될 것으로 기대한다.
기존 상업 출판사 중심의 학술 커뮤니케이션 체제가 가져온 위기를 해소할 수 있는 대안으로 오픈액세스가 등장하였다. 본 연구는 계량정보분석 기법 가운데 하나인 동시출현단어 분석을 활용하여 오픈액세스 분야의 최신 연구 경향을 반영하는 지적구조를 제시하고 주제영역이 어떻게 구성되었는지 확인하는 것을 주된 목적으로 두며, 기존에 수행되었던 오픈액세스 지적구조 분석 연구와 비교분석하였다. 이를 위해 Web of Science로부터 오픈액세스 관련 키워드 검색을 통하여 2013년 1월 1일부터 2018년 11월 31일까지 출판된 문헌정보학 분야 논문 총 761편을 수집하였으며, 이들 논문 가운데 제목과 초록으로부터 명사구 형태의 키워드 총 2,321개를 추출하였다. 오픈액세스 지적구조 분석을 위해 네트워크 분석을 통하여 13개의 세부 주제영역이 추출되었으며, 지적관계를 시각화하여 전역 및 지역 중심성이 높은 키워드를 도출하였다. 또한 군집분석을 실시하고 이 결과를 다차원축적지도에 표시하여 키워드들과의 상관관계를 분석하였다. 이를 통해 앞으로 오픈액세스 영역에서의 연구 방향성 모색에 도움이 될 것으로 기대한다.
Open access has emerged as an alternative to overcome the crisis brought by scholarly communication on commercial publishers. The purpose of this study is to suggest the intellectual structure that reflects the newest research trend in the field of open access, to identify how the subject area is st...
Open access has emerged as an alternative to overcome the crisis brought by scholarly communication on commercial publishers. The purpose of this study is to suggest the intellectual structure that reflects the newest research trend in the field of open access, to identify how the subject area is structured by using co-word analysis, and compare and analyze with the existing study. In order to do this, the total number of dataset was 761 papers collected from Web of Science during the period from January 2012 to November 2018 using information science and 2,321 keywords as a noun phase are extracted from titles and abstracts. To analyze the intellectual structure of open access, 13 topic clusters are extracted by network analysis and the keywords with higher centrallity are drawn by visualizing the intellectual relationship. In addition, after clustering analysis, the relationship was analyzed by plotting the result on the multidimensional scaling map. As a result, it is expected that our research helps the research direction of open access for the future.
Open access has emerged as an alternative to overcome the crisis brought by scholarly communication on commercial publishers. The purpose of this study is to suggest the intellectual structure that reflects the newest research trend in the field of open access, to identify how the subject area is structured by using co-word analysis, and compare and analyze with the existing study. In order to do this, the total number of dataset was 761 papers collected from Web of Science during the period from January 2012 to November 2018 using information science and 2,321 keywords as a noun phase are extracted from titles and abstracts. To analyze the intellectual structure of open access, 13 topic clusters are extracted by network analysis and the keywords with higher centrallity are drawn by visualizing the intellectual relationship. In addition, after clustering analysis, the relationship was analyzed by plotting the result on the multidimensional scaling map. As a result, it is expected that our research helps the research direction of open access for the future.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
그러므로 본 연구의 목적은 이러한 동시출현단어 분석을 활용하여 오픈액세스 분야의 최신 연구 경향을 반영하는 지적구조를 제시하고 주제영역 구성을 밝히는 것이다. 2013년에 한차례 오픈액세스 분야의 지적 구조 분석이 수행(서선경, 정은경 20 3) 되었다.
Liu, Hu, Wang(2012)는 중국의 디지털 도서관분야의 지적구조를 분석하기 위해 키워드 들의 동시출현행렬에 클러스터링과 다차원축적지도 그리고네트워크 분석을 적용하여 매핑결과로 7개의 클러스터로 제시하였다. 또한 이 연구를 통해 2011년 중국 디지털도서관 분야의 연결중심성이 높은 연구 주제들과 연구 주제 간에 이어주는 역할을 하는 매개중심성이 높은 키워드들을 파악하여 제시하였다.
선행 연구들은 동시출현단어 분석을 통한 네트워크 분석, 다차원척도법을 활용하여 지적구조를 분석하였으며, 이에 관현 연구가 국내외에도 다양하게 이루어지고 있다. 본 연구는 이를 활용하여 가장 최신의 2013년부터 2018년까지의 오픈액세스 데이터 기반으로 지적구조를 분석 하고자 한다.
본 연구는 최근 5년간 Web of Science에서 오픈액세스를 주제로 하는 데이터들을 수집하고 동시출현단어 행렬을 통한 네트워크 분석, 군집 분석, 다차원축적지도를 통해 오픈액세스의 연구 경향을 반영하는 지적구조를 살펴보고기존의 동일연구와 비교분석하였다. 네트워크 분석을 위해 유사도 및 피어슨 상관계수를 통한 연관성 행렬을 생성하고 이들의 관계를 패스파인더 네트워크를 통한 시각화와 최근접 이웃 클러스터링 군집을 통해 오픈액세스의 세부 주제영역을 분석할 수 있었다.
총 761건의 논문을 수집하였으며, 제목과 초록에서 추출된 키워드는총 2,321개였다. 추출된 키워드를 네트워크 분석을 통하여 키워드 관계 네트워크의 시각화를 통해 중심 및 세부 주제영역을 파악하고 , 중심성 분석을 통해 해당 키워드들이 얼마만큼 영향을 주는지 확인하고자 하였다. 마지막으로 네트워크 분석을 보완하기 위해 군집분석을 하고 이를 다차원축적지도로 나타내어 오픈액세스 영역의 전체적인 주제영역의 흐름 및 구성을 제시하였다.
가설 설정
0로부터 PROXSCAL 알고리즘을 이용하였다. 변수는 z점수로 표준화 하였고 스트레스 값은 0.001로설정하였다. 이를 <그림 5>와 같이 키워드지도상에 군집분석의 결과를 4개의 클러스터영역의 경계를 점선으로 표시하고 군집명을 표기하였다.
제안 방법
서선경, 정은경(2013)은 1998년 1월 1일부터 2012년 7월 31일까지의 Web of Science 문헌정보학 범주의 오픈액세스 관련 문헌들을 활용하여 COOC와 CiteSpace 기반으로 제목과 요약으로부터 키워드를 추출하여 동시출현단어 분석을 하였다. NodeXL를 활용하여 네트워크 지도를 완성하고 중심성 분석을 하였으며, SPSS을 활용한 군집분석과 다차원축적지도를 활용함으로써 지적구조 분석을 하였다. 이를 통해 최초의 해외 문헌정보학기반 오픈 액세스 분야의 지적구조를 나타낼 수 있었다.
이 매개중심성 값 상위 11위까지를 기준으로 open access(1), open access policy(10), education institutions(16), open-ended question(31), semi-structured interviews(60), institutional repositories(2), information science(11), library staff(55), open science(14), undergraduate students(62) 순이었다. <그림 4>과 같이 노드의 크기는 지역성 중심에 따라, 간선의 크기는 키워드 간 빈도에 비례하도록 하며, 매개중심성 값이 2.000 이상인 11개의 노드들을 삼각형 형태로 표시하여 네트워크 지도를 작성하였다.
2013년에 한차례 오픈액세스 분야의 지적 구조 분석이 수행(서선경, 정은경 20 3) 되었다. 그로부터 약 51년이 지난 현재, 오픈액세스에 대한 인식의 확산과 연구를 통해 지적구조가 어떻게 달라졌는지 기존 연구와 비교 및 분석을 수행하였다.
특히 오픈 액세스 학술 정보 유통에 있어서 훌륭한 자원으로서의 역할을 하고 있다. 기존 연구도 마찬가지로 계량정보학적 접근을 통해 분석으로 하였으며, 검색 및 인용 분석이 이루어졌다.
전역 및 지역 중심성 분석을 통해 오픈액세스에서 가장 핵심이 되는 키워드와 군집별로 영향력이 있거나 매개가 되는 키워드들을 파악하였다. 네트워크 분석을 보완하기 위한 군집분석을 실시하였고 이 군집분석의 결과를 다차원 축적지도에 반영하여 이를 통해 오픈액세스 분야의 지적구조와 세부 주제영역을 분석하였다. 네트워크 분석의 결과, 기존 연구의 18개와 달리 13개의 군집이 추출되었고 오픈액세스 연구의 흐름이 기존에는 초기 단계로 개념, 검색, 데이터, 비용 등‘개념의 정의’위주 연구였다면 현재는 자원, 보존, 검색 등의‘활용’위주의 연구로 변화하고 있다는 것을 확인할 수 있었다.
본 연구는 최근 5년간 Web of Science에서 오픈액세스를 주제로 하는 데이터들을 수집하고 동시출현단어 행렬을 통한 네트워크 분석, 군집 분석, 다차원축적지도를 통해 오픈액세스의 연구 경향을 반영하는 지적구조를 살펴보고기존의 동일연구와 비교분석하였다. 네트워크 분석을 위해 유사도 및 피어슨 상관계수를 통한 연관성 행렬을 생성하고 이들의 관계를 패스파인더 네트워크를 통한 시각화와 최근접 이웃 클러스터링 군집을 통해 오픈액세스의 세부 주제영역을 분석할 수 있었다.
네트워크의 시각화를 통한 키워드간 관계를 조사하기 위해 동시출현단어 분석을 사용하며, 이 네트워크를 네트워크 관계에 따른 여러 개의 군집으로 나누어 주제영역을 살펴볼 수 있다. 본 연구에서는 오픈액세스 분야의 지적구조를 분석하기 위해 코사인 유사도를 이용하여 패스파인더 네트워크 알고리즘(이재윤 2006a)을 적용하여 네트워크를 생성하였다.
다음으로 3개 군집의 세부 주제영역을 분석하기 위해 지역중심성 지수를 측정하였으며, 군집의 세부 키워드들을 이해하기 위해, 군집에서 영향력이 가장 높은 키워드를 확인할 수 잇는지역중심성의 지표인 상대적 최근접이웃중심성값을 이용하였다. 각 군집에서 지역중심성이 가장 높은 중심 주제어는 제1군집 open access(1), 제2군집 institutional repositories(2), 제3군집 significant difference(28), 제4군집 journal article(13), 제5군집 electronic resources(29), 제6군집 information science(11), 제7군집 bests practices(38), 제8군집 journal citation reports(54), 제9군집 digital preservation(39), 제10군집 undergraduate students(62), 제11군집 search engine(26), 제12군집 content analysis (36), 제13군집 bibliometric analysis(51)이었으며, 제4, 5, 11, 12, 13 군집은 군집에 속한 키워드 수가 2개이며, 두 키워드의 상대적 최근접이웃중심성 지수가 동일하게 측정되었다.
또한 오픈액세스 영역에서 군집 간 중개자 역할을 하는 키워드들을 확인하기 위하여 NodeXL을 이용하여 매개중심성 지수를 측정하였다. 이 매개중심성 값 상위 11위까지를 기준으로 open access(1), open access policy(10), education institutions(16), open-ended question(31), semi-structured interviews(60), institutional repositories(2), information science(11), library staff(55), open science(14), undergraduate students(62) 순이었다.
추출된 키워드를 네트워크 분석을 통하여 키워드 관계 네트워크의 시각화를 통해 중심 및 세부 주제영역을 파악하고 , 중심성 분석을 통해 해당 키워드들이 얼마만큼 영향을 주는지 확인하고자 하였다. 마지막으로 네트워크 분석을 보완하기 위해 군집분석을 하고 이를 다차원축적지도로 나타내어 오픈액세스 영역의 전체적인 주제영역의 흐름 및 구성을 제시하였다. 본 연구를 통해 최근 인식의 변화를 통한 학술 커뮤니케이션 변화와 오픈액세스 분야의 학문적 구조 및 주제 분야에 대한 정보를 제공할 수 있으며, 이를 토대로 발전방향 연구에 도움이 될 수 있을 것으로 기대한다.
본 연구는 기존 연구와 비교하여 군집별 주제는 유사하나 제1군집을 제외하고 각 군집을 이루는 키워드들은 기존 연구와 다른 키워드들로 구성되었다. 이것은 오픈액세스 전 영역에 걸쳐 주제영역 연구는 기존과 동일한 흐름으로 연구가 진행되고있으나, 세부 영역에서는 상위 개념 또는 다른 방향의 연구가 활발해졌음을 알 수 있다.
본 연구에서 네트워크 분석과 몇 번의 군집의 수설정을 통한 군집 분류를 통해 오픈액세스의 연구 경향을 가장 잘 나타내는 군집의 수는 4개라고 판단하였고 군집명의 경우 군집별 개별 키워드를 종합하는 가장 적절한 이를 통한 은 SPSS를 통해 도출된 군집의 순서와 관계없이 도출된 군집분류이며 오픈액세스 연구 영역에서의 흐름을 확인할 수 있으며, 기존 연구와 비교하였다.
분석 대상이 되는 오픈액세스 관련 문헌들을 추출하기 위해 키워드 “open access”, “institutional repositor*”를 입력하여 주제(Topic) 검색을 실시하였다.
의 병합을 해제하여, , 과 같이 각 3개의 군집에 속한 하위 주제영역을 나타내고 네트워크 중심성 분석을 활용하여 전역중심성, 지역중심성, 매개중심성이 높은 키워드를 확인하였다.
Milojević, Sugimoto, Yan, Ding(2011)은 문헌정보학 분야의 지적구조를 확인하기 위해 논문의 제목으로부터 단어 추출하고 이를 동시출현단어 분석을 이용하였다. 이 키워드들을덴드로그램을 활용하여 계층적 클러스터링을 통해 하위 주제 분야를 도서관, 정보학, 계량정 보학으로 제시하였으며, 다차원축적지도를 사용하여 문헌정보학 분야의 지적구조 변화를 나타내었다.
이를 와 같이 키워드지도상에 군집분석의 결과를 4개의 클러스터영역의 경계를 점선으로 표시하고 군집명을 표기하였다.
기존 연구와 동일한 방법으로 분석을 하였다. 전역 및 지역 중심성 분석을 통해 오픈액세스에서 가장 핵심이 되는 키워드와 군집별로 영향력이 있거나 매개가 되는 키워드들을 파악하였다. 네트워크 분석을 보완하기 위한 군집분석을 실시하였고 이 군집분석의 결과를 다차원 축적지도에 반영하여 이를 통해 오픈액세스 분야의 지적구조와 세부 주제영역을 분석하였다.
전역 중심성을 높은 키워드를 살펴보기 위해 중심성 분석 척도 중에서 삼각매개중심성과 평균연관성을 측정하였으며 이를 반영하여 과 같이 네트워크를 작성하였다.
3을 활용하여 제목과 초록에서 키워드와 키워드의 빈도수를 추출하였다. 제목과 초록에서 추출을 하고 open access라는 단어가 명사구이기 때문에 명사구를 활용하였으며, 보다 상세한 주제 표현을 위해서 하나의 명사구당 범위 개수를 2개에서 4개 사이로 지정하였다. 초록이 없는 문헌에 대해서는 제목에서만 명사구를 추출하였다.
이를 통해 최초의 해외 문헌정보학기반 오픈 액세스 분야의 지적구조를 나타낼 수 있었다. 하지만 오래된 데이터였기 때문에 본 연구는 이를 바탕으로 2013년부터 2018년까지의 오픈액세스 관련 문헌정보학 문헌들을 이용, 지적구조 분석을 수행하여 동시출현단어 분석, 중심성 분석, 군집분석을 통해 과거와의 오픈액세스의 지적구조가 얼마나 유사하고 변화하였는지 비교분석한다.
대상 데이터
2012년에 이루어진 연구와 비교하기 위하여 데이터 수집에 있어서 2012년과 동일한 방법을 이용하였다. 2013부터 발간된 오픈액세스 주제의 저널 논문을 Web of Science 데이터베 이스에서 수집하였다. 총 761건의 논문을 수집하였으며, 제목과 초록에서 추출된 키워드는총 2,321개였다.
자료 수집과 키워드 선정을 위해 Web of Science에 등재된 저널에 게재된 논문을 수집하였다. Web of Science 데이터베이스에서 제공하는 저널 범주를 문헌정보학(INFORMATION SCIENCE LIBRARY SCIENCE)으로 제한하였고, 기간은 기존 연구(서선경, 정은경 2013)의 기간이었던 1998년 1월 1일부터 2012년 7월 31일까지의 다음 기간인 2013년 1월 1일부터 연구를 위해 데이터를 수집한 2018년 11월 31일까지의 데이터를 활용하였다. 분석 대상이 되는 오픈액세스 관련 문헌들을 추출하기 위해 키워드 “open access”, “institutional repositor*”를 입력하여 주제(Topic) 검색을 실시하였다.
분석 대상이 되는 오픈액세스 관련 문헌들을 추출하기 위해 키워드 “open access”, “institutional repositor*”를 입력하여 주제(Topic) 검색을 실시하였다. 검색 결과, 이 기간 동안 발표된 오픈액세스에 관한 순수 연구 논문 698건과 편집자료 27건, 리뷰 20건, 책 리뷰 11건, 프로시딩 논문 11건, 커넥션 4건으로 총 761건이 수집되었다. 단어 추출을 위해 본 연구에서는 수집된 761건의 문헌들을 계량분석을 위한 공개 소프트웨어인 CiteSpace 5.
그러나 본 연구의 분석에서 필요한 키워드는 각 논문에서 한번씩 출현한 횟수이다. 단어 빈도와 문헌 빈도의 값의 치우침에 따른 키워드 선정을 방지하기 위하여 단어 빈도에 대한 문헌 빈도 값인 TF/IDF 값이 32이 이상인 최종 키워드 리스트 총 62개를 재선정하였다. 데이터 분석의 복잡성을 방지하기 위해 TF/IDF의 약 하위 60%인 32이하의 TF/IDF를 갖는키워드들을 제외하였다.
액셀시트 첫 번째 열에 각 문헌 번호를, 두 번째 열에 CiteSpace를 통해 제목과 초록에서 추출된 키워드를 입력하여 (문헌번호, 키워드) 쌍을 만들고 을 기준으로 키워드 전처리 작업을 끝낸 후, 필요한 최종 키워드를 포함한 행만을 남겨서 총 1,146행의 최종 분석 대상 출현 단어 리스트를 완성하였다.
1개)이었다. 이 중 CiteSpace를 이용, 분석의 용이성을 위해 불용어 제거 및 규모를 축소하여 자주 출현한 명사구 2,321개의 리스트를 추출하였다. 전처리 과정은 단․ 복수의 단어표현이나 약어들은 자주 출현한 명사구 리스트의 상위 빈도수의 용어를 기준으로 하였다.
이렇게 완성된 분석 대상이 되는 최종 키워드 리스트는 과같으며 기존 연구의 상위 62개의 리스트와 비교하였다.
자료 수집과 키워드 선정을 위해 Web of Science에 등재된 저널에 게재된 논문을 수집하였다. Web of Science 데이터베이스에서 제공하는 저널 범주를 문헌정보학(INFORMATION SCIENCE LIBRARY SCIENCE)으로 제한하였고, 기간은 기존 연구(서선경, 정은경 2013)의 기간이었던 1998년 1월 1일부터 2012년 7월 31일까지의 다음 기간인 2013년 1월 1일부터 연구를 위해 데이터를 수집한 2018년 11월 31일까지의 데이터를 활용하였다.
2013부터 발간된 오픈액세스 주제의 저널 논문을 Web of Science 데이터베 이스에서 수집하였다. 총 761건의 논문을 수집하였으며, 제목과 초록에서 추출된 키워드는총 2,321개였다. 추출된 키워드를 네트워크 분석을 통하여 키워드 관계 네트워크의 시각화를 통해 중심 및 세부 주제영역을 파악하고 , 중심성 분석을 통해 해당 키워드들이 얼마만큼 영향을 주는지 확인하고자 하였다.
데이터처리
동시출현단어 행렬은 수치 가공 방법에 따라서 네트워크의 형태가 달라지기 때문에 키워드간 연관도를 산출하는 과정에서 유사도를 측정하는 방법인 코사인과 피어슨 상관계수를 활용하였다. <표 1>과 같이 62개의 키워드가 선정된 문헌 761건의 정보를 액셀에 모두 입력하여 COOC ver 0.4 프로그램(이재윤 2006a)을 이용하여 동시출현단어 행렬을 작성하였다. 액셀시트 첫 번째 열에 각 문헌 번호를, 두 번째 열에 CiteSpace를 통해 제목과 초록에서 추출된 키워드를 입력하여 (문헌번호, 키워드) 쌍을 만들고 <표 1>을 기준으로 키워드 전처리 작업을 끝낸 후, 필요한 최종 키워드를 포함한 행만을 남겨서 총 1,146행의 최종 분석 대상 출현 단어 리스트를 완성하였다.
군집분석을 통한 다차원축적지도에 의한 지적구조를 분석하기 위해 SPSS ver 24.0로부터 PROXSCAL 알고리즘을 이용하였다. 변수는 z점수로 표준화 하였고 스트레스 값은 0.
네트워크 분석을 활용한 군집 분석을 보완하기 위하여 통계프로그램인 SPSS ver 24.0을 활용해 피어슨 상관계수를 활용한 2차 연관성 행렬로부터 군집분석을 하였다. 기존 연구와 동일하게 Ward 기법을 활용한 클러스터링, 덴드로그램으로 나타내기 위해 z점수 표준화 설정 및 제곱 유클리디안 거리를 이용하였다.
검색 결과, 이 기간 동안 발표된 오픈액세스에 관한 순수 연구 논문 698건과 편집자료 27건, 리뷰 20건, 책 리뷰 11건, 프로시딩 논문 11건, 커넥션 4건으로 총 761건이 수집되었다. 단어 추출을 위해 본 연구에서는 수집된 761건의 문헌들을 계량분석을 위한 공개 소프트웨어인 CiteSpace 5.3을 활용하여 제목과 초록에서 키워드와 키워드의 빈도수를 추출하였다. 제목과 초록에서 추출을 하고 open access라는 단어가 명사구이기 때문에 명사구를 활용하였으며, 보다 상세한 주제 표현을 위해서 하나의 명사구당 범위 개수를 2개에서 4개 사이로 지정하였다.
이론/모형
구성된 네트워크는 빈도수를 통해 연결 강도를 갖는 가중 네트워크이므로 중심성 분석을 하기 위해 가중 네트워크에 활용되는 중심성 분석 척도(이재윤, 2006c)를 활용하였다. 전역 중심성을 높은 키워드를 살펴보기 위해 중심성 분석 척도 중에서 삼각매개중심성과 평균연관성을 측정하였으며 이를 반영하여 <그림 3>과 같이 네트워크를 작성하였다.
본 연구에서는 오픈액세스 분야의 지적구조를 분석하기 위해 코사인 유사도를 이용하여 패스파인더 네트워크 알고리즘(이재윤 2006a)을 적용하여 네트워크를 생성하였다. 그리고 패스파인더 네트워크상에서 주제와 세부주제들을 명확하기 하기 위해 병렬 최근접 이웃 클러스터링 알고리즘(PNNC)(이재윤 2006b)를 이용하였다. 이를 위하여 네트워크 생성과 클러스터링 알고리즘을 이용하기 위해 WNET ver 0.
0을 활용해 피어슨 상관계수를 활용한 2차 연관성 행렬로부터 군집분석을 하였다. 기존 연구와 동일하게 Ward 기법을 활용한 클러스터링, 덴드로그램으로 나타내기 위해 z점수 표준화 설정 및 제곱 유클리디안 거리를 이용하였다. 본 연구에서 네트워크 분석과 몇 번의 군집의 수설정을 통한 군집 분류를 통해 오픈액세스의 연구 경향을 가장 잘 나타내는 군집의 수는 4개라고 판단하였고 군집명의 경우 군집별 개별 키워드를 종합하는 가장 적절한 이를 통한 <표 4>은 SPSS를 통해 도출된 군집의 순서와 관계없이 도출된 군집분류이며 오픈액세스 연구 영역에서의 흐름을 확인할 수 있으며, 기존 연구와 비교하였다.
동시출현단어 행렬은 수치 가공 방법에 따라서 네트워크의 형태가 달라지기 때문에 키워드간 연관도를 산출하는 과정에서 유사도를 측정하는 방법인 코사인과 피어슨 상관계수를 활용하였다. <표 1>과 같이 62개의 키워드가 선정된 문헌 761건의 정보를 액셀에 모두 입력하여 COOC ver 0.
네트워크의 시각화를 통한 키워드간 관계를 조사하기 위해 동시출현단어 분석을 사용하며, 이 네트워크를 네트워크 관계에 따른 여러 개의 군집으로 나누어 주제영역을 살펴볼 수 있다. 본 연구에서는 오픈액세스 분야의 지적구조를 분석하기 위해 코사인 유사도를 이용하여 패스파인더 네트워크 알고리즘(이재윤 2006a)을 적용하여 네트워크를 생성하였다. 그리고 패스파인더 네트워크상에서 주제와 세부주제들을 명확하기 하기 위해 병렬 최근접 이웃 클러스터링 알고리즘(PNNC)(이재윤 2006b)를 이용하였다.
이를 위하여 네트워크 생성과 클러스터링 알고리즘을 이용하기 위해 WNET ver 0.4를 활용하였고, 시각화를 위한 NodeXL (Hansen, Shneiderman, & Smith 2011)을 사용하였다.
성능/효과
군집분석 결과, 총 4개의 군집이 도출되었으며, 제1군집은 Institutional Repositories, 제2군집 Analysis on Open Access, 제3군집 Open Access Journals, 제4군집 Scholarly Communication으로 기존 연구에서 동일한 4개의 군집의 주제인 Institutional Repositories, Informetric Analysis on Open Access, Open Access Journals, Scholarly Publishing과 유사하였으며 현재까지도 오픈액세스 연구 영역의 방향은 크게 바뀌지 않았음을 알 수 있었다.
군집분석 결과를 다차원축적지도에 표시한 결과 제1군집, 제2군집, 제3군집 모두 확연하게 분리되어 위치하였고, 중심부의 제1군집과 제3군집 사이에 제4군집이 위치하였다. 이것은 제4군집의 키워드들이 제 군집과 제3군집과의 상관관계가 높으며 오픈액세스 연구의 가장 중심이 되고 있다는 것을 보여주었다.
네트워크 분석의 결과, 기존 연구의 18개와 달리 13개의 군집이 추출되었고 오픈액세스 연구의 흐름이 기존에는 초기 단계로 개념, 검색, 데이터, 비용 등‘개념의 정의’위주 연구였다면 현재는 자원, 보존, 검색 등의‘활용’위주의 연구로 변화하고 있다는 것을 확인할 수 있었다.
그리고 우측에 위치한 키워드들은 제3군집인 Open Access Journals의 세부 키워드들과 유사하게 나타났다. 마지막으로 중앙부분에는 제2군집인 Analysis on Open Access와 제4군집인 Scholarly Communication의 세부 키워드들이 두루 분포되어 있는 것을 확인할 수 있다. 키워드지도의 Y축(차원2) 기준으로 하단에는 제1 군집 Institutional Repositories의 세부 키워드 약 3분의 정도와 제2군집 Analysis on Open Access의 세부 키워드들을 주로 확인할 수 있으며, 제3군집 Open Access Journals의 세부 키워드들을 반 정도를 확인할 수 있다.
본 연구에서는 기존 연구의 ‘OA article’ -‘citation counts’ 키워드 쌍과 마찬가지로 인용횟수를 표시하는 ‘journal citation report’- ‘impact factor’ 키워드 쌍이 높은 유사도를 가지는 것으로 보아 명칭만 바뀌었을 뿐, 오픈액세스 저널의 특성이 비교적 평가에 자유롭다고 할지라도 현재까지도 인용을 활용한 평가가 매우 중요하게 여기고 있다는 것을 알 수 있다.
분석결과, 1차 연관성 행렬인 코사인 유사도 행렬에서 유사도가 가장 높은 키워드 쌍은 ‘social implications’-‘practical implications’(0.39376)로 나타났으며, 최댓값을 제외하고 유사도 값이 0.3 이상인 키워드 쌍은 총 3쌍으로‘journal citation report’-‘impact factor’(0.37796), ‘open-ended question’-‘response rate’(0.3345), ‘content analysis’-‘case study’(0.3333) 순으로 나타났다.
피어슨 상관계수에 의해 산출된 값의 범위는 –1에서 +1 사이를 가지며, 관계의 크기와 방향을 동시에 나타낸다. 상관계수의 절대치는 관계의 크기를 나타내며, 절대 값이 크면 클수록 두 키워드 사이가 관련성이 높음을, 절대값이 작으면 두 키워드 간가 관련이 낮다는 것을 의미한다. 또한 절대값과 상관없이 +1에 가까울수록 강한 긍정적 관계를 -1에 가까울수록 강한 부정적 관계를 뜻하며, 0은 두 키워드 간에 선형적인 관련성이 없음을 나타낸다.
오픈액세스 연구의 흐름이 기존에는 초기 단계로 개념, 검색, 데이터, 비용 등 ‘개념의 정의’ 위주 연구였다면 현재는 자원, 보존, 검색 등의 ‘활용’ 위주의 연구로 변화하고 있다는 것을 확인할 수 있었다.
지역 중심성이 높은키워드는 open access, open accss policy, education institution, open-ended question 순으로 나타났다. 이러한 결과는 오픈액세스, 기관 리포지터리, 실제적인 영향, 오픈액세스 저널, 학술 커뮤니케이션이 오픈액세스 영역에서 매우 중요하며, 이들 기준으로 이들 사이에서 오픈액세스 정책, 교육기관, 오픈 엔드 질문이 매개 역할을 하고 있는 것을 알 수 있었다.
예를 들면 institutional repositories는 66번, institutional repository는 46번으로 집계되었으므로 institutional repositories의 용어를 최종 키워드 리스트에서 사용하였으며, 두 빈도수를 더한 112번과 다른 모든 명사구에서 institutional repositories와 institutional repository가 모두 포함된 빈도수를 합산하여 집계하였다. 이와 같은 키워드 정규화 과정 후에 복잡성을 고려하여 지나치게 다수의 키워드를 제외시키기 위하여 빈도수인 7회 이상의 키워드 98개의 리스트를 완성하였다. 이 리스트는 가장 자주 출현한 명사구 리스트를 기준으로 만들어졌기 때문에 하나의 논문에서 중복 출현된 단어의 빈도수가 모두 포함하여 합산되어 있다.
4를 활용하였고, 시각화를 위한 NodeXL (Hansen, Shneiderman, & Smith 2011)을 사용하였다. 키워드 62개에 관한 동시출현단어의 네트워크 분석 결과, PNNC 알고리즘으로 13개의 최적의 군집이 생성되었다. <그림 2> 는 13개의 군집의 각 세부 영역을 병합하여 나타내었으며 각 군집의 번호와 각 군집에서 빈도수가 가장 높은 키워드를 해당 군집의 주제명으로 부여하였다.
피어슨 상관계수의 값을 분석한 결과, 상관관계가 가장 높은 키워드 쌍은 유사도와 마찬가지로 ‘social implications’-‘practical implications’(0.73061)이며, 최댓값을 제외하고 상관계수 값이 0.6 이상인 키워드 쌍은 총 4쌍으로 ‘green oa’-‘open access’(0.68957), ‘journal cite report’-‘impact factor’(0.66866), ‘open access policy’-‘open access’(0.64648), ‘open access publishing’-‘open access’(0.60857)순으로 나타났으며, Guilford의 해석에 따라 이들은 정적인 높은 상관관계를 갖는다.
후속연구
본 연구는 오픈액세스를 분석하는 연구였기 때문에 수집 범주를 문헌정보학으로 한정하였던 것이 결과를 도출함에 있어서 제한적이라고 할 수 있다. 그러나 본 연구는 2013년 이전의 국외 문헌정보학기반 오픈액세스 지적구조분석 연구로부터 2013년 이후의 오픈액세스의 지적구조가 얼마나 달라졌는지 분석할 수 있었다는 것에 의의가 있으며, 향후에도 오픈액세스의 연구 방향을 찾는데 도움이 될 것으로 기대한다.
마지막으로 제4군집에서는 기존 연구의 경우 학술 출판의 역할과 대안 모색으로서의 오픈 액세스와 그 배경에 관한 키워드로 구성되어 있으며, 본 연구에서는 좀 더 넓은 범위에 대한 연구를 하여 학술 커뮤니케이션의 새로운 패러다임으로서 저널, 온라인 조사, 주관적 질문, 간편 인터뷰, 학부생 등 다양한 분야로의 영향을 미치는 연구임을 알려주고 있다.
기존 1998년부터 2012년까지의 연구에서의 결과인 학술 출판 중심 기관 리포지터리, 오픈액세스 저널, 계량정보학적 연구 영역의 결과와 비교해도 현재까지도 유사한 방향으로 연구 중이나 세부 주제 키워드들을 통해 개념 위주가 아닌 활용 위주의 연구가 되고있음을 알 수 있다. 본 연구는 오픈액세스를 분석하는 연구였기 때문에 수집 범주를 문헌정보학으로 한정하였던 것이 결과를 도출함에 있어서 제한적이라고 할 수 있다. 그러나 본 연구는 2013년 이전의 국외 문헌정보학기반 오픈액세스 지적구조분석 연구로부터 2013년 이후의 오픈액세스의 지적구조가 얼마나 달라졌는지 분석할 수 있었다는 것에 의의가 있으며, 향후에도 오픈액세스의 연구 방향을 찾는데 도움이 될 것으로 기대한다.
마지막으로 네트워크 분석을 보완하기 위해 군집분석을 하고 이를 다차원축적지도로 나타내어 오픈액세스 영역의 전체적인 주제영역의 흐름 및 구성을 제시하였다. 본 연구를 통해 최근 인식의 변화를 통한 학술 커뮤니케이션 변화와 오픈액세스 분야의 학문적 구조 및 주제 분야에 대한 정보를 제공할 수 있으며, 이를 토대로 발전방향 연구에 도움이 될 수 있을 것으로 기대한다.
질의응답
핵심어
질문
논문에서 추출한 답변
지적구조를 제시를 제시하기 위해 동시출연단어 분석을 사용하는 이유는?
지적구조에 대한 분석은 문헌이나 저자의 동시인용 분석, 서지결합법, 동시출현단어 분석 등의 기법이 활용된다. 이 가운데 동시출현단어 분석은 텍스트 전문, 제목, 초록, 키워드를 이용하여 주제영역으로부터 하위분야 및 분야의 패턴 등의 분석이 가능하며, 해당 분야의 발전 방향을 예측할 수 있는 근거가 된다(서선경, 정은경 2013).
코사인과 피어슨 상관계수는 무엇인가?
동시출현단어 행렬은 수치 가공 방법에 따라서 네트워크의 형태가 달라지기 때문에 키워드간 연관도를 산출하는 과정에서 유사도를 측정하는 방법인 코사인과 피어슨 상관계수를 활용 하였다. <표 1>과 같이 62개의 키워드가 선정된 문헌 761건의 정보를 액셀에 모두 입력하여 COOC ver 0.
상대적 삼각매개중심성이 활용된 이유는 무엇인가?
중심성은 네트워크를 구성하는 동시출현단어의 강도, 영향력 범위, 구조적인 입지를 반영한 값이다. 상대적 삼각매개중심성은 동시출현단어의 영향력 범위를 많이 반영하고구조적인입지를 적게 반영한 값이며 평균연관성의 경우 동시출현단어의 강도를 반영한 값이므로 동시 출현단어에 따른 중심성 분석에 적합하기 때문에 활용되었다. 노드 간의 간선의 경우 키워드 빈도에 따른 가중치에 따라 굵기를 나타내었으며, 상대적 삼각매개중심성 값은 노드의 크기로 표현하였다.
참고문헌 (19)
Kim, Sun-Hoi and Sun-Jin Yun. 2015. "The Knowledge Structure of Environmental Sociology in Korea : Based on the Co-word Analysis of Article Titles in ECO." Korean Associations For Environmental sociology, 19(2): 165-211.
Kim, Wan-Jong. 2014. "The Research Trends about the Big Data Using Co-word Analysis." Proceedings of the Korean Associations For Environmental sociology, 17-20.
Kim, Hyunjung. 2016. "A Study on the Intellectual Structure of Data Science Using Co-Word Analysis." Journal of Korea Society for Information Management, 34(4): 101-126.
Kim, Hee Jung. 2011. "A Study on Web Archiving Subject Analysis Basd on Network Analsysis." Journal of the Korean Biblia Society for Library and Information Science, 22(2): 235-248.
Park, Jae-Shin and Young-Mee Chung. 2010. "An Informetric Study on Academic Activities and Environmental Movements in Solving global Environmental Problem." Journal of the Korean Society for Information Management, 27(3): 83-102.
Seo, Sun Kyung and Eun Kyung Chung. 2013. "Domain Analysis on the Field of Open Access by Co-Word Analysis." Journal of the Korean Biblia Society for Library and Information Science, 24(1): 207-228.
Lee, Jae Yun. 2006a. "A Study on the Network Generation Methods for Examining the Intellectual Structure of Knowledge Domains." Journal of the Korean Library and Information Science Society, 40(2): 333-355.
Lee, Jae Yun. 2006b. "A Novel Clustering Method for Examining and Analyzing the Intellectual Structure of a Scholarly Field." Journal of the Korean Society for Information Management, 23(4): 215-231.
Lee, Jae Yun. 2006c. "Centrality Measures for Bibliometric Network Analysis" Journal of the Korean Library and Information Science Society, 40(3): 191-214.
Lee, Jae Yun. 2013. "A Comparison Study on the Weighted Network Centrality Measures of tnet and WNET." Journal of the Korean Society for Information Management, 30(4): 241-264.
Zhang, Ling Ling and Hong, Hyun Jin. 2014. "Examining the Intellectual Structure of Reading Studies with Co-Word Analysis Based on the Importance of Journals and Sequence of Keywords." Journal of the Korean Biblia Society for Library and Information Science, 25(1): 295-318
Jang, Im-Sook, Chang, Durk-Hyun, and Lee, Soo-Sang. 2011. "The Knowledge Structure of Multicultural Research Papers in Korea." Journal of Korean Library and Information Science Society, 42(4): 353-374
Jung, Kyoung-Hee, 2011. "Chracteristics of Open Access Journals in Korea: Focused on KCI Journals." Journal of the Korean Biblia Society for Library and Information Science, 22(3): 373-391.
Jo, Hyo Jeong and Yong-Gu Lee. 2018. "Study on the Intellectual Structure of Big Data Research in Library & Information Science Using Co-word Analysis." Proceedings of the Korean Library And Information Science Society, 211-219.
Heo, Go Eun, and Min Song. 2013. "Examining the Intellectual Structure of a Medical Informatics Journal with Author Co-citation Analysis and Co-word Analysis." 207-225.
Liu, G. Y., Hu, J. M., and Wang, H. L. (2012). A co-word analysis of digital library field in china. Scientometrics, 91(1): 203-217.
Milojevic, S., C. R. Sugimoto, E. J. Yan, and Y. Ding. 2011. "The cognitive structure of library and information science: Analysis of article title words." Journal of the American Society for Information Science and Technology, 62(10): 1933-1953
Zong, Q. J., Shen, H. Z., Yuan, Q. J., Hu, X. W., Hou Z. P., and Deng, S. G. 2013. doctoral disserations of library and information science in China: A co-word analysis. Scientometrics, 94(2), 781-799.
White, H. D. and B. C. Griffith. 1981. "Author cocitation: A literature measure of intellectual structure." Journal of the American Society for Information Science & Technology, 32(3): 163-171.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.