텍스트마이닝과 동시출현단어분석을 이용한 한국, 중국, 일본의 우제목 연구 동향 분석 The Tresnds of Artiodactyla Researches in Korea, China and Japan using Text-mining and Co-occurrence Analysis of Words원문보기
우제목은 짝수 개의 발굽을 갖는 포유동물로 다양한 종이 전 세계적으로 광범위하게 서식하고 있다. 최근 국내에서는 멧돼지, 고라니와 같은 야생 우제목 동물에 의한 농작물 피해, 로드킬 등의 급증과 산양, 사향노루 등 일부 종의 개체수 급감으로 사회적 관심을 받고 있다. 그러나 이러한 사회적 관심에도 불구하고 우제목 관련 국내 연구는 매우 부족하며, 국내 우제목의 연구 동향 분석도 이루어지지 않아 실질적인 문제점을 파악하는데 어려움이 있다. 최근 연구 동향분석에 있어 텍스트마이닝과 동시출현단어분석은 연구 문헌들에서 나타나는 주요 단어들을 추출하고 단어들 간의 연관성을 정량화하는데 활용되고 있으며, 연구 주제의 분류에 있어 객관성을 증가시킨다. 본 연구에서는 텍스트마이닝과 동시출현단어분석을 통해 한국, 중국, 일본 3국의 우제목 연구 논문을 분석하고 국가별 연구 주제를 비교하여, 국내 우제목 연구에서의 부족한 점과 향후 필요한 점을 알아보고자 하였다. 각 국가별로 우제목과 관련된 연구 논문을 검색하여 수집한 665편의 논문들에 대한 텍스트마이닝 결과, 총 199개 단어가 추출되었다. 추출된 단어들에 대한 동시출현단어분석 결과 3개의 단어군이 형성되었다. 각 단어군에 포함된 단어들을 살펴본 결과, 단어군1은 "서식환경/생태", 단어군2는 "질병", 단어군3은 "보전유전학/분자생태"와 관련 있는 것으로 판단된다. 국가별로 각 단어군의 비율을 살펴본 결과, 중국과 일본은 비교적 고른 단어군 비율을 나타낸 반면, 한국은 "질병"과 관련된 단어군2의 비율이 69%로 상당히 큰 편중을 나타내었다. 연도에 따른 각 단어군별 단어수 회귀 분석 결과에서도 중국과 일본은 3개의 단어군에 해당하는 단어수가 시간 경과에 따라 비교적 고르게 증가하였지만, 한국은 단어군2의 증가율이 나머지 단어군의 5배 이상을 나타냈다. 국내 우제목 연구는 중국과 일본에 비해 질병과 관련된 연구 위주로 진행된 것으로 판단되며, 서식 특성, 행동, 분자생태를 포함한 연구는 매우 적게 수행된 것으로 판단된다. 향후 국내 야생 우제목 동물에 의한 피해 조절과 멸종위기종 보호를 위한 합리적인 정책 수립을 위해, 야생 우제목에 대한 생태 연구를 집중적으로 실시하여 기초생태 자료를 축적시켜 나가야 할 것이다.
우제목은 짝수 개의 발굽을 갖는 포유동물로 다양한 종이 전 세계적으로 광범위하게 서식하고 있다. 최근 국내에서는 멧돼지, 고라니와 같은 야생 우제목 동물에 의한 농작물 피해, 로드킬 등의 급증과 산양, 사향노루 등 일부 종의 개체수 급감으로 사회적 관심을 받고 있다. 그러나 이러한 사회적 관심에도 불구하고 우제목 관련 국내 연구는 매우 부족하며, 국내 우제목의 연구 동향 분석도 이루어지지 않아 실질적인 문제점을 파악하는데 어려움이 있다. 최근 연구 동향분석에 있어 텍스트마이닝과 동시출현단어분석은 연구 문헌들에서 나타나는 주요 단어들을 추출하고 단어들 간의 연관성을 정량화하는데 활용되고 있으며, 연구 주제의 분류에 있어 객관성을 증가시킨다. 본 연구에서는 텍스트마이닝과 동시출현단어분석을 통해 한국, 중국, 일본 3국의 우제목 연구 논문을 분석하고 국가별 연구 주제를 비교하여, 국내 우제목 연구에서의 부족한 점과 향후 필요한 점을 알아보고자 하였다. 각 국가별로 우제목과 관련된 연구 논문을 검색하여 수집한 665편의 논문들에 대한 텍스트마이닝 결과, 총 199개 단어가 추출되었다. 추출된 단어들에 대한 동시출현단어분석 결과 3개의 단어군이 형성되었다. 각 단어군에 포함된 단어들을 살펴본 결과, 단어군1은 "서식환경/생태", 단어군2는 "질병", 단어군3은 "보전유전학/분자생태"와 관련 있는 것으로 판단된다. 국가별로 각 단어군의 비율을 살펴본 결과, 중국과 일본은 비교적 고른 단어군 비율을 나타낸 반면, 한국은 "질병"과 관련된 단어군2의 비율이 69%로 상당히 큰 편중을 나타내었다. 연도에 따른 각 단어군별 단어수 회귀 분석 결과에서도 중국과 일본은 3개의 단어군에 해당하는 단어수가 시간 경과에 따라 비교적 고르게 증가하였지만, 한국은 단어군2의 증가율이 나머지 단어군의 5배 이상을 나타냈다. 국내 우제목 연구는 중국과 일본에 비해 질병과 관련된 연구 위주로 진행된 것으로 판단되며, 서식 특성, 행동, 분자생태를 포함한 연구는 매우 적게 수행된 것으로 판단된다. 향후 국내 야생 우제목 동물에 의한 피해 조절과 멸종위기종 보호를 위한 합리적인 정책 수립을 위해, 야생 우제목에 대한 생태 연구를 집중적으로 실시하여 기초생태 자료를 축적시켜 나가야 할 것이다.
Artiodactyla, which is an even-toed mammal, widely inhabits worldwide. In recent years, wild Artiodactyla species have attracted public attention due to the rapid increase of crop damage and road-kill caused by wild Artiodactyla such as water deer and wild boar and the decrease of some species such ...
Artiodactyla, which is an even-toed mammal, widely inhabits worldwide. In recent years, wild Artiodactyla species have attracted public attention due to the rapid increase of crop damage and road-kill caused by wild Artiodactyla such as water deer and wild boar and the decrease of some species such as long-tailed goral and musk deer. In spite of such public attention, however, there have been few studies on Artiodactyla in Korea, and no studies have focused on the trend analysis of Artiodactyla, making it difficult to understand actual problems. Many recent studies on trend used text-mining and co-occurrence analysis to increase objectivity in the classification of research subjects by extracting keywords appearing in literature and quantifying relevance between words. In this study, we analyzed texts from research articles of three countries (Korea, China, and Japan) through text-mining and co-occurrence analysis and compared the research subjects in each country. We extracted 199 words from 665 articles related to Artiodactyla of three countries through text-mining. Three word-clusters were formed as a result of co-occurrence analysis on extracted words. We determined that cluster1 was related to "habitat condition and ecology", cluster2 was related to "disease" and cluster3 was related to "conservation genetics and molecular ecology". The results of comparing the rates of occurrence of each word clusters in each country showed that they were relatively even in China and Japan whereas Korea had a prevailing rate (69%) of cluster2 related to "disease". In the regression analysis on the number of words per year in each cluster, the number of words in both China and Japan increased evenly by year in each cluster while the rate of increase of cluster2 was five times more than the other clusters in Korea. The results indicate that Korean researches on Artiodactyla tended to focus on diseases more than those in China and Japan, and few researchers considered other subjects including habitat characteristics, behavior and molecular ecology. In order to control the damage caused by Artiodactyla and to establish a reasonable policy for the protection of endangered species, it is necessary to accumulate basic ecological data by conducting researches on wild Artiodactyla more.
Artiodactyla, which is an even-toed mammal, widely inhabits worldwide. In recent years, wild Artiodactyla species have attracted public attention due to the rapid increase of crop damage and road-kill caused by wild Artiodactyla such as water deer and wild boar and the decrease of some species such as long-tailed goral and musk deer. In spite of such public attention, however, there have been few studies on Artiodactyla in Korea, and no studies have focused on the trend analysis of Artiodactyla, making it difficult to understand actual problems. Many recent studies on trend used text-mining and co-occurrence analysis to increase objectivity in the classification of research subjects by extracting keywords appearing in literature and quantifying relevance between words. In this study, we analyzed texts from research articles of three countries (Korea, China, and Japan) through text-mining and co-occurrence analysis and compared the research subjects in each country. We extracted 199 words from 665 articles related to Artiodactyla of three countries through text-mining. Three word-clusters were formed as a result of co-occurrence analysis on extracted words. We determined that cluster1 was related to "habitat condition and ecology", cluster2 was related to "disease" and cluster3 was related to "conservation genetics and molecular ecology". The results of comparing the rates of occurrence of each word clusters in each country showed that they were relatively even in China and Japan whereas Korea had a prevailing rate (69%) of cluster2 related to "disease". In the regression analysis on the number of words per year in each cluster, the number of words in both China and Japan increased evenly by year in each cluster while the rate of increase of cluster2 was five times more than the other clusters in Korea. The results indicate that Korean researches on Artiodactyla tended to focus on diseases more than those in China and Japan, and few researchers considered other subjects including habitat characteristics, behavior and molecular ecology. In order to control the damage caused by Artiodactyla and to establish a reasonable policy for the protection of endangered species, it is necessary to accumulate basic ecological data by conducting researches on wild Artiodactyla more.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 연구에서는 텍스트마이닝과 동시출현단어 분석 기법을 활용하여 우제목과 관련된 연구 주제 분류와 정량화에 객관성을 높이고자 한다. 또한 한국, 중국, 일본 세 국가의 우제목 관련 연구 동향을 동시에 살펴봄으로써 우제목 연구에 있어 국가 간의 차이를 분석하고, 이를 통해 기존 국내 연구의 부족한 부분과 향후 필요한 점을 살펴보았다.
이 두 가지 분석 기술은 연구 주제를 파악함에 있어 연구자 주관이 개입되는 것을 최소화시킬 수 있다는 장점이 있다(Kim and Song, 2014). 본 연구에서는 텍스트마이닝과 동시출현단어 분석 기법을 활용하여 우제목과 관련된 연구 주제 분류와 정량화에 객관성을 높이고자 한다. 또한 한국, 중국, 일본 세 국가의 우제목 관련 연구 동향을 동시에 살펴봄으로써 우제목 연구에 있어 국가 간의 차이를 분석하고, 이를 통해 기존 국내 연구의 부족한 부분과 향후 필요한 점을 살펴보았다.
제안 방법
VOSviewer를 통한 텍스트마이닝과 동시출현단어 분석 결과를 활용하여 사후 분석을 실시하였다. 각 단어군에 포함된 단어들을 살펴보며 각 단어군이 나타내는 주제를 결정하였다. 또한 국가별, 연도별 각 단어군에 포함되는 단어 수를 구하기에 앞서, 국가별, 연도별 단어군의 단어 수를 전체 단어군별 단어 수로 나누어 보정하였다.
이후 국가별 출현 단어 수 대비 단어군에 포함되는 보정된 단어 수 비율을 통해 국가별 단어군 비율을 산출하였다. 또한 국가별 단 어군 분포의 균일성을 알아보기 위해, 산출된 국가별 단어 군 비율을 활용하여 국가별 균등도(evenness; Pielou, 1969)를 측정하였다. 또한 연도에 따른 국가별 각 단어군의 보정된 단어수 변화를 알아보기 위해 SAS 9.
각 단어군에 포함된 단어들을 살펴보며 각 단어군이 나타내는 주제를 결정하였다. 또한 국가별, 연도별 각 단어군에 포함되는 단어 수를 구하기에 앞서, 국가별, 연도별 단어군의 단어 수를 전체 단어군별 단어 수로 나누어 보정하였다. 이후 국가별 출현 단어 수 대비 단어군에 포함되는 보정된 단어 수 비율을 통해 국가별 단어군 비율을 산출하였다.
본 연구는 텍스트마이닝과 동시출현단어분석을 통해 한국, 중국, 일본의 우제목 연구 주제를 정량적이고 객관적으로 판단하여 비교하였다. 국가별 비교를 위해서는 동일한 검색 조건과 서지 정보 양식이 필요하기 때문에 ‘web of science’라는 저명한 연구 문헌 데이터베이스를 활용하였다.
우제목 연구 동향 파악에 앞서 한국, 중국, 일본의 우제목 종 목록 파악을 위해 문헌 조사를 실시하였다. 한국의 우제목 종은 환경부 국립생물자원관에서 제공하는 국가생물종 목록(https://species.
또한 국가별, 연도별 각 단어군에 포함되는 단어 수를 구하기에 앞서, 국가별, 연도별 단어군의 단어 수를 전체 단어군별 단어 수로 나누어 보정하였다. 이후 국가별 출현 단어 수 대비 단어군에 포함되는 보정된 단어 수 비율을 통해 국가별 단어군 비율을 산출하였다. 또한 국가별 단 어군 분포의 균일성을 알아보기 위해, 산출된 국가별 단어 군 비율을 활용하여 국가별 균등도(evenness; Pielou, 1969)를 측정하였다.
또한 단어군(cluster) 형성에 있어 논문 검색에서 활용한 단어들에 의한 편이가 발생하는 것을 방지하기 위해, 검색 핵심어(keyword)로 활용된 국가 명과 우제목 학명을 제외하였다. 이후 동시출현단어 분석을 통해 단어들간의 연관 관계를 측정하고, 측정된 연관 정도를 통해 단어들을 군집화(clustering)하였다. 단어군의 군집 세분화 정도를 나타내는 “clustering resolution”은 단어군의 수가 가장 안정적으로 유지되는 구간 중 최대값으로 결정하였다.
5(VanEck and Waltman, 2010)를 사용하였다. 텍스트마이닝에는 논문 서지 정보들 중 제목과 요약(title and abstract)을 활용하였다. 단어 수 산출 방식은 오직 출현 논문 수만을 집계하는 “binary counting”을 선택하였다.
대상 데이터
각 국가의 영명과 우제목 종의 학명을 동시에 검색하였다(e.g. “Korea” and “Hydropotes inermis”).
국가별 비교를 위해서는 동일한 검색 조건과 서지 정보 양식이 필요하기 때문에 ‘web of science’라는 저명한 연구 문헌 데이터베이스를 활용하였다.
국가별 문헌자료와 온라인 DB를 통해 파악한 우제목 종수는 한국이 Capreolus pygargus, Cervus elaphus, Cervus Nippon, Hydropotes inermis, Moschus moschiferus, Naemorhedus caudatus, Sus scrofa의 7종이었으며, 중국은 Bos gaurus, Bos mutus, Budorcas taxicolor, Camelus ferus, Capra sibirica 등 총 58종, 일본은 Capricornis crispus, Cervus Nippon, Sus scrofa 3종이었다. 국가별 우 제목 관련 연구 논문 검색 결과, 한국 70편, 중국 195편, 일본 400편으로 총 665편이 검색되었다. 한국은 우제목 관련 연구 논문 수에 있어서 중국의 논문 수에 절반에도 미치지 못하였으며, 일본보다 많은 종 수에도 불구하고 1/5 이하의 적은 논문 수를 나타냈다.
우제목 연구 논문들의 서지 정보를 수집하기 위해, Web of Science(https://app.webofknowledge.com)의 SCIE database에서 한중일 각 국가별 우제목 관련 논문을 검색하였다. 각 국가의 영명과 우제목 종의 학명을 동시에 검색하였다(e.
단어 수 산출 방식은 오직 출현 논문 수만을 집계하는 “binary counting”을 선택하였다. 전체 서지 정보에서 10편 이상의 논문에서 출현하는 단어들만을 이후의 분석을 위하여 선택하였다. 또한 단어군(cluster) 형성에 있어 논문 검색에서 활용한 단어들에 의한 편이가 발생하는 것을 방지하기 위해, 검색 핵심어(keyword)로 활용된 국가 명과 우제목 학명을 제외하였다.
우제목 연구 동향 파악에 앞서 한국, 중국, 일본의 우제목 종 목록 파악을 위해 문헌 조사를 실시하였다. 한국의 우제목 종은 환경부 국립생물자원관에서 제공하는 국가생물종 목록(https://species.nibr.go.kr)에서 확인하였다. 중국은 Groves(2016)가 정리한 우제목 종 목록을 확인하였으며, 일본은 Motokawa et al.
데이터처리
VOSviewer를 통한 텍스트마이닝과 동시출현단어 분석 결과를 활용하여 사후 분석을 실시하였다. 각 단어군에 포함된 단어들을 살펴보며 각 단어군이 나타내는 주제를 결정하였다.
또한 국가별 단 어군 분포의 균일성을 알아보기 위해, 산출된 국가별 단어 군 비율을 활용하여 국가별 균등도(evenness; Pielou, 1969)를 측정하였다. 또한 연도에 따른 국가별 각 단어군의 보정된 단어수 변화를 알아보기 위해 SAS 9.4(SAS Institute, USA)를 통한 회귀 분석을 실시하였다.
이론/모형
한중일 우제목 관련 연구 논문 서지 정보에 대한 텍스트마이닝과 동시출현단어 분석에는 VOSviewer v1.6.5(VanEck and Waltman, 2010)를 사용하였다. 텍스트마이닝에는 논문 서지 정보들 중 제목과 요약(title and abstract)을 활용하였다.
성능/효과
국가별 문헌자료와 온라인 DB를 통해 파악한 우제목 종수는 한국이 Capreolus pygargus, Cervus elaphus, Cervus Nippon, Hydropotes inermis, Moschus moschiferus, Naemorhedus caudatus, Sus scrofa의 7종이었으며, 중국은 Bos gaurus, Bos mutus, Budorcas taxicolor, Camelus ferus, Capra sibirica 등 총 58종, 일본은 Capricornis crispus, Cervus Nippon, Sus scrofa 3종이었다. 국가별 우 제목 관련 연구 논문 검색 결과, 한국 70편, 중국 195편, 일본 400편으로 총 665편이 검색되었다.
단어군1은 “effect”, “forest”, “change”, “winter”, “season” 등 총 93개의 단어들이 나타나, “서식 환경/생태”의 주제를 나타내는 것으로 판단되었다.
단어군3는 “sequence”, “haplotype”, “genetic diversity”, “mitochondrial DNA”, “lineage” 등 총 35개 단어들이 나타나, “보전유전학/분자생태”의 주제를 나타내는 것으로 판단되었다.
따라서 SCI급과 비SCI급 학술지의 연구 논문의 연구 주제와 내용에 차이가 있을 것으로 판단 되며, 본 연구 결과에서 제시한 한중일 우제목 연구 논문의 연구 주제 차이를 해석함에 있어 이 점을 반드시 인지해야 할 것이다. 본 연구에서는 비록 비SCI급 학술지(논문 또는 보고서)를 포함하지 않았지만 3개 국가를 대상으로 모두 SCI급 학술지를 비교했기 때문에 상대적인 비교가 가능했다. 그러나 비SCI급 학술지 논문의 연구 규모와 파급력이 상대적으로 떨어진다고 하더라도 국가별 연구 역량에 절대적으로 필요한 기초자료가 될 것이며, 이 현황을 파악하고 분석하는 것은 매우 중요할 것이다.
검색된 논문들에 대한 텍스트마이닝 결과, 10편 이상 논문에 걸쳐 출현한 단어 수는 총 199개로 나타났다. 이후 실시된 동시출현단어분석 결과, clustering resolution 0.99에서 가장 안정된 3개의 단어군(cluster)을 형성하였다(Figure 2).
후속연구
최근에 들어 국외 SCI급 학술지의 영향력 증가와 통신 기술의 발달로 국외 학술지 투고가 쉬어짐에 따라, 연구 규모와 성과의 중요성이 클수록 국외 SCI급 저널에 투고하려는 경향이 강해지고 있다. 따라서 SCI급과 비SCI급 학술지의 연구 논문의 연구 주제와 내용에 차이가 있을 것으로 판단 되며, 본 연구 결과에서 제시한 한중일 우제목 연구 논문의 연구 주제 차이를 해석함에 있어 이 점을 반드시 인지해야 할 것이다. 본 연구에서는 비록 비SCI급 학술지(논문 또는 보고서)를 포함하지 않았지만 3개 국가를 대상으로 모두 SCI급 학술지를 비교했기 때문에 상대적인 비교가 가능했다.
그러나 비SCI급 학술지 논문의 연구 규모와 파급력이 상대적으로 떨어진다고 하더라도 국가별 연구 역량에 절대적으로 필요한 기초자료가 될 것이며, 이 현황을 파악하고 분석하는 것은 매우 중요할 것이다. 향후 비SCI(E)급 학술지의 연구 논문으로 범위를 넓혀 텍스트마이닝과 동시출현단어분석을 실시한다면 국가별 우제목 관련 연구 현황을 더 명확히 살펴볼 수 있을 것으로 생각한다.
질의응답
핵심어
질문
논문에서 추출한 답변
우제목과 관련하여 동시출현단어분석을 한 결과에서 나온 단어군들에는 무엇이 있는가?
각 단어군에 속하는 단어들을 살펴보면 다음과 같다(Table 1). 단어군1은 “effect”, “forest”, “change”, “winter”, “season” 등 총 93개의 단어들이 나타나, “서식 환경/생태”의 주제를 나타내는 것으로 판단되었다. 단어군2는 “sample”, “infection”, “prefecture”, “gene”, “prevalence” 등 총 71개의 단어들이 나타나, “질병”의 주제를 나타내는 것으로 판단되었다. 단어군3는 “sequence”, “haplotype”, “genetic diversity”, “mitochondrial DNA”, “lineage” 등 총 35개 단어들이 나타나, “보전유전학/분자생태”의 주제를 나타내는 것으로 판단되었다.
야생 우제목 동물로 인해 어떤 피해가 증가하였는가?
우제목은 짝수 개의 발굽을 갖는 포유동물로 다양한 종이 전 세계적으로 광범위하게 서식하고 있다. 최근 국내에서는 멧돼지, 고라니와 같은 야생 우제목 동물에 의한 농작물 피해, 로드킬 등의 급증과 산양, 사향노루 등 일부 종의 개체수 급감으로 사회적 관심을 받고 있다. 그러나 이러한 사회적 관심에도 불구하고 우제목 관련 국내 연구는 매우 부족하며, 국내 우제목의 연구 동향 분석도 이루어지지 않아 실질적인 문제점을 파악하는데 어려움이 있다.
우제목이란?
우제목(Artiodactyla)은 포유동물강(Mammalia)에 포함된 분류군 중 하나로 짝수 개의 발굽을 갖는 동물을 칭한다. 우제목은 전 세계적으로 매우 다양한 서식 조건과 광범위한 서식 면적을 갖는 포유류이며, 총 10개 과(family), 80개 속(genus)이 포함되어 있고, 약 210개 종이 파악되어 있다(Encyclopedia of Life; http://eol.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.