[논문]텍스트 마이닝 기법을 활용한 기후변화관련 식품분야 논문초록 분석

배규용; 박주현; 김정선; 이영섭

doi:10.7465/jkdi.2013.24.6.1429

초록
AI-Helper

빅 데이터 분석기법 중 비정형데이터 분석기법인 텍스트 마이닝 기법을 이용하여 기후변화 관련 식품분야 논문 초록에서 용어들의 출현빈도를 분석하였다. 이를 위하여 용어-문헌 행렬을 만들고, 용어들간의 비유사성 측도를 바탕으로 계층적 군집분석기법을 적용하여 문서들을 군집화하였다. 군집화된 문서들간의 상호 연관성과 군집별로 특정용어의 빈도를 파악하여 문서군집을 특정주제별로 분류하였다. 이러한 연구를 통하여 식품분야의 기후변화 관련 논문들의 추세와 관심주제어를 파악할 수 있었으며, 향후 기후변화 적응 및 대응 체계 로드맵 작성 시 연구 개발 기초 자료로 활용할 수 있을 것이다.

Abstract ▼ AI-Helper

Research articles in food related to climate change were analyzed by implementing a text-mining algorithm, which is one of nonstructural data analysis tools in big data analysis with a focus on frequencies of terms appearing in the abstracts. As a first step, a term-document matrix was established, ...

Research articles in food related to climate change were analyzed by implementing a text-mining algorithm, which is one of nonstructural data analysis tools in big data analysis with a focus on frequencies of terms appearing in the abstracts. As a first step, a term-document matrix was established, followed by implementing a hierarchical clustering algorithm based on dissimilarities among the selected terms and expertise in the field to classify the documents under consideration into a few labeled groups. Through this research, we were able to find out important topics appearing in the field of food related to climate change and their trends over past years. It is expected that the results of the article can be utilized for future research to make systematic responses and adaptation to climate change.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

따라서 현재 기후변화에 대한 연구가 각 분야에서 활발하게 진행되고 있으며, 관련 연구논문들의 발표가 증가하고 있다. 본 연구는 텍스트 마이닝 기법을 이용하여 2000년 초반부터 최근까지 기후변화 관련 논문 중 식품관련 연구성과물들에 대해 어떤 주제나 키워드가 연구되었는지를 알아보고, 이러한 주제나 키워드의 출현빈도 추세에 대해서 분석하였다. 이러한 분석을 통하여 기후변화 관련 연구성과들의 추세를 파악하고 향후 기후변화 적응 및 대응 체계 로드맵 작성 시 연구 개발 기초 자료로 활용할 수 있을 것이다.

제안 방법

따라서 초록에서 사용된 용어들은 각각의 문서에서 각 용어의 빈도수가 아니라 각각의 문서에 출현했는지 여부만을 반영하는 형태로 자료를 구성하여 분석에 사용하였다. Table 2.1에서와 같이 특정 용어의 연도별 추세를 보기 위해서 각각의 자료들을 1년 단위로 용어의 총 출현 빈도를 이용해서 분석을 하였다.
2%), 군집 1과 군집 3의 주제는 전혀 다루지 않았음을 알 수 있다. 각각의 문서를 주어진 4개의 군집 중 하나로 분류하고자 하는 경우, 상대 비중이 가장 큰 군집으로 지정하여 분류를 하였다. 예를 들어, Table 4.
분석에 앞서 각각의 문서에서 용어의 빈도수를 측정하고 그 빈도수를 전체 문서 중 몇 개의 문서에서 출현하는지 여부를 보정하는 방법이 적용되는데, 일반적으로 논문 초록은 전체 논문에서 가장 핵심적인 내용들을 간략한 형태로 제시하기 때문에 중요한 용어가 여러 번 나타나는 경우가 드물다. 따라서 초록에서 사용된 용어들은 각각의 문서에서 각 용어의 빈도수가 아니라 각각의 문서에 출현했는지 여부만을 반영하는 형태로 자료를 구성하여 분석에 사용하였다. Table 2.
본 연구는 기후 변화에 맞추어 영문 학술지에 게제된 논문을 중심으로 데이터 마이닝의 기법중 하나인 텍스트 마이닝을 적용하였다. 이를 통해, 지난 9년간 학술지에서 다뤄진 주제들의 특성을 파악하였고, 용어의 계층적 군집방법을 통해 찾아낸 4개의 주제어들에 각각의 문서를 분류하는 방법을 제시하였다.
본 연구는 기후 변화에 맞추어 영문 학술지에 게제된 논문을 중심으로 데이터 마이닝의 기법중 하나인 텍스트 마이닝을 적용하였다. 이를 통해, 지난 9년간 학술지에서 다뤄진 주제들의 특성을 파악하였고, 용어의 계층적 군집방법을 통해 찾아낸 4개의 주제어들에 각각의 문서를 분류하는 방법을 제시하였다. 이러한 결과물은 새로운 연구를 시작하기에 앞서 기존의 유사한 논문들을 찾아내는데 유용하게 사용될 수 있을 뿐 아니라, 특정 연구 주제가 최근 학술지에서 주로 다뤄지는지 여부를 확인 할 수 있다.
특정 문서가 어느 분야의 논문인지를 분류하기 위해 용어들의 계층적 군집분석을 바탕으로 하는 주제별 상대 비중을 계산하였다. 주제별 상대 비중은 각각의 군집 (즉, 주제 분야)에 포함 된 용어들이 한 문서에 상대적으로 얼마나 자주 출현하는 지를 보여준다.

대상 데이터

기후변화 (climate change)와 관련성이 높은 식품분야 논문을 수집하기 위해 www.sciencedirect.com에서 “climate change”과 “food” 두 키워드를 사용하여 2004년도부터 2012년까지 외국 학술지에 게재된 총 4500개의 영문 논문들에서 제목과 초록을 수집하였다.
따라서 보다 포괄적인 연구를 위해 이러한 문제를 해결할 수 있는 텍스트 마이닝 소프트웨어의 개발이 필요하다. 둘째, 본 연구는 전문가의 의견을 반영하여 각 년도 별로 관련성이 높은 100개의 논문들을 찾고 분석하였다. 이는 전문가의 의견을 반영하는 장점이 있으나 전문가에 따라 다른 논문 자료가 선택될 수 있다는 선택적 편의 (selection bias)가 발생할 수 있다.

데이터처리

수집된 논문 초록을 이용하여 텍스트 마이닝에 필요한 용어-문헌 행렬 (term-document matrix)을 구성하기 위해 R 프로그램 3.0.1 버전의 tm 패키지 (Feinerer 등, 2008)를 사용하였다.

이론/모형

계층적 군집방법은 자율 군집 (unsupervised clustering)의 한 방법으로써 수집된 논문들을 분류하는데 알려져 있는 체계가 없는 상황에서 논문에 나타난 용어들의 비유사성 (dissimilarity)을 바탕으로 계층에 따라 어떻게 용어 들이 군집을 구성하는지를 보여준다. 계층적 군집분석 기법중 하나인 Ward 방법을 사용하여 용어들 간의 비유사성은 개별대상간의 거리로 측정을 하였으며, 군집의 수는 실루엣 (silhouette) 방법 (Rousseeuw, 1987)과 현장 전문가의 지식을 활용하여 집단간의 유사성 (homogeneity)을 가장 크게 하는 군집의 수를 찾았다.
군집분석에 대한 많은 연구가 진행되고 있으며 (Lim과 Lim, 2012; Yeo, 2011), 본 연구에서는 특정 주제에 관련된 용어들이 어떻게 군집을 이루는 지를 확인하기 위해 계층적 군집분석 방법 (hierarchical clustering)을 사용하였다. 계층적 군집방법은 자율 군집 (unsupervised clustering)의 한 방법으로써 수집된 논문들을 분류하는데 알려져 있는 체계가 없는 상황에서 논문에 나타난 용어들의 비유사성 (dissimilarity)을 바탕으로 계층에 따라 어떻게 용어 들이 군집을 구성하는지를 보여준다.
6%이하)인 용어들이 전체 용어의 90%를 구성하고 있고, 이러한 용어들은 대부분의 경우 잡음 (noise)으로 작용을 하여 용어-문헌 행렬에 의미 있는 소수의 잠재적인 요인들 (latent component)을 이끌어 내는데 한계점이 있다. 따라서, 본 연구를 위해 이 분야의 전문가적인 지식 (expert knowledge)을 반영해서 전체 문서에서 출현빈도가 26 이상인 용어들 중 그 용어의 중요성을 바탕으로 선택된 68개만을 고려한 용어-문헌 행렬 (term-document matrix)을 사용하였다. 최종적으로 선택된 68개의 용어들과 년도별 출현 빈도수 및 총 빈도수는 Table 2.

성능/효과

첫째, 최근 대두되는 주요 화제인 “기후 변화”에 관련된 연구 논문들에 대해 처음으로 텍스트 마이닝 방법을 적용하였다는 것이다.

후속연구

이를 통해, 지난 9년간 학술지에서 다뤄진 주제들의 특성을 파악하였고, 용어의 계층적 군집방법을 통해 찾아낸 4개의 주제어들에 각각의 문서를 분류하는 방법을 제시하였다. 이러한 결과물은 새로운 연구를 시작하기에 앞서 기존의 유사한 논문들을 찾아내는데 유용하게 사용될 수 있을 뿐 아니라, 특정 연구 주제가 최근 학술지에서 주로 다뤄지는지 여부를 확인 할 수 있다. 본 연구의 중요성과 연구와 관련된 제언은 다음과 같이 정리될 수 있다.
본 연구는 텍스트 마이닝 기법을 이용하여 2000년 초반부터 최근까지 기후변화 관련 논문 중 식품관련 연구성과물들에 대해 어떤 주제나 키워드가 연구되었는지를 알아보고, 이러한 주제나 키워드의 출현빈도 추세에 대해서 분석하였다. 이러한 분석을 통하여 기후변화 관련 연구성과들의 추세를 파악하고 향후 기후변화 적응 및 대응 체계 로드맵 작성 시 연구 개발 기초 자료로 활용할 수 있을 것이다.
첫째, 최근 대두되는 주요 화제인 “기후 변화”에 관련된 연구 논문들에 대해 처음으로 텍스트 마이닝 방법을 적용하였다는 것이다. 하지만, 본 연구에서는 영문 학술지에 게재된 논문들만을 대상으로 하였기 때문에 영어가 아닌 다른 언어, 특히 한국어로 게재된 논문들이 포함되지 않았다는 제한이 있다. 이는 아직 국내에서 기후 변화와 식품에 관련된 충분한 양의 논문이 없기 때문이기도 하지만 같은 의미를 다른 두 언어들로 표현할 경우, 예를 들면, ‘climate’과 ‘기후’, 두 용어를 하나의 의미로 인식할 수 있는 소프트웨어의 부재이기도 하다.
이는 전문가의 의견을 반영하는 장점이 있으나 전문가에 따라 다른 논문 자료가 선택될 수 있다는 선택적 편의 (selection bias)가 발생할 수 있다. 향후 연구에서는 기후 변화에 대한 문헌 검색 프로그램이나 논문 데이터 베이스를 통해 관련성이 있는 모든 논문을 분석 대상으로 하여 이러한 전문가에 의한 편의를 최소한으로 줄이는 노력이 필요할 것이다.

질의응답

핵심어	질문	논문에서 추출한 답변
	텍스트 마이닝 기법을 이용하여 무엇을 하였는가?	빅 데이터 분석기법 중 비정형데이터 분석기법인 텍스트 마이닝 기법을 이용하여 기후변화 관련 식품분야 논문 초록에서 용어들의 출현빈도를 분석하였다. 이를 위하여 용어-문헌 행렬을 만들고, 용어들간의 비유사성 측도를 바탕으로 계층적 군집분석기법을 적용하여 문서들을 군집화하였다.
	텍스트 마이닝 기법은 어떤 기법인가?	빅 데이터 분석기법 중 비정형데이터 분석기법인 텍스트 마이닝 기법을 이용하여 기후변화 관련 식품분야 논문 초록에서 용어들의 출현빈도를 분석하였다. 이를 위하여 용어-문헌 행렬을 만들고, 용어들간의 비유사성 측도를 바탕으로 계층적 군집분석기법을 적용하여 문서들을 군집화하였다.
	기후변화 관련 식품분야 논문 초록에서 용어들의 출현빈도 분석 과정은?	빅 데이터 분석기법 중 비정형데이터 분석기법인 텍스트 마이닝 기법을 이용하여 기후변화 관련 식품분야 논문 초록에서 용어들의 출현빈도를 분석하였다. 이를 위하여 용어-문헌 행렬을 만들고, 용어들간의 비유사성 측도를 바탕으로 계층적 군집분석기법을 적용하여 문서들을 군집화하였다. 군집화된 문서들간의 상호 연관성과 군집별로 특정용어의 빈도를 파악하여 문서군집을 특정주제별로 분류하였다. 이러한 연구를 통하여 식품분야의 기후변화 관련 논문들의 추세와 관심주제어를 파악할 수 있었으며, 향후 기후변화 적응 및 대응 체계 로드맵 작성 시 연구 개발 기초 자료로 활용할 수 있을 것이다.

참고문헌 (11)
타임라인 바로가기

Baek, H., Cho, C., Kwon, W., Kim, S., Cho, J. and Kim, Y. (2011). Development strategy for new climate change scenarios based on RCP. Journal of Climate Change Research, 2, 55-68.

인용구절

인용 구절

우리나라의 경우 지난 100년 (1912∼2010) 동안 기온은 1.8℃ 상승하였고, 강수량은 200mm이상 증가하여 세계 평균보다 더 빠르게 기후가 변화되고 있는 것으로 제시하고 있으며, 2020년에는 지난 40년 (1970∼2010) 평균치대비 1.8℃ 상승, 2050년에는 3.7℃상승할 것으로 전망하고 있다 (Baek 등, 2011).
Cho, S. and Kim, S. (2012). Finding meaningful pattern of key words in IIE transactions using text mining. Journal of the Korean Institute of Industrial Engineers, 38, 67-73.

원문보기 상세보기 타임라인에서 보기
인용구절

인용 구절

최근에 산업공학, 건축, 특허 등 다양한 분야에서 텍스트 마이닝 기법을 활용한 연구가 활발히 진행되어 왔다 (Cho와 Kim, 2012; Go 등, 2011; Kim과 Jeong, 2012).
Choi, K. and Lee, Y. (2011). The deduction of objective linguistic information using statistical methods - The grouping of the possibility of interdisciplinary research. Journal of the Korean Data & Information Science Society, 22, 49-55.

인용구절

인용 구절

그러나 최근 소셜미디어 등 비정형 데이터의 증가로 인하여 기존의 정형데이터 분석 기법들을 비정형 데이터에 적용하는 기법들에 대한 연구가 활발히 진행되고 있으며, 객관적이고 실증적인 자료를 바탕으로 언어 자원을 활용할 수 있는 방법론이 필요하다 (Choi와 Lee, 2011).
Feinerer, I., Hornik, K. and Meyer, D. (2008). Text mining infrastructure in R. Journal of Statistical Software, 25, 1-54.

인용구절

인용 구절

수집된 논문 초록을 이용하여 텍스트 마이닝에 필요한 용어-문헌 행렬 (term-document matrix)을 구성하기 위해 R 프로그램 3.0.1 버전의 tm 패키지 (Feinerer 등, 2008)를 사용하였다.
Feinerer, I. (2013). Introduction to the tm package text mining in R, R News, http://CRAN.R-project.org/doc/Rnews/.

인용구절

인용 구절

각 단계 별 필요한 함수들의 이용방법은 패키지 사용설명서 (Feinerer, 2013)에 자세히 정리되어 있다.
Go, G., Jung, W., Shin, Y., Park, S. and Jang, D. (2011). A study on development of patent information retrieval using text mining, Journal of the Korea Academia-Industrial Cooperation Society, 12, 3677-3688.

원문보기 상세보기 타임라인에서 보기
인용구절

인용 구절

최근에 산업공학, 건축, 특허 등 다양한 분야에서 텍스트 마이닝 기법을 활용한 연구가 활발히 진행되어 왔다 (Cho와 Kim, 2012; Go 등, 2011; Kim과 Jeong, 2012).
Kim, J. and Jeong, C. (2012). Analysis of trend in construction using text mining method. Journal of The Korean Digital Architecture·Interior Association, 12, 53-60.

인용구절

인용 구절

최근에 산업공학, 건축, 특허 등 다양한 분야에서 텍스트 마이닝 기법을 활용한 연구가 활발히 진행되어 왔다 (Cho와 Kim, 2012; Go 등, 2011; Kim과 Jeong, 2012).
Lim, J. and Lim, D. (2012). Comparison of clustering methods of microarray gene expression data. Journal of the Korean Data & Information Science Society, 23, 39-51.

원문보기 상세보기 타임라인에서 보기
인용구절

인용 구절

군집분석에 대한 많은 연구가 진행되고 있으며 (Lim과 Lim, 2012; Yeo, 2011), 본 연구에서는 특정 주제에 관련된 용어들이 어떻게 군집을 이루는 지를 확인하기 위해 계층적 군집분석 방법 (hierarchical clustering)을 사용하였다.
Rousseeuw, P. J. (1987). Silhouettes : Graphical aid to the interpretation and validation of cluster analysis. Journal of Computational and Applied Mathematics, 20, 54-65.

인용구절

인용 구절

계층적 군집분석 기법중 하나인 Ward 방법을 사용하여 용어들 간의 비유사성은 개별대상간의 거리로 측정을 하였으며, 군집의 수는 실루엣 (silhouette) 방법 (Rousseeuw, 1987)과 현장 전문가의 지식을 활용하여 집단간의 유사성 (homogeneity)을 가장 크게 하는 군집의 수를 찾았다.
Solomon, S., Qin, D., Manning, M., Chen, Z., Marquis, M., Averyt, K. B., Tignor, M. and Miller, H. L. (2007). Climate change 2007, Cambridge University Press, Cambridge, United Kingdom, 996.
Yeo, I. (2011). Clustering analysis of Korea's meteorological data. Journal of the Korean Data & Information Science Society, 22, 941-949.

인용구절

인용 구절

군집분석에 대한 많은 연구가 진행되고 있으며 (Lim과 Lim, 2012; Yeo, 2011), 본 연구에서는 특정 주제에 관련된 용어들이 어떻게 군집을 이루는 지를 확인하기 위해 계층적 군집분석 방법 (hierarchical clustering)을 사용하였다.

이 논문을 인용한 문헌

저자의 다른 논문 :

LOADING...

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

텍스트 마이닝 기법을 활용한 기후변화관련 식품분야 논문초록 분석
Analysis of the abstracts of research articles in food related to climate change using a text-mining algorithm 원문보기 논문타임라인

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (11)
타임라인 바로가기

인용 구절

인용 구절

인용 구절

인용 구절

인용 구절

인용 구절

인용 구절

인용 구절

인용 구절

인용 구절

이 논문을 인용한 문헌

저자의 다른 논문 :

연구과제 타임라인

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

연관된 기능

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

텍스트 마이닝 기법을 활용한 기후변화관련 식품분야 논문초록 분석 Analysis of the abstracts of research articles in food related to climate change using a text-mining algorithm 원문보기 논문타임라인

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (11) 타임라인 바로가기

인용 구절

인용 구절

인용 구절

인용 구절

인용 구절

인용 구절

인용 구절

인용 구절

인용 구절

인용 구절

이 논문을 인용한 문헌

저자의 다른 논문 :

박주현 (1) 김정선 (4) 이영섭 (37)

연구과제 타임라인

전체(0) 논문(0) 특허(0) 보고서(0)

전체(0) 논문(0) 특허(0) 보고서(0)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

연관된 기능

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

텍스트 마이닝 기법을 활용한 기후변화관련 식품분야 논문초록 분석
Analysis of the abstracts of research articles in food related to climate change using a text-mining algorithm 원문보기 논문타임라인

초록
AI-Helper

AI 본문요약
AI-Helper

참고문헌 (11)
타임라인 바로가기