[논문]텍스트 마이닝 알고리즘을 이용한 기상청 연구개발분야 과제의 추세 분석

박홍주; 김하빈; 박태영; 이영섭

doi:10.5351/kjas.2016.29.5.935

문제 정의

Bae 등 (2013)은 논문 초록을 텍스트 자료로 하는 텍스트 마이닝 기법으로 기후관련 연구의 트렌드와 관심주제어 등을 파악하였다. 본 논문에서는 2011년부터 2015년까지 기상청 연구개발분야의 지정과제 공고 DB로부터 텍스트 자료를 수집하고 텍스트마이닝 기법을 적용하여 각 연구개발분야에서 자주 사용되는 단어와 증가추세 및 감소추세에 있는 단어를 파악할 것이다. 이렇게 각 분야에서 자주 등장하는 단어들의 빈도분석을 통해 해당 사업분야의 키워드를 파악하고, 증가추세와 감소추세에 있는 단어들의 분석을 통해 해당사업분야에서 시간이 지남에 따라 주목을 받고 있는 단어들과 점차 관심 밖으로 멀어지고 있는 단어를 확인할 수 있을 것이다.
이렇게 각 분야에서 자주 등장하는 단어들의 빈도분석을 통해 해당 사업분야의 키워드를 파악하고, 증가추세와 감소추세에 있는 단어들의 분석을 통해 해당사업분야에서 시간이 지남에 따라 주목을 받고 있는 단어들과 점차 관심 밖으로 멀어지고 있는 단어를 확인할 수 있을 것이다. 본 연구는 이러한 텍스트 자료분석을 통하여 실제 사업분야의 동향에 대한 설명과 예측이 가능한지에 관한 탐색적 성격을 가진다.
본 연구는 텍스트 마이닝 방법을 이용하여 기상청 연구개발분야의 사업별 주요단어와 추세에 관하여 분석하여 보았다. 이를 통해, 현재 각 사업별로 중요시 되는 주제에 대해서 알아볼 수 있었고, 점차 시간에 따라 상승하거나 감소하는 추세를 가진 단어들이 갖는 의미에 대해서도 생각해 볼 수 있었다.

제안 방법

4개의 사업분야를 구분하여 분석을 실시하였다. 총 202개의 사업에 대한 398개의 문서에 있어서 각 사업분야 별 문서 수는 기상기술개발사업 60개, 지진기술개발사업 128개, 기후기술개발사업 106개, 그리고 기상산업지원 및 활용기술개발사업 104개이다.
그리고 한글과 영어를 제외한 특수문자나 숫자는 전처리 과정에서 제거되었다. R에 내장된 패키지를 사용하게 되었을 때 한글 처리를 정상적으로 수행하기 위해서 수정 및 디버깅을 실시하였다.
그 다음으로는 회귀선의 기울기가 양수인 증가추세에 있는 단어를 살펴보았다. 상대적으로 큰 값의 회귀계수를 가지고 있는 단어들 중 기울기에 대한 유의성을 나타내는 p-값이 0.
그 다음으로는 회귀선의 기울기가 음수인 감소추세에 있는 단어를 살펴보았다. 비교적 절대값이 큰 회귀계수를 가지고 있는 단어들 중 기울기에 대한 유의성을 나타내는 p-값이 0.
이렇게 계산된 상대도수를 이용하여 연도별 상대도수 행렬을 생성하였다. 그리고 각 사업별로 상대도수가 높은 6개의 단어에 대해 연도별 변화를 관찰하였다. 그리고 연도를 설명변수로 하고 상대도수를 반응변수로 하여 단순회귀분석을 실시하여 회귀계수가 0보다 큰 단어는 증가추세에 있는 단어로 0보다 작은 단어는 감소추세에 있는 단어로 분류하였고, 그 중 회귀선의 기울기의 절댓값이 큰 단어들에 대해서 집중적으로 살펴보았다.
그리고 각 사업별로 상대도수가 높은 6개의 단어에 대해 연도별 변화를 관찰하였다. 그리고 연도를 설명변수로 하고 상대도수를 반응변수로 하여 단순회귀분석을 실시하여 회귀계수가 0보다 큰 단어는 증가추세에 있는 단어로 0보다 작은 단어는 감소추세에 있는 단어로 분류하였고, 그 중 회귀선의 기울기의 절댓값이 큰 단어들에 대해서 집중적으로 살펴보았다.
그 다음으로는 회귀선의 기울기가 음수인 감소추세에 있는 단어를 살펴보았다. 비교적 절대값이 큰 회귀계수를 가지고 있는 단어들 중 기울기에 대한 유의성을 나타내는 p-값이 0.05보다 낮은 단어들에 대해서 살펴보았다. 이런 조건을 만족시키는 단어가 시간에 따른 유의미한 감소추세를 가진다고 해석할 수 있기 때문이다.
그 다음으로는 회귀선의 기울기가 양수인 증가추세에 있는 단어를 살펴보았다. 상대적으로 큰 값의 회귀계수를 가지고 있는 단어들 중 기울기에 대한 유의성을 나타내는 p-값이 0.05보다 낮은 단어들에 대해서 살펴보았다. 이런 조건을 만족시키는 단어가 시간에 따른 유의미한 증가추세를 가진다고 해석할 수 있기 때문이다.
실제 분석에서는 절대도수가 아닌 상대도수를 이용하여 분석하였다. 그 이유는 각 사업과 연도별로 문서 수와 총 단어 수가 다르기 때문에 단순히 절대도수로 분석을 하는 것은 문서내에 그 단어가 얼마나 자주 쓰였는지를 표현하는데 한계가 있기 때문이다.
용어가 문서에서 출현했는지의 여부보다 정확한 빈도수에 관심이 있었으므로, 용어-문서행렬을 만들 때, 한 문서에서 해당 용어가 출현 했는지만을 확인하는 0과 1이 아닌 정확한 빈도수를 입력하여 행렬을 구성하였다. 각 사업별 상위 10개 빈도 수 단어에 대한 행렬은 Table 2.
이렇게 계산된 상대도수를 이용하여 연도별 상대도수 행렬을 생성하였다. 그리고 각 사업별로 상대도수가 높은 6개의 단어에 대해 연도별 변화를 관찰하였다.
따라서 총 398개의 문서에서 70,484개의 용어를 수집하였다. 필요하지 않은 용어를 배제하는 방법으로는 실제 분석에서 잡음으로 작용을 하는 전체용어의 0.88%를 구성하고 있는 출현빈도수가 1회 이하인 단어들을 배제하는 방식을 사용하였다. 그리고 한글과 영어를 제외한 특수문자나 숫자는 전처리 과정에서 제거되었다.

대상 데이터

각 연구의 기간별로 연구기간이 1년인 연구는 1개의 텍스트자료, 2년인 연구는 2개의 텍스트 자료, 3년인 연구는 3건의 텍스트 자료로 수집되었다. 예를 들어, 연구기간 3년인 과제가 2015년에 시작하는 경우에는, 1년차 텍스트 자료는 2015년의 자료로, 2년차 텍스트 자료는 2016년의 자료로, 3년차의 자료는 2017년의 자료로 계산된다.
기상청 연구관리 시스템(http://rnd.kma.go.kr)에 있는 한국 기상 산업진흥원 See-At 기술 개발사업의 지정과제 중 연구기간이 2011년부터 2015년이 포함된 과제 202건에 대한 DB메타 정보 및 공시된 request for proposal(RFP) 내용에 대한 텍스트 자료를 수집하였다. 지정과제의 수는 202건이지만 각 사업이 1년부터 3년까지 진행되기 때문에 2011년부터 2017년까지 총 398개의 텍스트 자료가 수집되었다.
각 단계에서 분석에 필요하지 않은 단어들은 배제 되었으며 사업 명칭에 포함되는 단어 또한 제외하였다. 따라서 총 398개의 문서에서 70,484개의 용어를 수집하였다. 필요하지 않은 용어를 배제하는 방법으로는 실제 분석에서 잡음으로 작용을 하는 전체용어의 0.
이러한 조건을 만족시키는 단어들 중 해석에 있어서 의미가 있어보이는 3–4개의 단어를 사업별로 선별하였다.
이런 조건을 만족시키는 단어들 중 해석에 있어서 의미가 있어보이는 3–4개의 단어를 사업별로 선별하였다.
kr)에 있는 한국 기상 산업진흥원 See-At 기술 개발사업의 지정과제 중 연구기간이 2011년부터 2015년이 포함된 과제 202건에 대한 DB메타 정보 및 공시된 request for proposal(RFP) 내용에 대한 텍스트 자료를 수집하였다. 지정과제의 수는 202건이지만 각 사업이 1년부터 3년까지 진행되기 때문에 2011년부터 2017년까지 총 398개의 텍스트 자료가 수집되었다. 연도별 기상, 지진, 기후, 기상산업 지원 및 활용기술개발사업에 대한 과제 수는 Table 2.

이론/모형

KoNLP패키지는 입력된 한글 문서 벡터를 형태소 단위로 인식하고 적절한 품사를 부여해주는데 사용되며, tm패키지는 문서 벡터를 Corpus로 구성하고 용어-문서 행렬을 만들거나 Corpus를 이용한 텍스트 전처리를 수행하는데 사용된다. KoNLP패키지의 함수를 다루는 법은 KoNLP 사용설명서 (Jeon, 2015)를 참고할 수 있고, tm패키지에서 필요한 함수들을 다루는 방법은 tm 사용설명서 (Feinerer, 2013)를 참고할 수 있다. 이러한 패키지들을 이용하여 각 사업 분야별로 용어-문서행렬을 만드는 전처리 과정은 Figure 3.
데이터베이스화 된 자료를 R 프로그램의 KoNLP패키지 (Jeon, 2013)와 tm패키지 (Feinerer 등, 2008)를 이용하여 용어-문서행렬을 구성하였다. KoNLP패키지는 입력된 한글 문서 벡터를 형태소 단위로 인식하고 적절한 품사를 부여해주는데 사용되며, tm패키지는 문서 벡터를 Corpus로 구성하고 용어-문서 행렬을 만들거나 Corpus를 이용한 텍스트 전처리를 수행하는데 사용된다.

성능/효과

첫째, 지속적으로 상대도수가 높은 단어들은 각 사업별로 어떤 부분에 대해서 중점을 두고 있는지 파악할 수 있게 해준다는 것이다. 그리고 둘째로는, 각 사업에서 다루는 빈도가 상승추세를 갖는 단어들은 아직까지는 사회적으로 이슈가 되지 않았더라도 이슈가 될 가능성을 내포하고 있을 수 있다는 것이다. 마지막으로 감소추세를 가지는 단어를 통해서 실제로 우리 사회에 있어 중요한 부분인데도 불구하고 우리의 관심에서 멀어진 경우를 파악할 수 있다는 점이다.
먼저 기상기술개발사업에서 감소추세를 가지는 단어는 동해, 방사능, 해역으로 3개이다. 그리고 지진기술개발사업에서 유의한 감소추세가 있는 단어들은 재난, 전조, 화산재, 확산으로 총 4개의 단어가 있었다. 다음으로 기후기술개발 사업에서 유의한 감소추세에 있는 단어로는 관리, 몬순, 수문기상, 수자원으로 총 4개의 단어가 있었고, 마지막으로 기상산업 지원 및 활용기술개발 사업에 있어서 유의한 감소추세를 가지는 단어는 총 4개로 기상장비, 서비스, 선진국, 수입이 있었다.
기상기술개발사업에서 증가추세에 있는 단어는 관측자료, 구름, 미세, 빅데이터로 총 4개의 단어가 있었다. 그리고 지진기술개발사업에서 유의한 증가추세에 있는 단어들은 기준, 백두산, 자료, 활동으로 총 4개의 단어가 있었다. 다음으로 기후기술개발 사업에서 유의한 증가추세에 있는 단어로는 가뭄, 예측, 우리나라로 총 3개의 단어가 있었다.
그리고 지진기술개발사업에서 유의한 감소추세가 있는 단어들은 재난, 전조, 화산재, 확산으로 총 4개의 단어가 있었다. 다음으로 기후기술개발 사업에서 유의한 감소추세에 있는 단어로는 관리, 몬순, 수문기상, 수자원으로 총 4개의 단어가 있었고, 마지막으로 기상산업 지원 및 활용기술개발 사업에 있어서 유의한 감소추세를 가지는 단어는 총 4개로 기상장비, 서비스, 선진국, 수입이 있었다.
그리고 지진기술개발사업에서 유의한 증가추세에 있는 단어들은 기준, 백두산, 자료, 활동으로 총 4개의 단어가 있었다. 다음으로 기후기술개발 사업에서 유의한 증가추세에 있는 단어로는 가뭄, 예측, 우리나라로 총 3개의 단어가 있었다. 마지막으로 기상산업 지원 및 활용기술개발 사업에 있어서 유의한 증가추세에 있는 단어는 총 4개로 검증, 관련, 실시간, 연계가 있었다.
다음으로 기후기술개발 사업에서 유의한 증가추세에 있는 단어로는 가뭄, 예측, 우리나라로 총 3개의 단어가 있었다. 마지막으로 기상산업 지원 및 활용기술개발 사업에 있어서 유의한 증가추세에 있는 단어는 총 4개로 검증, 관련, 실시간, 연계가 있었다.
하지만 위에서 언급한대로 의미있는 분석을 위해서 사업명칭에 포함이 되는 단어는 불용어로 분석에서 제외하였다. 분석, 자료, 활용은 기상산업지원 및 활용기술개발사업분야를 제외한 3개의 사업에서 높은 상대도수를 갖는 것을 확인 할 수 있다. 활용의 경우는 사실 4가지 사업분야에서 모두 높은 상대도수를 기록하였지만 기상산업지원 및 활용기술개발사업분야에서는 사업명칭에 포함되는 단어라서 분석에서 제외되었다.
본 연구의 중요성과 연구와 관련된 제언은 다음과 같이 정리할 수 있다. 첫째, 지속적으로 상대도수가 높은 단어들은 각 사업별로 어떤 부분에 대해서 중점을 두고 있는지 파악할 수 있게 해준다는 것이다. 그리고 둘째로는, 각 사업에서 다루는 빈도가 상승추세를 갖는 단어들은 아직까지는 사회적으로 이슈가 되지 않았더라도 이슈가 될 가능성을 내포하고 있을 수 있다는 것이다.

후속연구

마지막으로 감소추세를 가지는 단어를 통해서 실제로 우리 사회에 있어 중요한 부분인데도 불구하고 우리의 관심에서 멀어진 경우를 파악할 수 있다는 점이다. 이러한 부분들을 미리 감지하여 대비한다면 연구의 방향성을 바로잡고 사회적인 충격을 좀 더 유연하게 대처할 수 있을 것이다. 향후 연구에서는 지정 과제 뿐만 아니라 자유 과제에 대해서도 분석 대상으로 하여, 좀 더 넓은 관점에서 사업별 추세와 패턴에 대해서 분석하여 사업의 청사진을 제시하는 방향으로 발전시켜 나갈 수 있을 것이다.
본 논문에서는 2011년부터 2015년까지 기상청 연구개발분야의 지정과제 공고 DB로부터 텍스트 자료를 수집하고 텍스트마이닝 기법을 적용하여 각 연구개발분야에서 자주 사용되는 단어와 증가추세 및 감소추세에 있는 단어를 파악할 것이다. 이렇게 각 분야에서 자주 등장하는 단어들의 빈도분석을 통해 해당 사업분야의 키워드를 파악하고, 증가추세와 감소추세에 있는 단어들의 분석을 통해 해당사업분야에서 시간이 지남에 따라 주목을 받고 있는 단어들과 점차 관심 밖으로 멀어지고 있는 단어를 확인할 수 있을 것이다. 본 연구는 이러한 텍스트 자료분석을 통하여 실제 사업분야의 동향에 대한 설명과 예측이 가능한지에 관한 탐색적 성격을 가진다.
이러한 부분들을 미리 감지하여 대비한다면 연구의 방향성을 바로잡고 사회적인 충격을 좀 더 유연하게 대처할 수 있을 것이다. 향후 연구에서는 지정 과제 뿐만 아니라 자유 과제에 대해서도 분석 대상으로 하여, 좀 더 넓은 관점에서 사업별 추세와 패턴에 대해서 분석하여 사업의 청사진을 제시하는 방향으로 발전시켜 나갈 수 있을 것이다.

핵심어	질문	논문에서 추출한 답변
	실제 분석에서는 절대도수가 아닌 상대도수를 이용하여 분석한 이유는?	실제 분석에서는 절대도수가 아닌 상대도수를 이용하여 분석하였다. 그 이유는 각 사업과 연도별로 문서 수와 총 단어 수가 다르기 때문에 단순히 절대도수로 분석을 하는 것은 문서내에 그 단어가 얼마나 자주 쓰였는지를 표현하는데 한계가 있기 때문이다. h사업의 y년도 j번째 단어의 상대도수 xh,y,j를 계산하는 방식은 다음과 같다.
	인공지능에 대한 관심이 더욱 높아진 이유는?	최근 알파고와 이세돌의 바둑 대국으로 인공지능에 대한 관심이 더욱 높아지고 있다. 텍스트 마이닝이란 비정형 자료 중 텍스트에 대한 분석 방법으로 넓은 관점에서 보면 인공지능과도 관련이 있는 영역이다 (Zhang, 2007).
	텍스트 마이닝의 주 기능이라고 말할 수 있는 것은?	텍스트 마이닝이란 비정형 자료 중 텍스트에 대한 분석 방법으로 넓은 관점에서 보면 인공지능과도 관련이 있는 영역이다 (Zhang, 2007). 텍스트 마이닝의 주 기능이라고 말할 수 있는 것으로는 텍스트 자료에 대한 기초통계량 작성과 그것을 이용한 추세분석, 스코어링, 군집화 그리고 분류화 등 이라고 할 수 있다(Srivastva와 Sahami, 2009). 예를 들면, ETS의 프로그램인 e-rater는 어떤 에세이에 대해서 텍스트 마이닝 알고리즘을 이용한 분석을 통해, 그 에세이의 문체(style)와 같은 특성을 분류하고, 그 에세이를 얼마나 잘 썼는지에 대하여 스코어링을 할 수 있다 (Attali와 Burstein, 2006).

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

텍스트 마이닝 알고리즘을 이용한 기상청 연구개발분야 과제의 추세 분석
Analysis of patterns in meteorological research and development using a text-mining algorithm 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (11)

이 논문을 인용한 문헌

저자의 다른 논문 :

연구과제 타임라인

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

텍스트 마이닝 알고리즘을 이용한 기상청 연구개발분야 과제의 추세 분석 Analysis of patterns in meteorological research and development using a text-mining algorithm 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (11)

이 논문을 인용한 문헌

저자의 다른 논문 :

박태영 (4) 이영섭 (37)

연구과제 타임라인

전체(0) 논문(0) 특허(0) 보고서(0)

전체(0) 논문(0) 특허(0) 보고서(0)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

텍스트 마이닝 알고리즘을 이용한 기상청 연구개발분야 과제의 추세 분석
Analysis of patterns in meteorological research and development using a text-mining algorithm 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper