$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

텍스트 마이닝 알고리즘을 이용한 기상청 연구개발분야 과제의 추세 분석
Analysis of patterns in meteorological research and development using a text-mining algorithm 원문보기

응용통계연구 = The Korean journal of applied statistics, v.29 no.5, 2016년, pp.935 - 947  

박홍주 (연세대학교 응용통계학과) ,  김하빈 (동국대학교 통계학과) ,  박태영 (연세대학교 응용통계학과) ,  이영섭 (동국대학교 통계학과)

초록
AI-Helper 아이콘AI-Helper

이 연구에서는 비정형 자료 분석 기법 중 하나인 텍스트 마이닝 기법으로 기상청 연구개발분야 과제의 동향에 대하여 분석하였다. 이를 위하여 용어사전을 구축하고, 전처리를 하여 용어-문서 행렬을 만들었다. 이것을 이용해 연도별 용어 빈도수를 측정하고, 자주 나타나는 단어들에 대해서는 상대도수의 변화에 대해서 관찰하였다. 그리고 회귀 분석을 사용하여 증가추세와 감소추세를 가지는 용어들을 파악하였다. 이러한 분석으로 기상청 최근 연구개발 분야의 트렌드를 파악하였다. 이와 같은 연구는 향후 기상청 연구개발에 관한 기초 자료로 사용될 수 있으며, 연구개발의 방향성과 청사진을 제시하는데 이용될 수 있을 것이다.

Abstract AI-Helper 아이콘AI-Helper

This paper considers the analysis of patterns in meteorological research and development using a text-mining algorithm as the method of analyzing unstructured data. To analyze text data, we define a list of terms related to meteorological research and development, construct times series of a term-do...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • Bae 등 (2013)은 논문 초록을 텍스트 자료로 하는 텍스트 마이닝 기법으로 기후관련 연구의 트렌드와 관심주제어 등을 파악하였다. 본 논문에서는 2011년부터 2015년까지 기상청 연구개발분야의 지정과제 공고 DB로부터 텍스트 자료를 수집하고 텍스트마이닝 기법을 적용하여 각 연구개발분야에서 자주 사용되는 단어와 증가추세 및 감소추세에 있는 단어를 파악할 것이다. 이렇게 각 분야에서 자주 등장하는 단어들의 빈도분석을 통해 해당 사업분야의 키워드를 파악하고, 증가추세와 감소추세에 있는 단어들의 분석을 통해 해당사업분야에서 시간이 지남에 따라 주목을 받고 있는 단어들과 점차 관심 밖으로 멀어지고 있는 단어를 확인할 수 있을 것이다.
  • 이렇게 각 분야에서 자주 등장하는 단어들의 빈도분석을 통해 해당 사업분야의 키워드를 파악하고, 증가추세와 감소추세에 있는 단어들의 분석을 통해 해당사업분야에서 시간이 지남에 따라 주목을 받고 있는 단어들과 점차 관심 밖으로 멀어지고 있는 단어를 확인할 수 있을 것이다. 본 연구는 이러한 텍스트 자료분석을 통하여 실제 사업분야의 동향에 대한 설명과 예측이 가능한지에 관한 탐색적 성격을 가진다.
  • 본 연구는 텍스트 마이닝 방법을 이용하여 기상청 연구개발분야의 사업별 주요단어와 추세에 관하여 분석하여 보았다. 이를 통해, 현재 각 사업별로 중요시 되는 주제에 대해서 알아볼 수 있었고, 점차 시간에 따라 상승하거나 감소하는 추세를 가진 단어들이 갖는 의미에 대해서도 생각해 볼 수 있었다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
실제 분석에서는 절대도수가 아닌 상대도수를 이용하여 분석한 이유는? 실제 분석에서는 절대도수가 아닌 상대도수를 이용하여 분석하였다. 그 이유는 각 사업과 연도별로 문서 수와 총 단어 수가 다르기 때문에 단순히 절대도수로 분석을 하는 것은 문서내에 그 단어가 얼마나 자주 쓰였는지를 표현하는데 한계가 있기 때문이다. h사업의 y년도 j번째 단어의 상대도수 xh,y,j를 계산하는 방식은 다음과 같다.
인공지능에 대한 관심이 더욱 높아진 이유는? 최근 알파고와 이세돌의 바둑 대국으로 인공지능에 대한 관심이 더욱 높아지고 있다. 텍스트 마이닝이란 비정형 자료 중 텍스트에 대한 분석 방법으로 넓은 관점에서 보면 인공지능과도 관련이 있는 영역이다 (Zhang, 2007).
텍스트 마이닝의 주 기능이라고 말할 수 있는 것은? 텍스트 마이닝이란 비정형 자료 중 텍스트에 대한 분석 방법으로 넓은 관점에서 보면 인공지능과도 관련이 있는 영역이다 (Zhang, 2007). 텍스트 마이닝의 주 기능이라고 말할 수 있는 것으로는 텍스트 자료에 대한 기초통계량 작성과 그것을 이용한 추세분석, 스코어링, 군집화 그리고 분류화 등 이라고 할 수 있다(Srivastva와 Sahami, 2009). 예를 들면, ETS의 프로그램인 e-rater는 어떤 에세이에 대해서 텍스트 마이닝 알고리즘을 이용한 분석을 통해, 그 에세이의 문체(style)와 같은 특성을 분류하고, 그 에세이를 얼마나 잘 썼는지에 대하여 스코어링을 할 수 있다 (Attali와 Burstein, 2006).
질의응답 정보가 도움이 되었나요?

참고문헌 (11)

  1. Attali, Y. and Burstein, J. (2006). Automated Essay Scoring With $e-rater^{(R)}$ V.2, The Journal of Technology, Learning, and Assessment, 4, Available from: http://www.jtla.org. 

  2. Bae, K. Y., Park, J. H., Kim, J. S., and Lee, Y. S. (2013). Analysis of the abstracts of research article in food related to climate change using a text-mining algorithm, Journal of the Korean Data and Information Science Society, 24, 1429-1437. 

  3. Feinerer, I. (2013). Introduction to the tm package text mining in R, http://CRAN.R-project.org/doc/Rnews/ 

  4. Feinerer, I., Hornik, K., and Meyer, D. (2008). Text mining infrastructure in R, Journal of Statistical Software, 25, 1-54. 

  5. Goo, J. and Kim, K. (2014). Text mining for Korean: characteristics and application to 2011 Korean Economic Census Data, Korean Journal of Applied Statistics, 27, 1207-1217. 

  6. Jeon, H. (2013). KoNLP: Korean NLP package, R package version 0.76, 8. 

  7. Jeon, H. (2015). Package KoNLP, Available from: https://cran.r-project.org/web/packages/KoNLP/KoNLP.pdf. 

  8. Jin, S. A., Heo, G. E., Jeong, Y. K., and Song, M. (2013). Topic-network based topic shift detection on twitter, Korea Society for Information Management, 30, 285-302. 

  9. Kang, M. M., Kim, S. R., and Park, S. M. (2012). Analysis and utilization of big data, Korea Information Science Society review, 30, 25-32. 

  10. Srivastava, A. N. and Sahami, M. (2009). Text Mining: Classication, Clustering, and Applications, CRC Press. 

  11. Zhang, B. T. (2007). Next-generation machine learning technologies, Communications of the Korea Information Science Society, 3, 96-107. 

저자의 다른 논문 :

LOADING...
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로