$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

텍스트 마이닝 알고리즘을 이용한 기상청 기상연감 자료 분석
Analysis of the Yearbook from the Korea Meteorological Administration using a text-mining agorithm 원문보기

응용통계연구 = The Korean journal of applied statistics, v.30 no.4, 2017년, pp.603 - 613  

선현석 (중앙대학교 응용통계학과) ,  임창원 (중앙대학교 응용통계학과) ,  이영섭 (동국대학교 통계학과)

초록
AI-Helper 아이콘AI-Helper

최근 들어 많은 사람들이 자신의 관심사를 SNS에 게시하거나 인터넷과 컴퓨터의 기술 발달로 디지털 형태의 문서저장이 가능하게 됨으로써 생성되는 텍스트 자료의 양이 폭발적으로 증가하게 되었다. 이에 따라 수많은 문서 자료로부터 가치 있는 정보를 창출하기 위한 기술의 요구 또한 증가하고 있다. 그러나 대부분 비정형 형태로 구성되어 있는 텍스트 기반의 자료는 기존의 통계 분석이나 데이터 마이닝 기법을 적용하기에 부적합하기 때문에 텍스트 마이닝 기법이 사용되고 있다. 본 연구에서는 비정형 자료 분석 기법 중 하나인 텍스트 마이닝 기법으로 기상청 기상연감 자료를 분석하였다. 먼저 전처리 과정을 통하여 용어사전을 구축하고, 용어-문서 행렬을 생성하였다. 그리고 이것을 사용하여 연도별 용어 빈도수를 계산하고, 자주 나타나는 단어들에 대하여 상대도수의 변화를 관찰하였다. 또한 회귀 분석 기법을 사용하여 증가추세와 감소추세를 보이는 용어들을 파악하였다. 이러한 분석으로 기상청 기상연감 문서에서의 트렌드를 파악하고, 이를 통해 이슈가 되었던 기상 관련 소식과 기상현황, 그리고 기상청이 중점으로 하고 있는 업무 현황의 트렌드를 파악하였다. 본 연구를 통해 기상업무 분석 및 효율화에 도움을 주고 기상정책에 반영할 수 있는 유용한 정보를 이끌어내고자 하였다.

Abstract AI-Helper 아이콘AI-Helper

Many people have recently posted about personal interests on social media. The development of the Internet and computer technology has enabled the storage of digital forms of documents that has resulted in an explosion of the amount of textual data generated; subsequently there is an increased deman...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 5를 통해 이 단어들의 증가 추세를 시각적으로 확인하였다. 그리고 이 단어들과 관련한 단어들을 살펴보았다. “소통”과관련한 단어인 “소통프로그램”, “소통워크숍”, “내부소통강화”의 연도별 상대도수 그래프를 그린 결과는 Figure 3.
  • 본 연구는 텍스트 마이닝을 통해 기상청이 발행한 기상연감을 분석하여 기상과 관련된 키워드의 연도별 변화를 파악하는 비교 분석을 다룬다. 기상청의 업무 중점, 기상 예보 및 현황이 어떻게 바뀌어 왔는지를 분석하였다.
  • 이러한 분석으로 기상청 기상연감 문서에서의 트렌드를 파악하고, 이를 통해 이슈가 되었던 기상 관련 소식과 기상현황, 그리고 기상청이 중점으로 하고 있는 업무 현황의 트렌드를 파악하였다. 본 연구를 통해 기상업무 분석 및 효율화에 도움을 주고 기상정책에 반영할 수 있는 유용한 정보를 이끌어내고자 하였다.
  • 본 연구에서는 기상연감의 10대 주요뉴스, 업무현황, 기상현황에서 이슈가 되었던 단어들을 중심으로 기상청의 업무 효율성 향상을 위한 기초자료로 활용하여 기상관련 자료 사용자들의 필요를 만족시키는데 의의가 있다. 특히 오픈소스로 제공하는 사전에 탑재되어있지 않은 기상과 관련한 용어들을 업데이트하였다는 점에서 이후 기상관련 텍스트에서 이러한 단어들이 분석에 알맞게 추출할 수 있기 때문에 기상정책 마련이나 기상사업 추진 시 가치 있는 자산이 될 것이다.
  • 본 연구의 목적은 연도별로 주요 키워드의 변화를 살피기 위함이기 때문에 분석 결과에서 높은 비중을 차지하는 서술성 명사와 매해 가장 높게 나타난 “기상청”을 제외하고 워드 클라우드를 그린 결과는 Figure 3.2이고 이를 통해서 전체적인 단어의 분포를 파악하였다.
  • 이 과정을 수행하기 위하여 텍스트 자료를 말뭉치로 변환된 결과를 원래의 자료와 비교하여 분석의 목적에 맞게 단어가 추출되었는지를 확인하였다. 본 연구의 목적은 의미있는 분석 결과를 토대로 기상정책에 활용할 수 있는 방안을 제시함이므로 위에서 말한 작업을 반복하여 추출된 단어가 텍스트의 내용을 이해할 수 있을 만큼의 정보를 제공하도록 하였다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
생성되는 텍스트 자료의 양이 폭발적으로 증가하게 된 원인은? 최근 들어 많은 사람들이 자신의 관심사를 SNS에 게시하거나 인터넷과 컴퓨터의 기술 발달로 디지털 형태의 문서저장이 가능하게 됨으로써 생성되는 텍스트 자료의 양이 폭발적으로 증가하게 되었다. 이에 따라 수많은 문서 자료로부터 가치 있는 정보를 창출하기 위한 기술의 요구 또한 증가하고 있다.
텍스트 마이닝이란? 그 중에서도 텍스트로 이루어진 자료를 통해 새로운 의미를 찾아내기 위한 방법으로 텍스트 마이닝을 이용한 빅데이터 분석에 대한 수요가 증가하고 있다 (Lim과 Kim, 2016). 텍스트 마이닝은 머신러닝, 통계학 등의 여러 분야의 방법을 이용하여 단순한 단어의 검색이 아닌 비정형 자료의 분석을 통해 새로운 정보를 창출하는 기법이다 (Gupta와 Lehal, 2009).
본 논문에서 비정형 자료 분석 기법 중 하나인 텍스트 마이닝 기법으로 기상청 기상연감 자료를 분석한 과정은? 본 연구에서는 비정형 자료 분석 기법 중 하나인 텍스트 마이닝 기법으로 기상청 기상연감 자료를 분석하였다. 먼저 전처리 과정을 통하여 용어사전을 구축하고, 용어-문서 행렬을 생성하였다. 그리고 이것을 사용하여 연도별 용어 빈도수를 계산하고, 자주 나타나는 단어들에 대하여 상대도수의 변화를 관찰하였다. 또한 회귀 분석 기법을 사용하여 증가추세와 감소추세를 보이는 용어들을 파악하였다. 이러한 분석으로 기상청 기상연감 문서에서의 트렌드를 파악하고, 이를 통해 이슈가 되었던 기상 관련 소식과 기상현황, 그리고 기상청이 중점으로 하고 있는 업무 현황의 트렌드를 파악하였다. 본 연구를 통해 기상업무 분석 및 효율화에 도움을 주고 기상정책에 반영할 수 있는 유용한 정보를 이끌어내고자 하였다.
질의응답 정보가 도움이 되었나요?

참고문헌 (10)

  1. Ahn, S. and Cho, S. (2010). Stock prediction using news text mining and time series analysis, In 2010 Conference Proceedings of Korean Institute of Information Scientists and Engineers, 37, 364-369. 

  2. Chen, P., Ponocko, J., Milosevic, N., Nenadic, G., and Milanovic, J. V. (2016). Towards application of text mining for enhanced power network data analytics-part i: retrieval and ranking of textual data from the internet, Mediterranean Conference on Power Generation, Transmission, Distribution and Energy Conversion (MedPower 2016), 1-8. 

  3. Feinerer, I. and Hornik, K (2015). tm: Text Mining Package. R package version 0.6-2., from: https://CRAN.Rproject.org/packagetm/ 

  4. Gupta, V. and Lehal, G. S. (2009). A survey of text mining techniques and applications, Journal of Emerging Technologies in Web Intelligence, 1, 60-76. 

  5. Jeon, H. (2016). KoNLP: Korean NLP package. R package version 0.80.1., from: https://CRAN.R-project.org/packageKoNLP/ 

  6. KAIST Semantic Web Research Center (2011). Hannanum Korean morphological analyzer user manual, from: http://www.sketchengine.co.uk/wp-content/uploads/Original-HanNanum-manual.pdf/ 

  7. Kam, M. and Song, M. (2012). A study on differences of contents and tones of arguments among newspapers using text mining analysis, Journal of Intelligence and Information Systems, 18, 53-77. 

  8. Lee, Y., Lim, C., Heo, M., and Kim, H. (2016). Text mining technique for Weather call center data analysis, In 2016 Spring Conference Proceedings of Korean Meteorological Society, 153-154. 

  9. Lim, M. and Kim, N. (2016). Investigating dynamic mutation process of issues using unstructured text analysis, Journal of Intelligence and Information Systems, 22, 1-18. 

  10. R Core Team (2016). R: A language and environment for statistical computing, R Foundation for Statistical Computing, Vienna, Austria, from: https://www.R-project.org/ 

저자의 다른 논문 :

LOADING...

관련 콘텐츠

오픈액세스(OA) 유형

GOLD

오픈액세스 학술지에 출판된 논문

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로