본 연구는 크롤러를 이용하여 남한의 가뭄관련 뉴스 빅데이터 특성을 평가하고자 하였다. 남한은 2000년 이후 기후변화 영향으로 봄철(3~5월), 여름 장마 (6~8월), 가을철 태풍 (9~10월)이 거의 없는 가뭄을 겪었다. 본 연구에서는 뉴스 미디어로부터 가뭄 빅데이터의 수집을 위해 html 혹은 ...
본 연구는 크롤러를 이용하여 남한의 가뭄관련 뉴스 빅데이터 특성을 평가하고자 하였다. 남한은 2000년 이후 기후변화 영향으로 봄철(3~5월), 여름 장마 (6~8월), 가을철 태풍 (9~10월)이 거의 없는 가뭄을 겪었다. 본 연구에서는 뉴스 미디어로부터 가뭄 빅데이터의 수집을 위해 html 혹은 XML 형식의 데이터 파싱에 특화된 Python open library인 ‘Beautiful soup’을 이용하여 개발하였다. 5년 (2013~2017년) 동안 가뭄 관련 뉴스 게시물은 국내 인터넷 검색엔진 ‘NAVER’에서 13개 주요 일간지와 81 지역신문사를 모아 스포츠, 경제, 정치 등 다른 분야에서 가뭄 단어들을 사용한 동음이의어를 삭제하여 자료 품질 관리를 수행하였다. 5년동안, ‘가뭄’관련단어를 포함한 총 40,219개의 기사가 크롤러를 통해 수집되었다. 스포츠에서의 골 가뭄, 경제 가뭄, 정치에서의 정책분야에서의 동음이의어를 제거하기위해 품질관리를 실시하고 이중 47.8%를 필터링하였다. 가뭄 재난에 관련한 20,999개의 순수한 가뭄 관련 빅데이터는 물부족 (AWD), 수자원확보 및 지원 (WSS), 경제적 피해와 영향 (EDI), 환경 보건 영향 (ESI)에 대하여 각각 27개, 15개, 13개, 18개 키워드로 분류되었다. 수집된 빅데이터 중 AWD, WSS, EDI, ESI는 각각 41.4%, 34.5%, 14.8%, 9.3%를 차지하였다. 수집기간 중 가뭄 관련 기사는 2015년 6월, 2017년 6월에 각각 22.7 % (15,097 개), 15.9% (10,619개) 게재되었다. 가뭄 뉴스기사는 SPI와 RDI를 이용하여 시공간적으로 비교하였다. 가뭄대응은 도시 및 시도별로 이뤄지기 떄문에 자료들을 남한의 8개 주요 도시와 9개 시도로 분류하였다. 뉴스데이터의 가뭄 피해 재현 능력을 평가하기 위해 SPI와 RDI를 이용하여 ROC 분석을 수행하였다. AWS와 SPI-1의 ROC 분석 결과 도시지역의 예측 정확도는 0.76이었고 행정도에서는 0.69 였다. 뉴스기사 (AWD, WSS, EDI, ESS)와 가뭄지수(SPI, RDI) 사이의 시공간클러스터링을 도출하기위해 SaTSCAN 소프트웨어를 활용하였다 (Kulldorff, 2015). 후향적 분석(Retrospective)과 전향적 분석(Prospective)을 통해 가뭄의 시공간적 군집을 집중적으로 분석하였다. AWS, WSS, EDI의 경우 주로 지방에서 가뭄을 감지하였지만, ESI는 도시지역의 가뭄을 감지하였다.
본 연구는 크롤러를 이용하여 남한의 가뭄관련 뉴스 빅데이터 특성을 평가하고자 하였다. 남한은 2000년 이후 기후변화 영향으로 봄철(3~5월), 여름 장마 (6~8월), 가을철 태풍 (9~10월)이 거의 없는 가뭄을 겪었다. 본 연구에서는 뉴스 미디어로부터 가뭄 빅데이터의 수집을 위해 html 혹은 XML 형식의 데이터 파싱에 특화된 Python open library인 ‘Beautiful soup’을 이용하여 개발하였다. 5년 (2013~2017년) 동안 가뭄 관련 뉴스 게시물은 국내 인터넷 검색엔진 ‘NAVER’에서 13개 주요 일간지와 81 지역신문사를 모아 스포츠, 경제, 정치 등 다른 분야에서 가뭄 단어들을 사용한 동음이의어를 삭제하여 자료 품질 관리를 수행하였다. 5년동안, ‘가뭄’관련단어를 포함한 총 40,219개의 기사가 크롤러를 통해 수집되었다. 스포츠에서의 골 가뭄, 경제 가뭄, 정치에서의 정책분야에서의 동음이의어를 제거하기위해 품질관리를 실시하고 이중 47.8%를 필터링하였다. 가뭄 재난에 관련한 20,999개의 순수한 가뭄 관련 빅데이터는 물부족 (AWD), 수자원확보 및 지원 (WSS), 경제적 피해와 영향 (EDI), 환경 보건 영향 (ESI)에 대하여 각각 27개, 15개, 13개, 18개 키워드로 분류되었다. 수집된 빅데이터 중 AWD, WSS, EDI, ESI는 각각 41.4%, 34.5%, 14.8%, 9.3%를 차지하였다. 수집기간 중 가뭄 관련 기사는 2015년 6월, 2017년 6월에 각각 22.7 % (15,097 개), 15.9% (10,619개) 게재되었다. 가뭄 뉴스기사는 SPI와 RDI를 이용하여 시공간적으로 비교하였다. 가뭄대응은 도시 및 시도별로 이뤄지기 떄문에 자료들을 남한의 8개 주요 도시와 9개 시도로 분류하였다. 뉴스데이터의 가뭄 피해 재현 능력을 평가하기 위해 SPI와 RDI를 이용하여 ROC 분석을 수행하였다. AWS와 SPI-1의 ROC 분석 결과 도시지역의 예측 정확도는 0.76이었고 행정도에서는 0.69 였다. 뉴스기사 (AWD, WSS, EDI, ESS)와 가뭄지수(SPI, RDI) 사이의 시공간클러스터링을 도출하기위해 SaTSCAN 소프트웨어를 활용하였다 (Kulldorff, 2015). 후향적 분석(Retrospective)과 전향적 분석(Prospective)을 통해 가뭄의 시공간적 군집을 집중적으로 분석하였다. AWS, WSS, EDI의 경우 주로 지방에서 가뭄을 감지하였지만, ESI는 도시지역의 가뭄을 감지하였다.
Since 2000 by climate change impact, South Korea has suffered droughts with little rain in Spring period (March ~ May), late rain and heat wave in Summer rainy season (June ~ August), and few or no Typhoons in Autumn period (September ~ October). The severe consecutive droughts occurred from 2013 to...
Since 2000 by climate change impact, South Korea has suffered droughts with little rain in Spring period (March ~ May), late rain and heat wave in Summer rainy season (June ~ August), and few or no Typhoons in Autumn period (September ~ October). The severe consecutive droughts occurred from 2013 to 2017 brought crop yield damages, limited municipal and industrial water supplies. This study is to evaluate the drought-related bigdata characteristics published from South Korean by developing crawler. To collect the drought bigdata from news media, the web crawler was developed using Python open libraries ‘Beautiful Soup’ specialized for data parsing in html or XML formats. The 5 years (2013 ~ 2017) drought-related posted articles were collected from Korean internet search engine ‘NAVER’ which contains 13 main and 81 local daily newspapers. During the 5 years period, total 40,219 news articles including ‘drought’ word were found using crawler. To filter the homonyms liken drought to soccer goal drought in sports, money drought economics, and policy drought in politics often used in South Korea, the quality control was processed and 47.8 % articles were filtered. After, the 20,999 (52.2 %) drought news articles of this study were classified into four categories of agricultural water deficit (AWD), water security and support (WSS), economic damage and impact (EDI), and environmental and sanitation impact (ESI) with 27, 15, 13, and 18 drought-related keywords in each category. The WD, WSS, EDI, and ESI occupied 41.4 %, 34.5 %, 14.8 %, and 9.3 % respectively. The drought articles were mostly posted in June 2015 and June 2017 with 22.7 % (15,097) and 15.9 % (10,619) respectively. The drought news articles were spatiotemporally compared with SPI (Standardized Precipitation Index) and RDI (Reservoir Drought Index) were calculated. They were classified into administration boundaries of 8 main cities and 9 provinces in South Korea because the drought response works based on local government unit. The receiver operating characteristic (ROC) was used to assess the performance of news articles with the spatio-temporal drought trends using the SPI and RDI. The ROC analysis of AWD and SPI-1 month showed that the accuracy was 0.76 for city, while the province was 0.69. The space-time clustering between news articles (AWD, WSS, EDI, and ESI) and indices (SPI and RDI) were tried how much they have correlation each other. The spatiotemporal clusters detection was applied using SaTScan software (Kulldorff, 2015). The retrospective and prospective cluster analyses were conducted for past and present time to understand how much they are intensive in clusters. The news articles of AWD, WSS and EDI had strong clusters in provinces, and ESI in cities.
Since 2000 by climate change impact, South Korea has suffered droughts with little rain in Spring period (March ~ May), late rain and heat wave in Summer rainy season (June ~ August), and few or no Typhoons in Autumn period (September ~ October). The severe consecutive droughts occurred from 2013 to 2017 brought crop yield damages, limited municipal and industrial water supplies. This study is to evaluate the drought-related bigdata characteristics published from South Korean by developing crawler. To collect the drought bigdata from news media, the web crawler was developed using Python open libraries ‘Beautiful Soup’ specialized for data parsing in html or XML formats. The 5 years (2013 ~ 2017) drought-related posted articles were collected from Korean internet search engine ‘NAVER’ which contains 13 main and 81 local daily newspapers. During the 5 years period, total 40,219 news articles including ‘drought’ word were found using crawler. To filter the homonyms liken drought to soccer goal drought in sports, money drought economics, and policy drought in politics often used in South Korea, the quality control was processed and 47.8 % articles were filtered. After, the 20,999 (52.2 %) drought news articles of this study were classified into four categories of agricultural water deficit (AWD), water security and support (WSS), economic damage and impact (EDI), and environmental and sanitation impact (ESI) with 27, 15, 13, and 18 drought-related keywords in each category. The WD, WSS, EDI, and ESI occupied 41.4 %, 34.5 %, 14.8 %, and 9.3 % respectively. The drought articles were mostly posted in June 2015 and June 2017 with 22.7 % (15,097) and 15.9 % (10,619) respectively. The drought news articles were spatiotemporally compared with SPI (Standardized Precipitation Index) and RDI (Reservoir Drought Index) were calculated. They were classified into administration boundaries of 8 main cities and 9 provinces in South Korea because the drought response works based on local government unit. The receiver operating characteristic (ROC) was used to assess the performance of news articles with the spatio-temporal drought trends using the SPI and RDI. The ROC analysis of AWD and SPI-1 month showed that the accuracy was 0.76 for city, while the province was 0.69. The space-time clustering between news articles (AWD, WSS, EDI, and ESI) and indices (SPI and RDI) were tried how much they have correlation each other. The spatiotemporal clusters detection was applied using SaTScan software (Kulldorff, 2015). The retrospective and prospective cluster analyses were conducted for past and present time to understand how much they are intensive in clusters. The news articles of AWD, WSS and EDI had strong clusters in provinces, and ESI in cities.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.