위험물 사고는 해당 물질의 누출에 그치지 않고, 초기대응이 부적합한 경우, 화재, 폭발로 이어져 그 피해규모가 확대될 위험이 크다. 하지만 4차 산업혁명과 빅데이터 시대의 대두가 논의되고 있는 시점에서, 새로운 기법들에 바탕한 위험물 사고의 체계적인 분석은 시도되지 못하고, 단편적인 통계 수집에 그치고 있는 것이 아쉬운 실정이다. 본 연구에서는 지난 11년간(2008~2018) 축적된 소방청 위험물 화재사고 데이터를 대상으로 기계학습에 기반한 분석을 진행하였다. Text mining 분석을 통해 분석한 자료를 시각화하여 나타내었고, 아울러 위험물 화재사고 데이터에 존재하는 주요 인자를 이용해 피해규모 예측모델의 개발 가능성을 회귀분석 방법을 적용하여 탐색하였다.
위험물 사고는 해당 물질의 누출에 그치지 않고, 초기대응이 부적합한 경우, 화재, 폭발로 이어져 그 피해규모가 확대될 위험이 크다. 하지만 4차 산업혁명과 빅데이터 시대의 대두가 논의되고 있는 시점에서, 새로운 기법들에 바탕한 위험물 사고의 체계적인 분석은 시도되지 못하고, 단편적인 통계 수집에 그치고 있는 것이 아쉬운 실정이다. 본 연구에서는 지난 11년간(2008~2018) 축적된 소방청 위험물 화재사고 데이터를 대상으로 기계학습에 기반한 분석을 진행하였다. Text mining 분석을 통해 분석한 자료를 시각화하여 나타내었고, 아울러 위험물 화재사고 데이터에 존재하는 주요 인자를 이용해 피해규모 예측모델의 개발 가능성을 회귀분석 방법을 적용하여 탐색하였다.
Hazardous materials accidents are not limited to the leakage of the material, but if the early response is not appropriate, it can lead to a fire or an explosion, which increases the scale of the damage. However, as the 4th industrial revolution and the rise of the big data era are being discussed, ...
Hazardous materials accidents are not limited to the leakage of the material, but if the early response is not appropriate, it can lead to a fire or an explosion, which increases the scale of the damage. However, as the 4th industrial revolution and the rise of the big data era are being discussed, systematic analysis of hazardous materials accidents based on new techniques has not been attempted, but simple statistics are being collected. In this study, we perform the systematic analysis, using machine learning, on the fire accident data for the past 11 years (2008 ~ 2018), accumulated by the National Fire Service. The analysis results are visualized and presented through text mining analysis, and the possibility of developing a damage-scale prediction model is explored by applying the regression analysis method, using the main factors present in the hazardous materials fire accident data.
Hazardous materials accidents are not limited to the leakage of the material, but if the early response is not appropriate, it can lead to a fire or an explosion, which increases the scale of the damage. However, as the 4th industrial revolution and the rise of the big data era are being discussed, systematic analysis of hazardous materials accidents based on new techniques has not been attempted, but simple statistics are being collected. In this study, we perform the systematic analysis, using machine learning, on the fire accident data for the past 11 years (2008 ~ 2018), accumulated by the National Fire Service. The analysis results are visualized and presented through text mining analysis, and the possibility of developing a damage-scale prediction model is explored by applying the regression analysis method, using the main factors present in the hazardous materials fire accident data.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 연구에서는 2008년부터 2018년 위험물 화재 사고 데이터를 이용하여 Text Mining을 통한 분석과 재산피해 예측을 위한 회귀분석을 진행하였다.
기존 위험물 사고 통계는 연말에 백서 형태로 발간되고 있으나, 체계적인 분석은 진행되지 않고 통계 수집에 그치고 있다. 본 연구에서는 지난 11년(2008년 ~ 2018년)간 발생한 위험물 화재사고 데이터를 바탕으로 Text Mining을 통해 변수들의 특징을 파악하여 시각화하였다. 또한, 회귀분석을 통해 주요 인자를 뽑아 재산피해 규모를 예측하는 예측 모델링을 진행하였다.
제안 방법
Text Mining을 통한 분석으로 각 변수별 화재 발생건수 확인하여 특징을 추출하였다. 위험물 화재사고는 제4류 위험물에서 가장 많이 발생하였다.
첫 번째로 지역별, 시간별, 원인별, 물질종류별 발생건수 분석을 위해 위 데이터는 변형하지 않고 원본 데이터를 이용하여 분석하였다. 두 번째로 오류 방지를 위해 원본 데이터를 약간 변형하였다. 사업장의 개수가 많거나 지역이 넓거나 사용량이 많거나 하는 곳은 오류가 크게 발생할 위험이 있다.
따라서 이를 방지하기 위해 앞서 분석한 내용 중 일부를 천 개소로 나눠 분석하였다. 세 번째로 11년에 걸쳐 어떻게 연도별로 변화했는지 추가적으로 분석하였다.
본 연구에서는 지난 11년(2008년 ~ 2018년)간 발생한 위험물 화재사고 데이터를 바탕으로 Text Mining을 통해 변수들의 특징을 파악하여 시각화하였다. 또한, 회귀분석을 통해 주요 인자를 뽑아 재산피해 규모를 예측하는 예측 모델링을 진행하였다.
본 연구에서 재산피해 예측에 사용된 변수는 총 6가지로 ‘발화열원 소분류’, ‘화재진압시간’, ‘장소 소분류’, ‘건축위험물대상’, ‘습도’, ‘출동 소요시간’이다.
이 수정된 결정계수는 0부터 1 사이의 수를 가지며 숫자가 1에 가까울수록 좋다. 본 연구에서는 Stepwise의 변수선택 방법으로 0.8745라는 수정된 결정계수를 얻었으며, 발화열원 소분류, 화재진압시간, 장소소분류, 건축위험물대상, 습도, 출동 소요시간의 변수를 선택하였다. 눈에 띄는 이상치를 제거하면 0.
여기서 비정형 데이터란 숫자 데이터와 달리 구조화되지 않은 데이터를 말한다. 본 연구에서는 Text Mining을 통해 빈도수 등과 같은 변수들의 특징을 파악하였으며, 이 특징을 Word Cloud, 히스토그램 등과 같은 그래프 형태로 나타내 분석 결과를 시각화하였다. 여기서 Word Cloud란 빈도수가 높은 단어가 중앙에 큰 글씨로 나타나며, 그 단어를 중심으로 주변에 글씨 크기나 위치가 빈도수에 따라 결정되어 나타나는 구름 형태의 그림이다.
하지만 Data Analytics를 사용하면 다변수 분석이 가능해 종합적인 시각에서 검토가 가능하다. 본 연구에서는 모든 사고에 대해 공통적으로 기록된 20여개의 input 값에서 재산피해액을 output으로 예측하는 다중회귀분석을 실시하였다.
본 절에서는 지역별(시도별)로 화재 빈도를 분석한 후 경기도 내 지역에서 화재 빈도를 분석하였다. Fig.
따라서 이를 방지하기 위해 앞서 분석한 내용 중 일부를 천 개소로 나눠 분석하였다. 세 번째로 11년에 걸쳐 어떻게 연도별로 변화했는지 추가적으로 분석하였다.
2008년부터 2018년까지의 소방청 위험물 화재사고 데이터를 사용하였다. 위험물 화재사고 데이터중 연도, 화재발생(월), 요일, 지역, 발화요인, 최초 착화물 등을 이용하여 다음과 같은 세 가지의 Text Mining을 진행하였다.
위험물 화재사고 자료 중 ‘최초 착화물’을 이용해 지난 11년간 어떤 종류의 위험물에서 화재가 많이 발생하였는지 분석하였다.
첫 번째로 지역별, 시간별, 원인별, 물질종류별 발생건수 분석을 위해 위 데이터는 변형하지 않고 원본 데이터를 이용하여 분석하였다. 두 번째로 오류 방지를 위해 원본 데이터를 약간 변형하였다.
대상 데이터
2008년부터 2018년까지의 소방청 위험물 화재사고 데이터를 사용하였다. 위험물 화재사고 데이터중 연도, 화재발생(월), 요일, 지역, 발화요인, 최초 착화물 등을 이용하여 다음과 같은 세 가지의 Text Mining을 진행하였다.
데이터처리
다변수 예측모델은 재산피해를 크게 하는 중요인자와 중요인자 간의 민감도 분석이다. 본 데이터를 이용하여 회귀분석을 통한 예측을 진행하였다. 재산피해에 영향을 미치는 변수는 ‘발화열원 소분류’, ‘화재진압시간’, ‘장소소분류’, ‘건축위험물대상’, ‘습도’, ‘출동 소요시간’으로 이 변수를 이용한 회귀분석을 통해 0.
결정계수는 독립변수가 종속변수를 얼마나 잘 설명하는지를 나타내는 값으로 1에 가까울수록 설명력이 높고 0에 가까울수록 설명력이 낮다. 본 연구에서는 독립변수가 2개 이상이므로 다중회귀분석(Multiple Regression Analysis)을 실시하였으며 결정계수는 독립변수의 개수가 증가하면 결정계수 또한 증가하게 된다. 이러한 단점을 보완하기 위해 다중회귀분석에서는 수정된 결정계수가 쓰이며, 수정된 결정계수 또한 1에 가까울수록 설명력이 높다.
이론/모형
본 연구에서는 통계 분석에서 많이 사용되는 오픈소스 통계 프로그램인 R을 사용하여 분석을 진행하였다.
성능/효과
7를 보면 온도가 높은 달이나 습도가 낮은 건조한 달에 화재가 많이 발생한다는 것을 알 수 있다. 계절별로 보면 제4류 위험물이 가장 화재가 많은 화재의 원인이었고, 가을에만 가연성가스에 의한 화재가 가장 많이 발생했다.(Fig.
셋째, 잔차(Residuals)는 모든 독립변수값에 대하여 동일한 분산값을 가진다. 넷째, 잔차는 정규분포를 만족하며 기댓값은 0이다. 다중회귀분석의 기본 식은 다음 식 (1)과 같다.
첫째, 종속변수와 독립변수 간에 선형 관계가 있다. 둘째, 독립변수간에 상관관계가 없이 독립성을 만족해야한다. 셋째, 잔차(Residuals)는 모든 독립변수값에 대하여 동일한 분산값을 가진다.
둘째, 독립변수간에 상관관계가 없이 독립성을 만족해야한다. 셋째, 잔차(Residuals)는 모든 독립변수값에 대하여 동일한 분산값을 가진다. 넷째, 잔차는 정규분포를 만족하며 기댓값은 0이다.
재산피해에 영향을 미치는 변수는 ‘발화열원 소분류’, ‘화재진압시간’, ‘장소소분류’, ‘건축위험물대상’, ‘습도’, ‘출동 소요시간’으로 이 변수를 이용한 회귀분석을 통해 0.794이라는 예측 정확도를 얻었다.
지난 11년간 위험물 화재사고 건수는 총 361건으로 절대 건수가 작기 때문에 사고의 건수가 재산 피해와 인명피해에 비례하지 않고 오히려 대형사고가 영향이 크다는 것을 확인할 수 있었다.
특히, 제4류 위험물을 다루는 위험물 업체은 2017년 기준 전체의 97%를 차지하고 있을 만큼 많이 사용 되는 위험물인 만큼 철저한 관리가 필요한 것으로 보인다. 지역별 위험물 화재 발생 건수는 경기도가 71건으로 가장 높았으나, 위험물 시설 천개소 당 발생건수는 서울 6.9건, 울산 6.7건, 부산 5건 순서로 높은 것을 확인하였으며, 경기도는 3.2건에 불과했다. 이는 경기도에 위험물 시설이 많이 밀집되어 있지만 그에 비해 화재는 서울, 울산 등과 비교하여 적게 발생한다는 것을 알 수 있다.
다중회귀분석의 표준 가정은 다음 네 가지이다. 첫째, 종속변수와 독립변수 간에 선형 관계가 있다. 둘째, 독립변수간에 상관관계가 없이 독립성을 만족해야한다.
후속연구
기존 연간 화재 통계에는 위험물 화재사고가 361건에 그치고 있어 화재 예방 및 예측연구를 하는 데에 있어 어려움이 있었다. 이후 통계가 추가 된다면 위험물 화재에 예방 및 예측에 도움이 될 수 있어 화재 통계의 추가가 요구된다.
재산피해를 줄이기 위해 발화열원과 건축위험물대상 등 관리 및 개선이 필요할 것으로 보인다. 인명피해의 경우 사망과 부상의 통합문제, 정수값 문제 등이 있어 이는 향후 연구를 통해 개선할 것이다.
794이라는 예측 정확도를 얻었다. 재산피해를 줄이기 위해 발화열원과 건축위험물대상 등 관리 및 개선이 필요할 것으로 보인다. 인명피해의 경우 사망과 부상의 통합문제, 정수값 문제 등이 있어 이는 향후 연구를 통해 개선할 것이다.
참고문헌 (4)
National Fire Data System(NFDS)
Kang S. M., 'Yongin Oil Warehouse Fire', Respond to Yongin Fire Station for quick response, http://www.gukjenews.com/news/articleView.html?idxno349328, (2015)
Hazardous Materials Accident Report, National Transportation Safety Board, (2016)
Milton J., Arnold C., "Introduction to probability and statistics", McGraw-Hill Education, (2002)
※ AI-Helper는 부적절한 답변을 할 수 있습니다.