[국내논문]해상안전 통계 항목 다양화를 위한 EDA 기반 통계 속성 도출 및 활용에 관한 연구 Study on the EDA based Statistics Attributes Discovery and Utilization for the Maritime Safety Statistics Items Diversification원문보기
과학적 행정을 위한 증거 기반 정책 수립과 평가에 대한 요구로 통계(데이터) 활용 중요성이 날로 강조되고 있다. 통계는 사회전반의 현상을 수치로 제공함으로써 직관적으로 어떤 현상을 설명할 수 있도록 하며, 합리적인 의사결정을 위한 공공자원으로 설명된다. 이러한 특성으로 통계는 정부 정책 결정 및 각종 현상의 연구·분석 등에 기초자료이자 근거자료로 널리 활용되고 있으나 그 중요성에 비해 통계의 역할은 제한적인 수준이다. 이는 현재 개방된 통계가 단순 결과 요약 자료 수준이며 공급자 위주로 생산되어 수요자 관점에서 가치 창출을 위한 수단으로는 부족하다는 의미이며, 본 연구에서는 이러한 문제 보완을 위해 현재 제공되는 통계 항목 외에 정책이나 연구에 다양하게 활용할 수 있는 추가 속성을 탐색했다. 연구에 활용한 기준 통계자료는 해양경찰청에서 발간하는 「해상조난사고 통계 연보」이며, 해양경찰에서 작성하는 선박사고 상황보고서 텍스트 분석을 통해 추가할 수 있는 속성들을 도출했다. 텍스트 분석을 통해 도출된 56개 속성에 대해 데이터를 수집하고 EDA를 수행한 결과, 유의확률(p-value < .05)을 만족하는, 상관계수 0.7 이상의 강한 상관관계가 있는 속성 조합 18개와, 중간 정도의 상관관계(0.4 이상 0.7 미만)를 가지는 속성조합 70개, 총 88개의 조합을 발굴할 수 있었다. 더불어 EDA를 통해 발견된 추가 속성을 정책적으로 활용하기 위해 수난대비기본계획 세부 전략별 키워드 분석을 실시하고, 키워드와 EDA 도출 속성 간 매칭작업을 통해 속성의 활용 가능 여부를 검토했다.
과학적 행정을 위한 증거 기반 정책 수립과 평가에 대한 요구로 통계(데이터) 활용 중요성이 날로 강조되고 있다. 통계는 사회전반의 현상을 수치로 제공함으로써 직관적으로 어떤 현상을 설명할 수 있도록 하며, 합리적인 의사결정을 위한 공공자원으로 설명된다. 이러한 특성으로 통계는 정부 정책 결정 및 각종 현상의 연구·분석 등에 기초자료이자 근거자료로 널리 활용되고 있으나 그 중요성에 비해 통계의 역할은 제한적인 수준이다. 이는 현재 개방된 통계가 단순 결과 요약 자료 수준이며 공급자 위주로 생산되어 수요자 관점에서 가치 창출을 위한 수단으로는 부족하다는 의미이며, 본 연구에서는 이러한 문제 보완을 위해 현재 제공되는 통계 항목 외에 정책이나 연구에 다양하게 활용할 수 있는 추가 속성을 탐색했다. 연구에 활용한 기준 통계자료는 해양경찰청에서 발간하는 「해상조난사고 통계 연보」이며, 해양경찰에서 작성하는 선박사고 상황보고서 텍스트 분석을 통해 추가할 수 있는 속성들을 도출했다. 텍스트 분석을 통해 도출된 56개 속성에 대해 데이터를 수집하고 EDA를 수행한 결과, 유의확률(p-value < .05)을 만족하는, 상관계수 0.7 이상의 강한 상관관계가 있는 속성 조합 18개와, 중간 정도의 상관관계(0.4 이상 0.7 미만)를 가지는 속성조합 70개, 총 88개의 조합을 발굴할 수 있었다. 더불어 EDA를 통해 발견된 추가 속성을 정책적으로 활용하기 위해 수난대비기본계획 세부 전략별 키워드 분석을 실시하고, 키워드와 EDA 도출 속성 간 매칭작업을 통해 속성의 활용 가능 여부를 검토했다.
Evidence-based policymaking and assessments for scientific administration have increased the importance of statistics (data) utilization. Statistics can explain specific phenomena by providing numerical values and are a public resource for national decision making. Due to these inherent attributes, ...
Evidence-based policymaking and assessments for scientific administration have increased the importance of statistics (data) utilization. Statistics can explain specific phenomena by providing numerical values and are a public resource for national decision making. Due to these inherent attributes, statistics are utilized as baseline and base data for government policy determinations and the analysis of various phenomena. However, compared to the importance, the role of statistics is limited, and statistics are often used as simple abstracts, produced mainly for suppliers, not for consumers' perspectives to create value. This study explores the statistical data and other attributes that can be utilized for policies or research to address the problems mentioned above. The baseline statistical data used in this study is from the Maritime Distress Accident Statistical Yearbook published by the South Korean Coast Guard, and other additional attributes are from text analyses of vessel casualty situation reports from the South Korean Maritime Police. Collecting 56 attributes drawn from the text analysis and executing an EDA resulted in 88 attribute unions: 18 attribute unions had a satisfactory significance probability (p-value < .05) and a strong correlation coefficient above 0.7, and 70 attribute unions had a middle correlation. (over 0.4 and under 0.7). Additionally, to utilize the extra attributes discovered from the EDA politically, a keyword analysis for each detailed strategy of the disaster Preparation basic plan was executed, the utilization availability of the attributes was obtained using a matching process of keywords, and the EDA deducted attributes were examined.
Evidence-based policymaking and assessments for scientific administration have increased the importance of statistics (data) utilization. Statistics can explain specific phenomena by providing numerical values and are a public resource for national decision making. Due to these inherent attributes, statistics are utilized as baseline and base data for government policy determinations and the analysis of various phenomena. However, compared to the importance, the role of statistics is limited, and statistics are often used as simple abstracts, produced mainly for suppliers, not for consumers' perspectives to create value. This study explores the statistical data and other attributes that can be utilized for policies or research to address the problems mentioned above. The baseline statistical data used in this study is from the Maritime Distress Accident Statistical Yearbook published by the South Korean Coast Guard, and other additional attributes are from text analyses of vessel casualty situation reports from the South Korean Maritime Police. Collecting 56 attributes drawn from the text analysis and executing an EDA resulted in 88 attribute unions: 18 attribute unions had a satisfactory significance probability (p-value < .05) and a strong correlation coefficient above 0.7, and 70 attribute unions had a middle correlation. (over 0.4 and under 0.7). Additionally, to utilize the extra attributes discovered from the EDA politically, a keyword analysis for each detailed strategy of the disaster Preparation basic plan was executed, the utilization availability of the attributes was obtained using a matching process of keywords, and the EDA deducted attributes were examined.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
다음으로 EDA을 통해 도출된 속성과 전략별 핵심어 비교를 통해 서로 매칭 가능한 부분을 확인하는 것이다.
따라서 이러한 통계의 역할을 강화시키기위해 기존 공급자 위주의 통계 생산이 아닌, 수요자 가치 창출 수단으로 통계의 중요성을 부각시킬 필요가 있다. 따라서 본 연구에서는 해양경찰청에서 발간하는 「해상 조난사고」의 통계 항목(속성) 외에 정책 및 연구 분야에 폭 깊게 활용할 수 있는 해상안전(선박사고) 관련 속성들을 추가로 발굴하고자 한다.
따라서 이러한 문제를 보완하기 위해 현재 제공되는 통계 항목 외에 정책이나 연구에 다양하게 활용할 수 있는 추가속성을 탐색했다. 본 연구에서는 해양경찰청에서 발간하는 해상 조난사고 통계 항목을 보완하기 위한 추가 속성을 도출하였으며, 해양경찰서에서 작성하는 선박사고 상황보고서 텍스트 분석을 통해 추가할 수 있는 속성들을 수집했다.
따라서 이러한 통계 정보의 한계를 개선하기 위해 정책및 연구 분야에 사용하는 기존 개방 통계(속성) 외에 세부정책별 성과지표로 활용 가능하며, 연구 과정의 각종 분석에도 적용 가능한 새로운 속성들을 탐색해보고자 한다.
마지막으로 EDA 결과에서 발견된 내용을 바탕으로 새로운 연구 질문과 가설을 모색하게 된다. 추후 EDA에서 발견된 패턴과 새로 만든 가설을 테스트하기 위해 확증적 데이터 분석을 수행할 수 있다.
본 연구는 해양경찰청 상황보고서에서 발견할 수 있는 새로운 속성들로부터 의미 있는 정보를 발굴하기 위한 탐색적성격을 지니고 있다. 이 연구는 기존에 개방된 해상조난사고 통계 정보 외에 새로운 속성들과 유의미한 조합들을 제시하여 정책 및 연구 분야에서 활용성을 높이기 위한 기반을 제시했다는데 가장 큰 의미가 있다.
본 연구에서는 선행연구(Lee et al., 2019)에서 상황보고서 텍스트 분석을 통해 도출한 분류체계를 차용해서 상관성이 있는 속성 조합을 발굴해보고자 한다. 선행연구에서 제시한 상황보고서 속성은 Table 2와 같이 10개 범주로 요약된다.
탐색했다. 본 연구에서는 해양경찰청에서 발간하는 해상 조난사고 통계 항목을 보완하기 위한 추가 속성을 도출하였으며, 해양경찰서에서 작성하는 선박사고 상황보고서 텍스트 분석을 통해 추가할 수 있는 속성들을 수집했다.
지니고 있다. 이 연구는 기존에 개방된 해상조난사고 통계 정보 외에 새로운 속성들과 유의미한 조합들을 제시하여 정책 및 연구 분야에서 활용성을 높이기 위한 기반을 제시했다는데 가장 큰 의미가 있다.
제안 방법
본 연구는 크게 3개 부문으로 구성된다. 가장 먼저 문헌연구를 통한 현황분석 부문으로, 해상안전(선박사고) 관련 자료에서 현행 통계(속성) 활용 문제점을 도출하고 다양화 가능성을 모색한다.
각종 제도뿐만 아니라 IT의 발전도 통계 생산 방식을 변화시켰다. 이제는 방대한 데이터 수집은 물론, 정형 데이터뿐만 아니라 텍스트, 사진, 영상, 위치정보 등 다양한 형태의비정형 데이터까지도 취급 가능해졌으며, 저장, 분석 기술의발달로 기존에 수집할 수 없었던 자료, 수집 대상이 아니었던 자료, 혹은 수집했더라도 분석이 어려워 버려졌던 자료까지도 업무에 활용할 수 있게 되었다.
다음으로 데이터의 개별 속성을 확인하여 속성 값이 예측한 범위와 분포를 가지는지, 이상치(outher)가 존재하는지를 찾아낸다. 개별 데이터를 살펴보면서 전반적인 추세와 특이사항을 관찰할 수 있다.
수집해야한다. 데이터 수집은 텍스트 분석을 통해 도출된 속성에 대해 진행하며, 상황보고서에서 각 속성에 해당하는 값들을 추출해 엑셀(excel)로 DB화 한다. 이때 DB의 열(column)은 정의된 속성들이 되고, 행(row)은 개개의 사고 사례(case)가 된다.
, 2019)에서 제시한 선박사고 상황보고서 용어 분석결과 자료를 활용하여 추가 속성에 대한 데이터를 수집하고, 탐색적 데이터 분석(EDA : Exploratory Data Analysis, 이하 EDA)을 실시했다. 또한 EDA 결과로 도출된 상관성 있는 데이터 조합을 실제 정책 과정에서 활용하기 위한 정책 전략별 키워드 분석과 EDA 도출속성 간 매칭 작업을 제시했다.
(2019; 2020)은 해상안전(선박)과 관련한 통계 자료 한계점 개선을 위해 해양경찰청 사고보고서를 분석하여선박사고 관련 정보 분류체계를 수정·보완하였으며, 개선된분류체계 속성 간 상호연관성이 있음을 언급했다. 또한 도출된 속성들을 바탕으로 기존 통계만을 활용했던 연구에서는 볼 수 없던 선박사고 ‘초동대응’에 대한 분석을 수행했다. 사고 발생부터 신고접수, 상황전파, 현장출동에 대한 속성들을 바탕으로 선박사고 유형별 특성 및 초동대응 관련속성에 따른 인명피해 양상을 제시했다.
마지막으로 정책 분야에 활용하기 위해 정책 전략 별 키워드를 분석하고, EDA 도출 속성과 매칭 한다. 매칭 작업에는 행정 자료 분석을 통해 추가로 도출한 속성(개별 속성) 과관계 분석을 통해 도출한 유의미한 속성 조합을 모두 사용할 수 있다.
본 연구에서는 선행연구(Lee et al., 2019)에서 제시한 선박사고 상황보고서 용어 분석결과 자료를 활용하여 추가 속성에 대한 데이터를 수집하고, 탐색적 데이터 분석(EDA : Exploratory Data Analysis, 이하 EDA)을 실시했다. 또한 EDA 결과로 도출된 상관성 있는 데이터 조합을 실제 정책 과정에서 활용하기 위한 정책 전략별 키워드 분석과 EDA 도출속성 간 매칭 작업을 제시했다.
또한 도출된 속성들을 바탕으로 기존 통계만을 활용했던 연구에서는 볼 수 없던 선박사고 ‘초동대응’에 대한 분석을 수행했다. 사고 발생부터 신고접수, 상황전파, 현장출동에 대한 속성들을 바탕으로 선박사고 유형별 특성 및 초동대응 관련속성에 따른 인명피해 양상을 제시했다.
앞서 문헌연구 고찰을 통해 통계의 중요성 및 활용한계를 알아보았다. 선박사고(안전) 관련 정책이나 선행연구에서 주요하게 사용되는 항목은 사고발생과 관련한 결과변수들이며, 수난대비기본계획에서도 목표나 전략수립, 평가에 있어 사고 발생건수와 인명피해자 수 등을 사용한다.
앞서 정의한 속성 별 척도를 고려하여 상관계수를 도출 해상관성이 있는 조합들을 추려냈다. 상관계수는 상관성 정도를 나타내는 지표로 -1~1 사이의 값을 가지며, 통상 0.
이 속성들을 실제 정책에 적용할 수 있는지를 검토하기 위해 수난대비기본계획 세부 전략 키워드 분석을 실시하고, EDA를 통해 도출한 속성들과의 매칭을 통해 전략에 활용할 수 있는 속성들을 찾아보았다.
해양경찰서에서 작성하는 행정자료인 선박사고 상황보고서에서 사용하는 용어들을 분석하여(텍스트 마이닝) 특성에 따라 범주화 하고(분류체계 정립), 해당 용어(속성)에 대한 데이터들을 수집, 전처리한다. 데이터가 정리되면 속성 별 특성(데이터 형태 등)을 확인하여 속성 간 관계분석을 실시한다.
대상 데이터
상황보고서로부터 수집한 사례(case) 수는 1, 319개이며, 도출된 속성 중에서 결측치가 많아 수집에서 제외된 속성들을제외하고 총 56개 속성 값을 추출해 분석에 활용했다. 수집한 속성별 데이터 수는 상황보고서에서 기록되지 않은 경우가 있어 개별 속성마다 결측치를 제외한 수집 case에는 차이가 있다.
데이터처리
해양경찰서에서 작성하는 행정자료인 선박사고 상황보고서에서 사용하는 용어들을 분석하여(텍스트 마이닝) 특성에 따라 범주화 하고(분류체계 정립), 해당 용어(속성)에 대한 데이터들을 수집, 전처리한다. 데이터가 정리되면 속성 별 특성(데이터 형태 등)을 확인하여 속성 간 관계분석을 실시한다.
성능/효과
0.7 이상의 강한 상관관계를 가지는 속성 조합은 18개이며, 모두 p-value<0.05로 유의한 것으로 나타났고, 그 외 중간 정도의 상관관계(0.4 이상~0.7 미만)를 가지는 속성 조합은 81개 중 70개가 유의한 것으로 나타났다. 따라서 99개의속성 조합 중 11개를 제외한 88개의 속성이 서로 연관성이있는 것으로 결론지을 수 있다.
EDA 결과, 유의확률(p-value<.05)을 만족하는 상관계수 0.7 이상의 강한 상관관계가 있는 속성 조합 18개와 중간 정도의 상관관계(0.4 이상 0.7 미만)를 가지는 속성조합 70개, 총 88개의 조합을 발굴했다.
EDA를 통해 선박사고 관련 기존 통계 항목 대비 다양한속성들이 존재함을 확인했다. 추가적으로 발굴된 속성들을실제 정책(업무)에 활용하기 위해 전략별 키워드 분석과 EDA 도출 속성 간 매칭 작업이 필요하다.
7 미만)를 가지는 속성 조합은 81개 중 70개가 유의한 것으로 나타났다. 따라서 99개의속성 조합 중 11개를 제외한 88개의 속성이 서로 연관성이있는 것으로 결론지을 수 있다.
후속연구
필요한 시점이다. 또한 향후에는 데이터로부터 발견된새로운 정보를 바탕으로 가설을 세우고 테스트하기 위한 확증적 데이터 분석을 통해, 도출 속성에 대한 신뢰성을 증대시킬 수 있어야 할 것이다.
첫 번째, 기존 승인통계 항목을 구체화하거나 보완할 수 있고 두 번째, 전략 과제들을 평가하기 위한 적합한 속성이 있다면 지표로 활용할 수 있다. 세 번째로 승인통계로 활용하지 않더라도 내부 업무 수행에 있어 더욱 구체적이고 깊은 분석 자료로서 가치가 있으며, 마지막으로 발견한 속성이 현재 수집되지 않고 있는 속성이더라도 정보로서 활용 가치가 있다면 해당 속성을 지속적으로 수집하기 위한 시초가 될 수 있다.
있다. 첫 번째, 기존 승인통계 항목을 구체화하거나 보완할 수 있고 두 번째, 전략 과제들을 평가하기 위한 적합한 속성이 있다면 지표로 활용할 수 있다. 세 번째로 승인통계로 활용하지 않더라도 내부 업무 수행에 있어 더욱 구체적이고 깊은 분석 자료로서 가치가 있으며, 마지막으로 발견한 속성이 현재 수집되지 않고 있는 속성이더라도 정보로서 활용 가치가 있다면 해당 속성을 지속적으로 수집하기 위한 시초가 될 수 있다.
연구 질문과 가설을 모색하게 된다. 추후 EDA에서 발견된 패턴과 새로 만든 가설을 테스트하기 위해 확증적 데이터 분석을 수행할 수 있다.
참고문헌 (25)
Anderson, C.(2008), The End of Theory: The Data Deluge Makes the Scientific Method Obsolete, Vol. 16, No. 7.
Ahn, T. H.(2015), Data compilation methods through the use of administrative data: Specifically analysed in the field of the Mining and Manufacturing Industry Survey, Korea University Graduate School of Public Administration.
Behrens, J. T.(1997), Principles and procedures of exploratory data analysis. Psychological Methods, Vol. 2, No. 2, pp. 131-160.
Chae, C. J., Y. S. Park, S. H. Jo, S. Y. Kang, H. Lee, and H. B. Kim(2019), A Study on the Emergency Response Empowerment for Captain Based on the Analysis of Maritime Accidents, Journal of the Korean Society of Marine Environment and Safety, Vol. 25, No. 4, pp. 413-422.
Cho, H. K., B. S. Park, D. H. Kang, and S. S. Kim(2017), The Main factor and Counterplan for Marine accidents in Korea, Journal of fishries and marine sciences education, Vol. 29, No. 3, pp. 746-756.
Choi, J. Y.(2016), Toparchy occupation statistics writing study through administRn data matching, Korean University Graduate School paper of masters degree.
Good, I. J.(1983), The philosophy of exploratory data analysis. Philosophy of science, Vol. 50, No. 2, pp. 283-295.
Hong, J. U.(2015), A Study On data Fusion Using Statistical Matching, Sungkyunkwan University.
Howlett, M.(2009), Policy analytical capacity and evidence based policy making: Lessons from Canada, Canadian public administRn, Vol. 52, No. 2, pp. 153-175.
Jang, W. J. and J. S. Keum(2004), An Analysis on the Models of Occurrence Probability of Marine Casualties, Journal of The Korean Society of Marine Environment & Safety, Vol. 10, No. 2, pp. 29-34.
Kim, D. S.(2018), A Study on the Prevention of Ship Collision in Low Visibility: Focusing on the Role of Korea Coast Guard, Korean Association of Maritime Police Science, Vol. 8, No. 3, pp. 71-85.
Kim, J. Y.(2016), Hello, DATA SCIENCE, Hanbit Media.
Kwon, D. C.(2017), Statistics is not just numerical value, Policy, Health and welfare forum, korea health and social affairs researcher, Vol. 250, No. 1, pp. 2-4.
Lee, E. G.(2017), Agricultural statistics writing technique advancement way utilizing administRn data - mainly for fishing industry total investigation and fishery business, Korea University Graduate School of Public AdministRn paper of masters degree.
Lee, K. H.(2016), A Study on the Actual Condition and the Countermeasure of Marine Accidents, Korean Association of Police Science, Vol. 18, No. 6, pp. 27-54.
Lee, K. J., M. K. Kim, J. Y. Ahn, and K. H. Choi(2012), A case study on the selection of representative statistics for systematic management of administrative statistics, Journal of the korean data&information science society, Vol. 23, No. 1, pp. 63-70.
Lee, Y. J., S. K. Kang, and J. Y. Gu(2019), A Study on Marine Accident Ontology Development and Data Management: Based on a Situation Report Analysis of Southwest Coast Marine Accidents in Korea, Journal of the Korean Society of Marine Environment and Safety, Vol. 25, No. 4, pp. 423-432.
Lee, Y. J., S. K. Kang, and J. Y. Gu(2020), The Initial Reaction Analysis by Ocean Safety Information Classification System : Focused on Boating Accidents of the Central Part Seas, Korean Association of Maritime Police Science, Vol. 10, No. 1, pp. 67-86.
National Statistical Office(2020), 2020 statistics based Policy Evaluation, Daejeon: National Statistical Office.
Noh, C. K.(2002), A Study on the Developments of the Salvage & Oil Spills Response, Journal of Navigation and Port Research, Vol. 26, No. 6, pp. 549-554.
Oh, S. Y., K. Yoon, and K. Oh(2017), present situation research about Government Statistics Establishment and utilization for Evidence-based policy, Korea Institute of Public Administration.
Park, B. S.(2018), AdministRn data and research data matching by statistical technique, Hannam University Graduate School paper of masters degree.
Park, T. G., S. J. Kim, Y. S. Chu, T. S. Park, K. J. Ryu, and Y. W. Lee(2018), Reduction plan of marine casualty for small fishing vessels, Journal of the Korean Society of Fisheries and Ocean Technology, Vol. 54, No. 2, pp. 173-180.
Seltman, H. J.(2018), Experimental design and analysis, pp. 61-100.
Seo, M. S. and S. J. Bae(2002), The Study on the Analysis of Marine Accidents and Preventive Measures, Journal of fishries and marine sciences education, Vol. 14, No. 2, pp. 149-160.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.