통계청 사회조사 결과 국민이 가장 불안함을 느끼는 사회적 요인으로 ‘범죄발생’ 요인이 2016년과 2018년에 선정되었다. 총 범죄 발생 및 주요지표범죄 발생비를 보면 총 범죄 발생과 폭력범죄, 절도범죄는 감소하고 있지만, 강력범죄와 지능범죄의 경우 증가하고 있는 추세이다. 치안력 증대를 위한 방법으로 경찰관 수 증원 이외의 시대 변화에 대응할 수 있는 새로운 치안활동 시스템이 필요하다. 최근 해외 치안 활동을 살펴보면 미국의 프레드폴(Pred Pol), 영국의 HART, 중국의 톈왕(天網) 등 기존 치안 활동에 ICT기술을 융합한 스마트치안 시스템의 도입을 시도하고 있다. 스마트치안 기술 연구를 위해 치안데이터를 기반으로 한 연구가 이루어져야 하지만 데이터 특성 상 공개되어 있지 않고, 데이터 취급에도 제한이 많아 활발한 연구가 이루어지지는 못하였다. 본 연구는 치안현장에서 발생한 텍스트 데이터를 분석하여 경찰의 현장출동 및 대응 그리고 범죄 수사 등에 활용하기 위한 머신러닝 기반의 ...
통계청 사회조사 결과 국민이 가장 불안함을 느끼는 사회적 요인으로 ‘범죄발생’ 요인이 2016년과 2018년에 선정되었다. 총 범죄 발생 및 주요지표범죄 발생비를 보면 총 범죄 발생과 폭력범죄, 절도범죄는 감소하고 있지만, 강력범죄와 지능범죄의 경우 증가하고 있는 추세이다. 치안력 증대를 위한 방법으로 경찰관 수 증원 이외의 시대 변화에 대응할 수 있는 새로운 치안활동 시스템이 필요하다. 최근 해외 치안 활동을 살펴보면 미국의 프레드폴(Pred Pol), 영국의 HART, 중국의 톈왕(天網) 등 기존 치안 활동에 ICT기술을 융합한 스마트치안 시스템의 도입을 시도하고 있다. 스마트치안 기술 연구를 위해 치안데이터를 기반으로 한 연구가 이루어져야 하지만 데이터 특성 상 공개되어 있지 않고, 데이터 취급에도 제한이 많아 활발한 연구가 이루어지지는 못하였다. 본 연구는 치안현장에서 발생한 텍스트 데이터를 분석하여 경찰의 현장출동 및 대응 그리고 범죄 수사 등에 활용하기 위한 머신러닝 기반의 자연어처리 연구를 목적으로 하였다. 연구에 사용된 치안데이터의 종류는 총 2가지로 각각 112신고 데이터와 KICS 가상데이터이다. 112신고 데이터를 기반으로 한 연구를 통해 112신고 사건유형 간 유사도 탐색과 112신고 잠재적 사건유형을 분석하였고, KICS 가상데이터를 기반으로 한 연구를 통해 범죄사실 기반의 유사범죄 추정 및 탐색기술을 연구하였다. 112신고 사건유형 간 유사도 탐색 연구는 112신고 접수 당시 신고내용과 신고유형을 바탕으로 카운트 기반의 벡터표현 방법인 TF-IDF Document Term Matrix로 표현하고, t-SNE차원축소 방법을 거쳐 112신고 사건유형을 벡터공간에 시각화를 한 후 K-means++를 통하여 유형 간 군집분석 하여 사건유형 간 유사도를 탐색하였다. 112신고 잠재적 사건유형 분석은 112신고 접수 시 신고내용이 특정 유형으로 분류되지 않은 ‘None’ 유형의 데이터를 수집한 후, LDA기반의 토픽모델링 분석을 하여 범죄 환경변화에 따른 새로운 잠재적 사건유형 도출 방법을 연구하였다. 범죄사실 기반의 유사범죄 추정 및 탐색기술 연구는 KICS 가상데이터를 사용하여 워드 임베딩 모델(Word2Vec, Doc2Vec, FastText, GloVe)을 만들고, 만들어진 워드 임베딩 모델에 Cosine Similarity와 Word Mover’s Distance 기반의 유사도를 측정하여 각각 워드 임베딩 모델 및 유사도 측정 방법 간 성능을 비교하였다. 성능 결과를 바탕으로 모델 및 방법을 선정하여 유사범죄 추정 및 탐색 시스템을 구축하였다. 본 연구 결과를 통해 112신고 접수 시 초동 대응범위 탐색에 도움을 주고, 112신고의 잠재적 사건 유형을 도출하여 112신고 접수 업무의 개선과 112신고 데이터 품질향상에 기여 할 것이다. 또한, 유사범죄 추정 기술 연구를 바탕으로 효율적인 범죄 수사 시스템 구축에 기반이 될 것이라 기대한다.
통계청 사회조사 결과 국민이 가장 불안함을 느끼는 사회적 요인으로 ‘범죄발생’ 요인이 2016년과 2018년에 선정되었다. 총 범죄 발생 및 주요지표범죄 발생비를 보면 총 범죄 발생과 폭력범죄, 절도범죄는 감소하고 있지만, 강력범죄와 지능범죄의 경우 증가하고 있는 추세이다. 치안력 증대를 위한 방법으로 경찰관 수 증원 이외의 시대 변화에 대응할 수 있는 새로운 치안활동 시스템이 필요하다. 최근 해외 치안 활동을 살펴보면 미국의 프레드폴(Pred Pol), 영국의 HART, 중국의 톈왕(天網) 등 기존 치안 활동에 ICT기술을 융합한 스마트치안 시스템의 도입을 시도하고 있다. 스마트치안 기술 연구를 위해 치안데이터를 기반으로 한 연구가 이루어져야 하지만 데이터 특성 상 공개되어 있지 않고, 데이터 취급에도 제한이 많아 활발한 연구가 이루어지지는 못하였다. 본 연구는 치안현장에서 발생한 텍스트 데이터를 분석하여 경찰의 현장출동 및 대응 그리고 범죄 수사 등에 활용하기 위한 머신러닝 기반의 자연어처리 연구를 목적으로 하였다. 연구에 사용된 치안데이터의 종류는 총 2가지로 각각 112신고 데이터와 KICS 가상데이터이다. 112신고 데이터를 기반으로 한 연구를 통해 112신고 사건유형 간 유사도 탐색과 112신고 잠재적 사건유형을 분석하였고, KICS 가상데이터를 기반으로 한 연구를 통해 범죄사실 기반의 유사범죄 추정 및 탐색기술을 연구하였다. 112신고 사건유형 간 유사도 탐색 연구는 112신고 접수 당시 신고내용과 신고유형을 바탕으로 카운트 기반의 벡터표현 방법인 TF-IDF Document Term Matrix로 표현하고, t-SNE 차원축소 방법을 거쳐 112신고 사건유형을 벡터공간에 시각화를 한 후 K-means++를 통하여 유형 간 군집분석 하여 사건유형 간 유사도를 탐색하였다. 112신고 잠재적 사건유형 분석은 112신고 접수 시 신고내용이 특정 유형으로 분류되지 않은 ‘None’ 유형의 데이터를 수집한 후, LDA기반의 토픽모델링 분석을 하여 범죄 환경변화에 따른 새로운 잠재적 사건유형 도출 방법을 연구하였다. 범죄사실 기반의 유사범죄 추정 및 탐색기술 연구는 KICS 가상데이터를 사용하여 워드 임베딩 모델(Word2Vec, Doc2Vec, FastText, GloVe)을 만들고, 만들어진 워드 임베딩 모델에 Cosine Similarity와 Word Mover’s Distance 기반의 유사도를 측정하여 각각 워드 임베딩 모델 및 유사도 측정 방법 간 성능을 비교하였다. 성능 결과를 바탕으로 모델 및 방법을 선정하여 유사범죄 추정 및 탐색 시스템을 구축하였다. 본 연구 결과를 통해 112신고 접수 시 초동 대응범위 탐색에 도움을 주고, 112신고의 잠재적 사건 유형을 도출하여 112신고 접수 업무의 개선과 112신고 데이터 품질향상에 기여 할 것이다. 또한, 유사범죄 추정 기술 연구를 바탕으로 효율적인 범죄 수사 시스템 구축에 기반이 될 것이라 기대한다.
According to the Korea National Statistical Office's social survey, the "crime occurrence" factor was selected in 2016 and 2018 as the social factor that the public feels the most anxious. Total crime occurrence and major indicator crime occurrence statistics show that total crime occurrence, violen...
According to the Korea National Statistical Office's social survey, the "crime occurrence" factor was selected in 2016 and 2018 as the social factor that the public feels the most anxious. Total crime occurrence and major indicator crime occurrence statistics show that total crime occurrence, violent crime, and theft crime are decreasing, but violent crime and intelligent crime are increasing. As a way to improve policing, a new policing system is needed that can respond to changes in the times other than the increase in the number of police officers. According to recent overseas policing activities, it is attempting to introduce a smart policing system that combines ICT technology with existing policing activities such as FredPol of the U.S., HART of the U.K., and Tian Wang(天網) of China. For smart policing technology research, research based on police data should be conducted, but due to the nature of the data, it is not publicly available, and data handling is limited, so research has not been actively conducted. The purpose of this study was to analyze textual data from police fields and to research machine learning-based natural language processing for use in police action, response, and criminal investigation. There are two types of police data used in the study: 112 emergency report data and KICS virtual data, respectively. Through a study based on 112 emergency report data, similarity search among 112 emergency report case types and 112 emergency report potential case types were analyzed, and similar crime estimation and search technology based on crime facts was studied through a study based on KICS virtual data. The study of similarity search between 112 emergency report case types is based on the report content and report type at the time of 112 emergency reports, expressed in TF-IDF Document Term Matrix, a count-based vector expression method, and through the t-SNE dimension reduction method After visualizing the types in the vector space, cluster analysis between types through K-means++ was performed to search for similarities between 112 emergency report case types. 112 emergency report potential case types analysis was analyzed through the LDA's Topic Modeling method based on data of type 'None' at the time of receipt of 112 emergency reports, which was not classified into a particular type, and a new potential event type was studied due to changes in the crime environment. The study of similar crime estimation and search technology based on crime facts is conducted by creating a word embedding model (Word2Vec, Doc2Vec, FastText, GloVe) using KICS virtual data, and measuring the similarity based on Cosine Similarity and Word Mover's Distance in the created word embedding model. The performance of each word embedding model and similarity measurement method was compared. Based on the performance results, models and methods were selected to establish a similar crime estimation and search system. The results of this study will help to explore the scope of initial response when receiving 112 emergency reports, and to derive potential event types for 112 emergency reports to contribute to improving 112 report reception and improving 112 emergency report data quality. It is also expected to be based on the establishment of an efficient criminal investigation system based on the research of similar crime estimation technology.
According to the Korea National Statistical Office's social survey, the "crime occurrence" factor was selected in 2016 and 2018 as the social factor that the public feels the most anxious. Total crime occurrence and major indicator crime occurrence statistics show that total crime occurrence, violent crime, and theft crime are decreasing, but violent crime and intelligent crime are increasing. As a way to improve policing, a new policing system is needed that can respond to changes in the times other than the increase in the number of police officers. According to recent overseas policing activities, it is attempting to introduce a smart policing system that combines ICT technology with existing policing activities such as FredPol of the U.S., HART of the U.K., and Tian Wang(天網) of China. For smart policing technology research, research based on police data should be conducted, but due to the nature of the data, it is not publicly available, and data handling is limited, so research has not been actively conducted. The purpose of this study was to analyze textual data from police fields and to research machine learning-based natural language processing for use in police action, response, and criminal investigation. There are two types of police data used in the study: 112 emergency report data and KICS virtual data, respectively. Through a study based on 112 emergency report data, similarity search among 112 emergency report case types and 112 emergency report potential case types were analyzed, and similar crime estimation and search technology based on crime facts was studied through a study based on KICS virtual data. The study of similarity search between 112 emergency report case types is based on the report content and report type at the time of 112 emergency reports, expressed in TF-IDF Document Term Matrix, a count-based vector expression method, and through the t-SNE dimension reduction method After visualizing the types in the vector space, cluster analysis between types through K-means++ was performed to search for similarities between 112 emergency report case types. 112 emergency report potential case types analysis was analyzed through the LDA's Topic Modeling method based on data of type 'None' at the time of receipt of 112 emergency reports, which was not classified into a particular type, and a new potential event type was studied due to changes in the crime environment. The study of similar crime estimation and search technology based on crime facts is conducted by creating a word embedding model (Word2Vec, Doc2Vec, FastText, GloVe) using KICS virtual data, and measuring the similarity based on Cosine Similarity and Word Mover's Distance in the created word embedding model. The performance of each word embedding model and similarity measurement method was compared. Based on the performance results, models and methods were selected to establish a similar crime estimation and search system. The results of this study will help to explore the scope of initial response when receiving 112 emergency reports, and to derive potential event types for 112 emergency reports to contribute to improving 112 report reception and improving 112 emergency report data quality. It is also expected to be based on the establishment of an efficient criminal investigation system based on the research of similar crime estimation technology.
주제어
#머신러닝 유사도분석 군집분석 토픽모델링 워드 임베딩 자연어처리 112신고 범죄 스마트치안
※ AI-Helper는 부적절한 답변을 할 수 있습니다.