[논문]데이터 마이닝의 범죄수사 적용 가능성

김준우; 손중권; 이상한

데이터 마이닝의 범죄수사 적용 가능성
Usefulness of Data Mining in Criminal Investigation 원문보기

대한수사과학회지 = Journal of Forensic and Investigative Science, v.1 no.2, 2006년, pp.5 - 19

김준우 (경찰청 수사과) , 손중권 (경북대학교 자연과학대학 통계학과) , 이상한 (경북대학교 의과대학 법의학교실)

초록
AI-Helper

데이터 마이닝은 컴퓨터와 정보처리의 발전으로 각기 다른 차원에서 다량으로 수집되는 데이터 속에서 숨은 의미나 패턴을 발견하는 유용한 기법이다. 의사결정나무, 신경망 모형, 규칙 귀납, K-평균 군집화, 시각화 등의 데이터 마이닝 개별 기법들은 산재해 있는 데이터에서 연관성을 분석하고, 이를 분류함으로써 일반화된 개념을 정의하고, 새로운 지식을 추론함으로써 실제 생활에 적용 가능한 예측을 가능하게 한다. 따라서 현재 데이터 마이닝은 기업의 마케팅 분야, 금융기관의 고객 분석, 통신 회사의 고객 이탈 방지 등에서 유용하게 활용되고 있다. 우리가 접해야 하는 정보의 양이 늘어나는 것은 범죄 수사에 있어서도 마찬가지 현상이다. 범죄와 범죄자에 대한 데이터는 축적되어 가지만 정작 개별 사안에 있어서는 중요한 데이터가 접근조차 되지 않고 있으며, 많은 데이터 속에서 이것이 내포하고 있는 숨은 의미를 지나치게 되는 경우도 많다. 본 연구에서는 선행 연구와 사례 적용을 통해 데이터 마이닝의 범죄 수사 적용 가능성과 한계점을 살펴보고자 하였다. 미제 사건으로 남는 경우가 많은 절도나 사기 같은 습관적 상습 범죄의 경우 데이터 마이닝의 분류, 군집화 기능을 활용 한다면 향후 여죄 추적에 효율적으로 활용될 수 있음을 파악할 수 있었고, 특히 다양한 문제에 적용 가능하고, 잡음에 대한 견고성이 있음에도 예측의 정확성을 지니고 있는 신경망 모형의 경우 패턴 인식을 통하여 범죄자 프로파일링이나 화상 자료 대비 시스템 구축에 충분히 활용될 것으로 생각한다. 특히 보험 사기 사례 적용에서 살펴본 바와 같이 마약, 테러와 같은 조직적 범죄수사나 자금세탁과 같은 금융 추적 수사의 경우 해당 자료의 방대함과 모호성으로 인해 수사를 하는 데 많은 어려움이 있지만 이러한 데이터 마이닝 가시화 기법을 적절히 활용한다면 전체적인 윤곽을 파악하는 데 매우 유용하며, 효율적인 수사가 가능함을 확인할 수 있었다. 그러나 데이터 마이닝은 예측 모델이므로 오류를 내재하고 있다는 점에서 수사 기관의 데이터 마이닝 접근은 조심스러워야 하며, 정보 독점화 현상과 개인 사생활 보호라는 측면에서 각 수사기관은 해당 법률에 정한 범위 내에서 해당 사건별로 데이터를 수집하고 이를 통합, 재구성하여 활용하는 측면으로 적용되어야 할 것이다. 또한 각 수사기관별로는 자신의 보유하고 있는 데이터에 대해 다차원 처리가 가능하도록 데이터베이스 시스템을 구축하여 데이터 마이닝이 적용 가능한 환경을 구축하도록 하여야 할 것이다. 아직은 논의의 초기 단계이므로 효과가 크게 부각되지는 않았지만 지금까지 제시한 문제에 대한 연구가 계속 이루어진다면 인권중심, 증거중심의 수사 개념을 바탕으로 적법절차에 의한 수사 활동을 요구받는 시대에 새로운 대안으로 자리 잡을 것이며, 수사의 과학화에 기여할 것으로 전망한다.

Abstract ▼ AI-Helper

Data mining is an information extraction activity to discover hidden facts contained in databases. Using a combination of machine learning, statistical analysis, modeling techniques and database technology, data mining finds patterns and subtle relationships in data and infers rules that allow the prediction of future results. Typical applications include market segmentation, customer profiling, fraud detection, evaluation of retail promotions, and credit risk analysis. Law enforcement agencies deal with mass data to investigate the crime and its amount is increasing due to the development of processing the data by using computer. Now new challenge to discover knowledge in that data is confronted to us. It can be applied in criminal investigation to find offenders by analysis of complex and relational data structures and free texts using their criminal records or statement texts. This study was aimed to evaluate possibile application of data mining and its limitation in practical criminal investigation. Clustering of the criminal cases will be possible in habitual crimes such as fraud and burglary when using data mining to identify the crime pattern. Neural network modelling, one of tools in data mining, can be applied to differentiating suspect's photograph or handwriting with that of convict or criminal profiling. A case study of in practical insurance fraud showed that data mining was useful in organized crimes such as gang, terrorism and money laundering. But the products of data mining in criminal investigation should be cautious for evaluating because data mining just offer a clue instead of conclusion. The legal regulation is needed to control the abuse of law enforcement agencies and to protect personal privacy or human rights.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

지금까지 데이터 마이닝의 개념과 그 과정에 대해 살펴보았다. 그렇다면 이러한 데이터 마이닝을 통해 우리는 어떤 의미와 패턴을 찾을 수 있는지 살펴보도록 한다.
데이터 마이닝의 수사 적용 가능성에 대해 본 연구에서는 크게 두 가지 방법으로 접근하고자 한다. 우선, 데이터 마이닝에 대한 개념과 기능을 정리하고, 이의 적용과정을 파악하기 위해 문헌 연구를 실시하였다.
이는 데이터 마이닝을 넓은 개념으로 파악하는 것이다. 따라서 본 논문에서는 위 몬트리얼 학술대회에서 밝힌 바와 같이 데이터 마이닝을 지식탐사단계 중 패턴 및 지식 추출을 위한 탐사단계로서의 좁은 의미로 파악하도록 한다.
본 연구는 각 사건마다 접하는 데이터의 종류가 다양해지고, 그 양이 많아지고 있는 상황에서 이를 분석하는 새로운 방법론이 필요하다는 인식하에 최근 데이터 처리의 대안으로 대두되고 있는 데이터 마이닝의 수사 적용 가능성에 대해 고찰하고자 한다. 구체적으로 본 연구에서 다루고자 하는 문제는 다음과 같다.
시각화 작업은 독단적 기법으로 활용되기보다 KDD 마지막 단계에서 예측 결과나 각 기법 적용과정의 이해를 높이는데 많이 사용되므로 통상 데이터 마이닝의 기법에 시각화 기법을 생략하는 경우도 많으나 후술할 데이터 마이닝 수사 적용에 있어 범죄 조직간 관계 파악에 유용하게 활용되므로 본 논문에서는 시각화기법을 따로 들어 설명하도록 한다.
데이터 마이닝의 수사 적용 가능성에 대해 본 연구에서는 크게 두 가지 방법으로 접근하고자 한다. 우선, 데이터 마이닝에 대한 개념과 기능을 정리하고, 이의 적용과정을 파악하기 위해 문헌 연구를 실시하였다. 다양한 학문적 접근 방법인 데이터 마이닝의 정의와 절차를 검토하고, 그 목적과 구체적인 기법을 살펴봄으로써 실제 수사에 적용 가능한 방법론을 모색하였으며, 외국 선행 연구 및 적용사례를 소개하였다.
또한 어느 한 기법들이 독자적으로 사용되는 것은 아니고 데이터 마이닝을 하는데 있어 복합적으로 사용될 수 있다(data mining hybrid technique). 이에 본 논문에서는 가장 많이 사용되는 대표적인 기법들을 소개하고 이의 적용 예를 살펴보도록 한다.
연관성 분석은 주어진 데이터의 집합에서 빈번하게 발생하는 속성(attribute), 값(value)의 조건들을 나타내는 연관 규칙(association rule)을 발견하는 것이다. 즉 데이터 내에 존재하는 친화도나 패턴을 찾아 연관성이 많은 것을 발견해내는 것이다.
분류는 일련의 범주들이 사전에 제시되어 있을 때, 특정한 데이터의 항목은 이러한 분류 체계 중 어디에 속하는 것을 밝히는 것을 말한다. 즉 데이터의 클래스나 개념을 설명하고, 구별하는 모델들의 집합을 찾는 과정이며, 그 모델을 이용하여 클래스의 레이블이 알려져 있지 않은 객체들의 클래스를 예측하는데 그 목적이 있다. 기존의 데이터에서 추출한 훈련 데이터(training data)를 토대로 이를 분석하여 모델을 유도한 다음 새로운 레이블을 예측하는 것이다.
지금까지 데이터 마이닝의 개념과 그 과정에 대해 살펴보았다. 그렇다면 이러한 데이터 마이닝을 통해 우리는 어떤 의미와 패턴을 찾을 수 있는지 살펴보도록 한다.

제안 방법

즉 데이터의 클래스나 개념을 설명하고, 구별하는 모델들의 집합을 찾는 과정이며, 그 모델을 이용하여 클래스의 레이블이 알려져 있지 않은 객체들의 클래스를 예측하는데 그 목적이 있다. 기존의 데이터에서 추출한 훈련 데이터(training data)를 토대로 이를 분석하여 모델을 유도한 다음 새로운 레이블을 예측하는 것이다.
우선, 데이터 마이닝에 대한 개념과 기능을 정리하고, 이의 적용과정을 파악하기 위해 문헌 연구를 실시하였다. 다양한 학문적 접근 방법인 데이터 마이닝의 정의와 절차를 검토하고, 그 목적과 구체적인 기법을 살펴봄으로써 실제 수사에 적용 가능한 방법론을 모색하였으며, 외국 선행 연구 및 적용사례를 소개하였다.
다음으로, 구체적 사안에 대해 데이터 마이닝이 어떻게 적용될 수 있는가를 파악하기 위해 사례 분석을 실시하였다. 특정 단서를 바탕으로 조직적 체계를 파악하기 위해 본 연구에서는 보험사기 혐의 용의자에 대한 시각화 분석을 적용하였다.
둘째, 데이터 마이닝 기법이 실제 수사에 있어서 어떻게 적용될 수 있는지 그 가능성에 대해 살펴보고, 각 기법들이 적용 가능한 범죄유형과 수사기법을 살펴본다.
사례 분석에서 이용된 보험회사 자료의 데이터 자체를 직접 확보하는 것은 개인 정보에 관한 것이고, 각 관련자와 보험 회사의 수가 다수인 관계로 어려운 점이 있어 테이터 마이닝 툴(tool)이나 시각화 툴을 이용할 수 없었고, 따라서 미리 확보된 자료를 바탕으로 데이터 마이닝 과정을 수작업 해둔 것임을 미리 밝혀둔다. 마지막으로 위에서 살펴본 과정을 통해 수사 적용에 있어 데이터 마이닝이 가지는 효용성과 한계점은 무엇인지 정리하고, 이에 따른 앞으로의 전망과 연구 과제를 제시하였다.
우선 분류오류를 크게 할 위험이 크거나 부적절한 추론규칙을 가지고 있는 데이터를 제거한 후(가지치기), 분석 목적과 자료구조에 따라 적절한 분리기준과 정지규칙을 지정하여 의사결정나무를 얻는다. 마지막으로 이익도표나 위험도표 또는 검증용 자료와 교차타당성을 검토하여 의사결정나무로 도출한 결론을 검증한다.
24. 보험금 지급된 점, 교통사고 이전 디스크 병력이 있는 점, 교통사고의 내용이 인적이 드문 장소에서 단독사고인 점등으로 사기 혐의가 있다고 판단하여 금융감독원 보험조사실에 본 용의자의 과거 보험금 지급 내역을 의뢰하였다(표 2). 위 자료를 바탕으로 피해자수가 7명인 사건에 대해 다른 피해자의 인적피해 및 보상내역에 대한 자료를 다시 의뢰하였다(표 3).
19. 사고의 피해자 7명 중 용의자 김○○는 타 피해자와 비슷한 부상정도를 보이면서도 유독 장기입원하여 많은 보험금을 수령한 것을 파악하여 유력한 용의자로 판단, 위 용의자 김○○의 4건 사고와 관련된 모든 사람에 대한 관계를 데이터 마이닝 시각화 기법을 이용하여 제시하였다(그림 7).
보험금 지급된 점, 교통사고 이전 디스크 병력이 있는 점, 교통사고의 내용이 인적이 드문 장소에서 단독사고인 점등으로 사기 혐의가 있다고 판단하여 금융감독원 보험조사실에 본 용의자의 과거 보험금 지급 내역을 의뢰하였다(표 2). 위 자료를 바탕으로 피해자수가 7명인 사건에 대해 다른 피해자의 인적피해 및 보상내역에 대한 자료를 다시 의뢰하였다(표 3).
지금부터 위에서 살펴본 데이터 마이닝 기법들을 이용하여 실제 사례에 적용하여 보도록 한다. 본 건에 이용된 사례는 실제 사기 건으로 접수된 것을 바탕으로 인적사항과 특정 회사의 명칭은 생략하고, 날짜는 재구성한 것임을 밝혀 둔다.
첫째, 테이터 마이닝의 정의와 그 기법을 개괄적으로 살피고, 각 기법이나 모델의 유형들이 어떤 문제에 효과적으로 적용될 수 있는지를 비교, 분석한다.
다음으로, 구체적 사안에 대해 데이터 마이닝이 어떻게 적용될 수 있는가를 파악하기 위해 사례 분석을 실시하였다. 특정 단서를 바탕으로 조직적 체계를 파악하기 위해 본 연구에서는 보험사기 혐의 용의자에 대한 시각화 분석을 적용하였다. 본 연구에 사용된 자료는 실제 사건 접수된 것으로 금융감독원의 자료를 바탕으로 하였다.

대상 데이터

특정 단서를 바탕으로 조직적 체계를 파악하기 위해 본 연구에서는 보험사기 혐의 용의자에 대한 시각화 분석을 적용하였다. 본 연구에 사용된 자료는 실제 사건 접수된 것으로 금융감독원의 자료를 바탕으로 하였다. 인적자료에 관한 기재는 생략하였고, 특정 회사의 명칭도 가상으로 하였다.
본 연구에 사용된 자료는 실제 사건 접수된 것으로 금융감독원의 자료를 바탕으로 하였다. 인적자료에 관한 기재는 생략하였고, 특정 회사의 명칭도 가상으로 하였다. 사례 분석에서 이용된 보험회사 자료의 데이터 자체를 직접 확보하는 것은 개인 정보에 관한 것이고, 각 관련자와 보험 회사의 수가 다수인 관계로 어려운 점이 있어 테이터 마이닝 툴(tool)이나 시각화 툴을 이용할 수 없었고, 따라서 미리 확보된 자료를 바탕으로 데이터 마이닝 과정을 수작업 해둔 것임을 미리 밝혀둔다.

성능/효과

인적자료에 관한 기재는 생략하였고, 특정 회사의 명칭도 가상으로 하였다. 사례 분석에서 이용된 보험회사 자료의 데이터 자체를 직접 확보하는 것은 개인 정보에 관한 것이고, 각 관련자와 보험 회사의 수가 다수인 관계로 어려운 점이 있어 테이터 마이닝 툴(tool)이나 시각화 툴을 이용할 수 없었고, 따라서 미리 확보된 자료를 바탕으로 데이터 마이닝 과정을 수작업 해둔 것임을 미리 밝혀둔다. 마지막으로 위에서 살펴본 과정을 통해 수사 적용에 있어 데이터 마이닝이 가지는 효용성과 한계점은 무엇인지 정리하고, 이에 따른 앞으로의 전망과 연구 과제를 제시하였다.
용의자 김○○를 중심으로 보험모집인, 가해자, 피해자, 보험금 수령인, 피계약자, 수익자, 보험회사, 가해 및 피해 동승자 등의 관련자 117명에 대한 시각화를 통해 위와 같은 결과를 도출하였다. 전체적으로 하나의 닫힌 고리를 형성하면서 큰 내부 고리는 5개의 외부 작은 고리와 연결되어 있는 것으로 파악되나 내부 고리와 외부 고리의 관련성은 강하게 나타나지 않았다. 만약 한 사고의 가해자나 가해 동승자가 다른 사고의 피해자나 피해 동승자가 된다면 이러한 각 외부 고리의 개체는 내부 큰 고리와 더 많은 공유점을 나타낼 것이나 본 자료에서는 이러한 경향은 관찰되지 않았다.
범죄 수사를 위해 많은 사람을 만나고, 많은 자료를 접하는 수사관들에게 방대한 양의 데이터를 분석하는데 있어 데이터 마이닝은 분명 많은 가능성을 제시하고 있다. 특히 시각화를 바탕으로 조직 체계를 밝혀내는 기법은 외국의 예나 사례 분석에서 밝혔듯이 탁월한 효과가 있음을 확인하였다. 뿐만 아니라 과거 범죄와 범죄자들에 의한 데이터가 축적되어 효율적인 데이터 마이닝 기법이 적용된다면 향후 미제 범죄에 대한 중요한 단서가 제시될 수 있을 것으로 판단된다.

후속연구

그러나 사고 관련자 간에 전체의 닫힌 형태를 이루고 있는 점, 좌측 하단 부의 모험모집인간에 순환연결 이루고 있는 점 등을 볼 때 조직적 보험 사기의 가능성은 충분히 시사하며 이에 대한 수사가 이루어져야 할 것으로 판단된다.
절도와 사기 등의 범죄는 습벽에 의한 상습성을 띄는 경우가 많으나 개별 사건에 있어 각각 범죄자를 특정하기에는 많은 어려움이 있고 미제로 남는 경우가 많다. 따라서 이러한 개별 미제 사건에 대해 데이터 마이닝의 군집화를 통해 큰 유형으로 분류한다면 향후 범인 검거시 효율적으로 활용될 수 있을 것이다.
데이터 마이닝의 신경망 기법은 해석력은 떨어지나 예측의 정확성과 다양한 문제에 대한 적용가능성, 잡음에 대한 견고성을 띄고 있다. 따라서 이러한 신경망 모형을 바탕으로 인지과학의 개념을 도입한다면 과거 전과자의 얼굴 화상 자료를 분석하여 군집화 하여 놓은 데이터베이스를 바탕으로 CCTV 등에 촬영된 용의자의 얼굴과 대비하는 시스템의 구축이 가능할 것이다.
특히 시각화를 바탕으로 조직 체계를 밝혀내는 기법은 외국의 예나 사례 분석에서 밝혔듯이 탁월한 효과가 있음을 확인하였다. 뿐만 아니라 과거 범죄와 범죄자들에 의한 데이터가 축적되어 효율적인 데이터 마이닝 기법이 적용된다면 향후 미제 범죄에 대한 중요한 단서가 제시될 수 있을 것으로 판단된다. 그 구체적인 활용방안은 다음과 같다.
셋째, 데이터 마이닝의 범죄수사 적용에 있어 효용성 및 한계를 살펴보고 적용 타당성을 검토하여 활용방안을 제시하고자 한다.
무동기 연쇄살인이나 강간의 경우 범죄자와 피해자간의 대면이나 관련성이 없기 때문에 용의자를 추적하는데 많은 어려움이 있다. 이에 수사기관은 이러한 무동기 범죄에 대해 과거 자료를 바탕으로 범죄자에 대한 프로파일링을 하고 있는데, 이 프로파일링에 데이터 마이닝의 연관성 분석과 군집화를 적용하면 많은 양의 데이터를 처리하는데 효율적일 것으로 예상되며, 유사 범죄 발생시 이상치 분석을 통해 무동기 연쇄 살인이 맞는지, 맞다면 어느 범죄 유형과 일치하는지 파악하는데 활용 가능하다.

질의응답

핵심어	질문	논문에서 추출한 답변
	데이터 마이닝이란?	데이터 마이닝은 컴퓨터와 정보처리의 발전으로 각기 다른 차원에서 다량으로 수집되는 데이터 속에서 숨은 의미나 패턴을 발견하는 유용한 기법이다. 의사결정나무, 신경망 모형, 규칙 귀납, K-평균 군집화, 시각화 등의 데이터 마이닝 개별 기법들은 산재해 있는 데이터에서 연관성을 분석하고, 이를 분류함으로써 일반화된 개념을 정의하고, 새로운 지식을 추론함으로써 실제 생활에 적용 가능한 예측을 가능하게 한다.
	연관성 분석은 무엇인가?	연관성 분석은 주어진 데이터의 집합에서 빈번하게 발생하는 속성(attribute), 값(value)의 조건들을 나타내는 연관 규칙(association rule)을 발견하는 것이다. 즉 데이터 내에 존재하는 친화도나 패턴을 찾아 연관성이 많은 것을 발견해내는 것이다.
	데이터 마이닝 기능 중 예측형 범주는 무엇을 말하는가?	일반적으로 이러한 데이터 마이닝 기능은 서술형(descriptive) 범주와 예측형(predictive) 범주로 나눌 수 있다. 서술형 범주는 확보된 데이터에 결과 값이 없는 경우(unsupervised data) 주어진 데이터를 설명하는 패턴을 찾아 데이터 사용자가 이해할 수 있도록 표현하는 것을 말하고, 예측형 범주는 확보된 데이터에 결과 값이 있는 경우(supervised data) 주어진 데이터를 통해 모델을 생성하여 새로운 문제에 적용 가능한 값을 예측하는 것을 말한다. 즉 서술형 마이닝 작업은 데이터 속에 있는 일반적인 특성을 설명하는 것이고, 예측형 마이닝 작업은 미래 의사 결정에 관한 예측을 위해 현재 데이터들로부터 추론을 수행하는 것을 말한다.

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증