[논문]LSA를 이용한 정형·비정형데이터 분석과 범죄 프로파일링 시스템 구현

김용훈; 정목동

doi:10.9717/kmms.2017.20.1.066

LSA를 이용한 정형·비정형데이터 분석과 범죄 프로파일링 시스템 구현
Analysis of Structured and Unstructured Data and Construction of Criminal Profiling System using LSA 원문보기

멀티미디어학회논문지 = Journal of Korea Multimedia Society, v.20 no.1, 2017년, pp.66 - 73

김용훈 (Dept. of Computer Engineering Pukyong National University) , 정목동 (Dept. of Computer Engineering Pukyong National University)

Abstract ▼ AI-Helper

Due to the recent rapid changes in society and wide spread of information devices, diverse digital information is utilized in a variety of economic and social analysis. Information related to the crime statistics by type of crime has been used as a major factor in crime. However, statistical analysis using only the structured data has the difficulty in the investigation by providing limited information to investigators and users. In this paper, structured data and unstructured data are analyzed by applying Korean Natural Language Processing (Ko-NLP) and the Latent Semantic Analysis (LSA) technique. It will provide a crime profile optimum system that can be applied to the crime profiling system or statistical analysis.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서는 범죄 수사 자료 중 정형화 되지 못한 비정형데이터를 정형데이터로 분석하여 보다 많은 정보를 전문 수사관 및 프로파일러에게 제공하여 직관적 수사, 즉 연역적 수사 및 귀납적 수사 방식으로 활용 할 수 있는 정확하고, 전문적인 정보를 수집, 분석 및 저장하는 시스템을 제안하고자 한다. 본 시스템은 수사자료 및 범죄 면담자료, 사회적 참고자료의 비정형데이터를 Ko-NLP(Korean Natural Lan-guage)[6]를 이용하여 1차 추출하고, 추출된 자료에서 일련의 Pattern을 생성하고, 생성된 Pattern은 별도로 저장하여 데이터 추출에 재사용된다.

제안 방법

본 논문에서 제안하는 시스템은 디지털 포렌식 관련의 비정형데이터 및 SNS 등 자료를 추출하여 범죄자의 위치 및 정보를 제공하는 것이며, 그중 일부분으로 Data Extractor 와 Algorithm 및 Profiling을 설계한 것이며, Fig. 2는 제안하는 모델의 구조 이다.
본 논문에서는 Java와 Matlab을 이용하여 구현 하였고, SVD Processor와 Cosine similarity는 Matlab으로 작성하였고, 작성된 Matlab코드를 Java에서 사용할 수 있는 jar파일로 변환하였고, jar파일을 외부 파일 연결을 이용하여 java에서 import를 이용하여 계산 값을 전달 받으며, 다시 Java 환경의 UI를 이용하여 사용자에게 전달된다.
본 논문에서는 SVD를 matlab으로 계산하였으며, Transition Table의 값을 바탕으로 tf-idf값을 산출하고 LSA를 이용하여 각 범위에 대한 값을 정규화 및 Cosine Similarity를 적용하였다. 정형데이터와 비정형데이터를 적용하였지만, 제안하는 시스템을 적용하기 전 “방화”로 검색 하였을 경우 한명의 범죄자가 조회가 되었으며, 이것은 살인동기가 “방화 살인”으로 정형데이터가 기록되었기 때문이었다.
사상함수는 한 상태에서 입력 Symbol을 보고 다른 상태로 이동하는 것을 나타내기 때문에 상태 전이 함수(state transition function)라 부르며, 그 형태에 따라 결정적 유한 오토마타(DFA : Deterministic Finite Automata)와 비결정적 유한 오토마타(NFA: Nondeterministic Finite Automata)로 나누어지며, 본 논문에서는 Ko-NLP로 분석된 자료를 바탕으로 어휘를 분석하여 패턴을 생성하였고, 패턴은 NFA를 적용하고, Fig. 1은 이러한 NFA를 적용한 상태 전이도이다.
또한 현재의 시스템은 Boolean Search를 기본으로 사용하고 있어 하나의 Category를 선택 후 다른 Category를 선택하고 and, or를 사용함으로 단어의 중요도에 따른 정확한 결과 값을 반영하기 어렵다. 이에 제안하는 시스템은 기존의 시스템에서 정형데이터와 비정형데이터로 인덱스를 구성하는 구조를 추가로 삽입하였으며, LSA를 이용한 Ranking 시스템을 적용함으로서 주요 정형데이터를 중심으로 검색을 할 수 있으며, 또한 비정형데이터를 중심으로 검색이 가능하다. 이러한 결과는 모든 데이터를 정형데이터화 하는 결과로서 현재의 시스템에서의 문제점을 해결 하고자 하였으며, 기존의 시스템과 제안하는 시스템의 차이점은 Fig.
추출된 정형·비정형데이터는 Index를 적용한 배열로 저장하며 수요자 검색 및 요구 시 데이터를 호출하여 선형대수기반 통계학적 기법인 LSA(Latent Singular Analysis)[7]를 적용하여 단어와 문장 간의 유사성 높은 고급 정보를 제공하는 시스템으로 다양한 범죄 및 상황 등에서 실시간으로 조회가 가능한 분석 시스템을 제시한다.

대상 데이터

제안하는 모델을 기반으로 8건의 사건에 정형데이터 131단어 비정형데이터 294단어 총 425 단어를 이용하였다. Transition Table은 가중치를 적용한 column이 마지막에 추가된다.

이론/모형

데이터 추출은 Ko-NLP를 이용하여 1차 추출된 자료를 2절 Fig. 1의 패턴으로 추출하며, 알고리즘은 Fig. 3과 같다.
Ko-NLP(Korea Natural Language Process)는 이러한 자연어에 대한 형태소 분석을 하는 도구이며, 형태소 분석이란 실제의 문장에 사용되는 단어의 원래의 구조를 파악하는 것이다. 본 논문에서 HanNanum Ko-NLP Java version을 활용하여 형태소 분석을 한다.
본 논문에서는 truncated SVD로 근사한 행렬을 사용하며, 일반적으로 차원/Rank라 한다. 차원이 높을수록 단어에 대한 문서정확도는 높일 수 있으나, 선택되지 못한 단어에 대한 가중치가 줄어드는 단점이 있어 연관단어 제공에 어려움이 있는 것으로 밝혀졌으며, 이것은 기계학습을 이용하면 개선 할 수 있을 것으로 기대한다.
본 논문에서는 범죄 수사 자료 중 정형화 되지 못한 비정형데이터를 정형데이터로 분석하여 보다 많은 정보를 전문 수사관 및 프로파일러에게 제공하여 직관적 수사, 즉 연역적 수사 및 귀납적 수사 방식으로 활용 할 수 있는 정확하고, 전문적인 정보를 수집, 분석 및 저장하는 시스템을 제안하고자 한다. 본 시스템은 수사자료 및 범죄 면담자료, 사회적 참고자료의 비정형데이터를 Ko-NLP(Korean Natural Lan-guage)[6]를 이용하여 1차 추출하고, 추출된 자료에서 일련의 Pattern을 생성하고, 생성된 Pattern은 별도로 저장하여 데이터 추출에 재사용된다.

성능/효과

LSA 분석은 Data Mining 기법으로 전체 단어에 대한 연관관계를 계산하여 분석함으로 정형데이터만을 적용하는 것은 다소 부족한 결과 값을 나타낼 수 있다는 결과도 알 수 있었으며, 연구에서 비정형데이터를 적용함은 보다 정확하고 신뢰 높은 분석 자료를 얻을 수 있음을 알 수 있었다.
본 논문에서는 정형·비정형데이터를 이용하여 수사 통계자료 및 프로파일링 자료를 검출할 수 있는 방법에 대하여 제시하였고, 또한 LSA를 이용한 정형데이터와 비정형데이터를 모두 검토할 수 있는 방법에 대하여 제시하였으며, 그 결과 기존의 정형데이터만 사용한 검토 방법보다 제시한 방법이 더욱 정확하고, 다양한 방법으로 접근이 가능함을 알 수 있었으며, 현재 국내의 KICS 시스템에서 사용되는 범주보다 확장하여 많은 범죄 데이터 수요를 만족할 수 있음을 본 연구에서 확인 하였다.
이것은 tf-idf를 이용한 가중치의 적용으로 가중치는 Inverse값으로 적용되고 이에 따라 특정한 단어에 대하여 값이 증가하고 일반 값에 대하여 평이한 값이 적용되어 비슷한 문서일 경우 단어에 대한 일치도가 높아 평이한 값으로 비슷한 값이 설정되지만 특이한 단어에 대한 값의 변동값은 높아서 결국 Fig. 6과 같은 결과 값을 나타내며, 이것은 정형데이터와 비정형데이터를 적용한다면 범죄유형은 다르지만 범행동기가 비슷한 사건의 경우도 구분 할 수 있다는 것을 알 수 있었으며, 연쇄 범죄와 같은 다중범죄의 경우 범행 동기는 비슷하지만, 범행 유형은 다를 수 있다.(범행유형 : 살인, 강도, 상해 등) 다양한 범행 동기를 분석 할 수 있다는 것은 기존의 획일적인 범행 유형별 분류에서는 분석할 수 없지만 범행 동기로 동일범을 유추하고 적용 할 수 있음을 보여 준다.
이러한 결과에 대하여 “살인”이 중심이고 추가정보가 “방화”의 경우, 즉 “살인”, “방화” 2 단어로 검색하였을 경우도 같은 결과를 나타내고 있음을 알 수 있었다.
(범행유형 : 살인, 강도, 상해 등) 다양한 범행 동기를 분석 할 수 있다는 것은 기존의 획일적인 범행 유형별 분류에서는 분석할 수 없지만 범행 동기로 동일범을 유추하고 적용 할 수 있음을 보여 준다. 정형데이터와 비정형데이터의 적용여부도 중요하지만, 수사관 또는 프로파일러가 다량의 값을 입력하고 기존의 boolean Search로 인한 유사성을 분석하였을 경우 일정 값에 대한 획일적 결과 값으로 인하여 결과 값을 정확하게 유추하지 못한다, 하지만 LSA를 이용한 다량의 검색에 있어서 값에 의한 유사성을 검토함으로서 결과적으로 다양한 검토대상을 가장 높은 유사성을 갖는 결과 값부터 순차적으로 적용이 가능함을 알 수 있었다.

후속연구

일반적으로 단어의 중요도를 수치로 표현 할 경우 tf-idf를 적용하며 식 (6)과 같다. 빈도계산에 있어서 불필요한 단어에 대한 최적화 및 근사는 추가로 논의 할 필요가 있다[14, 15].
본 논문에서는 truncated SVD로 근사한 행렬을 사용하며, 일반적으로 차원/Rank라 한다. 차원이 높을수록 단어에 대한 문서정확도는 높일 수 있으나, 선택되지 못한 단어에 대한 가중치가 줄어드는 단점이 있어 연관단어 제공에 어려움이 있는 것으로 밝혀졌으며, 이것은 기계학습을 이용하면 개선 할 수 있을 것으로 기대한다. 본 실험에서 차원을 4로 적용하였다.
향후연구에서는 비정형 데이터의 분석에 퍼지 이론을 적용하여 기존의 단어 검출과 비교에서 문서에 대한 정확한 의미를 발견할 수 있는 연구를 할 계획이다.

질의응답

핵심어	질문	논문에서 추출한 답변
	기존의 시스템에서 범죄의 중복된 항목을 인위적으로 결정하여 정형데이터로 작성하고, 이에 대한 항목을 입력자가 인위적으로 작성하는 것의 문제는 무엇인가?	기존의 시스템의 경우 범죄의 중복된 항목을 인위적으로 결정하여 정형데이터형태로 작성하고, 이에 대한 항목을 인위적으로 입력자가 사건의 내용을 작성하고 있다. 통계적 데이터를 추출하는 방법으로는 정확한 방법이지만, 데이터를 구축하기도 어렵고 발생빈도가 높은 정형데이터를 결정하기에도 부족한 부분이 많으며 결정된 이후 입력자의 실수가 있을 경우 전혀 다른 정보로 이용될 수 있다. 또한 현재의 시스템은 Boolean Search를 기본으로 사용하고 있어 하나의 Category를 선택 후 다른 Category를 선택하고 and, or를 사용함으로 단어의 중요도에 따른 정확한 결과 값을 반영하기 어렵다.
	형태소 분석이란 무엇인가?	비정형 데이터 연구는 Ko-NLP와 유한 오토마타를 이용하며, Ko-NLP는 corpus에 품사를 부여하거나 형태소 해석의 모호한 결과로부터 한 가지 품사를 선정하는 작업을 태깅이라 한다. Ko-NLP(Korea Natural Language Process)는 이러한 자연어에 대한 형태소 분석을 하는 도구이며, 형태소 분석이란 실제의 문장에 사용되는 단어의 원래의 구조를 파악하는 것이다. 본 논문에서 HanNanum Ko-NLP Java version을 활용하여 형태소 분석을 한다.
	사상함수를 상태 전이 함수(state transition function)라고 부르는 이유는 무엇인가?	사상함수는 한 상태에서 입력 Symbol을 보고 다른 상태로 이동하는 것을 나타내기 때문에 상태 전이 함수(state transition function)라 부르며, 그 형태에 따라 결정적 유한 오토마타(DFA : Deterministic Finite Automata)와 비결정적 유한 오토마타(NFA: Nondeterministic Finite Automata)로 나누어지며, 본 논문에서는 Ko-NLP로 분석된 자료를 바탕으로 어휘를 분석하여 패턴을 생성하였고, 패턴은 NFA를 적용하고, Fig. 1은 이러한 NFA를 적용한 상태 전이도이다.

참고문헌 (15)

S. Lee and H. Yoon. "The Study on Strategy of National Information for Electronic Government of S. Korea with Public Data analysed by the Application of Scenario Planning," Journal of The Korea Institute of Electronic Communication Science, Vol 7, No 6, pp. 1259-1273, 2012.
D. Ferrucci and A Lally, "UIMA: An Architectural Approach to Unstructured Information Processing in the Corporate Research Environment," Journal of Natural Language Engineering, Vol. 10, No. 3-4, pp. 327-348, 2004.

상세보기
B. Jang, S. Lee and K. Kwon, "Reversible Watermarking based Video Contents Management and Control technique using Biological Organism Model," Journal of Korea Multimedia Society, Vol 16, No 7, pp. 841-851, 2013.

원문보기 상세보기
S. Lim and C. Kim, "A Research on Conceptual Expandability and the Guidelines on Video Analysis of Moving Images from the Perspectives of Objects," Journal of Korea Multimedia Society, Vol 19, No 9, pp. 1738- 1746, 2016.

원문보기 상세보기
U. Kim, S. Park, J. Seo, H. Park and U. Park, Law and Institutional Improvement Maintenance Management System for Crime Statistics, Korea Institute of Criminology, pp. 13-16, 2015.
Hannanum KAIST Semantic Web Research Center(2010). http://semanticweb.kaist.ac.kr/home/index.php/HanNanum (accessed Mar., 21, 2011)
D. Willis, D.J. Pearce, and J. Noble, "Efficient Object Querying for Java," Proceeding of Journal of European Conference on Object- Oriented, pp. 28-49, 2006.
Y. Kim and M. Chung, "Construction of Criminal Profiling System utilizing Structured and Unstructured Data," Proceeding of The 12th International Conference on Multimedia Infromation Technology and Applications, pp 38-41, 2016.
T.K. Landauer, D.S. McNamara, S.D. Dennis, and W. Kintsch, Handbook of Latent Semantic Analysis, Lawrence Erlbaum, Mahwah, New Jersey, 2007.
J. Huh, and K. Seo, "A Case Study of the Base Technology for the Smart Grid Security: Focusing on a Performance Improvement of the Basic Algorithm for the DDoS Attacks Detection Using CUDA," Journal of Korea Multimedia Society, Vol. 19, No. 2, pp. 411- 417, 2016.

원문보기 상세보기
P.D. Turney and P. Pantel, "From Frequency to Meaning: Vector Space Models of Semantics," Journal of Artificial Intelligence Research, 37, pp. 141-188, 2010.

상세보기
G. Saltron, A. Wong, and C.S. Yang, "Vector Space Model for Automatic Indexing," Journal of Communications of the Association for Computing Machinery, Vol. 18, No 11, pp. 613-620, 1975.

상세보기
J. Huh and S. Koh, "Advanced Metering Infrastructure Design and Test Bed Experiment Using Intelligent Agents," Journal of Supercomputing, Vol. 72, No. 5, pp. 1862- 1877, 2016.

상세보기
H. Song and O. Kwon, "An Approximation Algorithm based on First-fit Strategy for Template Packing Problem," Journal of Korea Multimedia Society, Vol 19, No 2, pp. 443-450, 2016.

원문보기 상세보기
S. Yang and M. Chung, "A Context-Aware Information Service using FCM Clustering Algorithm and Fuzzy Decision Tree," Journal of Korea Multimedia Society, Vol 16, No 7, pp. 810-819, 2013.

원문보기 상세보기

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증