$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

소셜데이터 분석 및 인공지능 알고리즘 기반 범죄 수사 기법 연구
Artificial Intelligence Algorithms, Model-Based Social Data Collection and Content Exploration 원문보기

The journal of Bigdata = 한국빅데이터학회지, v.4 no.2, 2019년, pp.23 - 34  

안동욱 ((주) 미소정보기술) ,  임춘성 (연세대학교 산업공학과)

초록
AI-Helper 아이콘AI-Helper

최근 디지털 플랫폼을 활용한 민생 위협 범죄는 '15년 약 14만여 건, '16년 약 15만여 건 등 사이버범죄 지속 증가 추이이며 전통적인 수사기법을 통한 온라인 범죄 대응에 한계가 있다고 판단되고 있다. 현행 수기 온라인 검색 및 인지 수사 방식만으로는 빠르게 변화하는 민생 위협 범죄에 능동적으로 대처 할 수 없으며, 소셜 미디어 특성상 불특정 다수에게 게시되는 콘텐츠로 이루어 졌다는 점에서 더욱 어려움을 겪고 있다. 본 연구는 민생 침해 범죄가 발생하는 온라인 미디어의 특성을 고려한 콘텐츠 웹 수집 방식 중 사이트 중심의 수집과 Open API를 통한 방식을 제시한다. 또한 불법콘텐츠의 특성상 신속히 게시되고 삭제되며 신조어, 변조어 등이 다양하고 빠르게 생성되기 때문에 수작업 등록을 통한 사전 기반 형태소 분석으로는 빠른 인지가 어려운 상황이다. 이를 해소 하고자 온라인에서 벌어지는 민생 침해 범죄를 게시하는 불법 콘텐츠를 빠르게 인지하고 대응하기 위한 데이터 전처리인 WPM(Word Piece Model)을 통하여 기존의 사전 기반의 형태소 분석에서 토크나이징 방식을 제시한다. 데이터의 분석은 불법 콘텐츠의 수사를 위한 지도학습 기반의 분류 알고리즘 모델을 활용, 투표 기반(Voting) 앙상블 메소드를 통하여 최적의 정확도를 검증하고 있다. 본 연구에서는 민생경제를 침해하는 범죄를 사전에 인지하기 위하여 불법 다단계에 대한 사례를 중심으로 분류 알고리즘 모델을 활용하고, 소셜 데이터의 수집과 콘텐츠 수사에 대하여 효과적으로 대응하기 위한 실증 연구를 제시하고 있다.

Abstract AI-Helper 아이콘AI-Helper

Recently, the crime that utilizes the digital platform is continuously increasing. About 140,000 cases occurred in 2015 and about 150,000 cases occurred in 2016. Therefore, it is considered that there is a limit handling those online crimes by old-fashioned investigation techniques. Investigators' m...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 따라서 본 연구는 소셜 데이터 분석 및 인공지능 알고리즘 기반 범죄 수사를 하고자 불법 콘텐츠의 등록부터 홍보까지의 특성을 고려한 수집 기술을 연구하기 위한 최적의 방법론을 제시하고자 한다. 불법 콘텐츠의 특성상 일반적인 홍보 보다는 폐쇄성이 존재하는 곳에 일반적 광고를 통해 회원가입 및 소개발표를 하는 것이 특징이다.
  • 불법 콘텐츠 수사 시 단순 반복 업무에는 인공지능 기술을 활용하여 효율적 개선이 가능하다. 또한 소셜미디어 불법콘텐츠의 특성을 고려한 수집 방법을 연구하고, 불법 콘텐츠에 대한 자연어 처리, 학습, 분석, 분류를 자동화하여 수사 기법 및 역량 향상에 기여하고 실증분석 결과에 따라 불법 콘텐츠 수사의 가치 창출과 경쟁력향상에 기여하고자 한다.
  • 본 논문에서는 불법 콘튼츠의 특성을 감안한 지도학습으로 모형을 만들게 되고 이에 따른 지도학습 분류 알고리즘을 선정하여 앙상블 메소드로 값을 도출하고자 한다.
  • 본 연구는 불법콘텐츠의 특성상 변조어 및 자주 단어를 교체하여 기존의 자연어 처리(Natural Language Processing)로 진행하기에 많은 량의 사전 어휘관리가 필요한 문제를 해결하기 위하여 WPM을 사용하며 이를 기반 하여 학습을 시키는 연구방법을 선택하였다. 이는 불법 콘텐츠에 대응하기 위한 방안을 제시하고자 한다.
  • 본 연구는 인터넷과 소셜 미디어의 발전으로 인해 민생경제에 대한 범죄가 소셜 미디어를 통해 전파되고 모집되며 광고되는 현상을 포착하여 사전 인지 정보화를 연구하였다. 본 논문의 사례인 불법 다단계 콘텐츠의 소셜 미디어 수집 및 전처리 방안을 제시하였으며 이를 분석한 후 분류 알고리즘을 통한 정확도를 산출하였다.
  • 본 장에서는 불법콘텐츠가 일반적 광고를 통해 배포되는 사이트를 선정하고 이의 특징을 가진 키워드 검색 후 제공 받는 Open API방식의 수집과 회원가입을 해야 활동할 수 있는 폐쇄성이 존재하는 사이트를 기준으로 Scraper를 통해 특성을 고려한 수집 방법을 고려하게 된다. 불법콘텐츠의 특성상 이미지를 활용한 게시물이 발생하지만 본 연구의 경우 이미지 수집은 고려하지 않으며 텍스트에 준하여 연구하고자 한다.
  • 기존의 자연어 처리(Natural Language Processing)는 형태소 분석 엔진에 따라 사전을 사용하게 되고 필요에 의해 사용자 사전을 만들게 된다. 이는 많은 어휘를 추가해야하는 문제가 발생하기 때문에 기본적인 BPE알고리즘 기반의 WPM을 제시하고자 한다. BPE(Byte pair encoding) 알고리즘은 1994년에 제안된 데이터 압축 알고리즘이다.
  • 본 연구는 불법콘텐츠의 특성상 변조어 및 자주 단어를 교체하여 기존의 자연어 처리(Natural Language Processing)로 진행하기에 많은 량의 사전 어휘관리가 필요한 문제를 해결하기 위하여 WPM을 사용하며 이를 기반 하여 학습을 시키는 연구방법을 선택하였다. 이는 불법 콘텐츠에 대응하기 위한 방안을 제시하고자 한다.
  • 근래에 경제 범죄에 대한 일반적이고 거시적인 연구는 수행된 적이 있으나, 일반 국민들의 생활과 경제에 직접 침투하는 온라인 민생 범죄의 사전 차단 및 인지 방안에 대한 연구는 수행된 바 없다. 이에 본 연구는 지속적으로 변하는 불법콘텐츠를 자동 분석 및 분류하여 민생 위협 요소 경감에 기여하고자 한다. 불법 콘텐츠 수사 시 단순 반복 업무에는 인공지능 기술을 활용하여 효율적 개선이 가능하다.

가설 설정

  • 첫째 고유 토큰의 수는 사전 정의를 하게 된다. 일반적으로 고정 어휘로 작동하고 대량의 어휘를 가정하는 대부분의 비지도학습의 단어 분할 알고리즘과 달리 SentencePiece는 최종 어휘 크기가 고정되도록 (예 : 8k, 16k 또는 32k) 분할 모델을 학습한다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
NLP란 무엇인가? NLP(Natural Language Processing)란 컴퓨터를 이용하여 사람 언어의 이해, 생성 및 분석을 다루는 인공지능 기술을 뜻한다.(한국정보통신기술협회 IT용어사전, 2015).
한글 형태소 분석과정은 무엇인가? 이러한 한글 형태소 분석의 세부과정은 먼저 특수문자와 숫자 등을 제거하고 단어를 추출하는 전처리 과정, 품사 기준의 형태소를 분리하는 과정, 접미사 분리 과정, 동사와 형용사를 분리해내는 용언 분석 과정, 명사, 대명사, 수사를 분리해내는 체언 분석 과정을 거치며, 이렇게 분리된 형태소를 기반으로 복합어 추정, 조사 생략, 준말처리 등을 통해 사전에 등록된 단어로 문장이 분석되게 된다. 또한 특수한 단어나 어휘를 위하여 사용자 사전이 등록 되어 최종의 문장에서 분리된 단어로 처리하게 된다[1].
웹크롤러는 어디에 활용되는가? 이는 구글, 네이버와 같은 인터넷 검색 사업자 외에도 e-commerce, 상품 리뷰,브랜드 광고등 대부분 인터넷 산업에 적용되는핵심 기술이다. 예로는 네이버 카페, 블로그, 다음, 트위터, 페이스북, 인스타그램 등에서 데이터를 추출하고 분석하여 마케팅이나 브랜드 효과, 제품의 설계 등에 반영할 수 있다.
질의응답 정보가 도움이 되었나요?

참고문헌 (15)

  1. 강정배, "자연어 처리 기술을 활용한 문제행동 유형 분석 연구", 대구대학원 박사논문, 2012. 

  2. Mike Schuster and Kaisuke Nakajima, "JAPANESE AND KOREAN VOICE SEARCH", Google Inc, USA, 2012. 

  3. Rokach, L., 2010, "Ensemble-based classifiers.", Artificial Intelligence Review, vol. 33(1-2), pp.1-39. 

  4. Polikar, R. (2006). "Ensemble based systems in decision making". IEEE Circuits and Systems Magazine, 6 (3): 21-45. doi:10.1109/MCAS.2006.1688199. 

  5. Rokach, L. (2010). "Ensemble-based classifiers". Artificial Intelligence Review, 33(1-2): 1-39. doi: 10.1007/s10462-009-9124-7. 

  6. 이재환, 김보성, 허광호, 고영중, 서정연, Subword 유닛을 이용한 영어-한국어, 2009. 

  7. Sennrich, R., Haddow, B., & Birch, A. (2015). Neural machine translation of rare words with subword units. arXiv preprint arXiv:1508.07909. 

  8. Wang, S., & Manning, C. D. (2012, July). Baselines and bigrams: Simple, good sentiment and topic classification. In Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics: Short Papers-Volume 2 (pp. 90-94). 

  9. Wu, Y., Schuster, M., Chen, Z., Le, Q. V., Norouzi, M., Macherey, W., … & Klingner, J. (2016). Google's neural machine translation system: Bridging the gap between human and machine translation. arXiv preprint arXiv:1609.08144. 

  10. 데이비드 M. 비즐리, 파이썬 완벽 가이드, 2012. 

  11. 황승구, 빅데이터 플랫폼 전략, 2013. 

  12. 김경수, 웹 크롤링 수집주기의 동적 설계 및 구현, 2011. 

  13. 장문수, 정준영, "URL 패턴 스크립트를 이용한 효율적인 웹문서 수집방안", 퍼지 및 지능시스 템학회 논문지, 제17권, 제6호, pp.849-854, 2007. 

  14. C. Bertoli, V. Vrescenzi, and P. Merialdo, "Crawling Programs for Wraller-based Applications", In Proc. IEEE Intl. Conference on Information Reuse and Integration (IRI '08), pp.160-165, 2008. 

  15. M. L. Vidal, A. S. da Silva, E. S. de Moura, and J. M. B. Cavalcanti, "Go GetIt!: a tool for generating structure-driven web crawlers", In Proc. 15th international conference on World Wide Web, pp.1011-1012, 2006. 

저자의 다른 논문 :

관련 콘텐츠

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로