최근 디지털 플랫폼을 활용한 민생 위협 범죄는 '15년 약 14만여 건, '16년 약 15만여 건 등 사이버범죄 지속 증가 추이이며 전통적인 수사기법을 통한 온라인 범죄 대응에 한계가 있다고 판단되고 있다. 현행 수기 온라인 검색 및 인지 수사 방식만으로는 빠르게 변화하는 민생 위협 범죄에 능동적으로 대처 할 수 없으며, 소셜 미디어 특성상 불특정 다수에게 게시되는 콘텐츠로 이루어 졌다는 점에서 더욱 어려움을 겪고 있다. 본 연구는 민생 침해 범죄가 발생하는 온라인 미디어의 특성을 고려한 콘텐츠 웹 수집 방식 중 사이트 중심의 수집과 Open API를 통한 방식을 제시한다. 또한 불법콘텐츠의 특성상 신속히 게시되고 삭제되며 신조어, 변조어 등이 다양하고 빠르게 생성되기 때문에 수작업 등록을 통한 사전 기반 형태소 분석으로는 빠른 인지가 어려운 상황이다. 이를 해소 하고자 온라인에서 벌어지는 민생 침해 범죄를 게시하는 불법 콘텐츠를 빠르게 인지하고 대응하기 위한 데이터 전처리인 WPM(Word Piece Model)을 통하여 기존의 사전 기반의 형태소 분석에서 토크나이징 방식을 제시한다. 데이터의 분석은 불법 콘텐츠의 수사를 위한 지도학습 기반의 분류 알고리즘 모델을 활용, 투표 기반(Voting) 앙상블 메소드를 통하여 최적의 정확도를 검증하고 있다. 본 연구에서는 민생경제를 침해하는 범죄를 사전에 인지하기 위하여 불법 다단계에 대한 사례를 중심으로 분류 알고리즘 모델을 활용하고, 소셜 데이터의 수집과 콘텐츠 수사에 대하여 효과적으로 대응하기 위한 실증 연구를 제시하고 있다.
최근 디지털 플랫폼을 활용한 민생 위협 범죄는 '15년 약 14만여 건, '16년 약 15만여 건 등 사이버범죄 지속 증가 추이이며 전통적인 수사기법을 통한 온라인 범죄 대응에 한계가 있다고 판단되고 있다. 현행 수기 온라인 검색 및 인지 수사 방식만으로는 빠르게 변화하는 민생 위협 범죄에 능동적으로 대처 할 수 없으며, 소셜 미디어 특성상 불특정 다수에게 게시되는 콘텐츠로 이루어 졌다는 점에서 더욱 어려움을 겪고 있다. 본 연구는 민생 침해 범죄가 발생하는 온라인 미디어의 특성을 고려한 콘텐츠 웹 수집 방식 중 사이트 중심의 수집과 Open API를 통한 방식을 제시한다. 또한 불법콘텐츠의 특성상 신속히 게시되고 삭제되며 신조어, 변조어 등이 다양하고 빠르게 생성되기 때문에 수작업 등록을 통한 사전 기반 형태소 분석으로는 빠른 인지가 어려운 상황이다. 이를 해소 하고자 온라인에서 벌어지는 민생 침해 범죄를 게시하는 불법 콘텐츠를 빠르게 인지하고 대응하기 위한 데이터 전처리인 WPM(Word Piece Model)을 통하여 기존의 사전 기반의 형태소 분석에서 토크나이징 방식을 제시한다. 데이터의 분석은 불법 콘텐츠의 수사를 위한 지도학습 기반의 분류 알고리즘 모델을 활용, 투표 기반(Voting) 앙상블 메소드를 통하여 최적의 정확도를 검증하고 있다. 본 연구에서는 민생경제를 침해하는 범죄를 사전에 인지하기 위하여 불법 다단계에 대한 사례를 중심으로 분류 알고리즘 모델을 활용하고, 소셜 데이터의 수집과 콘텐츠 수사에 대하여 효과적으로 대응하기 위한 실증 연구를 제시하고 있다.
Recently, the crime that utilizes the digital platform is continuously increasing. About 140,000 cases occurred in 2015 and about 150,000 cases occurred in 2016. Therefore, it is considered that there is a limit handling those online crimes by old-fashioned investigation techniques. Investigators' m...
Recently, the crime that utilizes the digital platform is continuously increasing. About 140,000 cases occurred in 2015 and about 150,000 cases occurred in 2016. Therefore, it is considered that there is a limit handling those online crimes by old-fashioned investigation techniques. Investigators' manual online search and cognitive investigation methods those are broadly used today are not enough to proactively cope with rapid changing civil crimes. In addition, the characteristics of the content that is posted to unspecified users of social media makes investigations more difficult. This study suggests the site-based collection and the Open API among the content web collection methods considering the characteristics of the online media where the infringement crimes occur. Since illegal content is published and deleted quickly, and new words and alterations are generated quickly and variously, it is difficult to recognize them quickly by dictionary-based morphological analysis registered manually. In order to solve this problem, we propose a tokenizing method in the existing dictionary-based morphological analysis through WPM (Word Piece Model), which is a data preprocessing method for quick recognizing and responding to illegal contents posting online infringement crimes. In the analysis of data, the optimal precision is verified through the Vote-based ensemble method by utilizing a classification learning model based on supervised learning for the investigation of illegal contents. This study utilizes a sorting algorithm model centering on illegal multilevel business cases to proactively recognize crimes invading the public economy, and presents an empirical study to effectively deal with social data collection and content investigation.
Recently, the crime that utilizes the digital platform is continuously increasing. About 140,000 cases occurred in 2015 and about 150,000 cases occurred in 2016. Therefore, it is considered that there is a limit handling those online crimes by old-fashioned investigation techniques. Investigators' manual online search and cognitive investigation methods those are broadly used today are not enough to proactively cope with rapid changing civil crimes. In addition, the characteristics of the content that is posted to unspecified users of social media makes investigations more difficult. This study suggests the site-based collection and the Open API among the content web collection methods considering the characteristics of the online media where the infringement crimes occur. Since illegal content is published and deleted quickly, and new words and alterations are generated quickly and variously, it is difficult to recognize them quickly by dictionary-based morphological analysis registered manually. In order to solve this problem, we propose a tokenizing method in the existing dictionary-based morphological analysis through WPM (Word Piece Model), which is a data preprocessing method for quick recognizing and responding to illegal contents posting online infringement crimes. In the analysis of data, the optimal precision is verified through the Vote-based ensemble method by utilizing a classification learning model based on supervised learning for the investigation of illegal contents. This study utilizes a sorting algorithm model centering on illegal multilevel business cases to proactively recognize crimes invading the public economy, and presents an empirical study to effectively deal with social data collection and content investigation.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
따라서 본 연구는 소셜 데이터 분석 및 인공지능 알고리즘 기반 범죄 수사를 하고자 불법 콘텐츠의 등록부터 홍보까지의 특성을 고려한 수집 기술을 연구하기 위한 최적의 방법론을 제시하고자 한다. 불법 콘텐츠의 특성상 일반적인 홍보 보다는 폐쇄성이 존재하는 곳에 일반적 광고를 통해 회원가입 및 소개발표를 하는 것이 특징이다.
불법 콘텐츠 수사 시 단순 반복 업무에는 인공지능 기술을 활용하여 효율적 개선이 가능하다. 또한 소셜미디어 불법콘텐츠의 특성을 고려한 수집 방법을 연구하고, 불법 콘텐츠에 대한 자연어 처리, 학습, 분석, 분류를 자동화하여 수사 기법 및 역량 향상에 기여하고 실증분석 결과에 따라 불법 콘텐츠 수사의 가치 창출과 경쟁력향상에 기여하고자 한다.
본 논문에서는 불법 콘튼츠의 특성을 감안한 지도학습으로 모형을 만들게 되고 이에 따른 지도학습 분류 알고리즘을 선정하여 앙상블 메소드로 값을 도출하고자 한다.
본 연구는 불법콘텐츠의 특성상 변조어 및 자주 단어를 교체하여 기존의 자연어 처리(Natural Language Processing)로 진행하기에 많은 량의 사전 어휘관리가 필요한 문제를 해결하기 위하여 WPM을 사용하며 이를 기반 하여 학습을 시키는 연구방법을 선택하였다. 이는 불법 콘텐츠에 대응하기 위한 방안을 제시하고자 한다.
본 연구는 인터넷과 소셜 미디어의 발전으로 인해 민생경제에 대한 범죄가 소셜 미디어를 통해 전파되고 모집되며 광고되는 현상을 포착하여 사전 인지 정보화를 연구하였다. 본 논문의 사례인 불법 다단계 콘텐츠의 소셜 미디어 수집 및 전처리 방안을 제시하였으며 이를 분석한 후 분류 알고리즘을 통한 정확도를 산출하였다.
본 장에서는 불법콘텐츠가 일반적 광고를 통해 배포되는 사이트를 선정하고 이의 특징을 가진 키워드 검색 후 제공 받는 Open API방식의 수집과 회원가입을 해야 활동할 수 있는 폐쇄성이 존재하는 사이트를 기준으로 Scraper를 통해 특성을 고려한 수집 방법을 고려하게 된다. 불법콘텐츠의 특성상 이미지를 활용한 게시물이 발생하지만 본 연구의 경우 이미지 수집은 고려하지 않으며 텍스트에 준하여 연구하고자 한다.
기존의 자연어 처리(Natural Language Processing)는 형태소 분석 엔진에 따라 사전을 사용하게 되고 필요에 의해 사용자 사전을 만들게 된다. 이는 많은 어휘를 추가해야하는 문제가 발생하기 때문에 기본적인 BPE알고리즘 기반의 WPM을 제시하고자 한다. BPE(Byte pair encoding) 알고리즘은 1994년에 제안된 데이터 압축 알고리즘이다.
본 연구는 불법콘텐츠의 특성상 변조어 및 자주 단어를 교체하여 기존의 자연어 처리(Natural Language Processing)로 진행하기에 많은 량의 사전 어휘관리가 필요한 문제를 해결하기 위하여 WPM을 사용하며 이를 기반 하여 학습을 시키는 연구방법을 선택하였다. 이는 불법 콘텐츠에 대응하기 위한 방안을 제시하고자 한다.
근래에 경제 범죄에 대한 일반적이고 거시적인 연구는 수행된 적이 있으나, 일반 국민들의 생활과 경제에 직접 침투하는 온라인 민생 범죄의 사전 차단 및 인지 방안에 대한 연구는 수행된 바 없다. 이에 본 연구는 지속적으로 변하는 불법콘텐츠를 자동 분석 및 분류하여 민생 위협 요소 경감에 기여하고자 한다. 불법 콘텐츠 수사 시 단순 반복 업무에는 인공지능 기술을 활용하여 효율적 개선이 가능하다.
가설 설정
첫째 고유 토큰의 수는 사전 정의를 하게 된다. 일반적으로 고정 어휘로 작동하고 대량의 어휘를 가정하는 대부분의 비지도학습의 단어 분할 알고리즘과 달리 SentencePiece는 최종 어휘 크기가 고정되도록 (예 : 8k, 16k 또는 32k) 분할 모델을 학습한다.
제안 방법
3. Test time에는 새로 입력된 문장을 마찬가지로 캐릭터 단위로 다 분할을 한 뒤, 사전에 저장되어 있는 Subword를 적용시켜 입력 문장을 Subword 기반으로 분해한다.
본 연구에서 제안하는 분석 모델은 기본적으로 분류 모델로써 체계적으로 구성된 데이터 형태의 불법성 콘텐츠를 분리 하였다. WPM을 사용하여 데이터의 학습셋을 기반으로 학습 및 분류를 통하여 정확도 측정 및 검증을 진행하고자 한다. 또한 불법 콘텐츠라는 학습데이터를 기준으로 지도학습을 통한 분류를 해야 한다.
데이터의 전처리는 분석을 위한 1차적인 형태소 분석을 진행하나 일반적인 사전을 활용한 형태소 분석이 아닌 WPM 모델을 사용함으로 새로운 신조어나 변조어에 대한 자동 인지를 강화 하고자 한다. 데이터 전처리 후 분석 시 이러한 형태의 지도학습 데이터를 통해 분류알고리즘의 정확도를 기준하여 분석 방법의 모형을 제시하고자 한다.
또한 Open API의 경우 반복적인 키워드를 호출하여 중복을 제거 하게 된다. 데이터의 전처리는 분석을 위한 1차적인 형태소 분석을 진행하나 일반적인 사전을 활용한 형태소 분석이 아닌 WPM 모델을 사용함으로 새로운 신조어나 변조어에 대한 자동 인지를 강화 하고자 한다. 데이터 전처리 후 분석 시 이러한 형태의 지도학습 데이터를 통해 분류알고리즘의 정확도를 기준하여 분석 방법의 모형을 제시하고자 한다.
민생범죄의 불법다단계에 대한 데이터 처리를 위한 학습데이터의 요소는 작성자, 작성자그룹, 콘텐츠를 기초로 학습데이터를 진행하며 sentencepiece 토크나이져를 활용하여 텍스트를 <그림 8>과 같이 유니그램 언어모델 기반으로 형태소로 분리시키며 형태소는 위키피디아, 수집데이터, 세종말뭉치 등으로 코퍼스기반의 학습을 진행하였다. 또한 불법성이 있는 다단계 확정글에 대한 전문가 태깅 데이터를 12차수 준비하여 각각의 학습단계의 정확도를 향상시켰다.
민생범죄의 불법다단계에 대한 데이터 처리를 위한 학습데이터의 요소는 작성자, 작성자그룹, 콘텐츠를 기초로 학습데이터를 진행하며 sentencepiece 토크나이져를 활용하여 텍스트를 과 같이 유니그램 언어모델 기반으로 형태소로 분리시키며 형태소는 위키피디아, 수집데이터, 세종말뭉치 등으로 코퍼스기반의 학습을 진행하였다.
본 연구는 인터넷과 소셜 미디어의 발전으로 인해 민생경제에 대한 범죄가 소셜 미디어를 통해 전파되고 모집되며 광고되는 현상을 포착하여 사전 인지 정보화를 연구하였다. 본 논문의 사례인 불법 다단계 콘텐츠의 소셜 미디어 수집 및 전처리 방안을 제시하였으며 이를 분석한 후 분류 알고리즘을 통한 정확도를 산출하였다. 이는 불특정 다수에게 전파되는 불법성 콘텐츠를 수작업으로 찾아서 확인하는 방식을 크게 개선 할 수있다.
본 연구에서 제안하는 분석 모델은 기본적으로 분류 모델로써 체계적으로 구성된 데이터 형태의 불법성 콘텐츠를 분리 하였다. WPM을 사용하여 데이터의 학습셋을 기반으로 학습 및 분류를 통하여 정확도 측정 및 검증을 진행하고자 한다.
본 연구에서는 소셜 데이터 분석 및 인공지능 알고리즘 기반 범죄 수사 기법 연구를 위하여 소셜 미디어의 수집, 데이터 전처리, 데이터 분석방법을 사용하였고, 인공지능 기반의 연구 모형을 만들었다. 상위 계층 모형은 데이터 수집, 전처리, 분석 등 3개의 요인들로 설정하였다.
불법 콘텐츠의 특성상 일반적인 홍보 보다는 폐쇄성이 존재하는 곳에 일반적 광고를 통해 회원가입 및 소개발표를 하는 것이 특징이다. 본 장에서는 불법콘텐츠가 일반적 광고를 통해 배포되는 사이트를 선정하고 이의 특징을 가진 키워드 검색 후 제공 받는 Open API방식의 수집과 회원가입을 해야 활동할 수 있는 폐쇄성이 존재하는 사이트를 기준으로 Scraper를 통해 특성을 고려한 수집 방법을 고려하게 된다. 불법콘텐츠의 특성상 이미지를 활용한 게시물이 발생하지만 본 연구의 경우 이미지 수집은 고려하지 않으며 텍스트에 준하여 연구하고자 한다.
본 논문은 다양한 분야에 포괄적으로 적용가능하나 정확도 판정 및 학습을 위하여 불법 다단계라는 분야를 선정하여 실증을 진행하였다. 불법다단계에 대한 분야를 머신러닝 기술을 활용하여 수집된 콘텐츠의 불법성을 판단・분류(classification)하는 알고리즘을 도출하였으며 소셜데이터의 수집 및 전처리를 통하여 보다 정확한 민생위협 콘텐츠로 판단되는 게시물에 포함된 업체명 등을 추출, DB화 할 수 있는 알고리즘 또한 도출하고자 한다. 이러한 객체인식의 알고리즘은 등록업체인지 불법다단계업체인지에 대한 판단이 필요하기 때문이며 이를 기반으로 콘텐츠 수사를 진행하게 된다.
소셜데이터 수집 및 이미지의 처리를 통한 데이터를 학습 진행 후 앙상블 모델 및 수사유의도 값(Ensemble model and Predictions)을 산출하기 위한 절차는 와 같은 개념도를 통하여 연구하였다.
이러한 객체인식의 알고리즘은 등록업체인지 불법다단계업체인지에 대한 판단이 필요하기 때문이며 이를 기반으로 콘텐츠 수사를 진행하게 된다. 이는 수집된 콘텐츠 중 불법행위가 의심되는 게시글을 자동으로 판단할 수 있는 기계학습 알고리즘으로 수사 시 필요한 유의도를 기준으로 추천되어 실제 확인 및 수사를 진행하였다. 불법 다단계가 의심스러운 사이트나 게시글의 소셜데이터 수집 후 판단하기 위해서는 학습단계가 필요하며 학습의 경우 언어모델(Language Model)을 사용하였다.
인터넷을 통한 정보 발생은 필요로 하는 정보의 유무가 아닌 어떠한 정보를 사용할지에 대한 선별이나 분류가 더 중요한 문제가 된다. 이를 위하여 검색 엔진 및 서비스가 발전하였고 검색 서비스가 원활하고 정확하게 정보를 제공하기 위해 정보 수집 시스템의 발전도 같이 진행되었다. 사전에 정의한 URL 수집 리스트 정보를 참조하여 해당 사이트의 패턴을 바탕으로 수집하는 방식이 일반적이며 이러한 수집 시 유의할 점은 해당되는 url의 하부 패턴의 범위 설정이다.
일반적으로 국내에서 가장 많이 사용하는 포털 사이트인 네이버와 다음, 밴드, 카카오스토리를 기준으로 수집대상을 선정하고 이중 실제 사례가 있을 수 있는 대상을 수집하여 분석을 하게 되며 이에 맞는 최적의 수집 방식과 수집의 주기를 도출한다.
<그림 3>에 따른 진행 절차 중 사전 정의된 키워드를 기준으로 대상 채널 접속, Open API기준 질의를 통해 결과를 받게 된다. 표 1 기준으로 불법콘텐츠에 대한 키워드 수집과 중복 체크, 캐쉬 등의 컬럼을 가진 테이블을 설계하여 진행하였다. 또한 Open API의 경우 인증을 위한 Open API 키를 사용할 수 있게 설계되어 있으며 만약의 키 할당의 제한 문제를 방지하기 위해 추가 키를 입력될 수 있게 고려하였다.
대상 데이터
본 논문은 다양한 분야에 포괄적으로 적용가능하나 정확도 판정 및 학습을 위하여 불법 다단계라는 분야를 선정하여 실증을 진행하였다. 불법다단계에 대한 분야를 머신러닝 기술을 활용하여 수집된 콘텐츠의 불법성을 판단・분류(classification)하는 알고리즘을 도출하였으며 소셜데이터의 수집 및 전처리를 통하여 보다 정확한 민생위협 콘텐츠로 판단되는 게시물에 포함된 업체명 등을 추출, DB화 할 수 있는 알고리즘 또한 도출하고자 한다.
이론/모형
따라서 지도학습에 많이 사용되는 NaiveBayes, RandomForest, ExtraTrees, AdaBoost, GradientBoost 등의 알고리즘을 선정하여 연구를 진행하였다. 각각의 조건 및 변수는 많은 연구과정을 통하여 설정을 조절하여 최적의 값을 찾는 것으로 방법을 수행한다.
이는 수집된 콘텐츠 중 불법행위가 의심되는 게시글을 자동으로 판단할 수 있는 기계학습 알고리즘으로 수사 시 필요한 유의도를 기준으로 추천되어 실제 확인 및 수사를 진행하였다. 불법 다단계가 의심스러운 사이트나 게시글의 소셜데이터 수집 후 판단하기 위해서는 학습단계가 필요하며 학습의 경우 언어모델(Language Model)을 사용하였다.
앙상블 모델로는 그림 10와 같은 알고리즘을 앙상블메소드를 사용하여 정확도를 산출하였다.
일반적으로 기존의 분류 모델의 정확도가 떨어지는 분류와 예측 시 낮은 성능을 해결하고자 앙상블 알고리즘을 사용한다. 앙상블의 경우 지도학습 영역에서 연구가 시작된 것은 1970년 대 부터이며, 많은 연구와 발전이 진행되었던 때는 1990년대에 진행 되었다.
성능/효과
2. 등장한 횟수가 가장 많은 공통의 캐릭터 bigram을 시작으로 병합하며, 더 이상 공통의 캐릭터 bigram이 존재하지 않을 때까지 BPE 기법을 적용하여 Subword 사전을 저장시켜 나간다.
본 연구는 <표 2>와 같이 12차에 걸친 언어모델 학습을 통해 Gradient Boost 등 다양한 알고리즘 적용으로 앙상블 메소드 기준의 정확도 82%값을 제시하였다. 기존 불법콘텐츠를 일일이 검색하여 확인하는 수작업 방식에서 인공지능 알고리즘을 통해 분류 정확도 높이고 자동 수사 또는 사전인지를 위한 모니터링을 한다면 수사의 효율성을 향상하고 민생 범죄 예방에 기여할 수 있다는 것을 확인 하였다.
둘째 원시 문장 학습으로 이전의 subword-unit 구현에서는 입력 문장이 사전 토큰화 된 것으로 가정하면 사전에 언어에 의존하여 토크 나이저를 실행해야 하므로 사전 처리가 복잡해진다. SentencePiece의 구현은 원시 문장으로부터 모델을 훈련시키기 때문에 단어 사이에 명확한 공백이 없는 중국어 및 일본어의 토크 나이저를 훈련시키는 데 유용하게 사용된다.
첫째, 수집 시 많은 광고들로 인한 서버 부하가 발생할 수 있다. 둘째, 반복적 호출 및 검색 시 변조어에 의한 키워드 검색이 안될 수 있다. 셋째, 수사를 피하기 위해 텍스트로 작성된 것이 아닌 이미지를 통한 글을 작성할 수 있다.
본 연구는 와 같이 12차에 걸친 언어모델 학습을 통해 Gradient Boost 등 다양한 알고리즘 적용으로 앙상블 메소드 기준의 정확도 82%값을 제시하였다.
수집 자동화와 알고리즘을 활용해서 방대한 데이터를 효율적으로 다룰 수 있으며 유의성에 대한 82% 정확도를 제시하였다.
앙상블 메소드는 학습기로부터 얻어진 예측들을 조합하여 voting한 예측을 만드는 메소드이다. 앙상블메소드는 Soft Voting으로 간단히 구현 가능하고 Soft Voting이 Hard Voting보다 합리적인 추론에 도움 되는 경우를 확인 할 수 있다. 이러한 앙상블 메소드는 학습 단계에서 여러 개의 머신러닝 알고리즘 모델에 대하여 학습시킨 후 모델들을 활용하여 신규 데이터에 대해 개별 모델의 예측값을 가지고 다수결 투표를 통해 최종 단계를 예측하는 방식을 말한다.
후속연구
본 논문은 실증 사례로 불법 다단계에 대하여 다루다 보니 많은 불법콘텐츠들이 있는 분야에 대하여 확장을 하지 못하였다. 즉 불법대출, 의약품판매, 방문 판매 등 지속적으로 발생되는 민생침해 범죄에 대하여 추가적인 연구가 필요한 상황이며 분류 알고리즘의 정확도만으로 검증하다 보니 재현율에 대한 초점이 연구되지 못하여 추가적인 연구가 필요하다.
본 논문은 실증 사례로 불법 다단계에 대하여 다루다 보니 많은 불법콘텐츠들이 있는 분야에 대하여 확장을 하지 못하였다. 즉 불법대출, 의약품판매, 방문 판매 등 지속적으로 발생되는 민생침해 범죄에 대하여 추가적인 연구가 필요한 상황이며 분류 알고리즘의 정확도만으로 검증하다 보니 재현율에 대한 초점이 연구되지 못하여 추가적인 연구가 필요하다.
질의응답
핵심어
질문
논문에서 추출한 답변
NLP란 무엇인가?
NLP(Natural Language Processing)란 컴퓨터를 이용하여 사람 언어의 이해, 생성 및 분석을 다루는 인공지능 기술을 뜻한다.(한국정보통신기술협회 IT용어사전, 2015).
한글 형태소 분석과정은 무엇인가?
이러한 한글 형태소 분석의 세부과정은 먼저 특수문자와 숫자 등을 제거하고 단어를 추출하는 전처리 과정, 품사 기준의 형태소를 분리하는 과정, 접미사 분리 과정, 동사와 형용사를 분리해내는 용언 분석 과정, 명사, 대명사, 수사를 분리해내는 체언 분석 과정을 거치며, 이렇게 분리된 형태소를 기반으로 복합어 추정, 조사 생략, 준말처리 등을 통해 사전에 등록된 단어로 문장이 분석되게 된다. 또한 특수한 단어나 어휘를 위하여 사용자 사전이 등록 되어 최종의 문장에서 분리된 단어로 처리하게 된다[1].
웹크롤러는 어디에 활용되는가?
이는 구글, 네이버와 같은 인터넷 검색 사업자 외에도 e-commerce, 상품 리뷰,브랜드 광고등 대부분 인터넷 산업에 적용되는핵심 기술이다. 예로는 네이버 카페, 블로그, 다음, 트위터, 페이스북, 인스타그램 등에서 데이터를 추출하고 분석하여 마케팅이나 브랜드 효과, 제품의 설계 등에 반영할 수 있다.
참고문헌 (15)
강정배, "자연어 처리 기술을 활용한 문제행동 유형 분석 연구", 대구대학원 박사논문, 2012.
Mike Schuster and Kaisuke Nakajima, "JAPANESE AND KOREAN VOICE SEARCH", Google Inc, USA, 2012.
이재환, 김보성, 허광호, 고영중, 서정연, Subword 유닛을 이용한 영어-한국어, 2009.
Sennrich, R., Haddow, B., & Birch, A. (2015). Neural machine translation of rare words with subword units. arXiv preprint arXiv:1508.07909.
Wang, S., & Manning, C. D. (2012, July). Baselines and bigrams: Simple, good sentiment and topic classification. In Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics: Short Papers-Volume 2 (pp. 90-94).
Wu, Y., Schuster, M., Chen, Z., Le, Q. V., Norouzi, M., Macherey, W., … & Klingner, J. (2016). Google's neural machine translation system: Bridging the gap between human and machine translation. arXiv preprint arXiv:1609.08144.
데이비드 M. 비즐리, 파이썬 완벽 가이드, 2012.
황승구, 빅데이터 플랫폼 전략, 2013.
김경수, 웹 크롤링 수집주기의 동적 설계 및 구현, 2011.
장문수, 정준영, "URL 패턴 스크립트를 이용한 효율적인 웹문서 수집방안", 퍼지 및 지능시스 템학회 논문지, 제17권, 제6호, pp.849-854, 2007.
C. Bertoli, V. Vrescenzi, and P. Merialdo, "Crawling Programs for Wraller-based Applications", In Proc. IEEE Intl. Conference on Information Reuse and Integration (IRI '08), pp.160-165, 2008.
M. L. Vidal, A. S. da Silva, E. S. de Moura, and J. M. B. Cavalcanti, "Go GetIt!: a tool for generating structure-driven web crawlers", In Proc. 15th international conference on World Wide Web, pp.1011-1012, 2006.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.