[논문]텍스트 스트리밍 데이터에서 텍스트 임베딩과 이상 패턴 탐지를 이용한 신규 주제 발생 탐지

최세목; 박정희

doi:10.9717/kmms.2020.23.9.1181

텍스트 스트리밍 데이터에서 텍스트 임베딩과 이상 패턴 탐지를 이용한 신규 주제 발생 탐지
Emerging Topic Detection Using Text Embedding and Anomaly Pattern Detection in Text Streaming Data 원문보기

멀티미디어학회논문지 = Journal of Korea Multimedia Society, v.23 no.9, 2020년, pp.1181 - 1190

최세목 (Division of Computer Convergence, Chungnam National University) , 박정희 (Division of Computer Convergence, Chungnam National University)

Abstract ▼ AI-Helper

Detection of an anomaly pattern deviating normal data distribution in streaming data is an important technique in many application areas. In this paper, a method for detection of an newly emerging pattern in text streaming data which is an ordered sequence of texts is proposed based on text embedding and anomaly pattern detection. Using text embedding methods such as BOW(Bag Of Words), Word2Vec, and BERT, the detection performance of the proposed method is compared. Experimental results show that anomaly pattern detection using BERT embedding gave an average F1 value of 0.85 and the F1 value of 1 in three cases among five test cases.

주제어

표/그림 (7)

그림 Fig. 1. The structure of skip-gram model.
그림 Fig. 2. Anomaly pattern detection in streaming data[3].
표 Table 1. Parameter setting of BERT model 모델
표 Table 2. A performance comparison when one category is set as a new emerging topic
그림 Fig. 3. Performance comparison when different parameter values were used. (a) Business category was set as a newly emerging topic (b) Politics category was set as a newly emerging topic.
표 Table 3. A performance comparison when two categories are set as new emerging topics
그림 Fig. 4. Dimension reduction by PCA after BERT embedding (a) visualization for categories of business, entertainment, sport (b) visualization of five categories.

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

이상치 탐지는 개별적인 데이터 샘플에 대해 정상데이터 분포를 벗어나는 이상치인지 정상인지 예측한다. 반면에 스트리밍 데이터에서의 이상 패턴 탐지는 정상 데이터 패턴을 벗어나는 이상치 발생이 갑자기 증가하게 되는 발생 지점 탐지를 목적으로 한다[3]. 먼저 정상 데이터로 구성된 학습 데이터가 주어졌다는 가정 하에 학습데이터를 이용하여 클러스터링 기반 앙상블 모델에 의한 이상치 탐지 모델을 구성한다.
본 논문에서는 텍스트 스트리밍 데이터에서 텍스트 임베딩과 이상 패턴 탐지를 이용한 신규 주제 발생 탐지 방법을 제안하였다. 유사한 의미의 단어나 문장들이 근접 거리에 위치하도록 단어나 문장을 다차원 공간에 벡터로 표현하는 임베딩 방법을 이용함으로써 문서 주제에 따른 군집화 성능을 높일 수 있다.
본 논문에서는 텍스트 임베딩 방법을 사용하여 텍스트 스트림에 있는 텍스트에 대한 벡터 표현을 계산하여 벡터 데이터 스트림으로 변환하고, 이상 패턴 탐지 방법을 적용하여 데이터 스트림에서 새로운 주제 발생을 탐지하는 방법을 제안한다[9]. BOW, Word2Vec, BERT와 같은 다양한 텍스트 임베딩 방법들을 사용하여 텍스트 데이터 스트림에서 이상 패턴 탐지 성능을 비교한다.
특히, 정상적인 데이터 패턴을 벗어나는 이상치 탐지와 이상 패턴 발생 탐지에 대한 연구는 네트워크 침입 탐지, 불법 카드 사용자 예측, 시스템 이상 발생 탐지 등 여러 분야에 적용되는 기술이다[1]. 이상치 탐지는 개별적인 데이터 샘플이 이상데이터인지 아닌지 예측하는 데 반해서, 이상 패턴 탐지는 데이터 스트림에서 정상을 벗어나는 데이터 생성 패턴 발생을 탐지하는 것을 목표로 한다[2]. 최근에는 정상 학습 데이터를 이용한 이상치 탐지 모델 구성과 이상치 예측에 의한 이진값스트리밍 데이터로의 변환에 기반한 이상 패턴 탐지 방법이 제안되었고, 스마트 미터기로부터 측정되는 전력사용량 스트리밍 데이터에서 전기 도둑 탐지에 적용되었다[3,4]
novelty score가 주어진 임계값 이상일 때 새로운 주제의 문서로 선언하고 그 발생 시점을 신규 주제 발생 시점으로 하여 F1과 delay를 측정하였다. 임계값을 0.1부터 1까지 0.1 간격으로 설정하여 F1 성능이 가장 높은 경우를 구하고자 하였다. 그러나 모든 임계값 설정에서 F1 값은 0이었다.

제안 방법

본 논문에서는 텍스트 임베딩 방법을 사용하여 텍스트 스트림에 있는 텍스트에 대한 벡터 표현을 계산하여 벡터 데이터 스트림으로 변환하고, 이상 패턴 탐지 방법을 적용하여 데이터 스트림에서 새로운 주제 발생을 탐지하는 방법을 제안한다[9]. BOW, Word2Vec, BERT와 같은 다양한 텍스트 임베딩 방법들을 사용하여 텍스트 데이터 스트림에서 이상 패턴 탐지 성능을 비교한다. 본 논문의 구성은 다음과 같다.
실험 결과 임베딩 방법으로 BERT 모델을 사용한 경우가 탐지 성능이 가장 높았고 실제 신규 주제 발생 시점부터 발생 탐지 알림까지의 delay가 가장 짧았다. FSD 방법과의 성능비교를 위해 논문 [26]에서 설명된 방법을 사용하여, 문서들을 Tf-Idf 벡터로 나타내고 테스트 스트림의 각 데이터에 대해 가장 가까운 코사인 유사도를 가지는 데이터 샘플과의 거리를 이용하여 문서의 novelty score를 계산하였다.
[BERT 임베딩] 텍스트를 문단 단위로 나눈 뒤, 사전 학습된 BERT 모델[8]을 사용하여 각 문단 별 임베딩 표현을 구한 후 문단 벡터의 평균을 계산하였다. BERT 모델을 사용하여 임베딩을 수행하는 경우 모델의 출력 벡터는 입력 문장의 길이가 n일 때, 크기가 (n, dim)이 된다.
대신에 정상 학습데이터를 사용하였다. novelty score가 주어진 임계값 이상일 때 새로운 주제의 문서로 선언하고 그 발생 시점을 신규 주제 발생 시점으로 하여 F1과 delay를 측정하였다. 임계값을 0.
논문 [5]에서는 텍스트 데이터를 Tf-Idf(Term frequency-Inverse document frequency)를 사용하여 임베딩 벡터로 변환하고, 새로운 텍스트 데이터가 주어졌을 때, 1-NN 탐색을 통해 새로운 텍스트와 가장 가까운 데이터를 찾아 거리를 계산한 뒤, 거리가 사전에 설정된 임계값을 초과하는 경우 해당 텍스트를 신규 주제로 분류하는 모델을 제안하였다. 논문 [10]은 논문 [5]의 시스템에 Locality Sensitive Hashing(LSH)를 적용하여 유사한 텍스트들을 군집화하고, 새로운 텍스트가 발생했을 때, 앞서 들어온 모든 텍스트와 비교하는 대신 유사한 군집에 포함된 텍스트들과만 비교하는 방법으로 최적화한 시스템을 제시하고, 이를 실제 대용량 twitter 데이터 처리에 적용하였다. 논문 [11]은 같은 의미를 가지는 서로 다른 단어들을 사용하는 경우에 대한 처리를 위해 단어 임베딩을 사용하여 단어 쌍을 생성하여 단어 불일치로 인한 분류 문제를 해결하였다.
논문 [12]에서는 각 문서에서 개체-관계를 추출함으로써 문서를 표현하고, 이를 사용하여 유사도 계산을 수행하였다. 논문 [13]은 SNS에서 발생하는 짧은 길이의 텍스트 데이터로부터 특징 정보를 추출하고 마르코프 논리 네트워크를 사용하여 텍스트 데이터의 카테고리 분류를 수행하였다. 그러나 FSD는 새로운 주제의 첫 번째 문서를 찾는데 목표를 두는 반면에 본 논문의 신규 주제 탐지 방법은 새로운 주제의 문서들의 발생 빈도가 갑작스럽게 증가하는 시점을 탐지하고자 하므로, 두 연구는 목적과 성능 평가 방법에서 차이가 있다.
고차원 데이터 분석에서는 특징 추출을 통해 차원을 낮추는 차원 감소 방법을 통해 데이터 분포를 시각화하거나 분석 성능을 향상시킬 수도 있다. 대표적인 무감독 차원 감소 방법인 PCA(Principal Component Analysis)를 적용하여 카테고리의 분포를 시각화하여 신규 주제 발생 탐지 성능 결과를 분석해보았다.
2에서처럼 이진값 스트림의 시작 부분에 참조 윈도우를 고정하고 탐지 윈도우는 새로운 데이터 샘플이 도착함에 따라 앞으로 전진하면서 탐지 윈도우 내에 이상 패턴 발생을 탐지한다. 두 윈도우에서의 이항 분포의 모비율이 같은지에 대한 가설 검정을 이용하여 탐지 윈도우에서 1의 빈도가 급격히 커지게 되는 시점을 탐지한다.
반면에 스트리밍 데이터에서의 이상 패턴 탐지는 정상 데이터 패턴을 벗어나는 이상치 발생이 갑자기 증가하게 되는 발생 지점 탐지를 목적으로 한다[3]. 먼저 정상 데이터로 구성된 학습 데이터가 주어졌다는 가정 하에 학습데이터를 이용하여 클러스터링 기반 앙상블 모델에 의한 이상치 탐지 모델을 구성한다. 주어진 정상 학습 데이터를 t개의 그룹으로 나눈 후, 각 그룹마다 k-means 클러스터링을 진행하여 각 그룹의 데이터가 나타내는 정상 영역을 포함하는 k개의 hypersphere를 구성한다.
[Word2Vec 임베딩] 단어들의 Word2Vec 표현을 구하기 위해 [23]에 공개되어 있는 사전 학습된 Word2Vec 모델을 사용하였다. 모델을 사용하여 텍스트에 포함되어 있는 단어들의 벡터들을 모두 구하고 모든 단어 벡터들의 평균을 계산한 값을 텍스트의 벡터로 사용하였다. 단어 벡터 계산 과정에서 Word2 Vec 모델 학습 단어 사전에 포함되어 있지 않는 단어가 발생하는 경우, 해당 단어는 텍스트 벡터 계산 과정에서 제외하였다.
변환된 데이터 스트림에서 논문 [3]에서 제안된 이상 패턴 탐지 방법을 적용하여 정상 데이터 분포에서 벗어나는 이상 패턴 발생을 탐지함으로써 정상 데이터 스트림에서 존재하지 않았던 신규 주제의 발생을 탐지할 수 있다. 본 논문에서는 텍스트 스트리밍 데이터에 포함되어 있는 텍스트 데이터들에 대한 벡터 표현을 구하기 위해 세 가지 임베딩 방법 BOW, Word2Vec, BERT를 사용하여 성능을 비교하였다.
실험 결과는 BERT 모델을 사용했을 때 신규 주제 발생 탐지 성능이 높음을 보여주었다. 본 논문에서의 신규 주제 발생 탐지는 정상 데이터를 사용하여 이상치 탐지 모델을 학습하고, 이를 사용하여 이상 패턴 발생 탐지를 수행하여 텍스트 스트림에서 기존에 등장하지 않던 신규 주제가 발생하는 시점을 탐지하는 것에 중점을 두었다. 향후 연구로 신규 주제의 발생을 탐지한 시점에 탐지 윈도우 내의 이상치 문서들을 사용하여 키워드 추출, 문서 요약 등의 기법을 사용하여 발생한 신규 주제 분석을 수행할 수 있을 것으로 기대된다.
테스트 데이터 스트림의 총 길이의 중간까지는 신규 주제가 포함되지 않게 기존 네 개의 카테고리의 데이터들만 나오게 하였고, 나머지 데이터 스트림 부분에서는 기존 카테고리와 신규 카테고리의 데이터가 랜덤하게 섞이게 하였다. 신규 카테고리의 데이터가 처음 나타나는 지점을 이상 패턴 발생 시점으로 설정하였다.
BBC News 데이터는 2004년부터 2005년까지 BBC 뉴스 웹사이트에서 다섯 개의 카테고리 business, entertainment, politics, sport, tech와 관련된 2,225개의 뉴스 데이터로 구성된 텍스트 데이터셑 이다. 실험에서는 하나의 카테고리를 새로 발생하는 주제가 되도록 설정하여 탐지 성능을 측정하였다. 정상데이터로 구성되는 학습데이터는 신규 주제 카테고리를 제외한 나머지 네 개의 각 카테고리에 속하는 텍스트 데이터들의 60%를 랜덤하게 선택하여 구성하였다.
MLM 학습에서는 입력 시퀀스에서 15%에 해당하는 무작위 단어를 몇 가지 규칙에 따라 [MASK] 토큰으로 대체한다. 이후 [MASK] 토큰이 있는 위치의 원본 단어를 예측하는 방법으로 학습을 수행한다. NSP 학습에서는 코퍼스에서 두 문장을 이어 붙인 뒤, 두 문장이 서로 연결되던 문장인지를 맞추는 이진 예측을 통해 모델을 학습한다.
먼저 정상 데이터로 구성된 학습 데이터가 주어졌다는 가정 하에 학습데이터를 이용하여 클러스터링 기반 앙상블 모델에 의한 이상치 탐지 모델을 구성한다. 주어진 정상 학습 데이터를 t개의 그룹으로 나눈 후, 각 그룹마다 k-means 클러스터링을 진행하여 각 그룹의 데이터가 나타내는 정상 영역을 포함하는 k개의 hypersphere를 구성한다. 테스트 데이터가 주어졌을 때, 그로부터 가장 가까운 클러스터의 중심을 찾고, 테스트 데이터가 해당 클러스터의 반경 밖에 있을 때 정상 영역을 벗어난다고 판단하게 된다.
테스트 데이터 스트림에서 이상 패턴 탐지 성능은 논문 [3]에서와 같이 precision, recall, F1, delay를 사용하여 측정하였다. TP(True positive)는 실제 이상 패턴 존재 시점 이후에 이상 패턴의 발생을 예측할 경우이며, FP(False Positive)는 실제 이상 패턴 존재 시점 이전에 이상 패턴의 발생을 탐지할 경우, FN(False Negative)는 테스트 데이터 스트림에서 이상 패턴의 발생을 탐지하지 못할 경우를 나타낸다.
텍스트 데이터 스트림에서 신규 주제 발생 탐지를 위해 먼저 텍스트 임베딩 모델을 사용하여 데이터 스트림에 있는 각 문서를 벡터로 변환한다. 같은 주제에 관련된 문서들이 근접 거리에 매핑되도록 텍스트 임베딩에 의해 벡터로 변환함으로써 같은 주제 내 문서 밀집도를 높일 수 있을 것으로 기대된다.
정상데이터로 구성되는 학습데이터는 신규 주제 카테고리를 제외한 나머지 네 개의 각 카테고리에 속하는 텍스트 데이터들의 60%를 랜덤하게 선택하여 구성하였다. 학습데이터에 포함되지 않은 각 카테고리의 나머지 40% 데이터와 함께 신규 카테고리에 속하는 텍스트 중에서 선택한 20%의 데이터를 합하여 테스트 데이터 스트림을 구성하였다. 테스트 데이터 스트림의 총 길이의 중간까지는 신규 주제가 포함되지 않게 기존 네 개의 카테고리의 데이터들만 나오게 하였고, 나머지 데이터 스트림 부분에서는 기존 카테고리와 신규 카테고리의 데이터가 랜덤하게 섞이게 하였다.

대상 데이터

. BBC News 데이터는 2004년부터 2005년까지 BBC 뉴스 웹사이트에서 다섯 개의 카테고리 business, entertainment, politics, sport, tech와 관련된 2,225개의 뉴스 데이터로 구성된 텍스트 데이터셑 이다. 실험에서는 하나의 카테고리를 새로 발생하는 주제가 되도록 설정하여 탐지 성능을 측정하였다.
논문 [26]에서 D_t는 문서 d가 도착한 시간 t 이전까지의 모든 문서들의 집합으로 설정되었으나, 새로운 주제 데이터를 탐지하지 못하고 놓쳤을 때 그 데이터가 이후 진행 과정에서 성능을 저하시키는 요인으로 작용하는 것을 실험으로 확인하여 본 실험에서는 D_t 대신에 정상 학습데이터를 사용하였다. novelty score가 주어진 임계값 이상일 때 새로운 주제의 문서로 선언하고 그 발생 시점을 신규 주제 발생 시점으로 하여 F1과 delay를 측정하였다.
성능 비교를 위하여 BBC News[25] 데이터셑을 사용하였다¹⁾. BBC News 데이터는 2004년부터 2005년까지 BBC 뉴스 웹사이트에서 다섯 개의 카테고리 business, entertainment, politics, sport, tech와 관련된 2,225개의 뉴스 데이터로 구성된 텍스트 데이터셑 이다.
실험에서는 하나의 카테고리를 새로 발생하는 주제가 되도록 설정하여 탐지 성능을 측정하였다. 정상데이터로 구성되는 학습데이터는 신규 주제 카테고리를 제외한 나머지 네 개의 각 카테고리에 속하는 텍스트 데이터들의 60%를 랜덤하게 선택하여 구성하였다. 학습데이터에 포함되지 않은 각 카테고리의 나머지 40% 데이터와 함께 신규 카테고리에 속하는 텍스트 중에서 선택한 20%의 데이터를 합하여 테스트 데이터 스트림을 구성하였다.

데이터처리

2에서 테스트 데이터 스트림에서 실제 이상 패턴 존재 시점에서 이상 패턴 발생 예측 지점까지의 거리를 나타내는 delay의 측정에 대한 예시를 나타내었다. 10번 반복 실험 중에서 TP가 얻어진 경우에만 Fig. 2에서와 같이 delay를 측정하여 평균값을 구하였다.
따라서 임베딩에 의해 벡터로 변환된 데이터들의 스트림에서 이상 패턴 탐지 방법의 적용은 학습데이터에 포함되지 않은 주제의 발생을 효과적으로 탐지할 수 있다. 실험에서는 BOW, Word2Vec, BERT의 텍스트 임베딩 방법을 사용하여 성능을 비교하였다. 실험 결과는 BERT 모델을 사용했을 때 신규 주제 발생 탐지 성능이 높음을 보여주었다.
먼저, 주어진 학습 데이터를 사용하여 단어들의 역문서 빈도를 계산한다. 이후 텍스트 스트림의 각 텍스트 데이터에 대한 임베딩 과정에서는 각 단어들의 단어 빈도에 학습데이터를 이용해 계산한 역문서 빈도를 곱해줌으로써 Tf-Idf 벡터를 구하였다.

이론/모형

[Word2Vec 임베딩] 단어들의 Word2Vec 표현을 구하기 위해 [23]에 공개되어 있는 사전 학습된 Word2Vec 모델을 사용하였다. 모델을 사용하여 텍스트에 포함되어 있는 단어들의 벡터들을 모두 구하고 모든 단어 벡터들의 평균을 계산한 값을 텍스트의 벡터로 사용하였다.
단어의 등장 빈도만을 사용하기 때문에 텍스트에서 등장 빈도가 적지만 중요한 의미를 가지는 단어가 무시될 수 있는 한계가 있다. 이러한 한계를 극복하기 위한 방법으로 단어가 등장하는 문서의 수를 이용하여 가중치를 주는 Tf-Idf를 적용한다. 문서 d에서 단어 t의 등장 횟수를 나타내는 단어 빈도 tf(t,d), 전체 문서 집합 D에서 단어 t가 등장하는 문서의 수인 문서 빈도 df(t,D)와 이것의 역을 취한 역 문서빈도 idf(t,D)=log(| D| / df(t,D))를 사용하여 문서 내의 각 단어에 식(1)과 같이 가중치를 부여한다[19]
BERT 모델을 사용하여 임베딩을 수행하는 경우 모델의 출력 벡터는 입력 문장의 길이가 n일 때, 크기가 (n, dim)이 된다. 이를 (1, dim) 형태의 고정 길이 벡터로 변환하기 위해 bert-as-service[24]의 REDUCE_MEAN 옵션을 사용하였다. REDUCE_MEAN 옵션은 (n, dim)형태의 벡터 평균을 취해줌으로써 (1, dim) 형태의 벡터로 변환할 수 있다.
01로 설정하였다. 텍스트 임베딩 방법으로써 BOW, Word2Vec, BERT를 사용하였다. 실험 결과 임베딩 방법으로 BERT 모델을 사용한 경우가 탐지 성능이 가장 높았고 실제 신규 주제 발생 시점부터 발생 탐지 알림까지의 delay가 가장 짧았다.

성능/효과

3에 나타내었다. Business가 새로 나타나는 카테고리일 때는 테스트된 매개변수 범위 내에서 전반적으로 안정적인 성능을 얻을 수 있음을 보여주나, Politics의 경우에는 클러스터 수가 작게 설정될 때 보다 나은 성능을 보였다.
같은 주제에 관련된 문서들이 근접 거리에 매핑되도록 텍스트 임베딩에 의해 벡터로 변환함으로써 같은 주제 내 문서 밀집도를 높일 수 있을 것으로 기대된다. 변환된 데이터 스트림에서 논문 [3]에서 제안된 이상 패턴 탐지 방법을 적용하여 정상 데이터 분포에서 벗어나는 이상 패턴 발생을 탐지함으로써 정상 데이터 스트림에서 존재하지 않았던 신규 주제의 발생을 탐지할 수 있다. 본 논문에서는 텍스트 스트리밍 데이터에 포함되어 있는 텍스트 데이터들에 대한 벡터 표현을 구하기 위해 세 가지 임베딩 방법 BOW, Word2Vec, BERT를 사용하여 성능을 비교하였다.
텍스트 임베딩 방법으로써 BOW, Word2Vec, BERT를 사용하였다. 실험 결과 임베딩 방법으로 BERT 모델을 사용한 경우가 탐지 성능이 가장 높았고 실제 신규 주제 발생 시점부터 발생 탐지 알림까지의 delay가 가장 짧았다. FSD 방법과의 성능비교를 위해 논문 [26]에서 설명된 방법을 사용하여, 문서들을 Tf-Idf 벡터로 나타내고 테스트 스트림의 각 데이터에 대해 가장 가까운 코사인 유사도를 가지는 데이터 샘플과의 거리를 이용하여 문서의 novelty score를 계산하였다.
실험에서는 BOW, Word2Vec, BERT의 텍스트 임베딩 방법을 사용하여 성능을 비교하였다. 실험 결과는 BERT 모델을 사용했을 때 신규 주제 발생 탐지 성능이 높음을 보여주었다. 본 논문에서의 신규 주제 발생 탐지는 정상 데이터를 사용하여 이상치 탐지 모델을 학습하고, 이를 사용하여 이상 패턴 발생 탐지를 수행하여 텍스트 스트림에서 기존에 등장하지 않던 신규 주제가 발생하는 시점을 탐지하는 것에 중점을 두었다.
텍스트 데이터 스트림에서 새로운 주제에 관한 첫 번째 문서(스토리)를 탐지하는 First Story Detection(FSD)는 본 논문에서 제안한 신규 주제 발생 탐지 방법과 가장 밀접하게 연관된 연구주제이다. FSD의 기본적인 접근 방법은 새로운 문서의 가장 가까운 이웃을 그 이전의 텍스트 스트림에서 구하고, 새로운 문서와 가장 가까운 문서와의 거리를 이용해 새로운 스토리인지 결정하는 것이다.

후속연구

텍스트 데이터 스트림에서 신규 주제 발생 탐지를 위해 먼저 텍스트 임베딩 모델을 사용하여 데이터 스트림에 있는 각 문서를 벡터로 변환한다. 같은 주제에 관련된 문서들이 근접 거리에 매핑되도록 텍스트 임베딩에 의해 벡터로 변환함으로써 같은 주제 내 문서 밀집도를 높일 수 있을 것으로 기대된다. 변환된 데이터 스트림에서 논문 [3]에서 제안된 이상 패턴 탐지 방법을 적용하여 정상 데이터 분포에서 벗어나는 이상 패턴 발생을 탐지함으로써 정상 데이터 스트림에서 존재하지 않았던 신규 주제의 발생을 탐지할 수 있다.
본 논문에서의 신규 주제 발생 탐지는 정상 데이터를 사용하여 이상치 탐지 모델을 학습하고, 이를 사용하여 이상 패턴 발생 탐지를 수행하여 텍스트 스트림에서 기존에 등장하지 않던 신규 주제가 발생하는 시점을 탐지하는 것에 중점을 두었다. 향후 연구로 신규 주제의 발생을 탐지한 시점에 탐지 윈도우 내의 이상치 문서들을 사용하여 키워드 추출, 문서 요약 등의 기법을 사용하여 발생한 신규 주제 분석을 수행할 수 있을 것으로 기대된다.

질의응답

핵심어	질문	논문에서 추출한 답변
	이상치 탐지와 이상 패턴 발생 탐지 기술은 어디에 사용되는가?	스마트폰과 같은 모바일 기기의 발전과 온라인 매체의 발달로 인해 실시간으로 발생하는 스트리밍 데이터의 양이 크게 증가하고 있고 스트리밍 데이터 마이닝 기법들이 연구되고 있다. 특히, 정상적인 데이터 패턴을 벗어나는 이상치 탐지와 이상 패턴 발생 탐지에 대한 연구는 네트워크 침입 탐지, 불법 카드 사용자 예측, 시스템 이상 발생 탐지 등 여러 분야에 적용되는 기술이다[1]. 이상치 탐지는 개별적인 데이터 샘플이 이상데이터인지 아닌지 예측하는 데 반해서, 이상 패턴 탐지는 데이터 스트림에서 정상을 벗어나는 데이터 생성 패턴 발생을 탐지하는 것을 목표로 한다[2].
	텍스트 임베딩 방법 중 BOW의 한계점은?	BOW는 텍스트 데이터에서 등장하는 각 단어의 등장 빈도를 기록하여 표현하는 임베딩 방법이다. 단어의 등장 빈도만을 사용하기 때문에 텍스트에서 등장 빈도가 적지만 중요한 의미를 가지는 단어가 무시될 수 있는 한계가 있다. 이러한 한계를 극복하기 위한 방법으로 단어가 등장하는 문서의 수를 이용하여 가중치를 주는 Tf-Idf를 적용한다.
	FSD의 기본적인 접근 방법은 무엇인가?	텍스트 데이터 스트림에서 새로운 주제에 관한 첫 번째 문서(스토리)를 탐지하는 First Story Detection(FSD)는 본 논문에서 제안한 신규 주제 발생 탐지 방법과 가장 밀접하게 연관된 연구주제이다. FSD의 기본적인 접근 방법은 새로운 문서의 가장 가까운 이웃을 그 이전의 텍스트 스트림에서 구하고, 새로운 문서와 가장 가까운 문서와의 거리를 이용해 새로운 스토리인지 결정하는 것이다. 가까운 이웃을 계산하는 복잡도를 낮추기 위해 LSH를 사용하거나, 의미상 연관된 요소들로 문서를 확장하는 등의 방법으로 성능을 향상시켰다[5,10,11,12].

참고문헌 (26)

C. Aggarwal, Outlier Analysis, Springer, Switzerland, 2017.
C. Park, "Outlier and Anomaly Pattern Detection on Data Streams," The Journal of Supercomputing, Vol. 75, No. 9, pp. 6118-6128, 2019.

상세보기
T. Kim and C. Park, "Anomaly Pattern Detection for Streaming Data," Expert Systems with Applications, Vol. 149, pp. 1-8, 2020.
C. Park and T. Kim, "Energy Theft Detection in Advanced Metering Infrastructure Based on Anomaly Pattern Detection," Energies, Vol. 13, No. 15, pp. 1-10, 2020.
J. Allan, R. Papka, and V. Lavrenko, "On-line New Event Detection and Tracking," Proceeding of International ACM SIGIR Conference on Research and Development in Information Retrieval, pp. 37-45, 1998.
J. Allan, "Introduction to Topic Detection and Tracking," In Topic Detection and Tracking: Event-based Information Organization, Vol. 12, pp. 1-16. 2002.
T. Mikolov, I. Sutskever, K. Chen, G. Corrado, and J. Dean, "Distributed Representations of Words and Phrases and Their Compositionality," Proceeding of International Conference on Neural Information Processing Systems, Vol. 2, pp. 3111-3119, 2013.
J. Devlin, M.W. Chang, K. Lee, and K. Toutanova, "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding," Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Vol. 1, pp. 4171-4186, 2019.
S. Choi, New Topic Occurrence Detection Using Text Embedding Model in Text Streaming Data, Master's Thesis of Chungnam National University, 2020.
S. Petrovi'c, M. Osborne, and V. Lavrenko, "Streaming First Story Detection with Application to Twitter," Proceeding of the 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics, pp. 181-189, 2010.
S. Moran, R. McCreadie, C. Macdonald, and I. Ounis, "Enhancing First Story Detection Using Word Embeddings," Proceedings of the 39th International ACM SIGIR Conference on Research and Development in Information Retrieval, pp. 821-824, 2016.
N. Panagiotou, C. Akkaya, K. Tsioutsiouliklis, V. Kalogeraki, and D. Gunopulos, "First Story Detection Using Entities and Relations," Proceedings of the 26th International Conference on Computational Linguistics: Technical Papers, pp. 3237-3244, 2016.
E. Lee and P. Kim, "A Method for Short Text Classification Using SNS Feature Information Based on Markov Logic Network," Journal of Korea Multimedia Society, Vol. 20, No. 7, pp. 1065-1072, 2017.
M. Mathioudakis and N. Koudas, "Twitter Monitor: Trend Detection Over the Twitter Stream," Proceedings of the 2010 ACM SIGMOD International Conference on Management of Data, pp. 1155-1158, 2010.
H.J. Choi and C.H. Park, "Emerging Topic Detection in Twitter Stream Based on High Utility Pattern Mining," Expert Systems with Applications, Vol. 115, pp. 27-36, 2019.

상세보기
S. Phuvipadawat and T. Murata, "Breaking News Detection and Tracking in Twitter," Proceedings of IEEE/WIC/ACM International Conference Web Intelligence and Intelligent Agent Technology, pp. 120-123, 2010.
D. Quercia, H. Askham, and J. Crowcroft, "Tweetlda: Supervised Topic Classification and Link Prediction in Twitter," Proceedings of 4th Annual ACM Web Science Conference, pp. 247-250, 2012.
U. Erra, S. Senatore, and G. Caggianese. "Approximate TF-IDF Based on Topic Extraction from Massive Message Stream Using the GPU," Information Sciences, Vol. 292, pp. 143-161, 2015.

상세보기
G. Salton, E.A. Fox, and H. Wu, "Extended Boolean Information Retrieval," Communications of the ACM, Vol. 26, No. 11, pp. 1022- 1036, 1983.

상세보기
P. Bojanowski, E. Grave, A. Joulin, and T. Mikolov, "Enriching Word Vectors with Subword Information," Transactions of the Association for Computational Linguistics, Vol. 5, No. 1, pp. 135-146, 2017.

상세보기
Y. Wu, M. Schuster, Z. Chen, Q. Le, M. Norouzi, W. Macherey, et al., "Google's Neural Machine Translation System: Bridging the Gap Between Human and Machine Translation," arXiv Preprint arXiv:1609.08144, 2016.
A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. Gomez, et al., "Attention is All You Need," Advances in Neural Information Processing Systems, pp. 5998-6008, 2017.
Word2vec(2013), https://code.google.com/archive/p/word2vec/ (accessed February 20, 2019).
Bert-as-service(2018), https://github.com/hanxiao/bert-as-service (accessed February 20, 2019).
D. Greene and P. Cunningham, "Practical Solutions to the Problem of Diagonal Dominance in Kernel Document Clustering," Proceedings of International Conference on Machine Learning, pp. 377-384, 2006.
S. Petrovic, M. Osborne, and V. Lavrenko, "Using Paraphrases for Improving First Story Detection in News and Twitter," Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pp. 338-346, 2012.

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증