최소 단어 이상 선택하여야 합니다.
최대 10 단어까지만 선택 가능합니다.
다음과 같은 기능을 한번의 로그인으로 사용 할 수 있습니다.
NTIS 바로가기멀티미디어학회논문지 = Journal of Korea Multimedia Society, v.23 no.9, 2020년, pp.1181 - 1190
최세목 (Division of Computer Convergence, Chungnam National University) , 박정희 (Division of Computer Convergence, Chungnam National University)
Detection of an anomaly pattern deviating normal data distribution in streaming data is an important technique in many application areas. In this paper, a method for detection of an newly emerging pattern in text streaming data which is an ordered sequence of texts is proposed based on text embeddin...
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
핵심어 | 질문 | 논문에서 추출한 답변 |
---|---|---|
이상치 탐지와 이상 패턴 발생 탐지 기술은 어디에 사용되는가? | 스마트폰과 같은 모바일 기기의 발전과 온라인 매체의 발달로 인해 실시간으로 발생하는 스트리밍 데이터의 양이 크게 증가하고 있고 스트리밍 데이터 마이닝 기법들이 연구되고 있다. 특히, 정상적인 데이터 패턴을 벗어나는 이상치 탐지와 이상 패턴 발생 탐지에 대한 연구는 네트워크 침입 탐지, 불법 카드 사용자 예측, 시스템 이상 발생 탐지 등 여러 분야에 적용되는 기술이다[1]. 이상치 탐지는 개별적인 데이터 샘플이 이상데이터인지 아닌지 예측하는 데 반해서, 이상 패턴 탐지는 데이터 스트림에서 정상을 벗어나는 데이터 생성 패턴 발생을 탐지하는 것을 목표로 한다[2]. | |
텍스트 임베딩 방법 중 BOW의 한계점은? | BOW는 텍스트 데이터에서 등장하는 각 단어의 등장 빈도를 기록하여 표현하는 임베딩 방법이다. 단어의 등장 빈도만을 사용하기 때문에 텍스트에서 등장 빈도가 적지만 중요한 의미를 가지는 단어가 무시될 수 있는 한계가 있다. 이러한 한계를 극복하기 위한 방법으로 단어가 등장하는 문서의 수를 이용하여 가중치를 주는 Tf-Idf를 적용한다. | |
FSD의 기본적인 접근 방법은 무엇인가? | 텍스트 데이터 스트림에서 새로운 주제에 관한 첫 번째 문서(스토리)를 탐지하는 First Story Detection(FSD)는 본 논문에서 제안한 신규 주제 발생 탐지 방법과 가장 밀접하게 연관된 연구주제이다. FSD의 기본적인 접근 방법은 새로운 문서의 가장 가까운 이웃을 그 이전의 텍스트 스트림에서 구하고, 새로운 문서와 가장 가까운 문서와의 거리를 이용해 새로운 스토리인지 결정하는 것이다. 가까운 이웃을 계산하는 복잡도를 낮추기 위해 LSH를 사용하거나, 의미상 연관된 요소들로 문서를 확장하는 등의 방법으로 성능을 향상시켰다[5,10,11,12]. |
C. Aggarwal, Outlier Analysis, Springer, Switzerland, 2017.
C. Park, "Outlier and Anomaly Pattern Detection on Data Streams," The Journal of Supercomputing, Vol. 75, No. 9, pp. 6118-6128, 2019.
T. Kim and C. Park, "Anomaly Pattern Detection for Streaming Data," Expert Systems with Applications, Vol. 149, pp. 1-8, 2020.
C. Park and T. Kim, "Energy Theft Detection in Advanced Metering Infrastructure Based on Anomaly Pattern Detection," Energies, Vol. 13, No. 15, pp. 1-10, 2020.
J. Allan, R. Papka, and V. Lavrenko, "On-line New Event Detection and Tracking," Proceeding of International ACM SIGIR Conference on Research and Development in Information Retrieval, pp. 37-45, 1998.
T. Mikolov, I. Sutskever, K. Chen, G. Corrado, and J. Dean, "Distributed Representations of Words and Phrases and Their Compositionality," Proceeding of International Conference on Neural Information Processing Systems, Vol. 2, pp. 3111-3119, 2013.
J. Devlin, M.W. Chang, K. Lee, and K. Toutanova, "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding," Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Vol. 1, pp. 4171-4186, 2019.
S. Choi, New Topic Occurrence Detection Using Text Embedding Model in Text Streaming Data, Master's Thesis of Chungnam National University, 2020.
S. Petrovi'c, M. Osborne, and V. Lavrenko, "Streaming First Story Detection with Application to Twitter," Proceeding of the 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics, pp. 181-189, 2010.
S. Moran, R. McCreadie, C. Macdonald, and I. Ounis, "Enhancing First Story Detection Using Word Embeddings," Proceedings of the 39th International ACM SIGIR Conference on Research and Development in Information Retrieval, pp. 821-824, 2016.
N. Panagiotou, C. Akkaya, K. Tsioutsiouliklis, V. Kalogeraki, and D. Gunopulos, "First Story Detection Using Entities and Relations," Proceedings of the 26th International Conference on Computational Linguistics: Technical Papers, pp. 3237-3244, 2016.
E. Lee and P. Kim, "A Method for Short Text Classification Using SNS Feature Information Based on Markov Logic Network," Journal of Korea Multimedia Society, Vol. 20, No. 7, pp. 1065-1072, 2017.
M. Mathioudakis and N. Koudas, "Twitter Monitor: Trend Detection Over the Twitter Stream," Proceedings of the 2010 ACM SIGMOD International Conference on Management of Data, pp. 1155-1158, 2010.
H.J. Choi and C.H. Park, "Emerging Topic Detection in Twitter Stream Based on High Utility Pattern Mining," Expert Systems with Applications, Vol. 115, pp. 27-36, 2019.
S. Phuvipadawat and T. Murata, "Breaking News Detection and Tracking in Twitter," Proceedings of IEEE/WIC/ACM International Conference Web Intelligence and Intelligent Agent Technology, pp. 120-123, 2010.
D. Quercia, H. Askham, and J. Crowcroft, "Tweetlda: Supervised Topic Classification and Link Prediction in Twitter," Proceedings of 4th Annual ACM Web Science Conference, pp. 247-250, 2012.
U. Erra, S. Senatore, and G. Caggianese. "Approximate TF-IDF Based on Topic Extraction from Massive Message Stream Using the GPU," Information Sciences, Vol. 292, pp. 143-161, 2015.
G. Salton, E.A. Fox, and H. Wu, "Extended Boolean Information Retrieval," Communications of the ACM, Vol. 26, No. 11, pp. 1022- 1036, 1983.
P. Bojanowski, E. Grave, A. Joulin, and T. Mikolov, "Enriching Word Vectors with Subword Information," Transactions of the Association for Computational Linguistics, Vol. 5, No. 1, pp. 135-146, 2017.
Y. Wu, M. Schuster, Z. Chen, Q. Le, M. Norouzi, W. Macherey, et al., "Google's Neural Machine Translation System: Bridging the Gap Between Human and Machine Translation," arXiv Preprint arXiv:1609.08144, 2016.
A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. Gomez, et al., "Attention is All You Need," Advances in Neural Information Processing Systems, pp. 5998-6008, 2017.
Word2vec(2013), https://code.google.com/archive/p/word2vec/ (accessed February 20, 2019).
Bert-as-service(2018), https://github.com/hanxiao/bert-as-service (accessed February 20, 2019).
D. Greene and P. Cunningham, "Practical Solutions to the Problem of Diagonal Dominance in Kernel Document Clustering," Proceedings of International Conference on Machine Learning, pp. 377-384, 2006.
S. Petrovic, M. Osborne, and V. Lavrenko, "Using Paraphrases for Improving First Story Detection in News and Twitter," Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pp. 338-346, 2012.
*원문 PDF 파일 및 링크정보가 존재하지 않을 경우 KISTI DDS 시스템에서 제공하는 원문복사서비스를 사용할 수 있습니다.
출판사/학술단체 등이 한시적으로 특별한 프로모션 또는 일정기간 경과 후 접근을 허용하여, 출판사/학술단체 등의 사이트에서 이용 가능한 논문
※ AI-Helper는 부적절한 답변을 할 수 있습니다.