[논문]SNS 특징정보를 활용한 마르코프 논리 네트워크 기반의 단문 텍스트 분류 방법

이은지; 김판구

doi:10.9717/kmms.2017.20.7.1065

[국내논문] SNS 특징정보를 활용한 마르코프 논리 네트워크 기반의 단문 텍스트 분류 방법
A Method for Short Text Classification using SNS Feature Information based on Markov Logic Networks 원문보기

멀티미디어학회논문지 = Journal of Korea Multimedia Society, v.20 no.7, 2017년, pp.1065 - 1072

이은지 (Dept. of Computer Engineering, Chosun University) , 김판구 (Dept. of Computer Engineering, Chosun University)

Abstract ▼ AI-Helper

As smart devices and social network services (SNSs) become increasingly pervasive, individuals produce large amounts of data in real time. Accordingly, studies on unstructured data analysis are actively being conducted to solve the resultant problem of information overload and to facilitate effective data processing. Many such studies are conducted for filtering inappropriate information. In this paper, a feature-weighting method considering SNS-message features is proposed for the classification of short text messages generated on SNSs, using Markov logic networks for category inference. The performance of the proposed method is verified through a comparison with an existing frequency-based classification methods.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

기존 문서 분류에서는 문서에 등장하는 단어 간의 의미적 또는 통계적 정보를 특징으로 이용하여 학습데이터셋을 구축하지만, SNS 메시지의 경우 단문텍스트이기 때문에 문맥정보를 활용하기 쉽지 않다. 따라서 본문에서는 SNS 메시지의 특징을 고려한 특징 가중치 부여방법을 제안하고자한다. 두 번째 분류단계는 미분류 문서에 대한 분류를 수행하는 과정이다.
본 논문은 카테고리별 특징을 정의 및 추출하고, 특징을 고려한 가중치 방법을 적용하여, 단문 텍스트 분류에 관한 연구이다. 본 시스템은 학습데이터셋을구축하는 과정과 학습데이터셋을 기반으로 단문 텍스트를 분류하는 과정으로 구성된다.
하지만, 출현하는 단어의 빈도수에만 의존할 경우 카테고리의 정보를 제대로 반영하기 어렵다. 이러한 문제를 극복하기 위해 본 논문에서는 추출된 키워드 빈도수와 특징정보를 결합하여 특징기반 가중치 측정 방법을 제안하고자한다. 다음 Table 3은 SNS 메시지의 유형을 분석한 선행연구[14]를 바탕으로 정의한 특징정보를 나타낸다.

제안 방법

제안 기법의 실험과 성능 평가를 위해 트위터에서 각 카테고리별 메시지를 500건씩 수집하였으며, 400건의 학습데이터와 100건의 실험데이터로 데이터셋을 구축하였다. 그 중 전처리 과정을 거쳐 선정된 키워드에는 본 논문에서 제안한 가중치 부여 방법을 적용하여, 학습 데이터를 구축하였으며, 미분류 문서의 카테고리 추론을 위해 추론 규칙을 적용하였다. 마르코프 논리의 적용은 공개소프트웨어인 Alchemy(http://alchemy.
그 중 전처리 과정을 거쳐 선정된 키워드에는 본 논문에서 제안한 가중치 부여 방법을 적용하여, 학습 데이터를 구축하였으며, 미분류 문서의 카테고리 추론을 위해 추론 규칙을 적용하였다. 마르코프 논리의 적용은 공개소프트웨어인 Alchemy(http://alchemy.cs.Washington.edu)를 활용하여 추론 규칙에 따라 확률적 추론을 수행하였다. 제안한 특징기반 가중치의 성능판단을 위해서 기존의 키워드 빈도수 기반의 문서 분류 방법과 비교 실험을 수행하였다.
그러므로 각 단어가 나타내는 주제들을 확률적인 값으로 나타 낼 수 있다. 본 논문과 같이 자동 문서분류를 위한 방법으로 확률적 방법을 사용할 경우 분류의 정확성을 높이기 위해 추출된 키워드에 대한 가중치를 부여한다. 이는 한 문서가 가지고 있는 개념의 주제적 요소로서의 중요도에 따라 상대적 가치를 표현하기 위함이다.
학습과정이 끝나면, 미분류 문서에 대한 카테고리 추론을 위해 학습데이터를 기반으로 추론규칙을 적용한다. 본 논문에서는 Apriori 알고리즘[15]을 바탕으로 문서와 특성을 고려하여 마르코프 논리에 적용할 수 있는 추론 규칙을 설계하였다. Apriori 알고리즘은 데이터의 클래스를 예측하는데 연관 규칙을 이용하는 연관 규칙 분류(Associative Classification)[16] 방법의 하나로써, A 항목 집합이 존재하면 C 라는 클래스에 속하는 경향이 있음을 의미하는 규칙(“A→C”)을 기반으로 문서를 분류하는 이론이다.
따라서 실시간으로 발생하는 데이터 분석에 대한 연구가 이뤄지고 있으며,감정분석, 데이터 분류 등 그 주제 또한 다양하다. 본 논문에서는 SNS특징정보기반의 키워드 가중치를 활용하여 단문텍스트의 분류하였으며, 마르코프 논리 네트워크기반의 추론규칙을 설계 및 적용하여 카테고리 추론을 수행하였다. 본 논문에서 제시하는 방안은 기존의 빈도수 기반의 분류 방법에 비해 분류성능을 향상 시킬 수 있음을 실험을 통해 보였으며, 향후 연구로는 문서 분류 성능 향상을 위해 다양한 특징들을 선정하고, 다양한 추론 규칙을 고려한 한 연구를 수행하고자 한다.
본 논문은 카테고리별 특징을 정의 및 추출하고, 특징을 고려한 가중치 방법을 적용하여, 단문 텍스트 분류에 관한 연구이다. 본 시스템은 학습데이터셋을구축하는 과정과 학습데이터셋을 기반으로 단문 텍스트를 분류하는 과정으로 구성된다. 다음 Fig.
설계된 규칙을 기반으로 문서의 카테고리를 추론하기 위해 미분류 문서의 특징들을 추출하고, 마르코프 논리 네트워크에서의 정의된 규칙과 가중치들을 바탕으로 hasCategory확률이 높은 카테고리가 미분류 문서의 카테고리로 선정된다.
첫 번째 단계에서 특수문자와 숫자를 제거하고, 두 번째 단계에서 문장 내 의미 판별에 큰 영향을 미치지 않는 관사, 전치사, 조사, 접속사 등의 불용어를 제거한다. 세 번째 단계에서 POS(Part-Of-Speech) 태깅을 통해 동사만을 추출하였으며, 키워드 빈도수(Term Frequency) 측정과 키워드가중치 계산을 위해 스테밍(Stemming)을 거쳐 추출된 동사의 원형을 Term_List DB에 저장한다. 다음 Table 1은 키워드를 추출하는 과정을 나타낸다.
다음 Table 3은 SNS 메시지의 유형을 분석한 선행연구[14]를 바탕으로 정의한 특징정보를 나타낸다. 앞서 추출한 키워드에 카테고리별 가중치를 부여하기 위해 각 카테고리(News, Opinion,Advertisement, Private)의 성향을 나타내는 특징을 정의하였다.
본 논문에서는 학습데이터셋에서 등장하는 동사를 키워드로 정의하였다. 일반적으로 문서의 주제별 분류의 경우, 명사는 문장에서 주어 역할을 하기 때문에 명사를 키워드로 선정하게 되지만, 본 연구에서는 문서의 유형별 분류가 목적이기 때문에 문장에서 내용을 전개하는 서술어 역할을 하는 동사를 키워드로 선정하였다. 키워드를 추출하기 위한 전처리과정은 다음과 같다.
그 중 나이브 베이지안 모델은 단순한 모델임에 비해, 성능이 높기 때문에 많이 활용 되고 있지만, 모델의 순환 관계를 형성할 수 없어 다양한 특징(Feature)에 대한 추론이 어렵다는 단점을 가지고 있다. 하지만 문서분류의 성능 향상을 위해 다양한 특징이 선정 되어야 함에 따라 본 논문에서는 불확실성에 대한 확률이론으로 특징들의 순환 관계를 표현할 수 있는 마르코프네트워크 모델을 문서분류에 이용하고자 한다. 논문의 구성은 다음과 같다.
학습데이터셋을 구축하기 위해서 4가지 카테고리('Advertisement', 'Review', 'News', 'Private') 별 트위터 데이터를 수집하고, 카테고리 별 수집된 데이터의 전처리과정을 거쳐 키워드를 추출한 후, 특징정보기반의 키워드가중치(Category Term Weight)를부여하여 학습데이터셋을 구축한다.

대상 데이터

본 연구에서 사용한 카테고리는 ‘Advertisement’, ‘Reviews’, ‘News’, ‘Private’ 4개의 카테고리이며, 기존 단문텍스트 분류에 관한 선행연구[17-21]들을 기반으로 선정하였으며, 단문텍스트를 이용하는 대표적인 SNS인 트위터로부터 카테고리별 데이터를 수집하였다.
본 연구에서 사용한 카테고리는 ‘Advertisement’, ‘Reviews’, ‘News’, ‘Private’ 4개의 카테고리이며, 기존 단문텍스트 분류에 관한 선행연구[17-21]들을 기반으로 선정하였으며, 단문텍스트를 이용하는 대표적인 SNS인 트위터로부터 카테고리별 데이터를 수집하였다. 제안 기법의 실험과 성능 평가를 위해 트위터에서 각 카테고리별 메시지를 500건씩 수집하였으며, 400건의 학습데이터와 100건의 실험데이터로 데이터셋을 구축하였다. 그 중 전처리 과정을 거쳐 선정된 키워드에는 본 논문에서 제안한 가중치 부여 방법을 적용하여, 학습 데이터를 구축하였으며, 미분류 문서의 카테고리 추론을 위해 추론 규칙을 적용하였다.

데이터처리

edu)를 활용하여 추론 규칙에 따라 확률적 추론을 수행하였다. 제안한 특징기반 가중치의 성능판단을 위해서 기존의 키워드 빈도수 기반의 문서 분류 방법과 비교 실험을 수행하였다. 다음 Table 7은 키워드 빈도수 기반의 트위터 메시지 분류 결과이다.

성능/효과

기존 문서 분류에서는 문서에 등장하는 단어 간의 의미적 또는 통계적 정보를 특징으로 이용하여 학습데이터셋을 구축하지만, SNS 메시지가 단문 텍스트로 구성되어 문맥정보를 활용하기가 어렵다. 따라서,본 논문에서는 SNS 메시지 유형별 특징정보를 선정하고, 그를 활용한 가중치를 부여하는 방법을 제안하였으며, 본 논문에서 제안한 방법을 적용하여 단문텍스트를 분류한 결과 기존의 빈도수 기반의 가중치 기법에 비해 성능이 향상되었음을 확인할 수 있었다.

후속연구

본 논문에서는 SNS특징정보기반의 키워드 가중치를 활용하여 단문텍스트의 분류하였으며, 마르코프 논리 네트워크기반의 추론규칙을 설계 및 적용하여 카테고리 추론을 수행하였다. 본 논문에서 제시하는 방안은 기존의 빈도수 기반의 분류 방법에 비해 분류성능을 향상 시킬 수 있음을 실험을 통해 보였으며, 향후 연구로는 문서 분류 성능 향상을 위해 다양한 특징들을 선정하고, 다양한 추론 규칙을 고려한 한 연구를 수행하고자 한다.

질의응답

핵심어	질문	논문에서 추출한 답변
	나이브 베이지안 모델의 장점과 단점은 무엇인가?	문서 분류에 적용되는 대표적인 알고리즘은 베이지안 네트워크 모델, SVM(Support Vector Machine),KNN(K-Nearest Neighbors) 등[3]이 있다. 그 중 나이브 베이지안 모델은 단순한 모델임에 비해, 성능이 높기 때문에 많이 활용 되고 있지만, 모델의 순환 관계를 형성할 수 없어 다양한 특징(Feature)에 대한 추론이 어렵다는 단점을 가지고 있다. 하지만 문서분류의 성능 향상을 위해 다양한 특징이 선정 되어야 함에 따라 본 논문에서는 불확실성에 대한 확률이론으로 특징들의 순환 관계를 표현할 수 있는 마르코프네트워크 모델을 문서분류에 이용하고자 한다.
	문서 분류는 무슨 기법인가?	문서 분류는 문서 및 문서의 카테고리를 대표할 수 있는 특징들을 이용해 새로운 문서를 해당 범주로 자동 분류하는 기법이다[5]. 문서 분류에 대한 연구는 크게 특징 선택(Feature Selection)에 대한 연구와 분류 모델 학습 알고리즘에 대한 연구로 나누어져 수행 되고 있다.
	마르코프 네트워크의 특징은 무엇인가?	마르코프 네트워크는 확률이론과 그래프이론을 결합하여 확률분포(Probability Distribution)를 표현하고, 확률변수(Random Variable)에 대한 확률을 계산할 수 있는 모델이다[11]. 이는 순환관계를 형성할 수 없는 베이지안 네트워크의 단점을 보완한 순환그래프 형태이며, 그래프는 각 변수마다 할당된 노드를 가질 수 있다[10]. 마르코프 네트워크와 1차 논리가 결합한 형태인 마르코프 논리 네트워크는 1차 논리 간의 결합을 네트워크 형태로 나타내기 위한 모델이며, 1차 논리형식으로 표현되는 확률모델에 기반을 둔 확률적 추론을 위한 언어라 할 수 있다.

참고문헌 (21)

Wikipedia, http://en.wikipedia.org/wiki/Information_overload (accessed Mar., 07, 2017).
M. Nam, E.. Lee, and and J. Shin, “A Method for User Sentiment Classification using Instagram Hashtags,” Journal of Korea Multimedia Society, Vol. 18, No. 11, pp. 1391-1399, 2015.

원문보기 상세보기
B. Ko, D. Choi, C. Choi, J. Choi, and P. Kim, "Data Classification through Specified Building n-gram," Proceedings of the International Conference on Innovative Mobile and Internet Services in Ubiquitous Computing, pp. 171-176, 2012.
T.M. Mitchell, Machine Learning, McGraw-Hill Science/Engineering/Math, 1997. New York.
B. Ko, K. Oh, and P. Kim, “A Research for Web Documents Genre Classification Using STW,” Journal of Information Technology and Architecture, Vol. 9, No. 4, pp. 413-422, 2012.
Wikipedia, http://en.wikipedia.org/wiki/Tf%E2%80%93idf (accessed Mar., 07, 2017).
Wikipedia, http://en.wikipedia.org/wiki/Mutual_information (accessed Mar., 24, 2017).
C. Han, S. Park, and S. Lee, “A Document Classification System Using Modified ECCD and Category Weight for each Document,” Korea Information Processing Society, Vol. 19B, No. 4, pp. 237-242, 2012.
M. Richardson and P. Domingos, “Markov logic networks,” Journal Machine Learning, Vol. 62, No. 1-2, pp. 107-136, 2006.

상세보기
S. Riedel and M.R. Ivan, "Collective Semantic Role Labelling with Markov Logic," Proceedings of the international Conference on Computational Natural Language Learning, pp. 193-197, 2008.
C. Choi, J. Choi, E. Lee. I. You, and P. Kim, "Probabilistic Spatio-temporal Inference for Motion Event Understanding," Neurocomputing, Vol. 122, pp. 24-32, 2013.

상세보기
P. Oliveira, Probabilistic Reasoning in the Semantic Web using Markov Logic, Master's Thesis of University of Coimbra, 2009.
P. Domingos and D. Lowd, Markov Logic: An Interface Layer for Artificial Intelligence, Morgan and Claypool Publishers, San Francisco, California, 2009.
G. Song, Y. Ye, X. Du, X. Huang, and S. Bie, “Short Text Classification : A Survey,” Journal of Multimedia, Vol. 9, No. 5, pp. 635-643, 2014.
L. Meng, R. Huang, and J. Gu, "A Review of Semantic Similarity Measures in WordNet," International Journal of Hybrid Information Technology, Vol. 6, No. 1 pp. 1-12, 2013.
B. Liu, W. Hsu, and Y. Ma, "Integrating Classification and Association Rule Mining," Proceedings of Knowledge Discovery and Data Mining, pp. 80-86, 1998.
B. Siram, D. Fuhry, E. Demir, H. Ferhatosmanoglu, and M. Demirbas, "Short Text Classification in Twitter to Improve Information Filtering," Proceedings of the 33rd International ACM SIGIR Conference on Research and Development in Information Retrieval, pp. 841-842, 2010.
M. Tare, I. Gohokar, J. Sable, D. Paratwar, and R. Wajgi, “Multi-Class Tweet Categorization using Map Reduce Paradigm,” International Journal of Computer Trends and Technology, Vol. 9, No. 2, pp. 78-81, 2014.
I. Dilrukshi and K. Zoysa, “A Feature Selection Method for Twitter News Classification,” International Journal of Machine Learning and Computing, Vol. 4, No. 4, pp. 365-370, 2014.
J. Wang, G. Cong, W. Zhao, and X. Li, "Mining User Intents in Twitter : Semi-Supervised Approach to Inferring Intent Categories for Tweets," Proceeding of 29th Association for the Advancement of Artificial intelligence Conference on Artificial Intelligence, pp. 339-345, 2015.
Y. Chun, “A SNS Message Type Classification System using Language Independent Features and Dependent Features,” International Journal of Software Engineering and Its Applications, Vol. 9, No. 7, pp. 151-158, 2015.

상세보기

저자의 다른 논문 :

LOADING...

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증