[논문]트위터를 활용한 실시간 이벤트 탐지에서의 재난 키워드 필터링과 지명 검출 기법

하현수; 황병연

doi:10.3745/ktsde.2016.5.7.345

트위터를 활용한 실시간 이벤트 탐지에서의 재난 키워드 필터링과 지명 검출 기법
Keyword Filtering about Disaster and the Method of Detecting Area in Detecting Real-Time Event Using Twitter 원문보기

정보처리학회논문지. KIPS transactions on software and data engineering. 소프트웨어 및 데이터 공학, v.5 no.7, 2016년, pp.345 - 350

하현수 (가톨릭대학교 컴퓨터공학과) , 황병연 (가톨릭대학교 컴퓨터정보공학부)

초록
AI-Helper

본 논문에서는 트위터를 활용하여 이벤트를 실시간으로 탐지하는 시스템에서의 재난 키워드 필터링과 지명 검출 기법을 제안한다. 스마트폰의 보급이 SNS의 빠른 확산을 이끌었고, 최근 SNS를 활용하여 다양한 연구들이 진행되고 있다. SNS 중에서 트위터는 140자의 단문으로 작성되어 빠르게 확산되는 특성을 가지고 있다. 따라서 트윗 사용자들이 작성하는 트윗은 하나의 센서 역할을 수행할 수 있다. 이러한 특성들을 이용하여 발생한 이벤트를 탐지하는 연구가 진행되었다. 그러나 최근 개인 정보 유출 사례가 증가해 자신의 위치 정보를 공개하기 꺼려함에 따라 재난이 발생한 지역을 파악하는데 어려움이 있다. 또한 맞춤법을 따르지 않은 게시글의 내용을 분석하는 과정에서 정확성과 관련된 문제가 발생한다. 따라서 이벤트 발생 탐지 과정에 재난 관련 키워드 필터링과 지명 검출 기법이 추가적으로 적용되어야 한다. 본 논문에서는 재난 관련 키워드 필터링의 적용과 두 가지 지명 검출 기법을 제안한다. 지명을 검출하는 두 가지 기법은 지명 단어에서 발생되는 노이즈를 제거하는 지명 노이즈 제거 기법과 랜드 마크를 이용하여 지명 단어를 확정하는 지명 확정 기법이다. 재난 관련 키워드와 두 지명 검출 기법을 적용한 결과 기존 시스템의 정확도 49%에서 지명노이즈 제거기법은 78%, 지명확정기법은 89%로 향상되었다.

Abstract ▼ AI-Helper

This research suggests the keyword filtering about disaster and the method of detecting area in real-time event detecting system by analyzing contents of twitter. The diffusion of smart-mobile has lead to a fast spread of SNS and nowadays, various researches based on studying SNS are being processed. Among SNS, the twitter has a characteristic of fast diffusion since it is written in 140 words of short paragraph. Therefore, the tweets that are written by twitter users are able to perform a role of sensor. By using these features the research has been constructed which detects the events that have been occurred. However, people became reluctant to open their information of location because it is reported that private information leakage are increasing. Also, problems associated with accuracy are occurred in process of analyzing the tweet contents that do not follow the spelling rule. Therefore, additional designing keyword filtering and the method of area detection on detecting real-time event process were required in order to develop the accuracy. This research suggests the method of keyword filtering about disaster and two methods of detecting area. One is the method of removing area noise which removes the noise that occurred in the local name words. And the other one is the method of determinating the area which confirms local name words by using landmarks. By applying the method of keyword filtering about disaster and two methods of detecting area, the accuracy has improved. It has improved 49% to 78% by using the method of removing area noise and the other accuracy has improved 49% to 89% by using the method of determinating the area.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

따라서 본 논문에서는 이벤트를 탐지하는 TRED 시스템의 키워드 추출 과정과 지명 검출 과정에 추가적인 알고리즘을 설계하여 제안한다. 우선 재난 이벤트 관련 키워드 필터링 과정을 위해 트위터에서 실제로 사용되어지는 재난 관련 단어를 수집하고 분류과정을 거친 뒤 데이터베이스에 저장하였다.
수집된 트윗에서 키워드를 추출하는 이유는 TRED 시스템이 이벤트가 발생되었다고 탐지했을 때, 트윗 내용을 전부 읽지 않고, 키워드를 통해 어떤 이벤트가 발생되었는지 알기 위함이다. 마찬가지로 지명을 검출하는 이유도 어디에서 이벤트가 발생하였는지 파악하기 위해서다. 지명 지정의 기준은 통계청에서 제공한 시·군·구 범위의 168개의 행정구역명을 참고하여 결정하였다[10].
본 논문에서는 트위터를 이용한 이벤트 탐지 시스템의 정확성을 높이기 위해 재난 관련 키워드 필터링과 지명 검출 기법을 제안하였다.
그럼으로써 적합한 큰 영향을 미칠 수 있는 결정을 내리는데 도움을 줄 수 있다. 이 연구를 통해 이벤트 범위 지정에 대한 도움을 받고, 키워드 필터링의 필요성을 인식하였다. 그러나 [2]와 [3]은 한국어로 진행된 연구가 아니기에 한국어가 적용된 연구가 필요하다고 판단하였다.
지명 노이즈 제거기법의 탐지율과 지명 확정 기법의 정확도가 결합 가능하다면 최적의 지명 검출 기법이 될 것이라 예상하고 시도해보았다. 그러나 지명 확정 기법의 알고리즘이 지명 노이즈 제거기법의 알고리즘을 무의미하게 만들었다.

제안 방법

예를 들면 ‘지진’과 관련하여 ‘동공지진’, ‘지진희’와 같이 키워드를 포함한 단어가 있다. 각 키워드 별로 생길 수 있는 노이즈 단어를 선별하여 키워드 노이즈 데이터베이스에 저장하였다. 수집된 트윗은 키워드 데이터베이스와 키워드 노이즈 데이터베이스를 거치며 1차적으로 정제된다.
우선 재난 이벤트 관련 키워드 필터링 과정을 위해 트위터에서 실제로 사용되어지는 재난 관련 단어를 수집하고 분류과정을 거친 뒤 데이터베이스에 저장하였다. 다음으로 정확한 지명 검출을 위해 지명 단어의 노이즈 유형에 따라 지명 노이즈 제거 기법과 지명 확정 기법, 두 가지 기법을 고안했다. 두 가지 지명 검출 기법을 기존의 시스템에 적용하여 탐지율과 정확도를 기준으로 두 기법의 결과를 비교해보았다.
다음으로 정확한 지명 검출을 위해 지명 단어의 노이즈 유형에 따라 지명 노이즈 제거 기법과 지명 확정 기법, 두 가지 기법을 고안했다. 두 가지 지명 검출 기법을 기존의 시스템에 적용하여 탐지율과 정확도를 기준으로 두 기법의 결과를 비교해보았다.
이러한 SNS 게시글의 특성 때문에 기존의 기법으로는 사전적 의미를 분석하기에 어려움이 있다. 따라서 본 논문에서는 SNS의 특성에 맞게 개선된 알고리즘을 지명 검출 기법에 적용하였다.
우선 동형이의어를 포함하고 있는 사전의 뜻풀이 말에서 정확한 의미정보를 추출하기 위해서 사전 뜻풀이말의 유형을 분류하였다. 또한 용언과 체언이 같이 사용되는 경우들을 파악하여 통계적 방법을 이용해 동형이의어의 정확한 의미를 분류한다. 마지막으로 지명 단어와 동형이의어 관계에 있는 노이즈 단어를 분류하는 방안을 제시한다.
지명 검출 기법의 이벤트 탐지여부를 평가할 데이터는 2014년 12월 이후부터 2015년 7월까지 트위터를 통하여 수집하였다. 또한 재난 관련 키워드 필터링을 거쳐 정제된 트윗에 두 기법을 따로 적용하여 결과를 도출하였다.
트윗을 분석하기 위해 수집된 트윗을 루씬 형태소 분석기를 통해 어절 단위로 나눈다[9]. 띄어쓰기를 기준으로 나누어진 어절 단위의 트윗 내용에서 키워드를 추출하고, 이벤트가 발생한 지명을 검출한다. 키워드와 지역이 포함된 트윗은 데이터베이스에 큐 형태로 저장하여 이벤트 탐지 단계에서 활용한다.
또한 용언과 체언이 같이 사용되는 경우들을 파악하여 통계적 방법을 이용해 동형이의어의 정확한 의미를 분류한다. 마지막으로 지명 단어와 동형이의어 관계에 있는 노이즈 단어를 분류하는 방안을 제시한다. 그러나 트위터와 같은 SNS의 게시글은 맞춤법을 제대로 따르지 않거나 인터넷 용어를 사용하는 경향이 강하다.
본 논문에서 제안하는 기법을 적용할 이벤트 탐지 시스템 (TRED System)은 Fig. 1과 같이 구축되었다. TRED 시스템은 트윗 수집, 트윗 분석, 이벤트 탐지의 세 단계로 구성된다.
본 논문에서 제안하는 기법의 성능을 평가할 기준으로 탐지율과 정확도를 제안한다. 탐지율은 실제로 발생한 이벤트의 수와 시스템에서 탐지한 이벤트 수의 비율을 의미한다.
이벤트의 정확한 범위 지정은 특정 이벤트 관련한 키워드를 지정하여 해결하였다. 본 논문에서는 특정 이벤트를 재해, 사건, 사고를 포함한 재난으로 정하였다.
따라서 본 논문에서는 이벤트를 탐지하는 TRED 시스템의 키워드 추출 과정과 지명 검출 과정에 추가적인 알고리즘을 설계하여 제안한다. 우선 재난 이벤트 관련 키워드 필터링 과정을 위해 트위터에서 실제로 사용되어지는 재난 관련 단어를 수집하고 분류과정을 거친 뒤 데이터베이스에 저장하였다. 다음으로 정확한 지명 검출을 위해 지명 단어의 노이즈 유형에 따라 지명 노이즈 제거 기법과 지명 확정 기법, 두 가지 기법을 고안했다.
이러한 트위터의 빠른 정보 전파력을 이용하여 트위터의 각 이용자들을 하나의 센서로 판단하고, 이용자가 작성하는 트윗 내용을 분석하여 이벤트를 탐지하는 TRED(Twitter Based Realtime Event-Location Detector) 시스템[1]을 구축하였다. 그러나 이벤트가 발생된 지역을 검출하는 과정에서 낮은 정확도를 보이는 문제점이 발견되었다.
그러나 TRED 시스템의 이벤트 탐지 알고리즘은 트윗의 양보다는 트윗의 비율이 중요하게 작용하므로 무료로 제공되는 API를 통해 일부 트윗만을 수집한다. 이후 크롤러(crawler)를 이용하여 한국어가 포함된 트윗을 선별하고 국내에서 발생한 트윗으로 판단하였다.
수집된 재난 관련 키워드의 예시로 ‘지진’, ‘태풍’, ‘홍수’, ‘메르스’, ‘침몰’, ‘추돌’, ‘붕괴’, ‘산불’, ‘폭발’, ‘운행 정지’, ‘원전’, ‘집회’, ‘시위’, ‘지반 침하’ 등을 들 수 있다. 재난 관련 키워드 수집 후 재난의 종류를 기준으로 자연재해, 전염병, 해양사고, 대형교통사고, 건물사고, 화재, 철도 및 전철사고, 원전사고, 범죄, 싱크홀 총 10가지로 세분화시켜 데이터베이스에 저장하였다. 키워드의 세분화는 재난 발생 탐지를 전파할 때 보다 정확한 내용을 전달하기 위함이다.

대상 데이터

본 논문에서 탐지율 성능을 평가할 기준 데이터는 2014년 12월 이후의 네이버 뉴스 속보로부터 선정한 100개의 이벤트이다[11]. 지명 노이즈 제거 기법은 실제 발생된 속보 이벤트 100개 중에 84개를 탐지하였다.
재난 사고 관련 키워드 셋은 트위터 사용자들이 실제 재난 발생 시 현장에서 이용하는 단어를 수집하여 구성하였다. 재난 사고 관련 키워드는 소방방재청이 지정한 재난 카테고리 중에서 자주 발생되는 20종류를 기준으로 하였다.
재난 사고 관련 키워드 셋은 트위터 사용자들이 실제 재난 발생 시 현장에서 이용하는 단어를 수집하여 구성하였다. 재난 사고 관련 키워드는 소방방재청이 지정한 재난 카테고리 중에서 자주 발생되는 20종류를 기준으로 하였다. 수집된 재난 관련 키워드의 예시로 ‘지진’, ‘태풍’, ‘홍수’, ‘메르스’, ‘침몰’, ‘추돌’, ‘붕괴’, ‘산불’, ‘폭발’, ‘운행 정지’, ‘원전’, ‘집회’, ‘시위’, ‘지반 침하’ 등을 들 수 있다.
정확도 성능을 평가할 기준은 지명 노이즈 제거 기법이 이벤트로 탐지한 100개와 지명 확정 기법이 이벤트로 탐지한 100개의 각각 다른 데이터이다. 데이터가 다른 이유는 키워드를 재난 관련 단어로 지정하고 필터링과정을 거치더라도 지명 검출 기법에 따라 탐지되는 이벤트가 다르기 때문이다.
지명 검출 기법의 이벤트 탐지여부를 평가할 데이터는 2014년 12월 이후부터 2015년 7월까지 트위터를 통하여 수집하였다. 또한 재난 관련 키워드 필터링을 거쳐 정제된 트윗에 두 기법을 따로 적용하여 결과를 도출하였다.

이론/모형

[1]에서 제안하는 TRED 시스템은 트위터 사용자를 이벤트 탐지의 센서로 이용한 실시간 이벤트 탐지 시스템이며 [2]와 비슷하게 실시간으로 트윗을 수집하여 정제하는 과정을 거친다. TRED 시스템은 [2]와 다르게 TF(Term Frequency), VT(Variety of Tweets), DA(Document Average) 수식을 이용하여 평소보다 자주 언급되는 지명에서 이벤트가 발생했다고 판단하는 알고리즘을 적용시켰다. 그러나 지명에 관한 노이즈를 제거하는 과정이 없어 이벤트 탐지 정확도가 낮다.
본 논문에서 제안하는 키워드 필터링 기법은 키워드 추출 과정에 추가되었다. 그리고 지명 검출 기법은 트윗 분석의 지명 탐지 과정에 추가 적용되었다.
그러나 지명 노이즈를 정밀하게 제거할 수 있다고 판단된다. 정확한 지명 검출은 이벤트의 탐지율 향상에 영향을 미치기 때문에 노이즈 제거 기법을 적용하였다.
지명 지정의 기준은 통계청에서 제공한 시·군·구 범위의 168개의 행정구역명을 참고하여 결정하였다[10].

성능/효과

지명 확정 기법은 80개를 탐지하였다. 기존 시스템에서 98개를 탐지한 점을 감안하면 탐지율은 두 기법을 적용하였을 때 오히려 감소하였다. 그러나 지명 제거 기법은 노이즈 제거 데이터베이스를 구체화 시켜서 실제 지명 단어를 노이즈로 판단하는 상황을 줄일 수 있다.
제안된 키워드 필터링과 두 지명 검출 기법을 적용하였을때 지명 노이즈 제거 기법의 정확도는 기존 시스템 보다 29% 향상되었다. 특히 지명 확정 기법의 정확도는 기존 시스템에 비해 40% 대폭 향상되었다.
제안된 키워드 필터링과 두 지명 검출 기법을 적용하였을때 지명 노이즈 제거 기법의 정확도는 기존 시스템 보다 29% 향상되었다. 특히 지명 확정 기법의 정확도는 기존 시스템에 비해 40% 대폭 향상되었다. 지명 확정 기법의 정확도가 100%가 아닌 이유는 랜드 마크로 저장된 일부 단어에서도 노이즈가 발생했기 때문이다.

후속연구

그에 따라 SNS 이용자들이 게시글에 자신의 위치 정보를 태그하는 경우가 현저히 감소했다. 결과적으로 트윗 내용을 분석하는 방법의 차선책으로 연구한 게시글에 태그된 위치 정보를 이용하여 이벤트 발생 지명을 파악하는 방법의 결과가 기대치에 미치지 못했다.
지명 노이즈를 제거하더라도 랜드 마크가 트윗 내용에 언급되지 않으면 탐지가 불가능하기 때문이다. 따라서 지명노이즈 제거 기법에 포함되어 있는 조사 데이터베이스를 부분적으로 지명 확정 기법에 적용할 계획이다.
지명 확정 기법의 랜드 마크 데이터베이스의 추가 작업을 Google 지도 API에 등록되어 있는 위치를 이용하여 저장할 수 있는지에 관한 연구를 진행할 것이다. 또한 키워드 필터링부분에서 새로운 가치를 창출할 수 있는 키워드 관련 주제를 찾는 연구도 병행할 계획이다.
지명 단어와 형태는 같으나 의미가 다른 동형이의어와 지명을 포함하고 있는 단어에 의해 노이즈가 발생한다. 이에 따라 정확하게 이벤트를 탐지하기 위해서 본 논문에서 제안하는 추가적인 기법들이 필요하다고 판단된다.
전파할 방법은 웹과 스마트폰 애플리케이션을 사용하여 알림기능을 적용시킬 계획이다. 지명 확정 기법의 랜드 마크 데이터베이스의 추가 작업을 Google 지도 API에 등록되어 있는 위치를 이용하여 저장할 수 있는지에 관한 연구를 진행할 것이다. 또한 키워드 필터링부분에서 새로운 가치를 창출할 수 있는 키워드 관련 주제를 찾는 연구도 병행할 계획이다.
향후 연구로는 이벤트 탐지 뒤 전파할 방법과 지명 확정 기법에서의 랜드 마크 추가 방법을 찾는 것이다. 전파할 방법은 웹과 스마트폰 애플리케이션을 사용하여 알림기능을 적용시킬 계획이다.

질의응답

핵심어	질문	논문에서 추출한 답변
	팔로잉-팔로워 구조는 무엇인가?	또한 팔로잉-팔로워 구조로 이루어져 있어서 개방적인 네트워크를 형성하고 있다. 팔로잉-팔로워 구조는 트위터 이용자가 일방적으로 트위터 상대방에게 요청을 보내면 상대방의 콘텐츠를 공유하게 되는 구조이다. 따라서 트위터 이용자들이 자신이 경험한 일들을 트윗으로 작성하면 다른 이용자들과 작성된 트윗을 공유하게 된다.
	랜드 마크는 무엇을 의미하는가?	반면에 지명 확정 기법은 랜드 마크 데이터베이스를 통해 실제 지명인 단어들만 검출하여 지명으로 확정한다. 랜드 마크란 지역의 이미지를 대표하는 특이성 있는 시설이나 건물을 의미한다. 이벤트가 발생한 위치를 지명보다 더 자세하게 검출하려는 목표를 두고 고안한 기법이다.
	본 논문에서 제안한 TRED 시스템의 지명 검출 과정에서 발생하는 노이즈는 어떻게 분류되는가?	지명 검출 과정에서 발생하는 노이즈는 두 가지로 분류된다. 첫 번째 지명 노이즈는 지명 바로 뒤에 조사가 붙어 동형이의어로 사용되는 경우이다. 동형이의어는 형태는 같으나 의미가 다른 관계에 있는 단어를 의미한다. 예를 들어 ‘강화’라는 단어가 ‘강화한’, ‘강화되어’와 같이 조사가 함께 사용되면 ‘강화하다’라는 의미로 단어가 사용된다. 두 번째 지명 노이즈는 지명을 포함하고 있는 단어로 인해 발생된다. ‘여주인공’이라는 단어를 지명 ‘여주’라고 판단하거나, ‘너구리’라는 단어를 지명 ‘구리’로 판단해 검출되는 것을 예로 들 수 있다.

참고문헌 (11)

J. Yim and B. Hwang, "Twitter Based Realtime Event-Location Detector," KIPS Transactions on Software and Data Engineering, Vol.4, No.8, pp.301-308, 2015.

원문보기 상세보기
R. Li, K. H. Lei, R. Khadiwala, and K. Chang, "TEDAS: a Twitter Based Event Detection and Analysis System," Proc. of the IEEE 28th International Conference on Data Engineering, pp.1273-1276, 2012.
X. Zhou and L. Chen, "Event Detection over Twitter Social Media Streams," The VLDB Journal, Vol.23, No.3, pp.381-400, 2014.

상세보기
J. Shin and C. Ock, "A Stage Transition Model for Korean Part-of-Speech and Homograph Tagging," Journal of KIISE : Software and Applications, Vol.39, No.11, pp.889-901, 2012.
J. Hur and C. Ock, "A Homonym Disambiguation System based on Semantic Information Extracted from Dictionary Definitions," Journal of KIISE : Software and Applications, Vol.28, No.9, pp.688-698, 2001.
J. Yim, H. Ha, and B. Hwang, The Method for Removing Noises from Event Detection using Twitter," Proc. of KSII Fall Conference, pp.105-106, 2014.
S. Woo and B. Hwang, "Geographical Name Denoising by Machine Learning of Event Detection Based on Twitter," KIPS Transactions on Software and Data Engineering, Vol. 4, No.10, pp.447-454, 2015.

원문보기 상세보기
Twitter Streaming API [Internet], http://dev.twitter.com/docs/streaming-apis.
S. Lee, Lucean Korean Morph Analyzer [Internet], http://cafe.naver.com/korlucene.
Republic of Korea National Statistical Office, Population and Housing Census [Internet], http://www.kostat.go.kr.
Naver Breaking News [internet], http://news.naver.com/main/list.nhn?modeLSD&midsec&sid1001.

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증