[논문]자동 트렌드 탐지를 위한 속성의 정의 및 트렌드 순위 결정 방법

오흥선; 최윤정; 신욱현; 정윤재; 맹성현

자동 트렌드 탐지를 위한 속성의 정의 및 트렌드 순위 결정 방법
Trend Properties and a Ranking Method for Automatic Trend Analysis 원문보기

정보과학회논문지. Journal of KIISE. 소프트웨어 및 응용, v.36 no.3, 2009년, pp.236 - 243

오흥선 (한국과학기술원 정보통신공학과) , 최윤정 (한국과학기술원 정보통신공학과) , 신욱현 (한국과학기술원 정보통신공학과) , 정윤재 (한국과학기술원 정보통신공학과) , 맹성현 (한국과학기술원 정보통신공학과)

초록
AI-Helper

특허, 뉴스, 블로그와 같이 시간 정보가 있는 문서들로부터의 자동적인 트렌드 분석(trend analysis)은 토픽탐지 및 추적 기술(TDT: Topic Detection and Tracking)과 더불어 중요한 연구 분야로 대두되고 있다. 과거 연구들은 대부분 트렌드과 관련된 단어의 출현 빈도 정보를 이용하여 주어진 개념의 중요도를 측정하고 이 개념의 시간에 따른 트렌드 라인을 보여주는 것에 초점을 맞췄다. 신출 트렌드 (emerging trend)를 탐지하기 위해서는 주어진 개념의 출현 빈도수 변화와 같은 간단한 방법이나 학습 데이타와 비교하여 차이를 탐지하여 제시하는 방법이 사용되었다. 그러나 여러 트렌드 중에서 특징적인 트렌드를 찾아서 사용자에게 제공하기 위해서는 트렌드 순위 결정 함수가 필요하다. 본 논문은 트렌드의 다양한 측면을 정량화하기 위하여 출현 빈도로 구성된 트렌드 곡선으로부터 네 가지 속성 (변동성, 지속성, 안정성, 누적량) 을 정의하고 이를 활용한 트렌드 순위 결정 방법을 제안한다. 일련의 실험을 통하여 각 속성의 유용성을 검증하고 속성들의 조합이 순위 결정에 어떤 영향을 미치는지 분석하였다. 실험결과로부터 네 가지 속성을 모두 조합할 경우 특징적인 트렌드 탐지에 더욱 기여하는 것을 알 수 있다.

Abstract ▼ AI-Helper

With advances in topic detection and tracking(TDT), automatic trend analysis from a collection of time-stamped documents, like patents, news papers, and blog pages, is a challenging research problem. Past research in this area has mainly focused on showing a trend line over time of a given concept by measuring the strength of trend-associated term frequency information. for detection of emerging trends, either a simple criterion such as frequency change was used, or an overall comparison was made against a training data. We note that in order to show most salient trends detected among many possibilities, it is critical to devise a ranking function. To this end, we define four properties(change, persistency, stability and volume) of trend lines drawn from frequency information, to quantify various aspects of trends, and propose a method by which trend lines can be ranked. The properties are examined individually and in combination in a series of experiments for their validity using the ranking algorithm. The results show that a judicious combination of the four properties is a better indicator for salient trends than any single criterion used in the past for ranking or detecting emerging trends.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서는 트렌드의 다양한 측면을 정량화하기 위한 4가지 트렌드 속성 및 이를 이용한 새로운 트렌드 순위 결정 방법을 제안한다. 제안하는 트렌드 순위 결정 방법은 기존의 출현 빈도 정보를 활용하여 4 가지 속성값을 결정하고 이를 조합함으로써 하나의 특징적인 값을 계산하고 비교하는 것으로 이루어져 있다.
트렌드를 탐지할 수 있는 대상의 수가 많아질수록 많은 트렌드 중 특징적인 트렌드를 선별하는 문제가 중요해진다. 본 논문은 과거 출현 빈도 합을 이용한 트렌드 순위 결정 방법의 한계를 소개하며 이를 극복하기 위한 4가지 속성(변동성, 지속성, 안정성, 누적량)을 정의하고 4가지 속성과유전 알고리즘을 이용하는 새로운 트렌드 순위 결정 방법을 제안하였다. 각 속성들과 제안된 순위 결정 방법을 검증하기 위하여 실제 웹 문서로부터 50개의 평가 케이스와 그에 상응하는 금본위 트렌드를 구축하고 이용하여 여러가지 실험을 하였다.
본 실험의 목적은 앞서 정의한 4가지의 속성들이 트렌드 강도를 측정에 있어 유용성을 입증하는 것이다. 4 가지의 속성 중 누적량은 누적 출현 빈도수와 같은 의미로 이미 다른 연구에서 일반적으로 자주 쓰고 있는 것이지만, 다른 3가지의 속성은 본 논문에서 처음 정의되는 것이기 때문에 각 속성의 유용성 입증이 필요하다.

가설 설정

각 케이스는 5개의 서브 트렌드로 구성되어있고 각 트렌드는 서로 다른 속성값을 가지고 있다. 따라서 350개의 케이스가 4가지의 속성으로 가능한 모든 조합을 포함할 수 있다고 가정한다.
본 연구에서 트렌드는 한 객체(object)에 대하여 주어진 기간 동안의 인기도 분포(popularity distribution) 로정의한다. 트렌드의 대상 객체는 사용자가 흥미를 가지는 토픽 중에서 명시적인 대상을 나타낸다.

제안 방법

50개의 케이스에 대하여, 정의된 4가지 속성을 모르는 4명의 사람이 각 케이스에 대해서 1-5위까지 순위 결정하고 학습 데이타 순위 결정과 동일한 방법을 적용하여 최종 순위를 결정하였다. 이렇게 최종 순위가 결정된 평가 데이타를 금본위 데이타(gold standard)로 이용하였다’
이는 사용자에게 전문적인 지식을 요구하므로 대중적인 트렌드를 탐지하는데 적합하지 않다. HDDH₁ 기는 특허 문서로부터 일반적인 명사구를 트렌드로 간주하고 각 트렌드가 신출 트렌드 인지 아닌지를 판단하였다. 이를 위해서 과거 기간에 각 명사구가 출현한 빈도수를 자질(feature)로 활용하여 신경망을 학습시켰다.
본 논문은 과거 출현 빈도 합을 이용한 트렌드 순위 결정 방법의 한계를 소개하며 이를 극복하기 위한 4가지 속성(변동성, 지속성, 안정성, 누적량)을 정의하고 4가지 속성과유전 알고리즘을 이용하는 새로운 트렌드 순위 결정 방법을 제안하였다. 각 속성들과 제안된 순위 결정 방법을 검증하기 위하여 실제 웹 문서로부터 50개의 평가 케이스와 그에 상응하는 금본위 트렌드를 구축하고 이용하여 여러가지 실험을 하였다. 실험 결과로부터 트렌드 순위 결정에 있어서 정의된 4가지 속성의 유용성을 검증하고 이를 조합하여 사용한 새로운 순위 결정 방법의 우수성을 입증하였다.
트렌드의 대상 객체로모바일디아D 에서 690개의 휴대폰 모델명을 수집하고, 각 휴대폰 모델명을 2)구글 블로그 검색 서비스의 검색 질의로 사용하여 검색 가능한 모든 블로그 공간에서 2002년부터 2007년까지 한 주 단위로 휴대폰의 인기도 분포를 생성하였다. 각 인기도 분포를 25주 단위의 여러 개의 서브 트렌드로 나누었다. 그리고 모든 서브 트렌드 수집하여 하나의 트렌드 저장소(trend pool)를 구축하였다.
그렇기에 네 가지 속성을 명시적으로 반영하고 있는 150개의 케이스를 가우시안 분포를 이용하여 인공적으로 구축하였다. 각 케이스는 25개의 인기도를 가지고 있는 5 개의 인공적인 트렌드로 구성된다.
각 인기도 분포를 25주 단위의 여러 개의 서브 트렌드로 나누었다. 그리고 모든 서브 트렌드 수집하여 하나의 트렌드 저장소(trend pool)를 구축하였다. 이 중, 무작위로 5개의 서브 트렌드를 선출하여 하나의 케이스를 만든다.
본 논문에서 제안하는 속성들의 유용성과 순위 결정 방법의 우수성을 증명하기 위하여 이전 연구에서 널리 사용한 누적량만을 고려한 트렌드 순위 결정 결과와 다른 속성들을 함께 또는 개별적으로 사용한 트렌드 순위 결정 결과를 비교하였다. 평가는 스피어만 상관 계수를 사용하였다.
생성된 학습 데이타는 정의된 4가지의 속성을 알고 있는 3명의 저자가 각 케이스 내에 있는 트렌드에 대해서 1-5위까지 순위 결정하였다. 강도가 가장 큰 트렌드에 1를 부여하고 가장 작은 트렌드에 5를 부여하였다.
이를 고려하여, 앞에서 한 실험과 유사하게 변동성을 기본 속성으로 하여 순차적으로 다른 속성들을 추가해 결과를 비교해 보았다(표 8). 놀라운 결과 중 하나는 변동성만 고려했을 경우(0.
HDDH₁ 기는 특허 문서로부터 일반적인 명사구를 트렌드로 간주하고 각 트렌드가 신출 트렌드 인지 아닌지를 판단하였다. 이를 위해서 과거 기간에 각 명사구가 출현한 빈도수를 자질(feature)로 활용하여 신경망을 학습시켰다.
그 형태를 분류하였다. 제안하는 트렌드 속성 및 순위 결정 방법은 트렌드의 형태에 종속적이지 않으므로 동일한 방법으로 신출 혹은 사양 트렌드 순위 결정 방법에 적용할 수 있다..
순위 결정 방법을 제안한다. 제안하는 트렌드 순위 결정 방법은 기존의 출현 빈도 정보를 활용하여 4 가지 속성값을 결정하고 이를 조합함으로써 하나의 특징적인 값을 계산하고 비교하는 것으로 이루어져 있다.
트렌드의 형태에는 여러 가지가 있을 수 있지만 본 논문에서는 신출 트렌드(emerging trend)와 사양 트렌드(submerging)로 그 형태를 분류하였다. 제안하는 트렌드 속성 및 순위 결정 방법은 트렌드의 형태에 종속적이지 않으므로 동일한 방법으로 신출 혹은 사양 트렌드 순위 결정 방법에 적용할 수 있다.

대상 데이터

350개의 케이스 중 200개의 케이스는 실제 데이타부터 구축하였다. 본 논문에서 휴대폰 영역의 데이타를 선택하였는데 이는 휴대폰 영역에 빠르게 변화하는 다양한 트렌드가 존재하기 때문이다.
이 중, 무작위로 5개의 서브 트렌드를 선출하여 하나의 케이스를 만든다. 이런 방법을 통하여 학습 데이타로 쓰일 200개의 케이스를 제작하였다.
본 논문에서 휴대폰 영역의 데이타를 선택하였는데 이는 휴대폰 영역에 빠르게 변화하는 다양한 트렌드가 존재하기 때문이다. 트렌드의 대상 객체로모바일디아D 에서 690개의 휴대폰 모델명을 수집하고, 각 휴대폰 모델명을 2)구글 블로그 검색 서비스의 검색 질의로 사용하여 검색 가능한 모든 블로그 공간에서 2002년부터 2007년까지 한 주 단위로 휴대폰의 인기도 분포를 생성하였다. 각 인기도 분포를 25주 단위의 여러 개의 서브 트렌드로 나누었다.
평가 데이타로는 트렌드 저장소로부터 학습 데이타로사용된 것을 제외한 나머지 트렌드 중에서 무작위로 5개의 트렌드를 선택하여 50개의 케이스를 생성했다. 50개의 케이스에 대하여, 정의된 4가지 속성을 모르는 4명의 사람이 각 케이스에 대해서 1-5위까지 순위 결정하고 학습 데이타 순위 결정과 동일한 방법을 적용하여 최종 순위를 결정하였다.
학습 데이타는 총 350개의 케이스(case)를 구축하고 사용하였다. 각 케이스는 5개의 서브 트렌드로 구성되어있고 각 트렌드는 서로 다른 속성값을 가지고 있다.

데이터처리

최적화 문제의 해결책으로 여러 방법이 있으나 본 논문에서는 유전 알고리즘을 이용하였다[13]. 4개의 가중치들을 하나의 염색체로 부호화하고, 스피어만 상관 계수(Spearman's rank correlation coefficient) [14]를 적합도 함수(fitness function)로 사용하였다.

이론/모형

5). 각 속성이 추가되어 결합할 때마다 가중치를 결정하기 위하여 유전 알고리즘이 적용되었다. 표에서도 볼 수 있듯이, 각 속성을 추가함으로써, 기본 속성만 사용된 경우보다 제안한 순위 결정 방법의 결과와 금본위 데이타 사이의 상관 관계가 증가함을 알 수 있다.
이는 방향 변화가 적은 트렌드가 방향 변화가 많은 트렌드보다 트렌드 강도가 크다라는 가정에 기반한다. 지속성은 런 길이 부호화(runMength enco- ding)[12]를 이용하여 측정하였다.
수 있다. 최적화 문제의 해결책으로 여러 방법이 있으나 본 논문에서는 유전 알고리즘을 이용하였다[13]. 4개의 가중치들을 하나의 염색체로 부호화하고, 스피어만 상관 계수(Spearman's rank correlation coefficient) [14]를 적합도 함수(fitness function)로 사용하였다.

성능/효과

표에서도 볼 수 있듯이, 각 속성을 추가함으로써, 기본 속성만 사용된 경우보다 제안한 순위 결정 방법의 결과와 금본위 데이타 사이의 상관 관계가 증가함을 알 수 있다. 3가지의 속성 중, 변동성을 추가하였을 경우에 가장 높은 성능 향상을 보였다. 안정성과 지속성도 성능 향상에 영향을 주었지만 변동성보다는 향상 폭이 적었다.
수 있었다. 그리고 각 속성 또는 속성들의 조합 마다 트렌드 순위 결정에 미치는 영향이 다르다는 것을 알 수 있었다.
표 7에서는 누적량을 기본 속성으로 하여 순차적으로 다른 속성을 적용함으로써 그 성능향상의 폭을 측정하였다. 다른 속성을 추가할수록 성능향상의 폭은 줄어들지만 성능 향상을 보여주었다.
4320) 에 비해 높은 성능 향상을 보였다. 또한, 표에서 알 수 있듯이, 각 속성을 제거함으로써, 속성마다 편차는 다르지만, 모든 경우가 전체 속성을 사용하였을 경우보다 낮은 상관 관계를 나타내었다. 특히, 변동성이 제거되었을 때 최하의 성능을 보였고, 안정성 제거가 두 번째로 낮은 성능을 보임으로써 변동성과 안정성이 트렌드 강도를 결정하는데 중요한 속성이란 것을 알 수 있다.
각 속성들과 제안된 순위 결정 방법을 검증하기 위하여 실제 웹 문서로부터 50개의 평가 케이스와 그에 상응하는 금본위 트렌드를 구축하고 이용하여 여러가지 실험을 하였다. 실험 결과로부터 트렌드 순위 결정에 있어서 정의된 4가지 속성의 유용성을 검증하고 이를 조합하여 사용한 새로운 순위 결정 방법의 우수성을 입증하였다.
3가지의 속성 중, 변동성을 추가하였을 경우에 가장 높은 성능 향상을 보였다. 안정성과 지속성도 성능 향상에 영향을 주었지만 변동성보다는 향상 폭이 적었다.
결과를 비교하여 보여준다. 이 실험을 통하여, 모든 속성을 적용하였을 때 (0.7580)는 누적량만을 사용했을 때 (0.4320) 에 비해 높은 성능 향상을 보였다. 또한, 표에서 알 수 있듯이, 각 속성을 제거함으로써, 속성마다 편차는 다르지만, 모든 경우가 전체 속성을 사용하였을 경우보다 낮은 상관 관계를 나타내었다.
일련의 실험을 통하여 사람들이 트렌드 순위 결정에 있어서 가장 많이 고려하는 것이, 우리가 기존에 알고 있었던 누적량, 즉 누적 출현 빈도가 아니라 변동성임을 알 수 있었다. 그리고 각 속성 또는 속성들의 조합 마다 트렌드 순위 결정에 미치는 영향이 다르다는 것을 알 수 있었다.
첫 번째 실험에서 기본 속성으로는 이미 이전 연구에서 자주 쓰이고 있는 누적량을 선택하였고, 이에 다른 3 가지 속성들을 각각 추가하여, 3가지 속성의 유용성을 보였다(표 5). 각 속성이 추가되어 결합할 때마다 가중치를 결정하기 위하여 유전 알고리즘이 적용되었다.
첫째, 우선 사람들은 사물이나 개념에 대해서 전체 정보나 사전 지식 없이 어떤 결정을 내리려고 할 때 트렌드를 알고 싶어 한다. 휴대폰 영역을 예로 들면, 청소년 구매자들이 터치 스크린이 탑재된 휴대폰을 사려고 할 때, 많은 경우 어떤 모델이 일반적인 인기를 얻고 있는지 파악하고 가장 대중적인 모델을 구입하려고 한다.
또한, 표에서 알 수 있듯이, 각 속성을 제거함으로써, 속성마다 편차는 다르지만, 모든 경우가 전체 속성을 사용하였을 경우보다 낮은 상관 관계를 나타내었다. 특히, 변동성이 제거되었을 때 최하의 성능을 보였고, 안정성 제거가 두 번째로 낮은 성능을 보임으로써 변동성과 안정성이 트렌드 강도를 결정하는데 중요한 속성이란 것을 알 수 있다. 지속성의 제거는 다른 속성들에 비해 아주 작은 성능 하락을 보였다.
각 속성이 추가되어 결합할 때마다 가중치를 결정하기 위하여 유전 알고리즘이 적용되었다. 표에서도 볼 수 있듯이, 각 속성을 추가함으로써, 기본 속성만 사용된 경우보다 제안한 순위 결정 방법의 결과와 금본위 데이타 사이의 상관 관계가 증가함을 알 수 있다. 3가지의 속성 중, 변동성을 추가하였을 경우에 가장 높은 성능 향상을 보였다.

참고문헌 (17)

Firminger, L., Trend Analysis: a collection of sub methodologies, Swinburne University of Technology, 2003
Glance, N., M. Hurst, and T. Tomokiyo, Blog-Pulse: Automated Trend Discovery for Weblogs, In WWW 2004 Workshop on the Weblogging Ecosystem: Aggregation, Analysis and Dynamics, 2004
Mei, Q. and C.X. Zhai., Discovering evolutionary theme patterns from text: an exploration of temporal text mining, In Proceedings of the eleventh ACM SIGKDD international conference on Knowledge discovery in data mining, 2005
Google Trends: http://www.google.com/trends
Lavrenko, V., et al., Language models for financial news recommendation, In Proceedings of the ninth international conference on Information and knowledge management, 2000
Kontostathis, A., et al., A Survey of Emerging Trend Detection in Textual Data Mining, In Survey of Text Mining: Clustering, Classification, and Retrieval, 2003
Rajaraman, K. and A.H. Tan, Topic Detection, Tracking, and Trend Analysis Using Self-Organizing Neural Networks, In Proceedings of the 5th Pacific-Asia Conference on Knowledge Discovery and Data Mining, 2001
Morinaga, S. and K. Yamanishi, Tracking dynamics of topic trends using a finite mixture model. In Proceedings of the tenth ACM SIGKDD international conference on Knowledge discovery and data mining, 2004
Fung, G.P.C., J.X. Yu, and W. Lam, News Sensitive Stock Trend Prediction. In Proceedings of the 6th Pacific-Asia Conference on Advances in Knowledge Discovery and Data Mining, 2002
Lee, J., S. Cho, and J. Baek, Trend detection using auto-associative neural networks: Intraday KOSPI 200 futures, In Computational Intelligence for Financial Engineering, 2003
Lent, B., R. Agrawal, and R. Srikant, Discovering trends in text databases, In Proceedings of the 3rd International Conference on Knowledge Discovery and Data Mining (KDD), 1997
Run-Length Encoding: http://en.wikipedia.org/wiki/Run-length_encoding
Wright, A.H., Genetic algorithms for real parameter optimization. Foundations of Genetic Algorithms, 1991
Budanitsky, A. and G. Hirst, Evaluating WordNetbased Measures of Lexical Semantic Relatedness. Computational Linguistics, 2006
Yih, W., J. Goodman, and V.R. Carvalho, Finding advertising keywords on web pages. In Proceedings of the 15th international conference on World Wide Web, 2006
Verity, http://www.verity.comges
Holzman, L.E., Fisher, Fisher, T.A., Galisky, L. M., Kontostathis, A., and Pottenger, W. M., A Software Infrastructure for Research in Textual Data Mining. The International Journal of Artificial Intelligence Tools, volume 14, 2004

저자의 다른 논문 :

LOADING...

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증