[논문]선호도 전이 확률을 이용한 멀티미디어 컨텐츠 추천 시스템

박성준; 강상길; 김영국

doi:10.5391/jkiis.2006.16.2.164

선호도 전이 확률을 이용한 멀티미디어 컨텐츠 추천 시스템
A Multimedia Contents Recommendation System using Preference Transition Probability 원문보기

퍼지 및 지능시스템학회 논문지 = Journal of fuzzy logic and intelligent systems, v.16 no.2, 2006년, pp.164 - 171

박성준 (공주영상대학 모바일게임과) , 강상길 (수원대학교 컴퓨터학과) , 김영국 (충남대학교 전기정보통신공학부)

초록
AI-Helper

최근에 서비스되기 시작한 디지털 멀티미디어 방송은 다양한 종류의 수많은 컨텐츠를 제공하기 때문에 고객은 때로 자신이 선호하는 컨텐츠를 찾는데 많은 시간을 소비한다. 심지어는 선호 컨텐츠를 찾는 동안 이미 방송이 끝날 수도 있다. 이와 같은 문제를 해결하기 위해서는 고객이 필요로 하는 최소 정보만을 추천하기 위한 방법이 필요하다. 본 논문에서는 고객이 시청한 컨텐츠 선호도 전이 확률을 이용하여 고객이 선호하는 컨텐츠를 미리 예측하여 추천하기 위한 알고리즘과 시스템을 제안한다. 제안하는 시스템은 클라이언트 관리자 에이전트, 모니터링 에이전트, 러닝 에이전트, 그리고 추천 에이전트 모듈로 구성된다. 클라이언트 관리자 에이전트는 다른 모듈과 상호 작용을 하면서 조정자 역할을 한다. 모니터링 에이전트는 컨텐츠에 대한 고객의 선호도를 분석하기 위해 고객이 이용했던 usage history 데이터를 수집하기 위한 에이전트이다. 러닝 에이전트는 고객으로부터 수집된 usage history 데이터를 정제하여 시간 변화에 따른 상태 전이 행렬로 모델링하기 위한 에이전트이다. 추천 에이전트는 고객의 상태 전이 행렬로 구성된 모델링 데이터에 본 논문에서 제안하는 선호도 전이 확률 모델을 이용하여 고객이 바로 다음에 선호하게 될 컨텐츠를 추천하기 위한 에이전트이다. 추천 에이전트 모듈에서 컨텐츠에 대한 고객의 선호도 전이 확률을 이용하는 추천 알고리즘을 제안한다. 제안하는 추천 시스템은 무선 인터넷 표준 플랫폼인 WIPI(Wireless Internet Platform for Interoperability) 플랫폼에서 프로토타입 시스템을 설계, 구현하였으며, 실험결과 제안된 선호도 전이 확률 모델의 추천 정확도가 전형적인 방법에 비해 효과적임을 보인다.

Abstract ▼ AI-Helper

Recently Digital multimedia broadcasting (DMB) has been available as a commercial service. The users sometimes have difficulty in finding their preferred multimedia contents and need to spend a lot of searching time finding them. They are even very likely to miss their preferred contents while searching for them. In order to solve the problem, we need a method for recommendation users preferred only minimum information. We propose an algorithm and a system for recommending users' preferred contents using preference transition probability from user's usage history. The system includes four agents: a client manager agent, a monitoring agent, a learning agent, and a recommendation agent. The client manager agent interacts and coordinates with the other modules, the monitoring agent gathers usage data for analyzing the user's preference of the contents, the learning agent cleans the gathered usage data and modeling with state transition matrix over time, and the recommendation agent recommends the user's preferred contents by analyzing the cleaned usage data. In the recommendation agent, we developed the recommendation algorithm using a user's preference transition probability for the contents. The prototype of the proposed system is designed and implemented on the WIPI(Wireless Internet Platform for Interoperability). The experimental results show that the recommendation algorithm using a user's preference transition probability can provide better performances than a conventional method.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

이를 극복하기 위해서는 서버와의 통신 횟수를 줄이고, 이용되는 리소스를 최소화할 수 있는 추천 시스템을 제공할 필요가 있다. 따라서 본 논문에서는 모바일 환경이 가지는 제약사항을 극복하면서, 방송컨텐츠 특성 상 시간 변화에 따라 컨텐츠 소비 성향이 전이되는 고객의 선호도 예측을 위해 제안된 선호도 전이 확률 모델을 이용하여 클라이언트 쪽에서 추천 알고리즘이 수행되는 방송 컨텐츠 추천 시스템을 제안한다. 추천 시스템은 모니터 링 에이전트 (Monitoring Agent), 러닝 에이전트 (Learning Agent), 그리고 추천 에이전트(Recommendation Agent)로 구성 된다.
추천 에이전트는 러닝 에이전트에 의해 정제된 고객의 최근 시청 정보를 본 논문에서 제안하는 추천알고리즘을 이용하여 추론 값이 높은 순으로 컨텐츠를 추천한다. 또한, 본 논문에서는 무선 인터넷 표준 플랫폼인 WIPKWireless Internet Platform for Interoperability) [8] 플랫폼 상에서 제안하는 개인화 컨텐츠 추천 프로토타입 시스템을 설계하고 구현하였다.
본 논문에서는 개인화된 멀티미디어 컨텐츠를 추천하기 위한 방법으로 모바일 장치와 같은 클라이언트 쪽에서 선호도 전이 확률을 이용한 멀티미디어 컨텐츠 추천 시스템을 제안하였다. 제안하는 시스템은 클라이언트 관리자 에이전트, 모니터링 에이전트, 러닝 에이전트, 그리고 추천 에이전트를 포함한다.
제안하는 시스템은 클라이언트 관리자 에이전트, 모니터링 에이전트, 러닝 에이전트, 그리고 추천 에이전트를 포함한다. 추천 에이전트에서 고객의 컨텐츠 소비 성향에 대한 선호도 전이 확률을 계산하기 위한 추천 알고리즘을 제안하였다. 또한 실험 부분에서는 실제로 고객이 이용했던 usage history를 이용하여 본 논문에서 제안한 추천 알고리즘을 구현하고 실험하였다.

제안 방법

1) 고객으로부터 수집된 usage history 데이터부터 추천하고자 하는 요일(day d)과 같은 요일의 시간 t에서 시청한컨텐츠와 t+1 에서 시청한 컨텐츠에 대한 통계적 선호도 전이 행렬을 모델링 한다.
2) usage history 데이터부터 day d-1, t+1 시간에 시청한 컨텐츠와 day d, t+1시간에 시청한 컨텐츠와 동일한 컨텐츠에 가중치 계산 알고리즘을 이용하여 가중치를 계산한다.
앞 절에서 언급하였듯이 명시적 데이터는 프로그램이 소비될 때마다 각 프로그램에 대한 자신의 선호도를 입력시키기 위해서는 고객의 노고와 시간이 소요된다. 따라서 본 논문에서는 명시적인 데이터는 배제하고 메타데이터와 묵시적인 데이터만을 이용하여본 논문에서 제안하는 컨텐츠 추천 알고리즘을 구현한다.
그러나 소비한 컨텐츠에 대한 선호도 점수를 입력하도록 하는 것은 때로는 고객이 싫어할 수 있다. 따라서 우리의 추천 알고리즘은 고객이 직접 입력한 컨텐츠에 대한 선호도 점수는 제외하고 고객의 컨텐츠 소비행위에 의해 자동으로 수집된 데이터만을 이용하여 고객의 개인화된 추천 컨텐츠를선정하는데 초점을 두었다.
추천 에이전트에서 고객의 컨텐츠 소비 성향에 대한 선호도 전이 확률을 계산하기 위한 추천 알고리즘을 제안하였다. 또한 실험 부분에서는 실제로 고객이 이용했던 usage history를 이용하여 본 논문에서 제안한 추천 알고리즘을 구현하고 실험하였다. 서버 쪽에서는 개인화를 제공하려면 많은 양의 데이터를 가져야 하기 때문에 클라이언트 쪽에서 제공되는 개인화 컨텐츠 추천 시스템이 서버 쪽에서 제공되는 개인화 추천 시스템에 비해 많이 가볍다.
본 논문에서 제안하는 선호도 전이 확률을 이용한 멀티미디 어 컨텐츠 추천 시스템은 Java 2 SDK와 J2ME Wireless Toolkit 환경에서 MIDlet을 이용하여 구현하였다. J2ME Wireless Toolkit은 MIDlet 응용 프로그램을 개발하기 위한 통합 개발도구이다.
TV 시청 데이터는 각 고객의 가정에 설치된 Set-Top Box를 이용하여 로그 인, 로그아웃 시간, 방송 시간과 요일, 시청 프로그램의 장르 등을 수집하였다. 실험 데이터가 가지는 각 프로그램은 8개의 장르, 즉 News, Entertainment, Drama & Movie, Information, Sports, Education, Children, Others로 구분한다. 실험 데이터로 이용된 전체 6개월 데이터 중 처음 5개월 데이터는 훈련 데이터로 이용하고, 나머지 1개월 데이터는 테스트 데이터로 이용하였다.
경향을 가지고 있다. 이와 같은 상황을 고려하기 위해서 본 논문에서는 식(2) 와 같이 통계적 전이를 계산하는데 2일간 계속해서 연이어서 소비된 컨텐츠의 빈도수에 가중치를 부여한다
제안하는 시스템은 클라이언트 관리자 에이전트, 모니터링 에이전트, 러닝 에이전트, 그리고 추천 에이전트를 포함한다. 추천 에이전트에서 고객의 컨텐츠 소비 성향에 대한 선호도 전이 확률을 계산하기 위한 추천 알고리즘을 제안하였다.
구성된다. 제안하는 시스템은 클라이언트 쪽에 클라이언트 관리자 에이전트 (Client Manager Agent), 모니터링 에이전트 (Monitoring Agent), 러닝 에이전트(Learning Agent), 그리고 추천 에이전트(Recommendation Agent)로 구성된다.
추천 에이전트 구조는 그림 9와 같다. 추천 에이전트는 러닝 에이전트에 의해 모델링 된 고객의 최근 컨텐츠 선호도 전이 정보를 본 논문에서 제안하는 추천 알고리즘을 이용하여 주론 값이 높은 순으로 컨텐츠를 주천한다. 주천 에이전트는 아주 가까운 미래, 즉 바로 다음 타임에 고객이 선호하는 컨텐츠를 추천하기 위해 러닝 에이전트에서 사전에 정의된 기간 동안 수집되어 정제된 모델링 데이터를 이용한다.
러닝 에이전트는 고객의 선호도를 분석하기 위한 기본 자료를 만들기 위해 수집된 자료를 정제하고 선호도 전이 행렬로 모델링한다. 추천 에이전트는 러닝 에이전트에 의해 정제된 고객의 최근 시청 정보를 본 논문에서 제안하는 추천알고리즘을 이용하여 추론 값이 높은 순으로 컨텐츠를 추천한다. 또한, 본 논문에서는 무선 인터넷 표준 플랫폼인 WIPKWireless Internet Platform for Interoperability) [8] 플랫폼 상에서 제안하는 개인화 컨텐츠 추천 프로토타입 시스템을 설계하고 구현하였다.

대상 데이터

199, 990건의 TV 시청 데이터를 이용하였다. TV 시청 데이터는 각 고객의 가정에 설치된 Set-Top Box를 이용하여 로그 인, 로그아웃 시간, 방송 시간과 요일, 시청 프로그램의 장르 등을 수집하였다. 실험 데이터가 가지는 각 프로그램은 8개의 장르, 즉 News, Entertainment, Drama & Movie, Information, Sports, Education, Children, Others로 구분한다.
들어 알아보고자 한다. usage history로 이용될 데이터는 AC Nielson Korea로부터 제공된 6개월간의 실험 데이터 중 1개월간의 데이터 2002년12월7일부터 2003년 1월 6일까지의 데이터를 훈련 데이터로 이용하였다. 컨텐츠 추천 과정 및 추천의 정확도는 다음과 같은 절차에 의해 구할 수 있다.
모니터링 에이전트는 메타데이터, 묵시적 데이터(implicit data), 그리고 명시적 데이터(explicit data)로 구성된 고객의 usage history 데이터를 수집하는 역할을 한다. 메타데이터는 서버 쪽 방송 시스템의 컨텐츠 제공 에이전트에 의해 제공되는 정보로 제목, 채널, 장르, 프로그램 시작 시간, 프로그램 종료 시간, 주인공 등과 같은 TV 프로그램을'이해할 수 있는 정보로 구성된다. 묵시적 데이터는 프로그램 시청 시간, 프로그램 시청 종료 시간 등과 같은 고객의 소비 행위에 의해서 수집될 수 있다.
본 논문에서 제안한 선호도 전이 확률 모델을 실험하기 위한 실험 데이터로는 한국의 대표적인 시장 조사 기관 중 하나인 AC Nielsen Korea에 위해 2002년 12월 1일부터 2003년 5월 31일까지 2, 518명의 TV 시청자로부터 수집된 3, 199, 990건의 TV 시청 데이터를 이용하였다. TV 시청 데이터는 각 고객의 가정에 설치된 Set-Top Box를 이용하여 로그 인, 로그아웃 시간, 방송 시간과 요일, 시청 프로그램의 장르 등을 수집하였다.
실험 데이터가 가지는 각 프로그램은 8개의 장르, 즉 News, Entertainment, Drama & Movie, Information, Sports, Education, Children, Others로 구분한다. 실험 데이터로 이용된 전체 6개월 데이터 중 처음 5개월 데이터는 훈련 데이터로 이용하고, 나머지 1개월 데이터는 테스트 데이터로 이용하였다. 실험 데이터는 오후 7시부터 11시까지 시청한 데이터를 1시간 간격으로 구분하였으며, 시청 빈도수가 낮은 시간대의 데이터는 제외하였다.
실험 데이터는 오후 7시부터 11시까지 시청한 데이터를 1시간 간격으로 구분하였으며, 시청 빈도수가 낮은 시간대의 데이터는 제외하였다. 실험 데이터에 대한 시청자의 선호 장르를 예측하기 위한 훈련 데이터는 길이의 일관성을 위해 시청자의 TV 시청 데이터 중 가장 오래된 날의 데이터는 제거하고 대신에 최근에 실험된 날의 데이터가 훈련 데이터에 포함된다. 성능 평가는 TOP-N 방법[22]과 본 논문에서 제안하는 선호도 전이 확률 모델의 정확도(precision)를 비교하였다.
이와 같이 시청 시작 시간만 기록되어 있고 시청 종료 시간이 없는 로그 정보는 고객이 시청한 기간을 계산할 수 없으므로, 러닝 에이전트는 컨텐츠의시청 정보를 제거한다. 이와 같이 정제된 usage history 데이터를 이용하여 현재 소비하고 있는 멀티미디어 컨텐츠 종류를 입력으로 받아 usage history 데이터로부터 시간 슬롯 t에서 t+1로의 통계적 전이 테이블(Transition Table)을 생성하며, 이 테이블을 저장한 것이 모델링 데이터이다.

데이터처리

5) 테스트 데이터에서 d day, 시간 구간 기에 시청한 실제 장르와 추천된 장르를 비교하여 일치하는 장르의 비율로 정확도를 계산한다.
실험 데이터에 대한 시청자의 선호 장르를 예측하기 위한 훈련 데이터는 길이의 일관성을 위해 시청자의 TV 시청 데이터 중 가장 오래된 날의 데이터는 제거하고 대신에 최근에 실험된 날의 데이터가 훈련 데이터에 포함된다. 성능 평가는 TOP-N 방법[22]과 본 논문에서 제안하는 선호도 전이 확률 모델의 정확도(precision)를 비교하였다. TOP-N 방법은 훈련 데이터에서 추천하고자 하는 특정 요일, 시간대에 시청한 정보를 이용하여 8개의 장르 중 시청 빈도수가 높은 순으로 N개를 추천하는 방법이다.

성능/효과

성능 변화를 알아보기 위한 그래프이다. 두 모델에 대한 정확도는 훈련 데이터의 크기가 1개월인 경우 비슷하지만, 4개월 이상인 경우 제안하는 모델의 추천 정확도가 70% 이상의 추천 정확도를 보인다. 이는 본 논문에서 제안하는 선호도 전이 확률 모델은 4개월 정도의 훈련 데이터를 이용하여 추천하는 것이 효과적임을 알 수 있다.
따라서 모바일 디바이스가 가지는 제약 사항에 잘 적응할 수 있어 모바일 환경에서 실용화될 수 있다. 또한 약 2000명의 TV 시청자가 시청한 데이터를 이용하여본 논문에서 제안하는 선호도 전이 확률 모델의 성능이 전형적인 방법에 비해 정확도가 높음을 보임으로써 실질적으로 유용할 수 있음이 입증되었다.
두 모델에 대한 정확도는 훈련 데이터의 크기가 1개월인 경우 비슷하지만, 4개월 이상인 경우 제안하는 모델의 추천 정확도가 70% 이상의 추천 정확도를 보인다. 이는 본 논문에서 제안하는 선호도 전이 확률 모델은 4개월 정도의 훈련 데이터를 이용하여 추천하는 것이 효과적임을 알 수 있다. 이는 연속적으로 소비한 컨텐츠의 빈도가 높을수록 제한하는 방법의 정확도가 높기 때문이다.
세 번째 행부터 마지막 행까지는 시간 구간 t에서 시청한 conti로부터 시간 구간 t+1 에서 시청 가능한 모든 컨텐츠들에 대한 선호도 전이 확률을 식(2)를 이용하여 계산하는 일련의 과정을 보여주고 있다. 표 3 마지막 행의 확률 값에 의해 2003년 1월 7일 오후 7~8시 사이에 eg를 시청하고 있는 상황에서 오후 8시~9시 사이에 추천하게 될 선호 컨텐츠는 확률값이 가장 높은 conti을 추천하게 될 것이다, 표 1의 마지막 행에서 보듯이 추천된 conti은 실제로 고객에 의해서 시청된 컨텐츠임을 확인할 수 있다.

후속연구

개인화 방송은 고객이 선호하는 프로그램을 찾는데 걸리는 시간을 줄여줄 수 있으며, 선호 프로그램을 찾는 동안 이미 방송이 진행되어 원하는 방송을 놓쳐버리는 경우를 줄여줌으로써 보다 편리한 생활을 제공할 수 있다. 또한, 개인화 방송은 선호하는 컨텐츠만을제공할 수 있기 때문에 모바일 장치의 대역폭을 효율적으로 사용하는데 기여할 수 있다.

참고문헌 (23)

Mobasher, B., Cooley, R., Srivastava, J., 'Automatic Personalization Based on Web Usage Mining', Comm. of the ACM, Vol 43, 8, Aug. 2000

상세보기
Maurice D. Mulvenna et al., 'Personalization on the Net using Web Mining', Comm. of the ACM Vol. 43, 8, Aug. 2000

상세보기
Myra Spiliopoulou, 'Web Usage Mining for Web Site Evaluation', Comm, of the ACM Vol. 43, 8, Aug. 2000

상세보기
Ibrahim Cingil et aI., 'A Broader Approach to Personalization', Comm. of the ACM Vol. 43, 8, Aug. 2000

상세보기
Mike Perkowitz and Oren Etzioni, 'Adaptive Web Sites', Communications of the ACM Vol. 43, 8, Aug. 2000

상세보기
Udi Manber et al., 'Experience with Personalization on Yahoo!', Comm. of the ACM Vol. 43, 8, Aug. 2000

상세보기
Ee-Peng Lim, Wee-Keong Ng, 'An Overview of the Agent-Based Electronic Commerce System (ABECOS) Project', Bulletin of the Technical Committee on Data Engineering, Vol. 23, No.1, Mar. 2000
KWISFS.K-05-001, http://www.kwisforum.org/
P. Resnick and H.R. Varian, 'Recommender Systems,' Communications of the ACM, Vol. 40, No.3, Mar. 1997

상세보기
F.V. Jensen, Bayesian Networks and Decision Graphs, Springer, 2000
P. Cotter and B. Smyth, 'A Personalized Television Listing Service,' Communications of the ACM, Vol. 43, No.8, Aug. 2000
http://www.ptv.ie/
W.P. Lee and J.H. Wang, 'A User-Centered Remote Control System for Personalized Multimedia Channel Recommendation,' IEEE Transactions on Consumer Electronics, Vol. 50, No.4, Nov. 2004

상세보기
P. Resnick, N. Iacovou, M. Suchak, P. Bergstrom, and J. Riedl, 'GroupLens: An Open Architecture for Collaborative Filtering of Netnews,' Proceedings of ACM Conference on Computer Supported Cooperative Work, 1994
J.A. Konstan, B.N. Miller, D. Maltz, J.L. Herlock, L.R. Gordon., and J. Riedl, 'GroupLens: Applying Collaborative Filtering to Usenet News,' Communications of The ACM, Vol. 40, No.3, Mar. 1997

상세보기
S. Kang, J. Lim, and M. Kim, 'Modeling the User Preference on Broadcasting Contents Using Bayesian Networks,' Journal of Electronic Imaging, to be appears on July, 2005

상세보기
S. Kang, J. Lim, and M. Kim, 'Statistical Inference Method of User Preference on Broadcasting Content,' LNCS, Vol. 3514, May 2005

상세보기
S. Kang, J. Lim, and M. Kim, 'Modeling the User Preference on Broadcasting Contents Using Bayesian Belief Network Presentation,' VCIP, Vol. 5308, Jan. 2002
J. Lim, S. Kang, and M. Kim, 'User Preference Based Information Personalization for Easy Access for Multimedia Contents,' WIAMIS, CD, Apr. 2004
L. Ardissono, F. Portis, P. Torasso, F. Bellifemine, A. Chiarotto, and A. Difino, 'Architecture of a System for the Generation of Personalized Electronic Program Guides,' Workshop on Personalization in Future, 2001. http://www.di.unito.it/-liliana/UM01/TV.html/
http://www.java.sun.com/products/
Mukund D., George K., 'Item-Based Top-N Recommendation Algorithms', ACM Transactions on Information System, Vol. TBD, TBD 20 TBD, 2004
Athanasios Papoulis. Probability, Random Variables, and Stochastic Processes. McGraw Hill, 1991

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증