사용자가 좋아할만한 콘텐츠를 정확하게 추천하는 것은 추천 시스템에서 매우 중요한 요소 중 하나이다. 원치 않는 콘텐츠를 추천하거나, 원하는 것을 추천하지 않는 것은 사용자 만족도 측면에서 안 좋은 영향을 끼친다. 본 연구에서는 콘텐츠의 정확한 추천을 위해 사용자 군집 기반 추천 시스템을 제안한다. 제안하는 알고리즘에서 사용자들의 실제 선호도 점수와 피어슨 상관 계수를 기반으로 사용자들을 여러 군집으로 나눈다. 이 후, 특정 사용자에게 어떤 콘텐츠의 추천 여부 결정은, 같은 군집 내에 있는 다른 사용자들의 해당 콘텐츠의 실제 선호도 점수를 근거로 정한다. 제안하는 알고리즘은 군집화를 사용하지 않는 아이템 기반 협력 필터링 알고리즘보다 정밀도, 재현율, F1 스코어와 같은 추천 정확도에 있어서 의미 있는 성능 향상을 보인다.
사용자가 좋아할만한 콘텐츠를 정확하게 추천하는 것은 추천 시스템에서 매우 중요한 요소 중 하나이다. 원치 않는 콘텐츠를 추천하거나, 원하는 것을 추천하지 않는 것은 사용자 만족도 측면에서 안 좋은 영향을 끼친다. 본 연구에서는 콘텐츠의 정확한 추천을 위해 사용자 군집 기반 추천 시스템을 제안한다. 제안하는 알고리즘에서 사용자들의 실제 선호도 점수와 피어슨 상관 계수를 기반으로 사용자들을 여러 군집으로 나눈다. 이 후, 특정 사용자에게 어떤 콘텐츠의 추천 여부 결정은, 같은 군집 내에 있는 다른 사용자들의 해당 콘텐츠의 실제 선호도 점수를 근거로 정한다. 제안하는 알고리즘은 군집화를 사용하지 않는 아이템 기반 협력 필터링 알고리즘보다 정밀도, 재현율, F1 스코어와 같은 추천 정확도에 있어서 의미 있는 성능 향상을 보인다.
In a flood of information, most users will want to get a proper recommendation. If a recommender system fails to give appropriate contents, then quality of experience (QoE) will be drastically decreased. In this paper, we propose a recommender system based on the intra-cluster users' item preference...
In a flood of information, most users will want to get a proper recommendation. If a recommender system fails to give appropriate contents, then quality of experience (QoE) will be drastically decreased. In this paper, we propose a recommender system based on the intra-cluster users' item preference for improving recommendation accuracy indices such as precision, recall, and F1 score. To this end, first, users are divided into several clusters based on the actual rating data and Pearson correlation coefficient (PCC). Afterwards, we give each item an advantage/disadvantage according to the preference tendency by users within the same cluster. Specifically, an item will be received an advantage/disadvantage when the item which has been averagely rated by other users within the same cluster is above/below a predefined threshold. The proposed algorithm shows a statistically significant performance improvement over the item-based collaborative filtering algorithm with no clustering in terms of recommendation accuracy indices such as precision, recall, and F1 score.
In a flood of information, most users will want to get a proper recommendation. If a recommender system fails to give appropriate contents, then quality of experience (QoE) will be drastically decreased. In this paper, we propose a recommender system based on the intra-cluster users' item preference for improving recommendation accuracy indices such as precision, recall, and F1 score. To this end, first, users are divided into several clusters based on the actual rating data and Pearson correlation coefficient (PCC). Afterwards, we give each item an advantage/disadvantage according to the preference tendency by users within the same cluster. Specifically, an item will be received an advantage/disadvantage when the item which has been averagely rated by other users within the same cluster is above/below a predefined threshold. The proposed algorithm shows a statistically significant performance improvement over the item-based collaborative filtering algorithm with no clustering in terms of recommendation accuracy indices such as precision, recall, and F1 score.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
사용한 협업 필터링의 성격에 따라 사용자들의 군집을 좀 더 정확하게 한다면 더 나은 결과를 보일 것으로 예상한다. 따라서 향후 연구과제로 사용자들 혹은 아이템들을 군집화하는 새로운 방안과 이를 추천 시스템에 적용시킬 수 있는 방안을 제시한다.
본 논문에서는 같은 예상 선호도 기법 하에서 추천 정확도를 높이는 방법을 제안한다. 즉, 추천 시스템에서 예상 선호도와 실제 선호도의 오차를 줄이는 것보다는 정밀도, 재현율, F1 스코어와 같은 “추천 정확도”를 높이는 방안에 대해 초점을 맞춘다.
본 논문에서는 추천 시스템의 추천 정확도 향상을 위해, 사용자들을 군집화한 후 다른 사용자들의 실제 선호도 값을 이용하여 아이템의 추천 여부를 결정하는 방안을 제시하였다. 사용자들의 군집을 위해 실제 선호도 데이터와 PCC 유사도를 활용한다.
즉, 추천 시스템에서 예상 선호도와 실제 선호도의 오차를 줄이는 것보다는 정밀도, 재현율, F1 스코어와 같은 “추천 정확도”를 높이는 방안에 대해 초점을 맞춘다. 즉, 같은 예상 선호도를 가지는 아이템이더라도 사용자들의 아이템들에 대한 선호도 경향에 따라 추천을 하거나 하지 않는 방안을 제시한다. 이를 위해 다음과 같이 사용자들의 군집화에 기반한 알고리즘을 제시한다.
가설 설정
본 연구에서 제안하는 알고리즘의 아이디어는 다음과 같이 요약할 수 있다. 임의의 사용자 u에게 아이템 i의 추천 여부를 결정한다고 가정하자.
제안 방법
위와 같이 사용자들 간의 PCC 유사도를 계산한 후 이를 기반으로 사용자들을 군집화한다. 데이터셋의 흩어진 모양과 형태에 따라 적절한 군집화 알고리즘을 선택할 수 있으나, 본 연구에서는 스펙트럴 (spectral) 군집 알고리즘을 택한다. 스펙트럴 군집은 그래프 분할 기반의 군집 방법으로써 다양한 형태의 군집에 잘 동작하는 것으로 알려져 있다 [12].
본 연구에서 제안하는 알고리즘은 사용자들을 아이템에 대한 선호도 점수 기반으로 군집한 후, 같은 군집 내에 있는 다른 사용자들의 실제 선호도 값을 근거로 아이템들의 추천 여부를 결정하는 것이다. 그림 1은 제안하는 알고리즘의 예를 보여준다.
본 장에서는 사용자 군집 기반 추천 시스템에서의 정밀도, 재현율, 그리고 F1 score 측면에서 성능 평가를 한다. 정밀도, 재현율, F1 score는 추천 시스템의 정확성을 판단하기 위해 활용되는 대표적인 요소들이고, 이것은 표 2와 같은 에러 종류의 횟수에 의해 결정된다.
이를 위해 다음과 같이 사용자들의 군집화에 기반한 알고리즘을 제시한다. 우선 사용자들의 실제 선호도 점수를 이용하여 사용자들 간의 아이템 선호도에 대한 유사성을 계산한다. 이에 따라 사용자들을 군집하면, 선호도 경향이 유사한 사용자들은 같은 군집 내에 묶이고, 선호도 경향이 서로 다른 사용자들은 서로 다른 군집으로 묶인다.
위와 같이 사용자들 간의 PCC 유사도를 계산한 후 이를 기반으로 사용자들을 군집화한다. 데이터셋의 흩어진 모양과 형태에 따라 적절한 군집화 알고리즘을 선택할 수 있으나, 본 연구에서는 스펙트럴 (spectral) 군집 알고리즘을 택한다.
Item-based CF에서의 예상 선호도가 임계값보다 높으면 사용자에게 추천하고, 그렇지 않으면 추천하지 않는다. 이 후, 추천한 아이템의 실제 선호도가 4.0이 넘으면 올바른 추천이고 그렇지 않으면 잘못된 추천으로 해석한다. 임계값이 3.
대상 데이터
구체적으로, MovieLens 100K 데이터셋를 이용하고 이는 1,682편의 영화에 대한 943명의 사용자의 100,000개의 평가가 포함된다. MovieLens 100K 데이터셋에서 각 사용자는 적어도 20개 이상의 영화에 대한 선호도 데이터를 가진다.
데이터셋을 이용한다[14, 15]. 구체적으로, MovieLens 100K 데이터셋를 이용하고 이는 1,682편의 영화에 대한 943명의 사용자의 100,000개의 평가가 포함된다. MovieLens 100K 데이터셋에서 각 사용자는 적어도 20개 이상의 영화에 대한 선호도 데이터를 가진다.
본 연구의 성능 분석을 위해, 여러 논문에서 활용되었던 MovieLens3) 데이터셋을 이용한다[14, 15]. 구체적으로, MovieLens 100K 데이터셋를 이용하고 이는 1,682편의 영화에 대한 943명의 사용자의 100,000개의 평가가 포함된다.
데이터처리
사용자 군집을 위해 사용자들의 아이템에 대한 선호도 점수 기반 Pearson correlation coefficient (PCC)를 사용한다 [11]. PCC 기법은 두 오브젝트 사이의 상관관계를 계산하는 방법으로서 [-1.
이론/모형
시뮬레이션은 Apache Mahout 오픈소스를 이용하고, 선호도 예측 함수는 item-based CF를 사용한다. 그리고 사용자들의 군집 개수는 10으로 설정한다.
성능/효과
7282이다. 같은 예상 선호도 기법을 활용하고 사용자들의 군집 결과를 추천 시스템에 추가했을 때 대략 3%의 성능 향상이 있는 것을 확인할 수 있다.
사용자들의 군집을 위해 실제 선호도 데이터와 PCC 유사도를 활용한다. 그 결과, 같은 예상 선호도 기법 (item-based CF) 하에서 제안하는 알고리즘은 F1 측면에서 대략 3% 성능향상을 보였다. 또한 같은 정밀도를 가질 때 재현율을 비교한 결과, 최대 50%의 성능이 좋아지는 것 역시 확인하였다.
그 결과, 같은 예상 선호도 기법 (item-based CF) 하에서 제안하는 알고리즘은 F1 측면에서 대략 3% 성능향상을 보였다. 또한 같은 정밀도를 가질 때 재현율을 비교한 결과, 최대 50%의 성능이 좋아지는 것 역시 확인하였다. 사용한 협업 필터링의 성격에 따라 사용자들의 군집을 좀 더 정확하게 한다면 더 나은 결과를 보일 것으로 예상한다.
이에 따라 사용자들을 군집하면, 선호도 경향이 유사한 사용자들은 같은 군집 내에 묶이고, 선호도 경향이 서로 다른 사용자들은 서로 다른 군집으로 묶인다. 이후 어떤 사용자에게 특정 아이템의 추천 여부를 결정할 때, 같은 군집 내에 있는 다른 사용자들의 해당하는 아이템에 대한 실제 선호도 평균 점수가 높은 경우에는 가점 (advantage)을 주고, 그렇지 않은 경우에는 감점 (disadvantage)을 준다. 즉, 선호도 경향이 유사한 사용자들이 같은 군집 내에 존재하기 때문에 같은 군집 내의 다른 사용자들이 이미 접근하여 만족도가 높은 아이템에 대해 아직 접근하지 않았던 사용자 역시 만족도가 높을 것이라는 착안에서 개발한 알고리즘이다.
제안하는 알고리즘의 최대 F1 score는 0.7451, item-based CF의 최대 F1 score는 0.7282이다. 같은 예상 선호도 기법을 활용하고 사용자들의 군집 결과를 추천 시스템에 추가했을 때 대략 3%의 성능 향상이 있는 것을 확인할 수 있다.
후속연구
또한 같은 정밀도를 가질 때 재현율을 비교한 결과, 최대 50%의 성능이 좋아지는 것 역시 확인하였다. 사용한 협업 필터링의 성격에 따라 사용자들의 군집을 좀 더 정확하게 한다면 더 나은 결과를 보일 것으로 예상한다. 따라서 향후 연구과제로 사용자들 혹은 아이템들을 군집화하는 새로운 방안과 이를 추천 시스템에 적용시킬 수 있는 방안을 제시한다.
질의응답
핵심어
질문
논문에서 추출한 답변
추천시스템은 알고리즘에 따라 어떻게 나눌 수 있는가?
추천시스템은 알고리즘에 따라 크게 사용자/아이템 기반의 협업 필터링 (user/item based collaborative filtering), 콘텐츠1) 기반의 추천 (content-based recommendations) 으로 나눌 수 있다[1]. 협업 필터링은 나와 선호도가 유사한 사용자들을 기반으로 내가 접하지 않았던 아이템들에 대한 선호도를 예측하는 기법이다.
콘텐츠 기반의 추천 기법의 단점은 무엇인가?
콘텐츠 기반의 추천 기법은 사용자가 선호하는 아이템들을 선별하여 추천해 주기 때문에 일정수준 이상의 사용자 경험 만족도 (user experience: UX)를 보장할 수 있다. 그러나 포털 사이트 뉴스와 같은 환경에서는 항상 같은 주제를 가지는 뉴스만을 추천해 주기 때문에 사용자는 피로도와 지루함을 쉽게 느낄 수 있는 단점을 가진다.
콘텐츠 기반 추천은 어떤 방법인가?
협업 필터링은 나와 선호도가 유사한 사용자들을 기반으로 내가 접하지 않았던 아이템들에 대한 선호도를 예측하는 기법이다. 반면에 콘텐츠 기반 추천은 내가 평상시에 자주 접했던 아이템을 분석하여 이와 유사한 아이템들을 추천하는 방법이다[2, 3]. 각각의 추천 기법은 고유한 장점 및 단점을 가진다.
참고문헌 (15)
D. Jannach, M. Zanker, A. Felfernig, and G. Friedrich, "Recommender systems: An introduction," Cambridge University Press, 2010.
J. A. Konstan and J. Riedl, "Recommender systems: From algorithms to user experience," Springer User Modeling and User-Adapted Interaction, vol. 22, no. 1, pp. 101-123, March 2012.
X. Su and T. M. Khoshgoftaar, "A survey of collaborative filtering techniques," Advances in Artificial Intelligence, vol. 2009, no. 421425, pp. 1-19, 2009.
M. J. Pazzani and D. Billsus, "Content-based recommendation systems," Springer Lecture Notes in Computer Science, vol. 4321, pp. 325-341, 2007.
Netflix Prize, http://www.netflixprize.com/
Y. LeCun, Y. Bengio, and G. Hinton, "Deep learning," Nature, 521, pp. 436-444, May 2015.
P. M. Napol, "Special issue introduction: Big data and media management," International Journal on Media Management, vol. 18, no. 1, pp. 1-7, June 2016.
M. S. Berrie, "Curatorial compass: Organising meaning in institutional and online displays," Museological Review, vol. 18, no. 1, pp. 61-68, 2014.
C. Cheng, X. Wang, Z. Li, and Y. Lin, "A new TV recommendation algorithm based on interest quantification and item clustering," in Proceedings of the IEEE ICSESS, Beijing, China, pp. 215-200, September 2015.
X. Wang, X. Wang, Z. Ding, X. Nie, and L. Xiao, "A new algorithm based on item clustering and matrix factorization," International Journal of Engineering and Technology, vol. 9, no. 2, pp. 160-165, January 2017.
W. H. Gomaa and A. A. Fahmy, "A survey of text similarity approaches," International Journal of Computer Applications, vol. 68, no. 13, pp. 13-18, April 2013.
U. Luxburg, "A tutorial on spectral clustering," Springer Statistics and Computing, vol. 17, no. 4, pp. 395-416, December 2007.
J. Lee, D. Lee, Y.-C. Lee, W.-S. Hwang, and S.-W. Kim, "Improving the accuracy of top-N recommendation using a preference model," Information Sciences, vol. 348, no. 20, pp. 290-304, June 2016.
J. Schaffer, T. Hollerer, and J. O'Donovan, "Hypothetical recommendation: A study of interactive profile manipulation behavior for recommender systems," in Proceedings of the FLAIRS, Hollywood, USA, pp. 507- 512, May 2015.
D. Song and D. A. Meyer, "Recommending positive links in signed social networks by optimizing a generalized AUC," in Proceedings of the AAAI, Austin, USA, pp. 290-296, January 2015.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.