[논문]필터링기법을 이용한 영화 추천시스템 알고리즘 개발에 관한 연구

김선옥; 이수용; 이석준; 이희춘; 지선수

doi:10.7465/jkdi.2013.24.4.803

필터링기법을 이용한 영화 추천시스템 알고리즘 개발에 관한 연구
A study of development for movie recommendation system algorithm using filtering 원문보기

Journal of the Korean Data & Information Science Society = 한국데이터정보과학회지, v.24 no.4, 2013년, pp.803 - 813

김선옥 (한라대학교 정보통신방송공학부) , 이수용 (연세대학교 교양교직과) , 이석준 (상지대학교 경영정보학과) , 이희춘 (상지대학교 컴퓨터데이터정보학과) , 지선수 (강릉원주대학교 정보기술공학과)

초록
AI-Helper

전자상거래에서 상품의 구입은 오프라인에서 구매하는 방식과는 차이가 있다. 오프라인에서 상품추천은 판매원의 추천에 의해 이루어지지만 온라인에서 상품 추천은 판매원이 상품 추천을 할 수가 없기 때문에 오프라인과는 다른 형태의 상품을 추천하게 된다. 추천시스템은 온라인 상거래에서 상품을 추천하는 방법으로 기존 상품을 구입한 고객의 선호도를 기반으로 상품을 구입하려는 고객의 선호도를 예측하여 추정된 선호도가 높은 상품을 고객에게 추천하는 방법이다. 협력적 필터링 알고리즘은 전자상거래의 상품추천 추천시스템에 사용되며 추정된 값들로 추천 상품 목록을 만들고 그 목록을 고객에게 추천을 하는 것이다. 이 논문에서 사용된 데이터집합은 Movielens 데이터집합인 100k 데이터집합과 1 million 데이터집합이며 일반화를 위해 2개의 데이터집합에서 유사한 결과를 도출하여 일반화시키고자 한다. 영화 추천시스템의 새로운 알고리즘을 제안하기 위해 기존의 알고리즘과 변형된 알고리즘에 의해 추정된 추정값들의 분포 특징을 분석과 응답자별로 분류해서 응답자별 분포의 특징을 분석하였다. 이 논문에서는 이웃기반 추천시스템 협력적 필터링 알고리즘을 개선하기 위해 기존의 알고리즘과 변형된 알고리즘을 바탕으로 새로운 알고리즘을 제안하였다.

Abstract ▼ AI-Helper

The purchase of items in e-commerce is a little bit different from that of items in off-line. The recommendation of items in off-line is conducted by salespersons' recommendation, However, the item recommendation in e-commerce cannot be recommended by salespersons, and so different types of methods can be recommended in e-commerce. Recommender system is a method which recommends items in e-commerce. Preferences of customers who want to purchase new items can be predicted by the preferences of customers purchasing existing items. In the recommender system, the items with estimated high preferences can be recommended to customers. The algorithm of collaborative filtering is used in recommender system of e-commerce, and the list of recommended items is made by estimated values, and then the list is recommended to customers. The dataset used in this research are 100k dataset and 1 million dataset in Movielens dataset. Similar results in two dataset are deducted for generalization. To suggest a new algorithm, distribution features of estimated values are analyzed by the existing algorithm and transformed algorithm. In addition, respondent'distribution features are analyzed respectively. To improve the collaborative filtering algorithm in neighborhood recommender system, a new algorithm method is suggested on the basis of existing algorithm and transformed algorithm.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

제안 방법

3. 100k 데이터집합의 응답자 943명을 응답자별로 분류하여 응답분포의 특징과 추정값의 분포 특징을 분석하였으며 1 million 데이터집합의 응답자 6,040명을 응답자별로 분류하여 응답분포의 특징과 추정값의 분포 특징을 분석하였다.
5. 100k 데이터집합과 1 million 데이터집합에서 추정에 사용된 수식 (2.1),(2.2),(2.3),(2.4)의 특징을 파악하고 새로운 알고리즘에 사용될 수식을 선정하였다.
6. 선정된 수식의 조합에 의해 100k 데이터집합과 1 million 데이터집합에 대해 MAE를 최소로 하는 해를 구하였다.
이것은 기존의 연구결과와 일치한다. 따라서 이 논문에서는 MAE를 작게 하는 알고리즘을 제안하기 위하여 이웃기반 협력적 필터링알고리즘인 수식 (2.1), (2.2), (2.3), (2.4)의 MAE와 오차를 분석하여 기존 알고리즘에 가중치를 고려하여 선형결합식으로 표현할 수 있는지 분석하였다. 실험결과 제안한 선형결합식은 100k 데이터집합, 1 million 데이터집합에서 모두 수식 (2.
4)으로 선호도 추정값을 계산한다. 선호도 추정 방식은 추정하려고 하는 1개의 값을 제외한 나머지 자료는 훈련 데이터집합으로 선정하여 모든 데이터집합에 대해 선호도를 추정하였다. 즉 100k 데이터집합은 응답자료1,000,000개에 대해 선호도 추정값을 구하였다.
정확한 추정을 위해서는 좋은 알고리즘이 필요하다. 이 논문에서는 기존의 협력적 필터링 알고리즘의 특성을 분석하고 선형결합 된 새로운 알고리즘을 제안하며 제안 방법의 일반화를 위해 100k 데이터집합, 1 million 데이터집합 두 개의 데이터집합에 적용하여 분석하였다.

대상 데이터

본 연구는 미네소타 대학의 GroupLens 연구소에서 공개하는 MovieLens 데이터집합에서 100k 데이터집합과 1 million 데이터집합을 이용하여 실험하였다. 100k 데이터집합은 총 943명의 응답자들이1,682편의 영화에 대해 자신의 선호정도를 5점 척도로 표기한 선호도 평가값으로 구성되어 있고 총 평가값의 수는 100,000개로 구성되어 있으며 각 응답자는 적어도 20개 이상의 영화에 응답을 하였다. 1 million MovieLens 데이터집합은 총 6,040명의 사용자들이 3,952편의 영화에 대해 자신의 선호정도를 5점 척도로 표기한 선호도 평가값들로 구성되어 있으며 총 평가값의 수는 1,000,209개로 구성되어 있다.
본 연구는 미네소타 대학의 GroupLens 연구소에서 공개하는 MovieLens 데이터집합에서 100k 데이터집합과 1 million 데이터집합을 이용하여 실험하였다. 100k 데이터집합은 총 943명의 응답자들이1,682편의 영화에 대해 자신의 선호정도를 5점 척도로 표기한 선호도 평가값으로 구성되어 있고 총 평가값의 수는 100,000개로 구성되어 있으며 각 응답자는 적어도 20개 이상의 영화에 응답을 하였다.

데이터처리

2. 100k 데이터집합과 1 million 데이터집합을 수식 (2.1), (2.2), (2.3), (2.4)으로 추정 계산된 추정값의 분포특징을 분석하고 MAE를 계산하였다.
4. 수식 (2.1), (2.2), (2.3), (2.4)로 추정된 100k 데이터집합과 1 million 데이터집합의 추정값을 각각의 응답자 943명, 6,040명을 응답자별로 구분하여 추정값의 오차를 계산하여 과소 추정값과 과대 추정값으로 나누어 이항 검정으로 분석하였다. 이항 검정은 유의수준 α=0.
7. MAE를 최소로 하는 수식에 의해 다시 추정값을 구하여 MAE를 구하고 기존 수식의 MAE와 비교 분석하였다.
Table 4.7은 1 million 데이터집합에서 응답자 6,040명을 응답자별로 구분하여 평가값과 추정값의 오차를 계산한 후 6,040명의 응답자별로 오차의 음, 양에 대해 이항검정을 사용하여 분석하였다.
이항 검정은 유의수준 α=0.05, 0.01, 0.005, 0.001 로 설정하여 수식 (2.1), (2.2), (2.3), (2.4)의 과소 추정값과 과대 추정값의 분포를 분석하였다.
협력적 필터링에서 예측의 정확도를 평가하기 위하여 응답 추정값의 절대평균오차 (MAE; mean absolute error)를 이용하여 MAE를 계산한다. MAE가 크면 전체 시스템의 예측 정확도가 낮아지고 MAE가 작으면 예측 정확도가 높아진다.

이론/모형

또한, r_uj은 예측 대상 고객 U와 이웃 고객 J의 선호도 유사정도를 나타내는 유사도 가중치이다. 본 연구에서 분류의 정확도를 분석하기 위하여 NBCFA를 이용하여 고객의 선호도를 추정하였으며 유사도 가중치 r_uj는 피어슨 상관계수를 이용하였다.
2)는 NBCFA에서 J에 대해 새로운 해석을 적용하여 변형한 알고리즘이다. 수식 (2.3), 수식 (2.4)는 Lee (2006)가 제안한 알고리즘으로 각각 CMA Type 1, CMA Type 2로 발표하였다. 일반적으로 CMA라고 하면 CMA Type 2를 의미한다.

성능/효과

3)은 양의 오차가 많이 나타났다. 1 million 데이터집합도 100k 데이터집합과 유사한 결과를 보이고 있어 동일 유형의 데이터집합에 대해 각 수식별 과소 및 과대 추정특성이 나타날 가능성을 보이고 있다. 특히 수식별 추정 결과가 매우 유사함을 보이고 있어 각 수식별 추정경향이 안정적임을 알 수 있다.
4)에 따라 분류한 표이다. 1 million 데이터집합에서 10,000,076개의 추정값의 오차를 응답자별로 분류한 결과 수식과 오차의 음, 양의 형태는 관련성이 있는 것으로 나타났다 (p=0.000). 수식 (2.
4)에 따라 분류한 표이다. 100k 데이터집합에서 99,859개의 추정값의 오차를 응답자별로 분류한 결과 수식과 오차의 음, 양의 형태는 관련성이 있는 것으로 나타났다 (p=0.000). 수식(2.
100k 데이터집합인 경우 수식 (2.1), (2.2), (2.3), (2.4)를 사용하여 100,000개의 평가값에 대해 추정한 결과 추정값을 계산 할 수 없는 경우를 제외한 99,859개를 추정할 수 있으며 추정가능 비율은 99.859%로 나타났다. 또한 1 million 데이터집합인 경우 수식 (2.
Movielens 데이터집합을 기반으로 하여 협력적 필터링 알고리즘의 비교 결과 100k 데이터집합, 1 million 데이터집합에서 모두 수식 (2.4)의 MAE가 가장 작게 나타났다. 이것은 기존의 연구결과와 일치한다.
4)의 추정오차의 절대치를 짝을 이룬 t 검정한 결과이다. 검정 결과100k 데이터집합, 1 million 데이터집합에서 모두 통계적으로 유의적인 결과를 얻었다. 이것은 기존의 알고리즘에 비해 MAE가 작게 나타나 예측 정확도를 향상시키는 알고리즘으로 사용할 수 있다.
4)의 추정 특성을 확인하기 위해 평가값에 대한 과대 및 과소 추정결과를 분류하였다. 결과에서 100k 데이터집합에서 수식 (2.1), (2.2), (2.4)는 오차가 음인 경우가 많이 나타났으며 수식 (2.3)은 양의 오차가 많이 나타났다. 1 million 데이터집합도 100k 데이터집합과 유사한 결과를 보이고 있어 동일 유형의 데이터집합에 대해 각 수식별 과소 및 과대 추정특성이 나타날 가능성을 보이고 있다.
2는 100k 데이터집합, 1 million 데이터집합에서 추정값의 MAE 결과를 나타내고 있다. 결과에서 수식 (2.4)가 가장 작으며 MAE는 각각 0.5819, 0.5863으로 나타났다. MAE가 크게 나타난 것은 수식 (2.
또한 1 million 데이터집합은 응답자료 10,000,209개에 대해 선호도 추정값을 구하였다. 그러나 이웃 기반의 협력적 필터링 추정방식은 추정을 하고자 하는 영화에 대해 선호도를 평가한 이웃이 존재하여야 하고 또 이웃 간 유사도 가중치가 계산되어야 하는 조건에 부합되지 않아 추정값을 구할 수 없는 경우가 있어서 100k 데이터집합은 1,000,000개 응답값 중에서 99,859개를 추정할 수 있어 추정 비율은 99.859%로 나타났으며 1 million 데이터집합은10,000,209개중 10,000,076개를 추정 할 수 있어 추정 비율은 99.987%로 나타났다.
859%로 나타났다. 또한 1 million 데이터집합인 경우 수식 (2.1), (2.2), (2.3), (2.4)를 사용하여1,000,209개의 평가값에 대해 추정한 결과 추정값을 계산할 수 없는 경우를 제외한 1,000,076개를 추정할 수 있으며 추정가능 비율은 99.987%로 나타났다.
4)의 MAE와 오차를 분석하여 기존 알고리즘에 가중치를 고려하여 선형결합식으로 표현할 수 있는지 분석하였다. 실험결과 제안한 선형결합식은 100k 데이터집합, 1 million 데이터집합에서 모두 수식 (2.4)보다 MAE가 작은 것으로 나타났으며 제안 선형결합식의 오차와 수식 (2.4)의 오차를 비교한 결과 통계적으로 유의한 차이가 있음을 확인하였다. 이 결과는 영화의선호도 예측에서 예측 정확도가 더 향상되었음을 의미하며 기존의 협력적 필터링 알고리즘에 비해 더 우수한 알고리즘이라 할 수 있다.
4)의 오차를 비교한 결과 통계적으로 유의한 차이가 있음을 확인하였다. 이 결과는 영화의선호도 예측에서 예측 정확도가 더 향상되었음을 의미하며 기존의 협력적 필터링 알고리즘에 비해 더 우수한 알고리즘이라 할 수 있다. 또한 수식 (2.
이상의 결과로 100k 데이터집합과 1 million 데이터집합에서 수식 (2.3), (2.4)가 MAE가 작으며 평가값과 추정값의 상관계수가 크게 나타났다. 또한 수식 (2.
4)에 의한 추정값과의 상관관계가 가장 높게 나타났다. 추정값과 평가값의 상관관계가 높음은 상품추천 Top N 의 적합률을 높일 수 있고 또한 Top N 추천에서 N의 크기가 변하더라도 안정적인 Top N 적합률을 유지할 수 있음을 의미한다. 본 연구에서 제안한 선형결합식은 기존연구결과에서 성능이 가장 좋은 수식 (2.
751로 가장 높게 나타났다. 특이한 점은 MAE가 가장 크게 나타났던 수식 (2.2)가 상관계수에서는 수식 (2.1)보다 더 높게 나타났다. 이것은 Top N 추천에서 N의 크기를 크게 하면 수식(2.

후속연구

추정값과 평가값의 상관관계가 높음은 상품추천 Top N 의 적합률을 높일 수 있고 또한 Top N 추천에서 N의 크기가 변하더라도 안정적인 Top N 적합률을 유지할 수 있음을 의미한다. 본 연구에서 제안한 선형결합식은 기존연구결과에서 성능이 가장 좋은 수식 (2.4)의 추정특성을 보완하여 더 우수한 결과를 유도하고 있고 수식 (2.4)를 활용하기 때문에 추정값과 평가값과의 상관관계를 더 높일 수 있을 것으로 기대되며 이를 위한 추후 연구로 개선된 알고리즘에 의해 영화 추천시스템의 추천목록을 작성하는 Top N 적합율을 높이는 연구와 Top N에서 N의 크기와 무관하도록 Top N 적합률을 유지하는 연구가 필요할 것으로 생각된다.

참고문헌 (14)

Kim. J. H. and Byeon. H. S. (2011). A product recommendation system based on adjacency data. Journal of the Korean Data & Information Science Society, 22, 19-27.
Kim. S. H., Oh. B. H., Kim. M. J. and Yang. J. H. (2012). A movie recommendation algorithm combining collaborative filtering and content information. Journal of Korean Institute of Information Scientists and Engineers: Software and Applications, 39, 261-268.
Kim, S. O. (2010). The research of new algorithm to improve prediction accuracy of recommender system in electronic commerce. Journal of Korean Data & Information Science Society, 21, 185-194.
Kim. S. O. and Lee H. C. (2010). A study of distribution of response and rank of recommendation in collaborative filtering. Journal of the Korean Data Analysis Society, 12, 2071-2080.
Lee, H. C. and Lee. S. J. (2006). On the precision of the prediction of the nearest neighbor algorithm and adjusted algorithm for user-based recommender system. Journal of the Korean Data Analysis Society, 8, 1893-1904.
Lee, S. H. and Park, S. H. (2011). Accuracy improvement of a collaborative filtering recommender system using attribute of age. Journal of the Korea Safety Management & Science, 13, 169-177.
Lee. S. J., Kim. S. O. and Lee H. C. (2007a). The relationship of prediction accuracy and the run of abnormal users' ratings in collaborative filtering. Journal of the Korean Data Analysis Society, 9, 2043-2054.
Lee, S. J., Kim, S. O. and Lee, H. C. (2007b). A study on the interrelationship between the prediction error and the rating's pattern in collaborative. Journal of Korean Data & Information Science, 18, 659-668.
Linden, G., Smith, B. and York, J. (2003). Amazon.com recommendations: Item-to-item collaborative filtering. IEEE Internet Computing, 7, 76-80.

상세보기
Qinjiao, M., Boqin, F. and Shanliang, P. (2012). A study of top-n recommendation on user behavior data. 2012 IEEE International Conference on Computer Science and Automation Engineering, 2012 International Conference, 25-27 May, 582-586.
Wu, Q., Li, L., Li, H., Tang, F., Barolli, L. amd Luo. Y. (2012). Recommendation of more interests based on collaborative filtering, 2012 IEEE 26th International Conference on Advanced Information Networking and Applications, 2012 International Conference, 26-29 March, 191-198.
Yang, G. M., Lee, H. C. and Park, Y. S. (2008). The feature of preference prediction by memory-based collaborative filtering algorithm. Journal of the Korean Data Analysis Society, 10, 591-601.
Yanxiang, L., Deke, G., Fei, C. and Honghui, C. (2013). User-based clustering with top-n recommendation on cold-start problem. 2013 Third International Conference on Intelligent System Design and Engineering Applications, 2013 International Conference, 16-18 Jan, 1585-1589.
Yu, S. J. (2012). A comprehensive performance evaluation in collaborative filtering. Journal of the Korea Society of Computer and Information, 17, 83-90.

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증