$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

필터링기법을 이용한 영화 추천시스템 알고리즘 개발에 관한 연구
A study of development for movie recommendation system algorithm using filtering 원문보기

Journal of the Korean Data & Information Science Society = 한국데이터정보과학회지, v.24 no.4, 2013년, pp.803 - 813  

김선옥 (한라대학교 정보통신방송공학부) ,  이수용 (연세대학교 교양교직과) ,  이석준 (상지대학교 경영정보학과) ,  이희춘 (상지대학교 컴퓨터데이터정보학과) ,  지선수 (강릉원주대학교 정보기술공학과)

초록
AI-Helper 아이콘AI-Helper

전자상거래에서 상품의 구입은 오프라인에서 구매하는 방식과는 차이가 있다. 오프라인에서 상품추천은 판매원의 추천에 의해 이루어지지만 온라인에서 상품 추천은 판매원이 상품 추천을 할 수가 없기 때문에 오프라인과는 다른 형태의 상품을 추천하게 된다. 추천시스템은 온라인 상거래에서 상품을 추천하는 방법으로 기존 상품을 구입한 고객의 선호도를 기반으로 상품을 구입하려는 고객의 선호도를 예측하여 추정된 선호도가 높은 상품을 고객에게 추천하는 방법이다. 협력적 필터링 알고리즘은 전자상거래의 상품추천 추천시스템에 사용되며 추정된 값들로 추천 상품 목록을 만들고 그 목록을 고객에게 추천을 하는 것이다. 이 논문에서 사용된 데이터집합은 Movielens 데이터집합인 100k 데이터집합과 1 million 데이터집합이며 일반화를 위해 2개의 데이터집합에서 유사한 결과를 도출하여 일반화시키고자 한다. 영화 추천시스템의 새로운 알고리즘을 제안하기 위해 기존의 알고리즘과 변형된 알고리즘에 의해 추정된 추정값들의 분포 특징을 분석과 응답자별로 분류해서 응답자별 분포의 특징을 분석하였다. 이 논문에서는 이웃기반 추천시스템 협력적 필터링 알고리즘을 개선하기 위해 기존의 알고리즘과 변형된 알고리즘을 바탕으로 새로운 알고리즘을 제안하였다.

Abstract AI-Helper 아이콘AI-Helper

The purchase of items in e-commerce is a little bit different from that of items in off-line. The recommendation of items in off-line is conducted by salespersons' recommendation, However, the item recommendation in e-commerce cannot be recommended by salespersons, and so different types of methods ...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

제안 방법

  • 3. 100k 데이터집합의 응답자 943명을 응답자별로 분류하여 응답분포의 특징과 추정값의 분포 특징을 분석하였으며 1 million 데이터집합의 응답자 6,040명을 응답자별로 분류하여 응답분포의 특징과 추정값의 분포 특징을 분석하였다.
  • 5. 100k 데이터집합과 1 million 데이터집합에서 추정에 사용된 수식 (2.1),(2.2),(2.3),(2.4)의 특징을 파악하고 새로운 알고리즘에 사용될 수식을 선정하였다.
  • 6. 선정된 수식의 조합에 의해 100k 데이터집합과 1 million 데이터집합에 대해 MAE를 최소로 하는 해를 구하였다.
  • 이것은 기존의 연구결과와 일치한다. 따라서 이 논문에서는 MAE를 작게 하는 알고리즘을 제안하기 위하여 이웃기반 협력적 필터링알고리즘인 수식 (2.1), (2.2), (2.3), (2.4)의 MAE와 오차를 분석하여 기존 알고리즘에 가중치를 고려하여 선형결합식으로 표현할 수 있는지 분석하였다. 실험결과 제안한 선형결합식은 100k 데이터집합, 1 million 데이터집합에서 모두 수식 (2.
  • 4)으로 선호도 추정값을 계산한다. 선호도 추정 방식은 추정하려고 하는 1개의 값을 제외한 나머지 자료는 훈련 데이터집합으로 선정하여 모든 데이터집합에 대해 선호도를 추정하였다. 즉 100k 데이터집합은 응답자료1,000,000개에 대해 선호도 추정값을 구하였다.
  • 정확한 추정을 위해서는 좋은 알고리즘이 필요하다. 이 논문에서는 기존의 협력적 필터링 알고리즘의 특성을 분석하고 선형결합 된 새로운 알고리즘을 제안하며 제안 방법의 일반화를 위해 100k 데이터집합, 1 million 데이터집합 두 개의 데이터집합에 적용하여 분석하였다.

대상 데이터

  • 본 연구는 미네소타 대학의 GroupLens 연구소에서 공개하는 MovieLens 데이터집합에서 100k 데이터집합과 1 million 데이터집합을 이용하여 실험하였다. 100k 데이터집합은 총 943명의 응답자들이1,682편의 영화에 대해 자신의 선호정도를 5점 척도로 표기한 선호도 평가값으로 구성되어 있고 총 평가값의 수는 100,000개로 구성되어 있으며 각 응답자는 적어도 20개 이상의 영화에 응답을 하였다. 1 million MovieLens 데이터집합은 총 6,040명의 사용자들이 3,952편의 영화에 대해 자신의 선호정도를 5점 척도로 표기한 선호도 평가값들로 구성되어 있으며 총 평가값의 수는 1,000,209개로 구성되어 있다.
  • 본 연구는 미네소타 대학의 GroupLens 연구소에서 공개하는 MovieLens 데이터집합에서 100k 데이터집합과 1 million 데이터집합을 이용하여 실험하였다. 100k 데이터집합은 총 943명의 응답자들이1,682편의 영화에 대해 자신의 선호정도를 5점 척도로 표기한 선호도 평가값으로 구성되어 있고 총 평가값의 수는 100,000개로 구성되어 있으며 각 응답자는 적어도 20개 이상의 영화에 응답을 하였다.

데이터처리

  • 2. 100k 데이터집합과 1 million 데이터집합을 수식 (2.1), (2.2), (2.3), (2.4)으로 추정 계산된 추정값의 분포특징을 분석하고 MAE를 계산하였다.
  • 4. 수식 (2.1), (2.2), (2.3), (2.4)로 추정된 100k 데이터집합과 1 million 데이터집합의 추정값을 각각의 응답자 943명, 6,040명을 응답자별로 구분하여 추정값의 오차를 계산하여 과소 추정값과 과대 추정값으로 나누어 이항 검정으로 분석하였다. 이항 검정은 유의수준 α=0.
  • 7. MAE를 최소로 하는 수식에 의해 다시 추정값을 구하여 MAE를 구하고 기존 수식의 MAE와 비교 분석하였다.
  • Table 4.7은 1 million 데이터집합에서 응답자 6,040명을 응답자별로 구분하여 평가값과  추정값의 오차를 계산한 후 6,040명의 응답자별로 오차의 음, 양에 대해 이항검정을 사용하여 분석하였다.
  • 이항 검정은 유의수준 α=0.05, 0.01, 0.005, 0.001 로 설정하여 수식 (2.1), (2.2), (2.3), (2.4)의 과소 추정값과 과대 추정값의 분포를 분석하였다.
  • 협력적 필터링에서 예측의 정확도를 평가하기 위하여 응답 추정값의 절대평균오차 (MAE; mean absolute error)를 이용하여 MAE를 계산한다. MAE가 크면 전체 시스템의 예측 정확도가 낮아지고 MAE가 작으면 예측 정확도가 높아진다.

이론/모형

  • 또한, ruj은 예측 대상 고객 U와 이웃 고객 J의 선호도 유사정도를 나타내는 유사도 가중치이다. 본 연구에서 분류의 정확도를 분석하기 위하여 NBCFA를 이용하여 고객의 선호도를 추정하였으며 유사도 가중치 ruj는 피어슨 상관계수를 이용하였다.
  • 2)는 NBCFA에서 J에 대해 새로운 해석을 적용하여 변형한 알고리즘이다. 수식 (2.3), 수식 (2.4)는 Lee (2006)가 제안한 알고리즘으로 각각 CMA Type 1, CMA Type 2로 발표하였다. 일반적으로 CMA라고 하면 CMA Type 2를 의미한다.
본문요약 정보가 도움이 되었나요?

참고문헌 (14)

  1. Kim. J. H. and Byeon. H. S. (2011). A product recommendation system based on adjacency data. Journal of the Korean Data & Information Science Society, 22, 19-27. 

  2. Kim. S. H., Oh. B. H., Kim. M. J. and Yang. J. H. (2012). A movie recommendation algorithm combining collaborative filtering and content information. Journal of Korean Institute of Information Scientists and Engineers: Software and Applications, 39, 261-268. 

  3. Kim, S. O. (2010). The research of new algorithm to improve prediction accuracy of recommender system in electronic commerce. Journal of Korean Data & Information Science Society, 21, 185-194. 

  4. Kim. S. O. and Lee H. C. (2010). A study of distribution of response and rank of recommendation in collaborative filtering. Journal of the Korean Data Analysis Society, 12, 2071-2080. 

  5. Lee, H. C. and Lee. S. J. (2006). On the precision of the prediction of the nearest neighbor algorithm and adjusted algorithm for user-based recommender system. Journal of the Korean Data Analysis Society, 8, 1893-1904. 

  6. Lee, S. H. and Park, S. H. (2011). Accuracy improvement of a collaborative filtering recommender system using attribute of age. Journal of the Korea Safety Management & Science, 13, 169-177. 

  7. Lee. S. J., Kim. S. O. and Lee H. C. (2007a). The relationship of prediction accuracy and the run of abnormal users' ratings in collaborative filtering. Journal of the Korean Data Analysis Society, 9, 2043-2054. 

  8. Lee, S. J., Kim, S. O. and Lee, H. C. (2007b). A study on the interrelationship between the prediction error and the rating's pattern in collaborative. Journal of Korean Data & Information Science, 18, 659-668. 

  9. Linden, G., Smith, B. and York, J. (2003). Amazon.com recommendations: Item-to-item collaborative filtering. IEEE Internet Computing, 7, 76-80. 

  10. Qinjiao, M., Boqin, F. and Shanliang, P. (2012). A study of top-n recommendation on user behavior data. 2012 IEEE International Conference on Computer Science and Automation Engineering, 2012 International Conference, 25-27 May, 582-586. 

  11. Wu, Q., Li, L., Li, H., Tang, F., Barolli, L. amd Luo. Y. (2012). Recommendation of more interests based on collaborative filtering, 2012 IEEE 26th International Conference on Advanced Information Networking and Applications, 2012 International Conference, 26-29 March, 191-198. 

  12. Yang, G. M., Lee, H. C. and Park, Y. S. (2008). The feature of preference prediction by memory-based collaborative filtering algorithm. Journal of the Korean Data Analysis Society, 10, 591-601. 

  13. Yanxiang, L., Deke, G., Fei, C. and Honghui, C. (2013). User-based clustering with top-n recommendation on cold-start problem. 2013 Third International Conference on Intelligent System Design and Engineering Applications, 2013 International Conference, 16-18 Jan, 1585-1589. 

  14. Yu, S. J. (2012). A comprehensive performance evaluation in collaborative filtering. Journal of the Korea Society of Computer and Information, 17, 83-90. 

저자의 다른 논문 :

관련 콘텐츠

오픈액세스(OA) 유형

GOLD

오픈액세스 학술지에 출판된 논문

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로