인터넷 환경의 발달로 소비자들 사이에 상품정보에 대한 의견이 교환되기 시작하면서 다양한 형식의 온라인 리뷰들이 급속도로 생성되고 있다. 이러한 추세에 따라, 기업들은 온라인 리뷰들을 분석하여 마케팅, 세일즈, 제품개발 등의 다양한 기업 활동에서 그 결과를 활용하려는 노력을 진행하고 있다. 그러나 대표적인 경험재인 '게임'과 관련된 산업에서의 온라인 리뷰에 대한 연구는 매우 부족한 실정이다. 이에 본 연구는 머신러닝 모델을 활용하여 스팀(STEAM)게임의 커뮤니티 데이터를 분석하였다. 이를 통해 타 사용자의 게임 리뷰를 유용하다고 판단하는데 영향을 미치는 요인을 분석하고, 리뷰의 유용성을 예측하는데 있어 가장 우수한 성능을 보인 모델과 변수들을 도출하여 사용자의 충성도와 사용성을 증대시키기 위한 제안을 하고자 한다.
인터넷 환경의 발달로 소비자들 사이에 상품정보에 대한 의견이 교환되기 시작하면서 다양한 형식의 온라인 리뷰들이 급속도로 생성되고 있다. 이러한 추세에 따라, 기업들은 온라인 리뷰들을 분석하여 마케팅, 세일즈, 제품개발 등의 다양한 기업 활동에서 그 결과를 활용하려는 노력을 진행하고 있다. 그러나 대표적인 경험재인 '게임'과 관련된 산업에서의 온라인 리뷰에 대한 연구는 매우 부족한 실정이다. 이에 본 연구는 머신러닝 모델을 활용하여 스팀(STEAM)게임의 커뮤니티 데이터를 분석하였다. 이를 통해 타 사용자의 게임 리뷰를 유용하다고 판단하는데 영향을 미치는 요인을 분석하고, 리뷰의 유용성을 예측하는데 있어 가장 우수한 성능을 보인 모델과 변수들을 도출하여 사용자의 충성도와 사용성을 증대시키기 위한 제안을 하고자 한다.
With the development of the Internet environment, various types of online reviews are being generated and exchanged among consumers to share their opinions. In line with this trend, companies are making efforts to analyze online reviews and use the results in various business activities such as mark...
With the development of the Internet environment, various types of online reviews are being generated and exchanged among consumers to share their opinions. In line with this trend, companies are making efforts to analyze online reviews and use the results in various business activities such as marketing, sales, and product development. However, research on online review in industry related to 'Video Game' which is representative experience goods has not been performed enough. Therefore, this study analyzed STEAM community review data using machine learning techniques. We analyzed the factors affecting the opinion of other users' game review. We also propose managerial implications to incease user loyalty and usability.
With the development of the Internet environment, various types of online reviews are being generated and exchanged among consumers to share their opinions. In line with this trend, companies are making efforts to analyze online reviews and use the results in various business activities such as marketing, sales, and product development. However, research on online review in industry related to 'Video Game' which is representative experience goods has not been performed enough. Therefore, this study analyzed STEAM community review data using machine learning techniques. We analyzed the factors affecting the opinion of other users' game review. We also propose managerial implications to incease user loyalty and usability.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
이처럼 소셜미디어를 분석하는 것은 사용자들의 자발적인 의견들을 신속하고 쉽게 파악 및 예측할 수 있다. 따라서 본 연구는 스팀게임의 사용자들이 의견을 전달하고 공유하는 스팀게임 커뮤니티의 데이터를 활용하여 분석을 진행하고자 한다.
본 연구의 대상이 되는 스팀게임의 커뮤니티의 경우, 아마존 닷컴과 마찬가지로 게임 사용자가 리뷰를 업로드하면 다른 사용자들이 그 리뷰를 보고 ‘유용하다/유용하지 않다’로 투표를 할 수 있는 기능을 제공한다. 따라서 해당 데이터를 기반으로 리뷰 유용성을 분석하고자 한다.
본 연구는 가장 높은 예측정확도를 나타낸 딥러닝과 CART의 예측결과를 활용하여 게임 리뷰의 유용성에 영향을 미치는 요인을 분석하였다. 딥러닝에서 도출된 변수의 중요도는 [Fig.
본 연구는 게임 리뷰데이터를 머신러닝 기법으로 분석하여 사용자가 커뮤니티에 업로드한 리뷰의 유용성하다고 판단하는 비율에 영향을 미치는 요인을 파악하고자 하였다. STEAM 커뮤니티의 리뷰 데이터를 여섯 개의 머신러닝 모델을 10-fold cross validaion을 이용하여 예측한 결과 예측정확도는 딥러닝과 CART가 가장 정확한 것으로 나타났다.
따라서 리뷰데이터를 기반으로, 리뷰 유용성에 영향을 미치는 요인을 분석하는데 있어 리뷰 작성자의 신뢰성이 사용자들이 리뷰의 유용성 평가에 미치는 영향에 대한 고려가 필요하다고 판단하였다. 본 연구에서는 리뷰작성자의 신뢰성을 파악하기 위해 리뷰어의 게임시간, 레벨, 친구 수, 작성한 리뷰의 수 등을 활용하고자 하였다.
스팀의 약 8000여개의 게임 중에서 11가지의 게임 데이터를 대상으로 하였으며, 총 79,437개의 데이터를 통해 유저의 특성 및 리뷰의 특성과 관련된 요인을 분석하고자 하였다.
본 연구는 리뷰 유용성에 영향을 미치는 요인들을 분석하기 위해 IBM SPSS Modeler 프로그램과 R, RapidMiner를 이용하여 네 가지 머신러닝 모델과, 한 가지 혼합모델 및 딥러닝 모델을 사용하고 비교하였다. 이를 통해 게임 리뷰의 유용성을 평가하는데 있어 가장 알맞은 분석모델이 무엇인지를 보고자 하였다. 분석모델로는 CART, Neural Network, Multi-class SVM, Random-Forest를 사용하였으며, 위 네 가지 분석모델에 가중치를 적용한 하이브리드 모델과 딥러닝 모델을 추가하여 여섯 개의 모델을 사용하였다.
이에 더해, 본 머신러닝 모델별 예측정확도에 비례하는 가중치를 이용하여 개별 모델의 결과를 가중한 가상의 예측 모델을 하나 생성하여 이전 네 가지 모델과 예측 정확성을 비교하는 한편 최근 가장 인공지능 분야에서 좋은 성과를 내고 있는 딥러닝(Deep Learning)과도 비교하고자 한다.
이에 본 논문은 스팀게임의 커뮤니티 데이터를 기반으로 여러 머신러닝 모델을 적용한 후, 게임 유저가 커뮤니티에 업로드 하는 리뷰의 유용성에 영향을 주는 요인을 분석하고자 한다.
제안 방법
데이터의 전처리 후 텍스트 마이닝의 일종인 오피니언 마이닝을 실시하여 리뷰어의 리뷰에 대한 감성적인 극성(Sentimental polarity)를 긍정과 부정으로 나누어 파생변수를 2개 추가하였다. 긍정어 사전과 부정어 사전을 정의하고 각 리뷰의 텍스트중 긍/부정어 사전에 정의된 단어와 일치하는 수를 세는 방식으로 실시하였다. 그러나 감성분석에서 파생된 긍/부정어 수는 종속변수와의 상관계수가 낮아 최종분석에는 제외되었다.
데이터의 전처리 후 텍스트 마이닝의 일종인 오피니언 마이닝을 실시하여 리뷰어의 리뷰에 대한 감성적인 극성(Sentimental polarity)를 긍정과 부정으로 나누어 파생변수를 2개 추가하였다. 긍정어 사전과 부정어 사전을 정의하고 각 리뷰의 텍스트중 긍/부정어 사전에 정의된 단어와 일치하는 수를 세는 방식으로 실시하였다.
리뷰의 유용성에 영향을 미치는 요인들을 도출하기 위한 Rand om forest의 첫 단계로서는 본 연구에서 사용된 데이터에 대한 분류 모델을 생성 한다. 알고리즘은 고전 모델을 선택하였으며, 나무 설정은 500, 변수 설정은 4로 하였다.
수집 된 79,437개의 텍스트형식으로 된 리뷰데이터를 분석이 가능하도록 약 3주간의 걸쳐 데이터 전처리 과정을 진행하였다. 먼저, 분석이 용이하도록 액셀 데이터로 변환을 했고, 변환한 각각의 11개의 리뷰데이터를 한 파일로 통합하였다. 그리고 통합된 데이터를 대상으로 결측치와 이상치를 모두 제거하였고, 그 결과 총 41,164개의 데이터, 13개의 변수만을 사용하였다.
본 연구에서는 3장에서 제시된 프레임워크를 바탕으로 사례 연구를 실시하였다. 먼저, 스팀 게임에서의 커뮤니티 데이터를 선정한 후, 변수에 대한 특성을 분석하였다.
모델들의 예측력을 알 수 있는 통계값인 MAE 와 SSE를 계산하여 다섯 가지 분석모델의 오류정도를 파악하였다. MAE(Mean Absolute Error)는 평균적인 예측오류를 나타내는 값이고, SSE(Sum of Square Error)는 극단적인 예측오류를 잡아내는 값이다.
본 연구는 리뷰 유용성에 영향을 미치는 요인들을 분석하기 위해 IBM SPSS Modeler 프로그램과 R, RapidMiner를 이용하여 네 가지 머신러닝 모델과, 한 가지 혼합모델 및 딥러닝 모델을 사용하고 비교하였다. 이를 통해 게임 리뷰의 유용성을 평가하는데 있어 가장 알맞은 분석모델이 무엇인지를 보고자 하였다.
본 연구에서 Kernel은 기본 설정인 Radial Basis로 설정하였으며 SVM의 MAE, SSE 값의 도출도 앞의 분석모델들과 동일하게 적용하였다.
본 연구에서는 MAE값을 사용하여 네 가지의 개별 분석모델의 가중치를 결정했다. MAE는 평균적인 예측오류를 나타내는데, MAE 값이 적으면, 가중치를 크게 주고, MAE값이 크면 가중치를 적게 주는 방법으로 가중치를 계산하였다.
수집 된 79,437개의 텍스트형식으로 된 리뷰데이터를 분석이 가능하도록 약 3주간의 걸쳐 데이터 전처리 과정을 진행하였다. 먼저, 분석이 용이하도록 액셀 데이터로 변환을 했고, 변환한 각각의 11개의 리뷰데이터를 한 파일로 통합하였다.
좀 더 향상된 성능을 얻기 위해 앞서 설명한 네가지 분석 모델을 혼합하여 새로운 예측 방법을 사용하였다. Hybrid 모델은 여러 예측 모델들을 결합하여 개별 예측 모델보다 더 나은 성능을 얻을 수 있다[32].
대상 데이터
먼저, 분석이 용이하도록 액셀 데이터로 변환을 했고, 변환한 각각의 11개의 리뷰데이터를 한 파일로 통합하였다. 그리고 통합된 데이터를 대상으로 결측치와 이상치를 모두 제거하였고, 그 결과 총 41,164개의 데이터, 13개의 변수만을 사용하였다.
본 연구에서 사용된 데이터는 게임 유저, 리뷰 등과 관련한 데이터 셋으로서, 본 연구의 분석을 위해 각 변수명과 그에 따른 정의를 정리하였다. 정리한 내용은 [Table 1]과 같다.
본 연구에서는 3장에서 제시된 프레임워크를 바탕으로 사례 연구를 실시하였다. 먼저, 스팀 게임에서의 커뮤니티 데이터를 선정한 후, 변수에 대한 특성을 분석하였다.
따라서 과대적합 문제를 줄이기 위해 최대 트리를 적절히 가지치기를 함으로써 보다 예측력이 좋은 분류규칙을 도출하게 된다. 본 연구에서는 IBM SPSS Modeler에서 제공하는 CART 모델을 선정하였다. 부모마디 최소 레코드 수는 2%, 자식마디 최소 레코드 수는 1%로 설정 하였으며, 최대 나무 깊이는 5로 설정하였다.
이를 통해 게임 리뷰의 유용성을 평가하는데 있어 가장 알맞은 분석모델이 무엇인지를 보고자 하였다. 분석모델로는 CART, Neural Network, Multi-class SVM, Random-Forest를 사용하였으며, 위 네 가지 분석모델에 가중치를 적용한 하이브리드 모델과 딥러닝 모델을 추가하여 여섯 개의 모델을 사용하였다. 이후 여섯 개 분석 모델의 예측정확도를 파악하기 위해, 예측 오류의 정도를 나타내는 통계값인 'MAE(Mean Absolute Error)'와 'SSE(Sum of Square Error)' 값을 계산하여, 각 모델들의 예측정확도를 나타내었다.
연구에서 쓰인 게임 데이터는 GitHub에서 제공하는 Open Source 데이터를 활용하였으며, 데이터는 온라인 게임 플랫폼인 스팀(STEAM)에서 수집되었다. 스팀은 전 세계적으로 가장 거대한 디지털 게임 플랫폼 서비스를 제공하고 있으며 다수의 게임유저를 보유하고 서비스 게임의 리뷰가 잘 축적되어 있어서 스팀의 리뷰 데이터를 활용하여 게임 유저의 리뷰 유용성 평가를 분석하는 것이 적합하다고 판단하였다.
데이터처리
이후 여섯 개 분석 모델의 예측정확도를 파악하기 위해, 예측 오류의 정도를 나타내는 통계값인 'MAE(Mean Absolute Error)'와 'SSE(Sum of Square Error)' 값을 계산하여, 각 모델들의 예측정확도를 나타내었다.
이론/모형
머신러닝 모델은 대중적으로 많이 사용되는 모델을 복수 개로 사용하여 서로 그 정확성을 비교하기로 한다. 머신러닝을 적용 시에는 데이터를 랜덤하게 n개의 배타적 그룹으로 분류한 뒤, k번째 그룹의 데이터를 테스트 데이터(Test data)로 하고 나머지 데이터가 학습 데이터(Training data)로 되게 설정한 뒤 테스트 데이터를 예측 또는 분류 하여 총 n번의 과정을 반복하는 n-fold cross validation 분석기법을 적용한다. n-fold cross validation의 장점은 비교적 적은 수의 샘플에도 적용 가능하며 샘플링 오류(bais)가 발생할 가능성도 적다.
신경망의 모형은 다중레이어 인식(MLP)로 설정 하였으며, 중지규칙은 최대훈련시간을 사용하여 15 분으로 설정하였다.
리뷰의 유용성에 영향을 미치는 요인들을 도출하기 위한 Rand om forest의 첫 단계로서는 본 연구에서 사용된 데이터에 대한 분류 모델을 생성 한다. 알고리즘은 고전 모델을 선택하였으며, 나무 설정은 500, 변수 설정은 4로 하였다.
위의 다섯 가지 머신러닝 모델의 예측정확도를 비교하기 위해, 전체데이터를 랜덤하게 배타적인 10개의 그룹으로 나누었으며, 학습데이터와 검증데 이터를 9:1의 비율로 나눈 10-fold cross validation 기법을 Hybrid 방법을 제외한 다섯 가지 머신러닝 방법에 적용하여 분석을 하였다.
성능/효과
본 연구는 게임 리뷰데이터를 머신러닝 기법으로 분석하여 사용자가 커뮤니티에 업로드한 리뷰의 유용성하다고 판단하는 비율에 영향을 미치는 요인을 파악하고자 하였다. STEAM 커뮤니티의 리뷰 데이터를 여섯 개의 머신러닝 모델을 10-fold cross validaion을 이용하여 예측한 결과 예측정확도는 딥러닝과 CART가 가장 정확한 것으로 나타났다.
6]는 모델별 예측정확도를 나타낸다. 그림에서 알 수 있듯이 MAE 측면에서는 딥러닝 모델이, SSE 측면에서는 CART가 각각 나머지 5개의 방법보다 더 작은 오류 값을 보여 가장 정확한 예측 모델임을 알 수 있었다.
두 모델 모두 분석결과 리뷰 유용성에 가장 큰영향을 미치는 변수는 리뷰가 유용한지 아닌지를 평가한 투표 수인 ‘num_voted_helpfulness’ 로 나타났다.
연구에서 쓰인 게임 데이터는 GitHub에서 제공하는 Open Source 데이터를 활용하였으며, 데이터는 온라인 게임 플랫폼인 스팀(STEAM)에서 수집되었다. 스팀은 전 세계적으로 가장 거대한 디지털 게임 플랫폼 서비스를 제공하고 있으며 다수의 게임유저를 보유하고 서비스 게임의 리뷰가 잘 축적되어 있어서 스팀의 리뷰 데이터를 활용하여 게임 유저의 리뷰 유용성 평가를 분석하는 것이 적합하다고 판단하였다.
예측정확성이 높은 두 모델 모두 리뷰 유용성 평가에 가장 영향을 미차는 변수로 리뷰가 유용한지 아닌지를 평가한 투표 수인 ‘num_voted_helpfulness’ 로 나타났다.
후속연구
본 연구의 한계점이자 이를 극복하기 위한 향후 연구로 게임관련 감성어 사전을 보강하는 연구가 필요하다. 연구 수행 전에는 감성분석의 결과가 유의한 변수가 될 것으로 기대하였으나 분석에 사용할 정도의 종속변수와 유의한 상관관계를 발견할수 없었다.
질의응답
핵심어
질문
논문에서 추출한 답변
온라인 리뷰은 무엇을 말하는가?
Bickart(2001)는 온라인 구전이란 ‘인터넷을 통해 소비자 간에 발생하는 제품정보나 사용경험, 추천 등의 정보 교환’으로 정의하고 있다[7]. 온라인 리뷰는 온라인 구전의 가장 대표적인 형태로서 구매자들이 제품 또는 서비스에 대한 사용 후기를 인터넷에 언급한 것을 의미한다. 온라인 리뷰는 기업에서 일방적으로 제공하는 정보보다 상대적으로 높은 신뢰성(Credibility)을 가지고 있는 정보로 인식 되고 있는데, 이는 기업의 상업적 정보원이 제시하는 정보보다 직접 제품을 사용해본 소비자들의 정보를 더 신뢰하는 경향이 있기 때문이다[1].
Bickart가 정의한 온라인 구전이란 무엇인가?
다른 소비자가 제공하는 제품사용 경험이나 사용 후기 등과 같은 정보를 보다 더 적극적으로 탐색하여 구매결정에 반영하는데[5], 이를 온라인 구전(Online Word-of-Mouth)이라 한다[6]. Bickart(2001)는 온라인 구전이란 ‘인터넷을 통해 소비자 간에 발생하는 제품정보나 사용경험, 추천 등의 정보 교환’으로 정의하고 있다[7]. 온라인 리뷰는 온라인 구전의 가장 대표적인 형태로서 구매자들이 제품 또는 서비스에 대한 사용 후기를 인터넷에 언급한 것을 의미한다.
리뷰 작성자의 신뢰성이 온라인 리뷰정보에서 매우 중요한 요소인 이유는 무엇인가?
온라인 리뷰의 정보 원천인 리뷰 작성자의 신뢰성(Credibility)은 온라인 리뷰정보에서 매우 중요한 요소이다. 온라인은 오프라인과 달리 익명성이 보장 되므로, 기업이 자사의 제품 판매율을 높이기 위해서 허위로 긍정적인 사용경험을 작성할 확률이 높기 때문에, 온라인 리뷰 정보는 정보출처에 대한 신뢰도가 훨씬 중요하다[20]. 리뷰어의 신뢰도는 주로 리뷰어의 평판과 전문성을 위주로 연구가 이루어지고 있는데, 기존 문헌에서 리뷰어의 평판은 주로 정보원천의 신뢰성과 연관되어 연구가 진행되고 있다.
참고문헌 (34)
Lee, H. G., Kwak H., (2013) Investigation of Factors Affecting the Effects of Online Consumer Reviews, Journal of Informatization Policy, 20(3). pp. 3-17.
2010 Survey on Internet Use, Korea Internet & Security Agency.
Yong, H. R., Kim, D. J., Hwang, H. S., (2015) A Study of Analyzing Realtime Strategy Game Data using Data Mining, Journal of Korea Game Society, 15(4), pp. 56-68.
Kim, J. K., (2016) Domestic and foreign big data trends and success cases, IE Magazine, 23(1), pp. 47-52.
Peterson, R.A & Maria, C. M (2003), Consumer Behavior(7th ed), Upper Saddle River, NJ: Prentice-Hall, Inc
Thopson, N. (2003), "More companies pay heed to their 'word of mouse' reputation", New York Times, June 23.
Bickart, B. & Schindler, R. (2001), Internet Forums as Influential Sources of Consumer Information, Journal of Interactive Marketing, 15(3), pp. 31-40.
Kim, J., Byeon, H., Lee, S. H., (2011) Enhancement of User Understanding and Service Value Using Online Reviews, The Journal of information systems, 20(2). pp. 21-36.
Chen, Y. & Xie, J. (2008), Online consumer review : Word of mouth as a new element or marketing communication mix, Management Science, 54(3) pp. 477-491.
Kang, H. N., Yong, H. R., & Hwang, H. S. (2016). Brand Clustering Based on Social Big Data: A Case Study. International Journal of Software Engineering and Its Applications, 10(4), pp. 27-36.
Hwang, H. S., (2016) Clustering Corporate Brands based on Opinion Mining: A Case Study of the Automobile Industry, Journal of the Korea Academia-Industrial cooperation Society, 17(11), pp. 453-462.
Cheon, Y., Kwak, K. T., (2015) Collective Sentiments and Users' Feedback to Game Contents : Analysis of Mobile Game UX based on Social Big Data Mining, Journal of Korea Game Society, 15(4), pp. 145-156.
Jang, P. S., (2014) Study on Principal Sentiment Analysis of Social Data, Journal of the Korea Society of Computer and Information, 19(12), pp. 49-56.
Kim, M. J., Song, E. J., Kim, Y. H., (2016) A Design of Satisfaction Analysis System For Content Using Opinion Mining of Online Review Data , Journal of Internet Computing and Services, 17(3), 107-113.
Kim, K., Kim, D. Y., Lee, J. H., (2014) Measuring Similarity Between Movies Based on Polarity of Tweets, Journal of Korean Institute of Intelligent Systems, 24(3), pp. 292-297.
Song, E. J., (2015) The Sensitivity Analysis for Customer Feedback on Social Media, Journal of the Korea Institute of Information and Communication Engineering, 19(4), pp. 780-786.
Kwon, J., Lee, M., (2012) A Study on the Determining Factors of Online Review Helpfulness, Proceedings of Korea Intelligent Information Systems Society. pp. 205-211.
Josang, A. & smail, R. & Boyd, C. (2007), A survey of trust and reputation systems form online service provision, Decision support systems, 43(2), pp. 618-644.
Cheung, M. Y. & Luo, C. & Sia, C.L. & Chen, H. (2009), Credibility of Electronic Word of- Mouth: Informational and Normative Determinants of On-line Consumer Recommendations, International Journal of Electronic Commerce, 13(4), pp. 9-38.
Forman, C. & Ghose, A. & Wiesenfeld, B. 2008, Do online reviews matters? - An empirical investigation of panel data, Decision Support Systems, 45(4), pp. 1007-1016.
Jeon, C. H., (2012), Data Mining Techniques, Hannarea.
Jensen, J. R., Qiu, F., M. Ji,(1999), Predictive Modeling of coniferous Forest Age Using Statistical and Artificial Neural network Approaches Applied to Remote Sensing Data, International Journal of Remote Sensing, 20(14), pp. 2805-2822.
Kim, E., Jhun, M., Bang, S., (2016) Hierarchically penalized support vector machine for the classification of imbalanced data with grouped variables, The Korean journal of applied statistics, 29(5), pp. 961-975.
Park, J., Chae, M., Jung, S., (2016) Classification Model of Types of Crime based on Random-Forest Algorithms and Monitoring Interface Design Factors for Real-time Crime Prediction, 22(9), pp. 455-460.
Jeong, S. K., Choi, M. S., Kim, H. S., (2016) Coreference Resolution for Korean Using Random Forests, KIPS transactions on software and data engineering,, 5(11), pp. 535-540.
Lee, S. H., Lee, L. S., & Hwang, H. S. (2017). Does Social Opinion Influence Movie Ticket Revenues?: A Case Study. Advanced Science Letters, 23(3), 1627-1630.
Kim, I. J., (2014) Big Data Deep Learning: A New Trend in Machine Learning, The Journal of Korean Institute of Communications and Information Sciences, 31(11), pp. 52-57.
Choi, Y. S., (2015), Current status and future of Deep Learning and Intelligent Technology, IE Magazine, 22(2), pp. 31-35.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.