사용자 리뷰의 평가기준 별 이슈 식별 방법론: 호텔 리뷰 사이트를 중심으로 Methodology for Identifying Issues of User Reviews from the Perspective of Evaluation Criteria: Focus on a Hotel Information Site원문보기
최근 IT기술의 발전에 따라 많은 사람들이 자신들의 여가활동에 대한 경험을 공유하고 있으며, 역으로 다른 사람들의 여가활동에 대한 경험을 참고하여 더 나은 여가활동을 누릴 수 있는 기회를 얻게 되었다. 이러한 현상은 영화, 숙박, 음식, 여행 등 여가활동 전반에 걸쳐 나타나고 있으며, 그 중심에는 여가활동에 대한 정보를 요약하여 제공하는 수많은 사이트가 있다. 대부분의 여가활동 정보 사이트는 각 상품에 대한 평균 평점뿐만 아니라 상세 리뷰를 제공함으로써, 해당 상품을 구매하고자 하는 잠재고객의 의사결정을 지원하고 있다. 하지만 기존 대부분의 사이트는 한 단계의 평가기준에 따라 평점과 리뷰를 제공하기 때문에, 각 평가기준을 구성하는 세부요소에 대한 특징과 평가기준 별 주요 이슈를 파악하기 위해서는 상당히 많은 수의 리뷰를 직접 읽어야 한다는 불편이 따른다. 즉 사용자는 자신이 중요한 것으로 생각하는 평가기준에 대한 조건을 파악하기 위해, 많은 수의 리뷰를 하나하나 읽어보는 과정에서 많은 시간과 노력을 소비하게 된다. 예를 들어 호텔의 접근성, 객실, 서비스, 음식 등 한 단계의 평가기준만을 사용하여 평점과 리뷰를 제공하는 사이트의 경우, 접근성 중 특히 지하철역과의 거리, 객실 중 특히 욕실의 상태를 살펴보고자 하는 사용자에게 필요한 정보를 충분히 제공하지 못하게 된다. 따라서 본 연구에서는 기존 여가활동 정보 사이트의 한계, 즉 평가기준별로 입력된 리뷰를 신뢰하기 어렵다는 점과 평가기준을 구성하고 있는 세부 내용을 파악하기 어렵다는 점을 극복하기 위한 방안을 제시하고자 한다. 본 연구에서 제안하는 방법론은 사용자가 별도의 구분 없이 입력한 리뷰를 그 내용에 따라 평가기준별로 자동 분류하고, 각 평가 기준 별 주요 이슈를 요약하여 제공한다. 제안 방법론은 최근 텍스트 분석에 활발하게 사용되고 있는 토픽 모델링(Topic Modeling)에 기반을 두고 있으며, 각 리뷰를 하나의 문서 단위로 사용하는 것이 아니라 리뷰를 문장 단위로 끊어 개별 리뷰 유닛(Review Unit)으로 분해한 뒤, 평가기준별로 리뷰 유닛을 재구성하여 분석한다는 측면에서 기존의 토픽 모델링 기반 연구와 큰 차이가 있다고 할 수 있다. 본 논문에서는 제안 방법론을 실제 호텔 정보 사이트에서 수집한 423건의 리뷰 문서에 적용하여 6가지 평가기준에 대해 총 4,860건의 리뷰 유닛을 재구성하고, 이에 대한 분석 결과를 소개함으로써 제안 방법론의 유용성을 간접적으로 보인다.
최근 IT기술의 발전에 따라 많은 사람들이 자신들의 여가활동에 대한 경험을 공유하고 있으며, 역으로 다른 사람들의 여가활동에 대한 경험을 참고하여 더 나은 여가활동을 누릴 수 있는 기회를 얻게 되었다. 이러한 현상은 영화, 숙박, 음식, 여행 등 여가활동 전반에 걸쳐 나타나고 있으며, 그 중심에는 여가활동에 대한 정보를 요약하여 제공하는 수많은 사이트가 있다. 대부분의 여가활동 정보 사이트는 각 상품에 대한 평균 평점뿐만 아니라 상세 리뷰를 제공함으로써, 해당 상품을 구매하고자 하는 잠재고객의 의사결정을 지원하고 있다. 하지만 기존 대부분의 사이트는 한 단계의 평가기준에 따라 평점과 리뷰를 제공하기 때문에, 각 평가기준을 구성하는 세부요소에 대한 특징과 평가기준 별 주요 이슈를 파악하기 위해서는 상당히 많은 수의 리뷰를 직접 읽어야 한다는 불편이 따른다. 즉 사용자는 자신이 중요한 것으로 생각하는 평가기준에 대한 조건을 파악하기 위해, 많은 수의 리뷰를 하나하나 읽어보는 과정에서 많은 시간과 노력을 소비하게 된다. 예를 들어 호텔의 접근성, 객실, 서비스, 음식 등 한 단계의 평가기준만을 사용하여 평점과 리뷰를 제공하는 사이트의 경우, 접근성 중 특히 지하철역과의 거리, 객실 중 특히 욕실의 상태를 살펴보고자 하는 사용자에게 필요한 정보를 충분히 제공하지 못하게 된다. 따라서 본 연구에서는 기존 여가활동 정보 사이트의 한계, 즉 평가기준별로 입력된 리뷰를 신뢰하기 어렵다는 점과 평가기준을 구성하고 있는 세부 내용을 파악하기 어렵다는 점을 극복하기 위한 방안을 제시하고자 한다. 본 연구에서 제안하는 방법론은 사용자가 별도의 구분 없이 입력한 리뷰를 그 내용에 따라 평가기준별로 자동 분류하고, 각 평가 기준 별 주요 이슈를 요약하여 제공한다. 제안 방법론은 최근 텍스트 분석에 활발하게 사용되고 있는 토픽 모델링(Topic Modeling)에 기반을 두고 있으며, 각 리뷰를 하나의 문서 단위로 사용하는 것이 아니라 리뷰를 문장 단위로 끊어 개별 리뷰 유닛(Review Unit)으로 분해한 뒤, 평가기준별로 리뷰 유닛을 재구성하여 분석한다는 측면에서 기존의 토픽 모델링 기반 연구와 큰 차이가 있다고 할 수 있다. 본 논문에서는 제안 방법론을 실제 호텔 정보 사이트에서 수집한 423건의 리뷰 문서에 적용하여 6가지 평가기준에 대해 총 4,860건의 리뷰 유닛을 재구성하고, 이에 대한 분석 결과를 소개함으로써 제안 방법론의 유용성을 간접적으로 보인다.
As a result of the growth of Internet data and the rapid development of Internet technology, "big data" analysis has gained prominence as a major approach for evaluating and mining enormous data for various purposes. Especially, in recent years, people tend to share their experiences related to thei...
As a result of the growth of Internet data and the rapid development of Internet technology, "big data" analysis has gained prominence as a major approach for evaluating and mining enormous data for various purposes. Especially, in recent years, people tend to share their experiences related to their leisure activities while also reviewing others' inputs concerning their activities. Therefore, by referring to others' leisure activity-related experiences, they are able to gather information that might guarantee them better leisure activities in the future. This phenomenon has appeared throughout many aspects of leisure activities such as movies, traveling, accommodation, and dining. Apart from blogs and social networking sites, many other websites provide a wealth of information related to leisure activities. Most of these websites provide information of each product in various formats depending on different purposes and perspectives. Generally, most of the websites provide the average ratings and detailed reviews of users who actually used products/services, and these ratings and reviews can actually support the decision of potential customers in purchasing the same products/services. However, the existing websites offering information on leisure activities only provide the rating and review based on one stage of a set of evaluation criteria. Therefore, to identify the main issue for each evaluation criterion as well as the characteristics of specific elements comprising each criterion, users have to read a large number of reviews. In particular, as most of the users search for the characteristics of the detailed elements for one or more specific evaluation criteria based on their priorities, they must spend a great deal of time and effort to obtain the desired information by reading more reviews and understanding the contents of such reviews. Although some websites break down the evaluation criteria and direct the user to input their reviews according to different levels of criteria, there exist excessive amounts of input sections that make the whole process inconvenient for the users. Further, problems may arise if a user does not follow the instructions for the input sections or fill in the wrong input sections. Finally, treating the evaluation criteria breakdown as a realistic alternative is difficult, because identifying all the detailed criteria for each evaluation criterion is a challenging task. For example, if a review about a certain hotel has been written, people tend to only write one-stage reviews for various components such as accessibility, rooms, services, or food. These might be the reviews for most frequently asked questions, such as distance between the nearest subway station or condition of the bathroom, but they still lack detailed information for these questions. In addition, in case a breakdown of the evaluation criteria was provided along with various input sections, the user might only fill in the evaluation criterion for accessibility or fill in the wrong information such as information regarding rooms in the evaluation criteria for accessibility. Thus, the reliability of the segmented review will be greatly reduced. In this study, we propose an approach to overcome the limitations of the existing leisure activity information websites, namely, (1) the reliability of reviews for each evaluation criteria and (2) the difficulty of identifying the detailed contents that make up the evaluation criteria. In our proposed methodology, we first identify the review content and construct the lexicon for each evaluation criterion by using the terms that are frequently used for each criterion. Next, the sentences in the review documents containing the terms in the constructed lexicon are decomposed into review units, which are then reconstructed by using the evaluation criteria. Finally, the issues of the constructed review units by evaluation criteria are derived and the summary results are provided. Apart from t
As a result of the growth of Internet data and the rapid development of Internet technology, "big data" analysis has gained prominence as a major approach for evaluating and mining enormous data for various purposes. Especially, in recent years, people tend to share their experiences related to their leisure activities while also reviewing others' inputs concerning their activities. Therefore, by referring to others' leisure activity-related experiences, they are able to gather information that might guarantee them better leisure activities in the future. This phenomenon has appeared throughout many aspects of leisure activities such as movies, traveling, accommodation, and dining. Apart from blogs and social networking sites, many other websites provide a wealth of information related to leisure activities. Most of these websites provide information of each product in various formats depending on different purposes and perspectives. Generally, most of the websites provide the average ratings and detailed reviews of users who actually used products/services, and these ratings and reviews can actually support the decision of potential customers in purchasing the same products/services. However, the existing websites offering information on leisure activities only provide the rating and review based on one stage of a set of evaluation criteria. Therefore, to identify the main issue for each evaluation criterion as well as the characteristics of specific elements comprising each criterion, users have to read a large number of reviews. In particular, as most of the users search for the characteristics of the detailed elements for one or more specific evaluation criteria based on their priorities, they must spend a great deal of time and effort to obtain the desired information by reading more reviews and understanding the contents of such reviews. Although some websites break down the evaluation criteria and direct the user to input their reviews according to different levels of criteria, there exist excessive amounts of input sections that make the whole process inconvenient for the users. Further, problems may arise if a user does not follow the instructions for the input sections or fill in the wrong input sections. Finally, treating the evaluation criteria breakdown as a realistic alternative is difficult, because identifying all the detailed criteria for each evaluation criterion is a challenging task. For example, if a review about a certain hotel has been written, people tend to only write one-stage reviews for various components such as accessibility, rooms, services, or food. These might be the reviews for most frequently asked questions, such as distance between the nearest subway station or condition of the bathroom, but they still lack detailed information for these questions. In addition, in case a breakdown of the evaluation criteria was provided along with various input sections, the user might only fill in the evaluation criterion for accessibility or fill in the wrong information such as information regarding rooms in the evaluation criteria for accessibility. Thus, the reliability of the segmented review will be greatly reduced. In this study, we propose an approach to overcome the limitations of the existing leisure activity information websites, namely, (1) the reliability of reviews for each evaluation criteria and (2) the difficulty of identifying the detailed contents that make up the evaluation criteria. In our proposed methodology, we first identify the review content and construct the lexicon for each evaluation criterion by using the terms that are frequently used for each criterion. Next, the sentences in the review documents containing the terms in the constructed lexicon are decomposed into review units, which are then reconstructed by using the evaluation criteria. Finally, the issues of the constructed review units by evaluation criteria are derived and the summary results are provided. Apart from t
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
따라서 본 연구에서는 기존 여가활동 정보 사이트의 한계, 즉 평가기준별로 입력된 리뷰를 신뢰하기 어렵다는 점과 평가기준을 구성하고 있는 세부 내용을 파악하기 어렵다는 점을 극복하기 위한 방안을 제시하고자 한다. 본 연구에서 제안하는 방법론은 사용자가 별도의 구분 없이 입력한 리뷰를 그 내용에 따라 평가기준별로 자동 분류하고, 각 평가기준별 주요 이슈를 발굴하고 요약하여 제공한다.
또한 평가기준을 세부적으로 구분하여 제공하기 어렵기 때문에, 실제로 사용자가 궁금해 하는 부분에 대해 충분한 정보를 제공하기 어렵다는 한계를 갖는다. 따라서 본 연구에서는 다양한 평가기준에 대한 내용이 혼재되어 있는 리뷰로부터 각 평가기준 별 리뷰 유닛을 재구성하고, 이들 리뷰 유닛의 주요 이슈를 평가기준 별로 요약하여 제공함으로써 각 상품 및 서비스의 평가기준 별 상세 이슈를 요약하여 제공하는 방법론을 제안하였다. 또한 누적고객 470만 명 이상을 갖는 글로벌 호텔 정보 사이트인 ‘H’ 사이트에 소개된 호텔 5곳을 선정하여 리뷰 423개를 수집하고, 이를 4,860개의 리뷰 유닛으로 재구조화하여 각 호텔의 접근성, 부대시설, 객실시설, 식음료, 서비스, 그리고 가격대비만족도 측면에서의 상세 이슈를 발굴하여 제시하였다.
제안 방법론은 최근 텍스트 분석에 활발하게 사용되고 있는 토픽 모델링(Topic Modeling)에 기반을 두고 있으며, 각 리뷰를 하나의 문서 단위로 사용하는 것이 아니라 리뷰를 개별 리뷰 유닛(Unit)으로 분해한 뒤 평가 기준별로 유닛을 재구성하여 분석한다는 측면에서 기존의 토픽 모델링 기반 연구와 큰 차이가 있다고 할 수 있다. 또한 제안 방법론을 호텔 정보 사이트에 적용하여 분석한 결과를 소개함으로써, 제안 방법론의 유용성을 간접적으로 보이고자 한다.
본 부절에서는 앞에서 도출한 각 호텔의 평가기준 별 리뷰 유닛에 대한 토픽 모델링 분석을 통해 평가기준 별 주요 이슈를 도출하는 과정을 소개한다. 토픽 모델링은 각 문서에 포함된 용어의 빈도수에 근거하여 유사 문서를 그룹화한 뒤, 각 그룹을 대표하는 주요 용어를 추출하여 해당 그룹의 토픽 키워드 집합을 제시하는 기법이다.
본 절에서는 6개의 평가기준 별 용어사전을 사용하여 423개의 리뷰 원문을 4,860개의 리뷰 유닛으로 재구조화한 결과를 소개한다. 이 과정 역시 SAS Enterprise Miner 14.
본 절에서는 제안하는 방법론의 범위 및 주요 과정에 대해 간략하게 소개한다. 본 장에서 제안하는 방법론은 편의상 호텔 정보 사이트를 예로 들어 기술되지만, 사용자 리뷰가 있는 모든 여가활동 정보 사이트에 동일하게 적용될 수 있다.
본 절에서는 호텔 정보 사이트의 6개 평가기준 별 용어사전 구축 과정 및 결과를 소개한다. 우선 4,860개 리뷰 유닛에 대해 형태소 분석, 파싱(Parsing) 및 필터링(Filtering)을 수행하였으며, 이 과정에서 SAS Enterprise Miner 14.
많은 사이트를 통해 다양한 상품 및 서비스에 대한 정보를 얻을 수 있지만, 오히려 방대한 양의 정보로 인해 정작 사용자가 궁금해 하는 부분에 대한 정보를 얻기는 더욱 어려워진 측면이 있다. 이에 본 연구는 각 상품 및 서비스의 주요 평가기준을 정의하고 각 평가기준 별 주요 이슈를 요약하여 제시함으로써, 사용자가 필요로 하는 정보를 편리하게 습득할 수 있는 방안을 제시하였다. 제안 방법론은 호텔 정보 사이트를 중심으로 소개되었지만 여타의 여가활동 정보 사이트, 나아가서는 사용자의 리뷰를 다루는 모든 사이트의 개선에 적용될 수 있을 것으로 기대한다.
토픽 모델링은 각 문서에 포함된 용어의 빈도수에 근거하여 유사 문서를 그룹화한 뒤, 각 그룹을 대표하는 주요 용어를 추출하여 해당 그룹의 토픽 키워드 집합을 제시하는 기법이다. 토픽 모델링은 많은 연구 및 서적에서 이미 소개되었을 뿐 아니라 상용 분석 도구를 통해 쉽게 수행 가능하므로, 본 연구에서는 이에 대한 자세한 과정 대신 주요 원리만을 요약하여 소개한다.
평가기준에 따른 리뷰 분리를 위해 앞에서 평가기준 별 용어사전을 구축하였으며, 본 부절에서는 이를 적용하여 각 리뷰를 리뷰 유닛으로 재구조화하는 과정을 소개한다. 우선 마침표(.
제안 방법
평가기준 별 용어집 구축 과정에서 발생할 수 있는 오차를 최소화하기 위해 연구원 두 명이 동일한 분류 작업을 수행하였다. 구체적으로 두 연구원의 분류가 일치하는 경우 해당 용어를 곧바로 용어사전에 추가하였으며, 서로 의견이 다른 경우 또 다른 연구원의 의견에 따라 용어를 분류하였다.
평가기준의 구체적 특성(Feature)을 나타내는 용어사전은 기존에 구축된 도메인별 용어사전 또는 온톨로지를 활용하여 구축할 수 있지만, 본 연구에서는 용어 빈도수 분석결과를 활용하여 작은 규모의 용어사전을 직접 구축하였다. 구체적으로 우선 전체 리뷰에 출현한 용어 중 명사의 빈도수를 측정한 후, 이들 중 특정 임계값(Threshold) 이상 출현하는 용어만을 도출하였다. 그리고 이들 용어들이 각 평가기준의 어떤 항목의 묘사에 사용될 수 있는지를 2차원 행렬 형태로 정리하였다.
구체적으로 우선 전체 리뷰에 출현한 용어 중 명사의 빈도수를 측정한 후, 이들 중 특정 임계값(Threshold) 이상 출현하는 용어만을 도출하였다. 그리고 이들 용어들이 각 평가기준의 어떤 항목의 묘사에 사용될 수 있는지를 2차원 행렬 형태로 정리하였다. 예를 들어 호텔 정보 사이트의 평가기준으로는 접근성(Accessibility), 시설(Facility), 서비스(Service), 음식(Food), 객실(Room), 그리고 가격(Price) 등이 주로 사용되고 있으므로, 각 용어들이 이들 6가지 평가기준에 대응되는 여부를 [Table 1]과 같이 정리할 수 있다.
따라서 본 실험에서는 3장에서 제안한 방법론을 사용하여 전체 리뷰를 리뷰 유닛으로 분해한 후, 각 문장을 평가기준에 따라 재구성하여 분석하였다. 구체적으로 2005년 8월부터 2016년 5월까지 20건 이상의 리뷰가 등록된 호텔 중 평균 평점이 8점대인 호텔 2개와 7점대인 호텔 3개를 선택하여 분석에 사용하였다.
또한 누적고객 470만 명 이상을 갖는 글로벌 호텔 정보 사이트인 ‘H’ 사이트에 소개된 호텔 5곳을 선정하여 리뷰 423개를 수집하고, 이를 4,860개의 리뷰 유닛으로 재구조화하여 각 호텔의 접근성, 부대시설, 객실시설, 식음료, 서비스, 그리고 가격대비만족도 측면에서의 상세 이슈를 발굴하여 제시하였다.
1의 Text Parsing 및 Text Filtering 모듈을 사용하였다. 또한 불필요한 어휘를 제거하기 위해 이메일, URL, 기타 무의미한 단어 등 총 68,822개의 어휘를 수록한 불용어 사전(Stop List)을 적용하여 분석 결과를 정제하였다. 이렇게 정제된 각 용어를 평가기준 별 용어사전에 수록하는 과정은 두 연구원에 의해 동시에 수행되었다.
Lee et al(2009)는 사용자가 정의한 사전을 통해 리뷰를 분류한 후 화면 중심에 게시물을 배치하고, 게시물의 연관성에 따라 분석 결과를 태양계 형태와 유사하게 보여주는 방안을 제시하였다. 또한 이 연구에서는 클러스터링 기법을 사용하여 댓글을 분석하고, 키워드의 클러스터로 분류된 댓글들을 키워드 중심의 방사형으로 시각화하는 방안도 제시하였다. 이와 유사한 형태로 SkepticalLeft와 아고라에서 수집한 댓글을 파형 그래프와 비방향성 그래프로 시각화하는 방법(Lee et al.
향후 더욱 많은 사이트에 대한 실험을 통해 다양한 현상을 파악하고, 이를 극복하는 방식으로 방법론을 더욱 견고하게 보강할 필요가 있다. 마지막으로 본 연구의 평가기준 별 용어사전 구축은 연구원의 수작업으로 이루어졌다. 물론 용어사전의 정확성 향상을 위해 복수의 연구원이 동일 용어를 식별하는 방식을 채택하였지만, 이 과정에서 연구원의 주관이 개입되었을 가능성을 완전히 배제하기는 어렵다.
따라서 본 연구에서는 기존 여가활동 정보 사이트의 한계, 즉 평가기준별로 입력된 리뷰를 신뢰하기 어렵다는 점과 평가기준을 구성하고 있는 세부 내용을 파악하기 어렵다는 점을 극복하기 위한 방안을 제시하고자 한다. 본 연구에서 제안하는 방법론은 사용자가 별도의 구분 없이 입력한 리뷰를 그 내용에 따라 평가기준별로 자동 분류하고, 각 평가기준별 주요 이슈를 발굴하고 요약하여 제공한다. 제안 방법론은 최근 텍스트 분석에 활발하게 사용되고 있는 토픽 모델링(Topic Modeling)에 기반을 두고 있으며, 각 리뷰를 하나의 문서 단위로 사용하는 것이 아니라 리뷰를 개별 리뷰 유닛(Unit)으로 분해한 뒤 평가 기준별로 유닛을 재구성하여 분석한다는 측면에서 기존의 토픽 모델링 기반 연구와 큰 차이가 있다고 할 수 있다.
본 장에서는 실제 운영되고 있는 호텔 정보 사이트로부터 리뷰 데이터를 수집하고, 제안 방법론을 적용하여 각 호텔의 주요 평가기준 별 주요 이슈를 식별하는 실험을 수행한다. 실험 대상으로는 누적고객 470만 명 이상을 갖는 글로벌 호텔 정보 사이트인 ‘H’ 사이트를 선정하였으며, 데이터 수집에는 직접 제작한 크롤러를 사용하였다.
본 절에서는 호텔 정보 사이트의 6개 평가기준 별 용어사전 구축 과정 및 결과를 소개한다. 우선 4,860개 리뷰 유닛에 대해 형태소 분석, 파싱(Parsing) 및 필터링(Filtering)을 수행하였으며, 이 과정에서 SAS Enterprise Miner 14.1의 Text Parsing 및 Text Filtering 모듈을 사용하였다. 또한 불필요한 어휘를 제거하기 위해 이메일, URL, 기타 무의미한 단어 등 총 68,822개의 어휘를 수록한 불용어 사전(Stop List)을 적용하여 분석 결과를 정제하였다.
최근에는 목적 별 리뷰정보를 도출하는 방안(Kim and Kim, 2016)이 제시되었다. 이 연구에서는 데이터 사전을 통해 특정 목적과 관련된 단어 정보를 추출한 후, 데이터 마이닝 기법인 군집화와 연관 규칙 학습을 통해 상품에 대한 고객들의 평가를 정량적으로 나타냈다. 또한 상품의 속성 별 긍정/부정 여부를 파악하기 위해 속성명 사전을 구축하고, 이에 따라 5개의 속성(분위기, 장소, 서비스, 음식, 가격)으로 리뷰를 분류하여 분석한 연구(Yeon et al.
따라서 각 리뷰를 하나의 연구 단위로 사용하여 토픽 모델링을 수행하게 되면, 여러 평가기준이 뒤섞인 상태의 토픽이 도출되어 결과의 활용도가 매우 낮아지게 된다. 이러한 한계를 극복하기 위해 본 연구에서는 사용자의 리뷰를 평가기준에 따라 분리한 후 평가기준 별 토픽 모델링을 수행하며, 이는 제안 방법론의 가장 독창적인 부분 중 하나이다.
제안 방법론은 기존 사이트의 이러한 한계를 극복하기 위해 사용자의리뷰를 각 평가기준에 따라 자동으로 분류하는 과정을 수행하며, 이 과정에는 평가기준 별 용어사전이 필수적으로 사용된다.
본 절에서는 본 실험의 마지막 단계로, 앞에서 추출한 각 호텔의 평가기준 별 리뷰 유닛에 대한 토픽 모델링을 수행한 결과를 요약한다. 토픽 모델링에는 SAS Enterprise Miner 14.1의 Text Topic 모듈을 사용하여 수행하였으며, 4.2절에서 소개한 불용어 사전을 사용하여 토픽 키워드를 정제하였다. 이러한 과정을 통해 도출된 5개 호텔의 6개 평가기준에 대한 주요 이슈 및 각 이슈에 대응되는 리뷰 유닛의 수를 요약한 결과가 [Figure 8]에 나타나있다.
[Table 1]에서 용어 “청소”와 같이 여러 평가기준의 용어사전에 동시에 수록되는 용어가 있을 수 있으며, 반대로 “가족”과 같이 빈도수가 높을지라도 특정 평가기준의 특성을 나타내는 것으로 볼 수 없는 경우는 평가기준 별 용어사전에서 제외됨을 알 수 있다. 평가기준 별 용어집 구축 과정에서 발생할 수 있는 오차를 최소화하기 위해 연구원 두 명이 동일한 분류 작업을 수행하였다. 구체적으로 두 연구원의 분류가 일치하는 경우 해당 용어를 곧바로 용어사전에 추가하였으며, 서로 의견이 다른 경우 또 다른 연구원의 의견에 따라 용어를 분류하였다.
평가기준의 구체적 특성(Feature)을 나타내는 용어사전은 기존에 구축된 도메인별 용어사전 또는 온톨로지를 활용하여 구축할 수 있지만, 본 연구에서는 용어 빈도수 분석결과를 활용하여 작은 규모의 용어사전을 직접 구축하였다. 구체적으로 우선 전체 리뷰에 출현한 용어 중 명사의 빈도수를 측정한 후, 이들 중 특정 임계값(Threshold) 이상 출현하는 용어만을 도출하였다.
대상 데이터
따라서 본 실험에서는 3장에서 제안한 방법론을 사용하여 전체 리뷰를 리뷰 유닛으로 분해한 후, 각 문장을 평가기준에 따라 재구성하여 분석하였다. 구체적으로 2005년 8월부터 2016년 5월까지 20건 이상의 리뷰가 등록된 호텔 중 평균 평점이 8점대인 호텔 2개와 7점대인 호텔 3개를 선택하여 분석에 사용하였다. 최초 실험 설계 시에는 각 평점대 별로 리뷰의 수가 가장 많은 호텔을 선택하여 분석을 실시하고자 하였으나, 7점 대 미만의 평점을 갖는 호텔의 경우 방문객이 적어 리뷰의 수가 20건을 넘기는 경우가 드문 것으로 나타나, 7점대와 8점대 평점을 갖는 호텔만을 분석에 사용하였다.
실험 대상으로는 누적고객 470만 명 이상을 갖는 글로벌 호텔 정보 사이트인 ‘H’ 사이트를 선정하였으며, 데이터 수집에는 직접 제작한 크롤러를 사용하였다.
최초 실험 설계 시에는 각 평점대 별로 리뷰의 수가 가장 많은 호텔을 선택하여 분석을 실시하고자 하였으나, 7점 대 미만의 평점을 갖는 호텔의 경우 방문객이 적어 리뷰의 수가 20건을 넘기는 경우가 드문 것으로 나타나, 7점대와 8점대 평점을 갖는 호텔만을 분석에 사용하였다. 이러한 5개 호텔에 대해 수집한 리뷰의 총 수는 423건이며, 문장 분리 후 재 구성된 리뷰 유닛의 총 수는 4,860건으로 나타났다. 실험 대상 호텔 5개의 평점, 리뷰 수, 그리고 리뷰 유닛의 수가 [Table 2]에 요약되어 있다.
구체적으로 2005년 8월부터 2016년 5월까지 20건 이상의 리뷰가 등록된 호텔 중 평균 평점이 8점대인 호텔 2개와 7점대인 호텔 3개를 선택하여 분석에 사용하였다. 최초 실험 설계 시에는 각 평점대 별로 리뷰의 수가 가장 많은 호텔을 선택하여 분석을 실시하고자 하였으나, 7점 대 미만의 평점을 갖는 호텔의 경우 방문객이 적어 리뷰의 수가 20건을 넘기는 경우가 드문 것으로 나타나, 7점대와 8점대 평점을 갖는 호텔만을 분석에 사용하였다. 이러한 5개 호텔에 대해 수집한 리뷰의 총 수는 423건이며, 문장 분리 후 재 구성된 리뷰 유닛의 총 수는 4,860건으로 나타났다.
이론/모형
본 절에서는 6개의 평가기준 별 용어사전을 사용하여 423개의 리뷰 원문을 4,860개의 리뷰 유닛으로 재구조화한 결과를 소개한다. 이 과정 역시 SAS Enterprise Miner 14.1의 Text Parsing을 주로 사용하였으며, 결과의 후처리에는 SAS Enterprise Guide 7.1을 사용하였다. 6개 평가기준별 리뷰 유닛 도출 과정은 서로 유사하므로, 본 절에서는 접근성 기준에 대한 분석 과정만을 [Figure 7]에 소개한다.
성능/효과
본 장에서는 실제 호텔 정보 사이트의 리뷰에 대한 실험을 통해, 다양한 평가기준에 대한 내용이 혼재되어 있는 리뷰로부터 제안 방법론을 적용하여 각 평가기준 별 리뷰를 발췌할 수 있을 뿐 아니라 이들 리뷰를 평가기준 별로 요약하여 제공함으로써 각 평가기준에 대한 상세 이슈를 일목요연하게 파악할 수 있음을 보였다.
본 연구에서 제안하는 방법론은 사용자가 별도의 구분 없이 입력한 리뷰를 그 내용에 따라 평가기준별로 자동 분류하고, 각 평가기준별 주요 이슈를 발굴하고 요약하여 제공한다. 제안 방법론은 최근 텍스트 분석에 활발하게 사용되고 있는 토픽 모델링(Topic Modeling)에 기반을 두고 있으며, 각 리뷰를 하나의 문서 단위로 사용하는 것이 아니라 리뷰를 개별 리뷰 유닛(Unit)으로 분해한 뒤 평가 기준별로 유닛을 재구성하여 분석한다는 측면에서 기존의 토픽 모델링 기반 연구와 큰 차이가 있다고 할 수 있다. 또한 제안 방법론을 호텔 정보 사이트에 적용하여 분석한 결과를 소개함으로써, 제안 방법론의 유용성을 간접적으로 보이고자 한다.
후속연구
연구 주제의 특성상 제안 방법론의 성능은 정확도 측면이 아닌 효과성 측면에서 이루어지는 것이 바람직하다. 따라서 설문조사 등을 통해 제안 방법론을 적용한 사이트 만족도를 측정함으로써, 본 방법론의 효과를 평가할 필요가 있다. 또한 보다 많은 사이트에 대한 추가 실험을 진행하여 방법론을 보완할 필요가 있다.
물론 용어사전의 정확성 향상을 위해 복수의 연구원이 동일 용어를 식별하는 방식을 채택하였지만, 이 과정에서 연구원의 주관이 개입되었을 가능성을 완전히 배제하기는 어렵다. 따라서 향후 특정 용어를 식별하여 평가기준 별 용어사전을 자동으로 구축하기 위한 후속 연구가 반드시 필요하다.
따라서 설문조사 등을 통해 제안 방법론을 적용한 사이트 만족도를 측정함으로써, 본 방법론의 효과를 평가할 필요가 있다. 또한 보다 많은 사이트에 대한 추가 실험을 진행하여 방법론을 보완할 필요가 있다. 실제로 제안 방법론은 실제 사이트에 대한 실험을 수정하는 과정에서 꾸준히 보완되고 구체화되었다.
본 절에서는 제안하는 방법론의 범위 및 주요 과정에 대해 간략하게 소개한다. 본 장에서 제안하는 방법론은 편의상 호텔 정보 사이트를 예로 들어 기술되지만, 사용자 리뷰가 있는 모든 여가활동 정보 사이트에 동일하게 적용될 수 있다. 본 연구의 전체 모형은 다음 [Figure 2]와 같다.
물론 문서 전체가 아닌 문장 단위 또는 속성 단위의 분석에 대한 필요성 및 방안이 이미 소개되어 있지만, 각각 분석 결과의 신뢰성과 분석의 어려움으로 인해 널리 활용되고 있지 못하는 측면이 있다. 이에 비해 제안 방법론은 기본적으로 문장 단위의 분석을 사용하되 평가기준 별 용어사전을 통해 문장을 선별적으로 사용함으로써 분석의 용이성과 결과의 신뢰성 측면에서 우수성을 나타낼 것으로 기대한다.
이와 같은 학술적 기여 외에 본 연구의 기여는 실무적 측면에서 더욱 크게 나타날 것으로 기대한다. 많은 사이트를 통해 다양한 상품 및 서비스에 대한 정보를 얻을 수 있지만, 오히려 방대한 양의 정보로 인해 정작 사용자가 궁금해 하는 부분에 대한 정보를 얻기는 더욱 어려워진 측면이 있다.
상위 이슈는 각 이슈에 대응되는 문서의 수가 많은 순으로 선정하였다. 이와 같은 형태의 리뷰 요약 테이블을 통해 각 호텔의 각 평가기준에 대해 어떤 이슈가 있는지, 그리고 각 이슈를 다룬 리뷰 유닛의 수는 얼마인지 쉽게 파악할 수 있을 것으로 기대한다.
이에 본 연구는 각 상품 및 서비스의 주요 평가기준을 정의하고 각 평가기준 별 주요 이슈를 요약하여 제시함으로써, 사용자가 필요로 하는 정보를 편리하게 습득할 수 있는 방안을 제시하였다. 제안 방법론은 호텔 정보 사이트를 중심으로 소개되었지만 여타의 여가활동 정보 사이트, 나아가서는 사용자의 리뷰를 다루는 모든 사이트의 개선에 적용될 수 있을 것으로 기대한다. 특히 제안 방법론은 기존의 리뷰를 평가기준별로 자동으로 구분하는 과정을 포함하고 있기 때문에, 별도의 평가기준을 갖고 있지 않은 기존 사이트의 리뷰 제공 체계 개선에도 크게 기여할 수 있을 것이다.
제안 방법론은 호텔 정보 사이트를 중심으로 소개되었지만 여타의 여가활동 정보 사이트, 나아가서는 사용자의 리뷰를 다루는 모든 사이트의 개선에 적용될 수 있을 것으로 기대한다. 특히 제안 방법론은 기존의 리뷰를 평가기준별로 자동으로 구분하는 과정을 포함하고 있기 때문에, 별도의 평가기준을 갖고 있지 않은 기존 사이트의 리뷰 제공 체계 개선에도 크게 기여할 수 있을 것이다.
예를 들어 사용자의 오입력으로 인해 평가기준과 리뷰의 내용이 부합하지 않는 경우가 많다는 점, 리뷰에 비속어가 많이 존재한다는 점, 그리고 리뷰의 양이 충분하지 않을 뿐 아니라 특정 인기 상품에 편중되어 있다는 점 등이 실험 과정에서 파악되었다. 향후 더욱 많은 사이트에 대한 실험을 통해 다양한 현상을 파악하고, 이를 극복하는 방식으로 방법론을 더욱 견고하게 보강할 필요가 있다. 마지막으로 본 연구의 평가기준 별 용어사전 구축은 연구원의 수작업으로 이루어졌다.
질의응답
핵심어
질문
논문에서 추출한 답변
숙박에 대한 정보만을 특화시켜 제공하는 서비스는 무엇이 있나요?
이러한 현상은 특정 분야에 국한되지 않고, 여가활동 전반에 걸쳐 활발하게 이루어지고 있다. 예를 들어 Tripadvisor, Webtour, 그리고 VisitACity 등은 여행에 대한 종합 정보를 제공하고 있으며, 여행 관련 정보 중에서도 숙박에 대한 정보만을 특화 시켜 제공하는 Booking.com, Hotels.com, 그리고 Hotelpass.com 등도 사용자층이 점차 확대되고 있다. 또한 여행 이외에도 영화 정보가 활발하게 공유되는 Rotten Tomato, Cine21 등과 해외 드라마, 음악 정보 전문 사이트인 Metacritics 등도 여가활동 정보를 다루는 대표적인 사이트로 자리매김하고 있다.
여행에 대한 종합 정보를 제공하는 서비스로는 어떤 것이 있나요?
이러한 현상은 특정 분야에 국한되지 않고, 여가활동 전반에 걸쳐 활발하게 이루어지고 있다. 예를 들어 Tripadvisor, Webtour, 그리고 VisitACity 등은 여행에 대한 종합 정보를 제공하고 있으며, 여행 관련 정보 중에서도 숙박에 대한 정보만을 특화 시켜 제공하는 Booking.com, Hotels.
여가활동 정보 사이트는 그 분야 및 특성에 따라 상이한 평가 기준을 가질 수 있는데 그 예로는 어떤 것이 있나요?
여가활동 정보 사이트는 그 분야 및 특성에 따라 상이한 평가기준을 가질 수 있다. 예를 들어 영화 정보 사이트는 작품성, 스토리, 배우의 연기력 등의 기준을 가질 수 있고, 음악 정보 사이트는 멜로디, 가수의 가창력, 감정 전달력 등의 기준을 가질 수 있다. 기존의 사이트들은 이러한 평가기준이 명확히 구분되어 있지 않거나, 구분된 경우라도 사용자의 의도적/비의도적 오입력으로 인해 평가기준과 리뷰의 내용이 부합하지 않는 경우가 많다.
참고문헌 (20)
Archak, N., A. Ghose and P. G. Ipeirotis, "Deriving the Pricing Power of Product Features by Mining Consumer Reviews," Management Science, Vol.57, No.8(2011), 1485-1509.
Bjorkelund, E., T. H. Burnett and K. Norvag, "A Study of Opinion Mining and Visualization of Hotel Reviews," In Proceedings of the 14th International Conference on Information Integration and Web-based Applications & Services (IIWAS '12), 2012.
Buneman, P., "Semistructured data," In Proceedings of the Sixteenth ACM SIGACTSIGMOD-SIGART Symposium on Principles of Database Systems (PODS '97), 1997.
Chae, S. H., J. I. Lim and J. Y. Kang, "A Comparative Analysis of Social Commerce and Open Market Using User Reviews in Korean Mobile Commerce," Journal of Intelligence and Information Systems, Vol.21, No.4(2015), 53-77.
Choi, J. U., H. J. Ryu, D. B. Yu, N. R. Kim and Y. H. Kim, "System Design for Analysis and Evaluation of E-commerce Products Using Review Sentiment Word Analysis," KIISE Transactions on Computing Practices, Vol.22, No.5(2016), 209-217.
Gamon, M., A. Aue, S. Corston-Oliver and E. Ringger, "Pulse: Mining Customer Opinions from Free Text," In Proceedings of the 6th International Conference on Advances in Intelligent Data Analysis (IDA '05), 2005.
Jeon, B. K. and H. C. Ahn, "A Collaborative Filtering System Combined with Users' Review Mining : Application to the Recommendation of Smartphone Apps," Journal of Intelligence and Information Systems, Vol.21, No.2(2015), 1-18.
Kim, J. Y. and D. S. Kim, "A Study on the Method for Extracting the Purpose-Specific Customized Information from Online Product Reviews based on Text Mining," The Journal of Society for e-Business Studies, Vol.21, No.2(2016), 151-161.
Kim, K. H., "Design and Implementation Online Customer Reviews Analysis System based on Dependency Network Model," The Journal of the Korea Contents Association, Vol.10, No.11(2010), 30-37.
Lee, S. H., J. Cui and J. W. Kim, "Sentiment analysis on movie review through building modified sentiment dictionary by movie genre," Journal of Intelligence and Information Systems, Vol.22, No.2(2016), 97-113.
Lee, Y. J., J. H. Ji, G. Woo and H. G. Cho, "TRIB: A Clustering and Visualization System for Responding Comments on Blogs," The KIPS Transactions : Part D, Vol.16, No.5(2009), 817-824.
Lee, Y. J., I. J. Jung and G. Woo, "Extracting and Visualizing Dispute comments and Relations on Internet Forum Site," The Journal of the Korea Contents Association, Vol.12, No.2 (2012), 40-51.
Liu, B., M. Hu and J. Cheng, "Opinion Observer: Analyzing and Comparing Opinions on the Web," In Proceedings of the 14th International Conference on World Wide Web (WWW '05), 2005, 342-351.
Liu, C. and N. Kim, "Methodology for Improving the Reliability of the Rating System for Leisure Activity Information Sites : Focusing on a Movie Information Site," Journal of Tourism and Leisure Research, Vol.27, No.7(2015), 187-200.
Mun, S. M., G. N. Kim, G. C. Choi and K. W. Lee, "Movie Recommended System base on Analysis for the User Review utilizing Ontology Visualization," Design Convergence Study, Vol.15, No.2(2016), 347-368.
Scaffidi, C., K. Bierhoff, E. Chang, M. Felker, H. Ng and C. Jin, "Red Opal: Product-Feature Scoring from Reviews," In Proceedings of the 8th ACM Conference on Electronic Commerce (EC '07), 2007.
Yang, J. Y., J. S. Myung and S. G. Lee, "A Product Review Summarization System Using a Scoring of Features," The Journal of Society for e-Business Studies Symposium and other publications, Society for e-Business Studies, 2008.
Yang, J. Y., J. S. Myung and S. G. Lee, "A Sentiment Classification Method Using Context. Information in Product Review Summarization," Journal of KISS: Databases, Vol.36, No.4(2009), 254-262.
Yeon, J. H., D. J. Lee, J. H. Shim and S. G. Lee, "Product Review Data and Sentiment Analytical Processing Modeling," The Journal of Society for e-Business Studies, Vol.16, No.4(2011), 125-137.
Yeon. H. B., S. J. Yoo, H. S. Jang, D. I. Han and Y. Jang, "Design and Implementation of a Web Crawling System for the Reviews of Korean Restaurants in the U.S.," Korea Computer Congress Symposium, Vol.2013, No.6(2013), 283-285.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.