지능형 전자상거래 검색 엔진에 대한 관심이 커지면서, 검색 상품의 특징을 지능적으로 추출하고 활용하기 위한 연구들이 수행되고 있다. 특히 전자상거래 지능형 검색 엔진에서 상품을 검색 할 때, 제품의 색상은 상품을 묘사하는 중요한 특징 중에 하나이다. 따라서 사용자의 질의에 정확한 응답을 위해서는 사용자가 검색하려는 색상과 그 색상의 동의어 및 유의어에 대한 처리가 필요하다. 기존의 연구들은 색상 특징에 대한 동의어 처리를 주로 사전 방식으로 다뤄왔다. 하지만 이러한 사전방식으로는 사전에 등록되지 않은 색상 용어가 질의에 포함된 경우 처리하지 못하는 한계점을 가지고 있다. 본 연구에서는 기존에 사용하던 방식의 한계점을 극복하기 위하여, 실시간으로 인터넷 검색 엔진을 통해 해당 색상의 RGB 값을 추출한 후 추출된 색상정보를 기반으로 유사한 색상명들을 출력하는 모델을 제안한다. 본 모델은 우선적으로 기본적인 색상 검색을 위해 671개의 색상명과 각 RGB값이 저장된 색상 사전을 구축하였다. 본 연구에서 제시한 모델은 특정 색상을 검색하는 것으로 시작하며, 검색된 색상이 색상 사전 내 존재하는 지 유무를 확인한다. 사전 내에 검색한 색상이 존재한다면, 해당 색상의 RGB 값이 기준 값으로 사용된다. 만일 색상사전 내에 존재하지 않는다면, Google 이미지 검색 결과를 크롤링하여 각 이미지의 특정 영역 내 RGB값들을 군집화하여 구한 평균 RGB값을 검색한 색상의 기준 값으로 한다. 기준 RGB값을 앞서 구축한 색상 사전 내의 모든 색상의 RGB 값들과 비교하여 각 R, G, B 값에 있어서 ${\pm}50$ 내의 색상 목록을 정렬하고, RGB값 간의 유클리디안 거리 유사도를 활용하여 최종적으로 유사한 색 상명들을 출력한다. 제안 방안의 유용성을 평가하기 위해 실험을 진행하였다. 피설문자들이 생각하는 300 개의 색상 이름과 해당 색상 값을 얻어, 본 연구에서 제안한 방안을 포함한 총 네가지 방법을 통해 얻은 RGB 값들과 피설문자가 지정한 RGB값에 대한 비교를 진행했다. 인간의 눈을 반영하는 측정 기준인 CIELAB의 유클리드안거리는 평균 13.85로 색상사전만을 활용한 방안의 30.88, 한글 동의어사전 사이트인 워드넷을 추가로 활용한 방안의 30.38에 비해 비교적 낮은 색상 간의 거리 값을 보였다. 연구에서 제시하는 방안에서 군집화 과정을 제외한 방안의 색 차는 13.88로 군집화 과정이 색 차를 줄여준다는 것을 확인할 수 있었다. 본 연구에서는 기존 동의어 처리 방식인 사전 방식이 지닌 한계에서 벗어나기 위해, 사전 방식에 새로운 색상명에 대한 실시간 동의어 처리 방식을 결합한 RGB값 기반의 새로운 색상 동의어 처리 방안을 제안한다. 본 연구의 결과를 활용하여 전자상거래 검색 시스템의 지능화에 크게 기여할 수 있을 것이다.
지능형 전자상거래 검색 엔진에 대한 관심이 커지면서, 검색 상품의 특징을 지능적으로 추출하고 활용하기 위한 연구들이 수행되고 있다. 특히 전자상거래 지능형 검색 엔진에서 상품을 검색 할 때, 제품의 색상은 상품을 묘사하는 중요한 특징 중에 하나이다. 따라서 사용자의 질의에 정확한 응답을 위해서는 사용자가 검색하려는 색상과 그 색상의 동의어 및 유의어에 대한 처리가 필요하다. 기존의 연구들은 색상 특징에 대한 동의어 처리를 주로 사전 방식으로 다뤄왔다. 하지만 이러한 사전방식으로는 사전에 등록되지 않은 색상 용어가 질의에 포함된 경우 처리하지 못하는 한계점을 가지고 있다. 본 연구에서는 기존에 사용하던 방식의 한계점을 극복하기 위하여, 실시간으로 인터넷 검색 엔진을 통해 해당 색상의 RGB 값을 추출한 후 추출된 색상정보를 기반으로 유사한 색상명들을 출력하는 모델을 제안한다. 본 모델은 우선적으로 기본적인 색상 검색을 위해 671개의 색상명과 각 RGB값이 저장된 색상 사전을 구축하였다. 본 연구에서 제시한 모델은 특정 색상을 검색하는 것으로 시작하며, 검색된 색상이 색상 사전 내 존재하는 지 유무를 확인한다. 사전 내에 검색한 색상이 존재한다면, 해당 색상의 RGB 값이 기준 값으로 사용된다. 만일 색상사전 내에 존재하지 않는다면, Google 이미지 검색 결과를 크롤링하여 각 이미지의 특정 영역 내 RGB값들을 군집화하여 구한 평균 RGB값을 검색한 색상의 기준 값으로 한다. 기준 RGB값을 앞서 구축한 색상 사전 내의 모든 색상의 RGB 값들과 비교하여 각 R, G, B 값에 있어서 ${\pm}50$ 내의 색상 목록을 정렬하고, RGB값 간의 유클리디안 거리 유사도를 활용하여 최종적으로 유사한 색 상명들을 출력한다. 제안 방안의 유용성을 평가하기 위해 실험을 진행하였다. 피설문자들이 생각하는 300 개의 색상 이름과 해당 색상 값을 얻어, 본 연구에서 제안한 방안을 포함한 총 네가지 방법을 통해 얻은 RGB 값들과 피설문자가 지정한 RGB값에 대한 비교를 진행했다. 인간의 눈을 반영하는 측정 기준인 CIELAB의 유클리드안거리는 평균 13.85로 색상사전만을 활용한 방안의 30.88, 한글 동의어사전 사이트인 워드넷을 추가로 활용한 방안의 30.38에 비해 비교적 낮은 색상 간의 거리 값을 보였다. 연구에서 제시하는 방안에서 군집화 과정을 제외한 방안의 색 차는 13.88로 군집화 과정이 색 차를 줄여준다는 것을 확인할 수 있었다. 본 연구에서는 기존 동의어 처리 방식인 사전 방식이 지닌 한계에서 벗어나기 위해, 사전 방식에 새로운 색상명에 대한 실시간 동의어 처리 방식을 결합한 RGB값 기반의 새로운 색상 동의어 처리 방안을 제안한다. 본 연구의 결과를 활용하여 전자상거래 검색 시스템의 지능화에 크게 기여할 수 있을 것이다.
As interest on intelligent search engines increases, various studies have been conducted to extract and utilize the features related to products intelligencely. In particular, when users search for goods in e-commerce search engines, the 'color' of a product is an important feature that describes th...
As interest on intelligent search engines increases, various studies have been conducted to extract and utilize the features related to products intelligencely. In particular, when users search for goods in e-commerce search engines, the 'color' of a product is an important feature that describes the product. Therefore, it is necessary to deal with the synonyms of color terms in order to produce accurate results to user's color-related queries. Previous studies have suggested dictionary-based approach to process synonyms for color features. However, the dictionary-based approach has a limitation that it cannot handle unregistered color-related terms in user queries. In order to overcome the limitation of the conventional methods, this research proposes a model which extracts RGB values from an internet search engine in real time, and outputs similar color names based on designated color information. At first, a color term dictionary was constructed which includes color names and R, G, B values of each color from Korean color standard digital palette program and the Wikipedia color list for the basic color search. The dictionary has been made more robust by adding 138 color names converted from English color names to foreign words in Korean, and with corresponding RGB values. Therefore, the fininal color dictionary includes a total of 671 color names and corresponding RGB values. The method proposed in this research starts by searching for a specific color which a user searched for. Then, the presence of the searched color in the built-in color dictionary is checked. If there exists the color in the dictionary, the RGB values of the color in the dictioanry are used as reference values of the retrieved color. If the searched color does not exist in the dictionary, the top-5 Google image search results of the searched color are crawled and average RGB values are extracted in certain middle area of each image. To extract the RGB values in images, a variety of different ways was attempted since there are limits to simply obtain the average of the RGB values of the center area of images. As a result, clustering RGB values in image's certain area and making average value of the cluster with the highest density as the reference values showed the best performance. Based on the reference RGB values of the searched color, the RGB values of all the colors in the color dictionary constructed aforetime are compared. Then a color list is created with colors within the range of ${\pm}50$ for each R value, G value, and B value. Finally, using the Euclidean distance between the above results and the reference RGB values of the searched color, the color with the highest similarity from up to five colors becomes the final outcome. In order to evaluate the usefulness of the proposed method, we performed an experiment. In the experiment, 300 color names and corresponding color RGB values by the questionnaires were obtained. They are used to compare the RGB values obtained from four different methods including the proposed method. The average euclidean distance of CIE-Lab using our method was about 13.85, which showed a relatively low distance compared to 3088 for the case using synonym dictionary only and 30.38 for the case using the dictionary with Korean synonym website WordNet. The case which didn't use clustering method of the proposed method showed 13.88 of average euclidean distance, which implies the DBSCAN clustering of the proposed method can reduce the Euclidean distance. This research suggests a new color synonym processing method based on RGB values that combines the dictionary method with the real time synonym processing method for new color names. This method enables to get rid of the limit of the dictionary-based approach which is a conventional synonym processing method. This research can contribute to improve the intelligence of e-commerce search systems especially on the color searching feature.
As interest on intelligent search engines increases, various studies have been conducted to extract and utilize the features related to products intelligencely. In particular, when users search for goods in e-commerce search engines, the 'color' of a product is an important feature that describes the product. Therefore, it is necessary to deal with the synonyms of color terms in order to produce accurate results to user's color-related queries. Previous studies have suggested dictionary-based approach to process synonyms for color features. However, the dictionary-based approach has a limitation that it cannot handle unregistered color-related terms in user queries. In order to overcome the limitation of the conventional methods, this research proposes a model which extracts RGB values from an internet search engine in real time, and outputs similar color names based on designated color information. At first, a color term dictionary was constructed which includes color names and R, G, B values of each color from Korean color standard digital palette program and the Wikipedia color list for the basic color search. The dictionary has been made more robust by adding 138 color names converted from English color names to foreign words in Korean, and with corresponding RGB values. Therefore, the fininal color dictionary includes a total of 671 color names and corresponding RGB values. The method proposed in this research starts by searching for a specific color which a user searched for. Then, the presence of the searched color in the built-in color dictionary is checked. If there exists the color in the dictionary, the RGB values of the color in the dictioanry are used as reference values of the retrieved color. If the searched color does not exist in the dictionary, the top-5 Google image search results of the searched color are crawled and average RGB values are extracted in certain middle area of each image. To extract the RGB values in images, a variety of different ways was attempted since there are limits to simply obtain the average of the RGB values of the center area of images. As a result, clustering RGB values in image's certain area and making average value of the cluster with the highest density as the reference values showed the best performance. Based on the reference RGB values of the searched color, the RGB values of all the colors in the color dictionary constructed aforetime are compared. Then a color list is created with colors within the range of ${\pm}50$ for each R value, G value, and B value. Finally, using the Euclidean distance between the above results and the reference RGB values of the searched color, the color with the highest similarity from up to five colors becomes the final outcome. In order to evaluate the usefulness of the proposed method, we performed an experiment. In the experiment, 300 color names and corresponding color RGB values by the questionnaires were obtained. They are used to compare the RGB values obtained from four different methods including the proposed method. The average euclidean distance of CIE-Lab using our method was about 13.85, which showed a relatively low distance compared to 3088 for the case using synonym dictionary only and 30.38 for the case using the dictionary with Korean synonym website WordNet. The case which didn't use clustering method of the proposed method showed 13.88 of average euclidean distance, which implies the DBSCAN clustering of the proposed method can reduce the Euclidean distance. This research suggests a new color synonym processing method based on RGB values that combines the dictionary method with the real time synonym processing method for new color names. This method enables to get rid of the limit of the dictionary-based approach which is a conventional synonym processing method. This research can contribute to improve the intelligence of e-commerce search systems especially on the color searching feature.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
전자상거래 검색 시스템은 실시간 색인 기능을 통해 새롭게 추가, 변경, 삭제되는 상품 정보에 발빠르게 대처할 수 있어야 한다. 따라서 본 연구에서는 색상사전과 실시간 할당 방식을 통해 한국어에서의 색상 이음 동의어 간의 관계를 RGB 값을 통해 파악하고 유사 색상명들을 출력해내는 방안을 제시하고자 한다.
앞서 지정된 검색한 색상의 대표 RGB값을 기준으로 색상 데이터베이스의 모든 색상의 RGB 값들과 비교하여 유사한 색상을 찾아낸다. 또한 본 연구에서는 제시한 방안의 유용성을 확인하기 위한 실험을 수행하였다. 서로 다른 방식으로 300개의 색상명에 RGB 값을 할당하였고, 각각의 RGB값을 할당된 RGB 값과 피설문자가 색상명에 적합하다고 판단한 색상값을 CIELAB값으로 변환하여 두 색간의 거리를 구하였다.
본 연구에서는 전자상거래 사이트 내 검색 시스템 향상을 위해 상품 검색어 내 색상 특징의 동의어 처리 방안을 제시했다. 기존 동의어 처리방식인 사전 방식이 지닌 한계에서 벗어나기 위해, 사전 방식에 새로운 색상명에 대한 실시간 동의어 처리 방식을 결합한 RGB값 기반의 새로운 색상 동의어 처리 방안을 고안하였다.
본 절에서는 이미 출현한 색상 동의어 처리 기술을 기반으로 하여, 실시간 색상 동의어처리 기술을 융합한 방안을 제시한다. 본 연구에서 제안하는 모델은 편의상 CQP-RGB (Color-related Query Process based on RGB Values)로 명명하였다.
하지만, 현재 전자상거래의 검색 시스템은 위와 같은 색상 동의어 처리가 미흡해 유사어가 포함된 검색 결과를 제공하지 않는다. 이러한 문제점을 해결하기 위해 본 연구에서는 기존 전자상거래 검색시스템에 색상 특징의 새로운 동의어 처리 방안을 제시한다.
제안 방법
본 연구에서는 전자상거래 사이트 내 검색 시스템 향상을 위해 상품 검색어 내 색상 특징의 동의어 처리 방안을 제시했다. 기존 동의어 처리방식인 사전 방식이 지닌 한계에서 벗어나기 위해, 사전 방식에 새로운 색상명에 대한 실시간 동의어 처리 방식을 결합한 RGB값 기반의 새로운 색상 동의어 처리 방안을 고안하였다. 텍스트만을 기준으로 형성되었던 기존 기술에서의 색상 동의어 사전과는 달리, 본 연구에서는 색상 데이터베이스 내 색상명과 그 색상명에 따른 RGB값을 함께 저장했다.
‘민트색’과 ‘화이트’와 같이 흔히 찾을 수 있는 외래어 색상명은 현 전자상거래 제품 색상 검색에서 굉장히 중요한 부분이다. 따라서 영어 색상명을 한글 외래어 표기로 변환한 138개의 색상명과 해당 RGB값 리스트를 추가하여 총 671개의 색상명과 RGB값을 갖게 함으로써 데이터베이스를 보강하였다.
본 연구에서 제시하는 모형은 특정 색상명을 검색을 하는 것으로 시작된다. 먼저 질의어에 포함된 색상명이 앞서 구축한 색상 데이터베이스에 존재하는지 여부를 확인한다. 데이터베이스 내에 검색한 색상이 존재한다면, 그 색상의 RGB 값을 검색한 색상명의 대표 값으로 한다.
본 연구에서 유클리디안 거리 유사도는 RGB 값의 DBSCAN 군집화 과정과 최종 출력을 위한 색상명의 정렬에 활용되었다.
본 연구에서 제시하는 모형은 특정 색상명을 검색을 하는 것으로 시작된다. 먼저 질의어에 포함된 색상명이 앞서 구축한 색상 데이터베이스에 존재하는지 여부를 확인한다.
이를 대응 표본 t-test를 통해 평가한 결과, 단순히 색상 사전만을 기반으로 하거나, 사전과 한글 동의어 사전을 활용하는 방법보다, 사전과 실시간으로 RGB값을 추출하는 것이 좀 더 RGB값의 정확도를 높이는데 효과적임을 확인하였다. 본 연구에서 제시하는 방안은 기존의 색상 동의어 처리 방안에 비해 사용자의 색상 검색 의도를 보다 정확하고 신속하게 파악하여 색상의 동의어 및 유의어를 제시한다. 제시된 색상 질의 처리 방안은 기존의 단순 사전식 텍스트 매칭에서 발전된 질의 확장 방안으로 전자상거래 검색 시스템에 큰 기여가 될 수 있을 것이다.
또한 본 연구에서는 제시한 방안의 유용성을 확인하기 위한 실험을 수행하였다. 서로 다른 방식으로 300개의 색상명에 RGB 값을 할당하였고, 각각의 RGB값을 할당된 RGB 값과 피설문자가 색상명에 적합하다고 판단한 색상값을 CIELAB값으로 변환하여 두 색간의 거리를 구하였다. 이를 대응 표본 t-test를 통해 평가한 결과, 단순히 색상 사전만을 기반으로 하거나, 사전과 한글 동의어 사전을 활용하는 방법보다, 사전과 실시간으로 RGB값을 추출하는 것이 좀 더 RGB값의 정확도를 높이는데 효과적임을 확인하였다.
위 설문을 통해서, 한 피설문자 당 제품 별로 한 색상씩 응답을 하여 5개의 색상명을 받아 총 300개의 색상명과 그에 따른 색상 값을 얻을 수 있었다. 설문으로 얻은 HTML 색상표 값을 HTML 값으로 변환 후 두 번의 변환 과정을 거쳐 RGB값을 구했다.
앞서 언급한 두 가지 중 한 가지 방식으로 지정된 검색한 색상명의 대표 RGB값을 기반으로, 색상 데이터베이스 내의 모든 색상의 R, G, B 값들과 비교한다. 각 R 값, G 값, B 값에 있어서±50 범위 내의 색상들을 출력하게 된다.
본 연구에서 제안하는 CQP-RGB의 기본적인 색상 검색, 동의어 및 유의어 출력을 위해 기본색상 데이터베이스가 필요했다. 이를 위해서 [Figure 2]와 같은 공인된 한국 색채 표준 디지털 팔레트 프로그램의 데이터베이스, 그리고 [Figure 3]의 위키피디아(Wikipedia) 색 목록에 정리된 색상표의 색상명과 RGB 값을 활용하여 색상 데이터베이스를 구축하였다.
단순히 특정 가운데 영역의 RGB값의 평균을 가져오는 것에는 한계가 존재하다고 판단하여 다른 다양한 방법으로도 시도했다. 이미지 내의 RGB값을 클러스터링 해보고 가장 밀도가 높은 군집의 평균 값을 추출하는 방식을 시도했다. 앞선 기존의 방식으로 추출된 이미지 내의 모든 RGB 값들을 DBSCAN 클러스터링을 해보면, 가장 점들이 많이 몰려 있는 군집 내의 RGB값들이 이미지 내의 지배적이고 색상명에 적합한 색상일 것이라고 판단했다(Ester et al.
자세한 설문의 내용은 아래[Figure 8]에서 제시된 것처럼, ‘티셔츠’, ‘페인트’, ‘텀블러’, ‘꽃’, ‘핸드폰 케이스’를 구매한다면 검색하고 싶은 제품 별 색상명과 그 색상명에 적합한 색상표 내의 한가지 색을 선택하게 했다.
제시한 방안의 유용성을 평가하기 위해 실험을 진행했다. 피설문자들이 전자상거래에서 검색할 만한 제품에 해당하는 색상명과 그 색상에 가장 적합한 색이라고 판단되는 색상표의 색을 선택하게 했다.
최종적으로 변환한 RGB값이 소비자가 생각하는 색상명에 해당하는 색상 RGB값이라고 판단하여 이를 기준 값으로 두었다. 피설문자들의 답안 값과 색상 처리에 활용될 수 있는 네 가지 방안을 통해 얻어지는 색상명에 따른 RGB값들 간의 오차율을 비교해 보았다.
기존 동의어 처리방식인 사전 방식이 지닌 한계에서 벗어나기 위해, 사전 방식에 새로운 색상명에 대한 실시간 동의어 처리 방식을 결합한 RGB값 기반의 새로운 색상 동의어 처리 방안을 고안하였다. 텍스트만을 기준으로 형성되었던 기존 기술에서의 색상 동의어 사전과는 달리, 본 연구에서는 색상 데이터베이스 내 색상명과 그 색상명에 따른 RGB값을 함께 저장했다. 구매자가 색상명을 검색하게 되면, 검색된 색상명이 데이터베이스 내에 존재하는지 확인하여 두 가지 방식으로 대표 RGB값을 지정했다.
최종적으로 변환한 RGB값이 소비자가 생각하는 색상명에 해당하는 색상 RGB값이라고 판단하여 이를 기준 값으로 두었다. 피설문자들의 답안 값과 색상 처리에 활용될 수 있는 네 가지 방안을 통해 얻어지는 색상명에 따른 RGB값들 간의 오차율을 비교해 보았다. 색상명에 해당 RGB값 할당 방식에 대한 평가에 사용된 네 가지 방안은 아래 [Table 2]와 같다.
제시한 방안의 유용성을 평가하기 위해 실험을 진행했다. 피설문자들이 전자상거래에서 검색할 만한 제품에 해당하는 색상명과 그 색상에 가장 적합한 색이라고 판단되는 색상표의 색을 선택하게 했다. 자세한 설문의 내용은 아래[Figure 8]에서 제시된 것처럼, ‘티셔츠’, ‘페인트’, ‘텀블러’, ‘꽃’, ‘핸드폰 케이스’를 구매한다면 검색하고 싶은 제품 별 색상명과 그 색상명에 적합한 색상표 내의 한가지 색을 선택하게 했다.
대상 데이터
본 설문은 총 60명의 대학생, 대학원생들을 대상으로 진행했다. 위 설문을 통해서, 한 피설문자 당 제품 별로 한 색상씩 응답을 하여 5개의 색상명을 받아 총 300개의 색상명과 그에 따른 색상 값을 얻을 수 있었다.
본 절에서는 이미 출현한 색상 동의어 처리 기술을 기반으로 하여, 실시간 색상 동의어처리 기술을 융합한 방안을 제시한다. 본 연구에서 제안하는 모델은 편의상 CQP-RGB (Color-related Query Process based on RGB Values)로 명명하였다. CQP-RGB는 다음의 [Figure 1]에서 제시된 것처럼 구현된다.
데이터처리
각 방법 별 구해진 CIELAB 값을 토대로 대응 표본 t-test를 하여 방법에 따른 색 차가 유의한지를 검정하였다. 네가지 경우에 대한 실험 결과는 아래 [Table 3]와 같다.
본 실험에서 성능 평가를 위해 CIELAB ΔE*값을 활용했다.
이론/모형
, 1996). K-평균 군집화는 클러스터링을 하기 위해서는 군집 수를 정해야 하는 단점이 있어 RGB값들을 클러스터링 할 때 적합한 밀도 기반 군집화 방법인DBSCAN 클러스터링을 활용하였다. DBSCAN클러스터링 매개변수 중 지정거리(epsilon) 값은 지정 거리가 가까운 포인트의 범위를 결정하기 때문에 매우 중요하다.
DBSCAN의 경우 K-평균 군집화와 달리 클러스터의 수를 지정하지 않아도 된다는 장점이 있다. 그리고 K-평균 군집화에서는 적절히 클러스터링 될 수 없는 비선형의 클러스터를 찾을 수 있어 본 연구에서는 DBSCAN 군집화를 활용했다.
성능/효과
하지만 C4의 경우 C3에DBSCAN 군집화 과정을 추가하여 차이가 통계적으로 유의하지는 않지만, CIELAB값으로 변환하여 구한 색 차는 보다 낮은 값을 보였다. 따라서 피설문자가 의도한 색상명에 따른 색상 RGB 값과 가장 유사한 색상들의 RGB값을 가지면서, 다른 방안보다 낮은 13.85의 색상 간의 평균 유클리드 거리 값을 보이는 것을 확인할 수 있다. 또한 대응표본 t-test를 통한 검증 결과 본 연구에서 제안한 방안들이 C1, C2에 비해서 유의하다는 것을 확인할 수 있었다.
85의 색상 간의 평균 유클리드 거리 값을 보이는 것을 확인할 수 있다. 또한 대응표본 t-test를 통한 검증 결과 본 연구에서 제안한 방안들이 C1, C2에 비해서 유의하다는 것을 확인할 수 있었다.
네가지 경우에 대한 실험 결과는 아래 [Table 3]와 같다. 색상명에 해당되는 RGB 값을 데이터베이스를 통해서만 예측하여 CIELAB값으로 변환한 첫번째 경우는 색 간의 거리 평균 값이 약 30.88이고, 데이터베이스 내에 없는 색상명에 대한 RGB값 처리는 불가능하기 때문에 161개의 색상은 처리되지 않았다. 이보다 조금 더 발전된 동의어처리가 이루어진 두 번째 경우는 데이터베이스 내의 색상명 해당 RGB값을 이용하거나 없는 경우에는 워드넷에서의 동의어처리 후의 색상명을 데이터베이스에서 유무를 재확인하였다.
본 설문은 총 60명의 대학생, 대학원생들을 대상으로 진행했다. 위 설문을 통해서, 한 피설문자 당 제품 별로 한 색상씩 응답을 하여 5개의 색상명을 받아 총 300개의 색상명과 그에 따른 색상 값을 얻을 수 있었다. 설문으로 얻은 HTML 색상표 값을 HTML 값으로 변환 후 두 번의 변환 과정을 거쳐 RGB값을 구했다.
서로 다른 방식으로 300개의 색상명에 RGB 값을 할당하였고, 각각의 RGB값을 할당된 RGB 값과 피설문자가 색상명에 적합하다고 판단한 색상값을 CIELAB값으로 변환하여 두 색간의 거리를 구하였다. 이를 대응 표본 t-test를 통해 평가한 결과, 단순히 색상 사전만을 기반으로 하거나, 사전과 한글 동의어 사전을 활용하는 방법보다, 사전과 실시간으로 RGB값을 추출하는 것이 좀 더 RGB값의 정확도를 높이는데 효과적임을 확인하였다. 본 연구에서 제시하는 방안은 기존의 색상 동의어 처리 방안에 비해 사용자의 색상 검색 의도를 보다 정확하고 신속하게 파악하여 색상의 동의어 및 유의어를 제시한다.
따라서 앞서 데이터베이스만을 이용한 방안에서 피설문자들이 작성한 색상명 17개(‘흰색’ 13개, ‘보랏빛’ 1개, ‘쥐색’ 2개, ‘연초록색’ 1개)의 RGB값 할당이 추가되어 총 156개의 색상명에 대해 RGB값을 가질 수 있었다. 이어서 CIELAB값으로 변환하여 색 차를 구해본 결과, 전 방안보다 낮은 유클리드 거리의 평균 값을 얻을 수 있었다.
피설문자들에게 가장 색상명과 유사해 보이는 색상으로의 선택을 부탁한 것과 같은 맥락으로, 인간의 눈이 다른 색보다 특정 색에 더 민감한 것을 반영하여 색상 간의 눈에 띄는 차이를 찾아주는 측정 기준인 CIELAB ΔE*값이 실험에 가장 적합한 평가식이라 판단했다.
또한 이미지 크롤링 과정에서 Google 이미지 검색의 이미지는 상시 갱신되어 검색하는 시기에 따라 다른 결과가 나와 추출되는 RGB값이 일정하지 못하다. 하지만, 연구 기간 내 같은 검색어에 있어서의 다른 구글 이미지 검색 결과에도 불구하고 대체적으로 유사한 RGB값을 출력한 것으로 보아 본 방식은 유의미하다는 것을 보여준다. 그리고 향후 연구 과제로 RGB값을 이미지 내에서 추출하는 방식에 있어서, 현재 제시한 방안들보다 향상된 방법에 대한 모색이 필요하다.
후속연구
제시된 색상 질의 처리 방안은 기존의 단순 사전식 텍스트 매칭에서 발전된 질의 확장 방안으로 전자상거래 검색 시스템에 큰 기여가 될 수 있을 것이다. 게다가 전자상거래 검색 시스템 중 영역이 넓어지고 있는 이미지 검색에서, 이미지 속 상품의 색상에 대한 검색은 본 연구에서 제시한 방법을 통해 정확한 검색 결과를 얻을 수 있을 것이라 기대한다.
그러나 본 연구에서 제시한 방안은 사전 처리방식으로는 RGB값을 할당 받지 못하는 색상명들이 여전히 많다는 한계를 보완한다. 공인되거나 확실한 한글 색상명이 정의되어 있지 않아 자주 갱신되지 못하는 데이터베이스와 국문 위주의 동의어 처리가 이루어지는 워드넷 사이트만으로는, 전자상거래에서 많이 검색되는 외래어 색상명 및 새로운 색상명에 대한 동의어 처리가 이루어질 수 없다.
하지만, 연구 기간 내 같은 검색어에 있어서의 다른 구글 이미지 검색 결과에도 불구하고 대체적으로 유사한 RGB값을 출력한 것으로 보아 본 방식은 유의미하다는 것을 보여준다. 그리고 향후 연구 과제로 RGB값을 이미지 내에서 추출하는 방식에 있어서, 현재 제시한 방안들보다 향상된 방법에 대한 모색이 필요하다.
본 연구에서 제안하는 CQP-RGB의 기본적인 색상 검색, 동의어 및 유의어 출력을 위해 기본색상 데이터베이스가 필요했다. 이를 위해서 [Figure 2]와 같은 공인된 한국 색채 표준 디지털 팔레트 프로그램의 데이터베이스, 그리고 [Figure 3]의 위키피디아(Wikipedia) 색 목록에 정리된 색상표의 색상명과 RGB 값을 활용하여 색상 데이터베이스를 구축하였다.
본 연구의 한계점으로는 기본 색상 데이터베이스 생성은 불가피하며, 데이터베이스 내의 추가할 수 있는 공인된 색상명과 RGB값이 부족하다는 것이다. 전자상거래에서 사용되는 트렌드에 따른 새롭고 복잡한 색상명들에 비해 출력되는 색상명들은 원색적이고 단순한 경우가 대다수다.
본 연구에서 제시하는 방안은 기존의 색상 동의어 처리 방안에 비해 사용자의 색상 검색 의도를 보다 정확하고 신속하게 파악하여 색상의 동의어 및 유의어를 제시한다. 제시된 색상 질의 처리 방안은 기존의 단순 사전식 텍스트 매칭에서 발전된 질의 확장 방안으로 전자상거래 검색 시스템에 큰 기여가 될 수 있을 것이다. 게다가 전자상거래 검색 시스템 중 영역이 넓어지고 있는 이미지 검색에서, 이미지 속 상품의 색상에 대한 검색은 본 연구에서 제시한 방법을 통해 정확한 검색 결과를 얻을 수 있을 것이라 기대한다.
질의응답
핵심어
질문
논문에서 추출한 답변
DBSCAN 군집화란?
DBSCAN 군집화는 데이터 클러스터링 알고리즘의 일종으로 K-평균 알고리즘이 거리 기반 군집 모델이라면 DBSCAN 밀도 기반 군집화 방법이다(Chakraborty et al., 2014).
전자상거래 상품 검색의 어려움을 겪는 주원인은?
이로 인해 각 전자상거래들은 지능형 검색엔진 구축을 위한 노력을 기울이고 있으며, 학술적으로는 소비자의 검색 의도를 파악하려는 연구들이 증가하고 있다. 전자상거래 상품 검색에 어려움을 겪는 주요한 원인은 상품 판매자가 상품을 올릴 때 등록한 몇 개의 키워드들과 소비자가 입력한 검색어 간의 텍스트 매칭으로 검색어 처리가 이루어진다는 것이다(Rose et al., 2004; Lei et al.
온톨로지 서버의 장점과 단점은?
현 전자상거래 검색 시스템의 색상 특징 동의어 처리는 대부분 온톨로지 서버를 통하여 검색 질의를 확장하는 방법을 사용한다. 이 방법은 정확도가 높을 수 있으나, 신조어나 모르는 단어가 나오면 찾지 못한다. 그와 함께, 새로운 표현 또는 색상명의 사용이 활발한 요즘, 동의어 사전을 자주 갱신 해야 한다는 한계점이 있다. 전자상거래 검색 시스템은 실시간 색인 기능을 통해 새롭게 추가, 변경, 삭제되는 상품 정보에 발빠르게 대처할 수 있어야 한다.
참고문헌 (27)
Apple Inc. (2015). Patent No.10-2015-7004968. Washington, DC: U.S. Patent and Trademark Office
Apple Inc. (2017). Patent No.10-2017-0069606. Washington, DC: U.S. Patent and Trademark Office
Cao Y., Ju T., Xu J., Hu SM. (2016). Extracting Sharp Features from RGBD Images. Computer Graphics Forum. 36. 10.1111/cgf.13069.
Chakraborty S., Nagwani N-K., Dey L. (2014). Performance comparison of incremental k-means and incremental dbscan algorithms. arXiv preprint arXiv:1406.4751.
Cho Y., Kim Y. (2011). Color Expression by Information Extraction. Proceedings of KIIT Summer Conference, 618-620.
ClickZ Intelligence. "Seven Ways Artificial Intelligence Can Be Used for Marketing." ClickZ, May 31, 2013.clickz.com/seven-ways-artificial-intelligence-can-be-used-for-marketing/96572,(accessed September 2018).
Davis, B. "15 Examples of Artificial Intelligence in Marketing." Econsultancy, April 19, 2016. econsultancy.com/blog/67745-15-examples-of-artificial-intelligence-in-marketing (accessed September 2018).
Ester M., Kriegel H. P., Sander J., Xu X. (1996, August). A density-based algorithm for discovering clusters in large spatial databases with noise. In Kdd (Vol. 96, No. 34, pp. 226-231).
Google Image Search https://www.google.co.kr/imghp?hlko&tabwi&authuser0 (accessed September 2018).
Google LLC. (2017). U.S. Patent No.10-2017-7031186. Washington, DC: U.S. Patent and Trademark Office
Gomez-Perez A., Fernandez-Lopez M., Corcho O. (2006) Ontological Engineering: With Examples From the Areas of Knowledge Management, e-Commerce and the Semantic Web. Springer, London. https://doi.org/10.1007/b97353.
HTML chart. https://html-color-codes.info/ (accessed September 2018).
Hwang M.-N., Lee S., Cho M., Kim S.-Y., Choi S.-P., Jung H. (2012). Ontology Construction of Technological Knowledge for R&D Trend Analysis, Journal of the Korea Contents Association, 12(12), 35-45
Kim S., Kim G. (2012). Ontology-based User Customized Search Service Considering User Intention, Journal of Intelligence and Information Systems, 18(4), 129-143
Kim T., Yang J., Lee J., Son J., Jeong Y. (2005). Efficient production of Ontology for Intelligent E-Commerce. Journal of Intelligence and Information Systems, 273-279.
Lei Y., Uren V., Motta E. (2006) SemSearch: A Search Engine for the Semantic Web. In: Staab S., Svatek V. (eds) Managing Knowledge in a World of Networks. EKAW 2006. Lecture Notes in Computer Science, vol 4248. Springer, Berlin, Heidelberg.
Lin S., Hanrahan P. 2013. Modeling how people extract color themes from images. In Proceedings of the SIGCHI Conference on Human Factors in Computing Systems (CHI '13). ACM, New York, NY, USA, 3101-3110. DOI: https://doi.org/10.1145/2470654.2466424
Mahama S., A. T., Dossa, A. S., Gouton, P. (2016). Choice of distance metrics for RGB color image analysis. Electronic Imaging, 2016(20), 1-4.
Naver Corp. (2007). Patent No.10-2007-0115690. Seoul: Republic of Korea Patent and Trademark Office
Qu, Y., Cheng, G. (2011). Falcons concept search: A practical search engine for web ontologies. IEEE Transactions on Systems, Man, and Cybernetics-Part A: Systems and Humans, 41(4), 810-816.
Rose D., Levinson D. 2004. Understanding user goals in web search. In Proceedings of the 13th international conference on World Wide Web (WWW '04). ACM, New York, NY, USA, 13-19.
Sudeepthi, G., Anuradha, G., Babu, M. S. P. (2012). A survey on semantic web search engine. International Journal of Computer Science Issues (IJCSI), 9(2), 241.
Tran T., Cimiano P., Rudolph S., Studer R. (2007) Ontology-Based Interpretation of Keywords for Semantic Search. In: Aberer K. et al. (eds) The Semantic Web. ISWC 2007, ASWC 2007. Lecture Notes in ComputerScience, vol 4825. Springer, Berlin, Heidelberg.
Turban E., Outland J., King D., Lee J.K., Liang TP., Turban D.C. (2018) Intelligent (Smart) E-Commerce. In: Electronic Commerce 2018. Springer Texts in Business and Economics. Springer, Cham.
Wikipedia color name chart. https://ko.wikipedia.org/wiki/%EC%83%89_%EB%AA%A9%EB%A1%9D (accessed September 2018).
Woo S., Kim K., Kim C. (2005). User Category - Based Intelligent E-Commerce Meta - Search Engine. Journal of Intelligence and Information Systems, 346-355.
WordNet. http://www.wordnet.co.kr/ (accessed September 2018).
※ AI-Helper는 부적절한 답변을 할 수 있습니다.