[논문]맞춤형 여행 콘텐츠 개발을 위한 OCR 기법을 활용한 영화 속 촬영지 정보 추출 방안 제시

박은비; 신유빈; 강주영

doi:10.36498/kbigdt.2020.5.1.29

맞춤형 여행 콘텐츠 개발을 위한 OCR 기법을 활용한 영화 속 촬영지 정보 추출 방안 제시
Study on Extracting Filming Location Information in Movies Using OCR for Developing Customized Travel Content 원문보기

The journal of Bigdata = 한국빅데이터학회지, v.5 no.1, 2020년, pp.29 - 39

박은비 (아주대학교 경영대학 e-비즈니스학과) , 신유빈 (아주대학교 경영대학 e-비즈니스학과) , 강주영 (아주대학교 경영대학 e-비즈니스학과)

초록
AI-Helper

목적 사회 전반적으로 퍼진 개인의 취향에 대해 존중하는 분위기는 소비 트렌드를 바꾸었다. 그에 따라 여행 산업에서도 소비자 개인의 취향을 반영하는 맞춤형 여행이 새로운 트렌드로 주목받고 있다. 특히 여행 산업 분야 중 하나인 '영화 관광'에 대한 관심이 커지고 있음에 주목하였다. 영화를 시청하며 발생하는 개인의 여행 동기를 맞춤형 여행 제안으로 충족시키고자 하며, 이는 '영화 관광 산업'의 지속적 발전의 촉진제가 될 것으로 기대한다. 설계/방법론/접근 본 연구에서는 시청자가 실제로 방문하고 싶은 영화 속 촬영지 정보를 'OCR'을 통해 추출, 제안하는 방법론을 구현하였다. 먼저, 실시간 이미지 프로세싱 라이브러리인 'OpenCV'를 활용하여 사용자가 선택한 영화 속 장면을 추출 받는다. 또한, 딥러닝 기반의 텍스트 영역 탐지모델인 'EAST 모델'을 활용하여 해당 장면 이미지에서 문자가 위치한 곳을 탐지하여 검출한다. 검출한 이미지는 'OpenCV 내장 함수'를 사용해 전처리하여 인식의 정확도를 높인다. 마지막으로 광학 문자 인식 엔진인 'Tesseract'를 사용하여 이미지 속 문자를 인식 가능한 텍스트로 변환한 후, 'Google Map API'를 통해 실제 위치 정보를 반환한다. 의의 본 연구는 기존의 영화 관광에서 나아가, 4차 산업 기술을 활용한 개인 맞춤 관광 콘텐츠를 제공해준다는 점에서 큰 의의가 있다. 이는 앞으로 여행사와 함께 영화 관광 패키지 상품 개발에 활용될 수 있다. 또한 국내에서 해외로의 유입뿐만 아니라, 해외에서 국내로의 유입에 활용될 가능성 역시 내포하고 있다.

Abstract ▼ AI-Helper

Purpose The atmosphere of respect for individual tastes that have spread throughout society has changed the consumption trend. As a result, the travel industry is also seeing customized travel as a new trend that reflects consumers' personal tastes. In particular, there is a growing interest in 'film-induced tourism', one of the areas of travel industry. We hope to satisfy the individual's motivation for traveling while watching movies with customized travel proposals, which we expect to be a catalyst for the continued development of the 'film-induced tourism industry'. Design/methodology/approach In this study, we implemented a methodology through 'OCR' of extracting and suggesting film location information that viewers want to visit. First, we extract a scene from a movie selected by a user by using 'OpenCV', a real-time image processing library. In addition, we detected the location of characters in the scene image by using 'EAST model', a deep learning-based text area detection model. The detected images are preprocessed by using 'OpenCV built-in function' to increase recognition accuracy. Finally, after converting characters in images into recognizable text using 'Tesseract', an optical character recognition engine, the 'Google Map API' returns actual location information. Significance This research is significant in that it provides personalized tourism content using fourth industrial technology, in addition to existing film tourism. This could be used in the development of film-induced tourism packages with travel agencies in the future. It also implies the possibility of being used for inflow from abroad as well as to abroad.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

이러한 기대를 관광 산업에 활용하는 ‘영화 관광(movieInduced Tourism)’ 분야도 주목받고 있다. 따라서 본 연구에서는 영화를 시청하며 발생하는 개인의 여행 동기를 맞춤형 여행 제안으로 충족시키고자 한다.
영화의 특성상, 텍스트는 대부분 화면의 전체가 아닌 일부분에 위치하며, 화면에서 큰 비중을 차지하더라도 다른 배경과 함께 노출된다. 따라서 본 연구에서는 효율적인 이미지 전처리를 위해, 장면에서 텍스트 영역 부분을 자른 후에 해당 이미지 파일에 전처리를 진행했다. 이 단계의 목표는 본격적인 텍스트 인식 전에 여러 전처리 기법을 통해 텍스트의 경계를 보다 선명하게 하여 텍스트 인식의 정확도를 향상시키는 것이다.
본 연구는 사용자가 영화 장면 속에서 방문하고 싶은 장소에 대한 위치 정보를 제공해주는 플랫폼 알고리즘을 OCR 기술로 구현한다.
본 연구에서는 4차 산업 기술인 OCR을 기반으로, 사용자가 원하는 영화 장면의 위치 정보를 제공해주는 맞춤형 여행 콘텐츠의 개발 방법론에 대해 제시하였다.
본 연구에서는 다양한 촬영 구도 및 노이즈, 빛 등이 다르게 적용된 ‘영화 속 장면’이라는 내츄럴 이미지에 OCR 기법을 적용해 텍스트를 인식하고자 한다.
따라서 본 연구에서는 효율적인 이미지 전처리를 위해, 장면에서 텍스트 영역 부분을 자른 후에 해당 이미지 파일에 전처리를 진행했다. 이 단계의 목표는 본격적인 텍스트 인식 전에 여러 전처리 기법을 통해 텍스트의 경계를 보다 선명하게 하여 텍스트 인식의 정확도를 향상시키는 것이다.
이러한 기존의 한계를 극복하기 위해, OCR 기술을 활용한 본 알고리즘을 통해 장면 속 표지판 또는 간판 위치 정보를 추출하여 사용자에게 제공하고자 한다. 이는 4차 산업혁명 기술을 활용한 사용자의 개인 취향에 맞는 영화 속 여행지를 추천해준다는 점에서 의의가 있을 것으로 기대한다.
본 연구에서는 영화 속 장면에 등장하는 촬영지 정보를 담고 있는 문자의 위치를 파악하고 인식하기 위하여 OCR 기술을 사용하였다. 이를 통해, 영화 시청 후 사용자가 실제로 방문하고 싶은 해당 장면 속 위치 정보를, OCR로 추출하여 여행지로 제안하는 방식으로 맞춤형 여행 콘텐츠 개발에 활용하고자 한다.

제안 방법

EAST 모델을 통해 이미지 속에서 텍스트가 포함된 영역을 탐지하고, 유의미한 범주 내의 텍스트 영역 좌표를 반환하였다. [Figure 3]은 이렇게 추출한 좌표를 모아 이미지 위에 텍스트 박스를 그린 것으로, 사람, 건물, 자동차 등이 주로 담긴 이미지 속에서도 텍스트가 있는 간판 부분만 정확히 인식했음을 확인할 수 있다.
기존의 영화 관광은 여행사에서 자체적으로 선정한 영화에만 한정된 관광 형태라고 할 수 있다. 그러나 본 연구에서 제시한 방법론은 소비자들의 취향을 반영한, 소비자가 직접적으로 원하는, 소비자가 주도하는 새로운 관광 형태를 띄고 있다. 이러한 소비자들의 다양한 니즈를 충족시켜주며 ‘취존’ 트렌드를 여행 산업에도 반영한다는 점에서 큰 의의가 있다.
본 연구는 OCR 기법을 통해 시청자가 실제로 방문하고 싶은 영화 속 촬영지 정보를 추출하는 방법론을 단계별로 제시하였다. 시청자는 궁금한 영화 선택 및 장면 시간 입력만으로 [Figure 9]와 같은 실제 위치 지도와 주소를 반환받게 된다.
본 연구는 영화 속 장면에서 사용자가 원하는 장소를 직접 선별하여 여행 장소에 대한 정보를 받을 수 있는 플랫폼 알고리즘을 OCR 기술과 접목하여 구현한다. 사용자가 직접 영화 장면 시간을 입력하면, 그 장면에 있는 도로 표지판, 간판과 같은 이미지 속 텍스트를 인식하여, 위치 정보를 제공해주는 형식으로 진행된다.
본 연구에서는 영화 ‘비포선셋(2004)’의 한 장면을 대상으로, OCR로 간판을 인식하여 실제 촬영 장소를 반환하였다.
추후 활용 방안은 다음과 같다. 사용자들의 이용 통계를 분석하여 수요가 많은 영화에 대한 영화 관광 패키지 상품을 여행사와 협업하여 개발한다. 패키지 상품 개발 외에도 스카이스캐너 등의 항공권 및 숙소 예약 서비스의 마케팅에 활용되어 사용자에게 해당 장면 속 위치 정보와 함께 해당 장소까지의 교통 및 숙소 예약 정보도 함께 제공한다.
영화 장면에서 간판, 표지판 등의 텍스트가 존재하는 영역을 추출하여 이미지 전처리까지 마친 후, 광학 문자 인식 엔진인 Tesseract를 사용하여 텍스트를 인식했다. Tesseract는 1984년부터 1994년까지 HP에서 개발되어 2005년에 오픈 소스로 공개되었으며, 2006년부터 구글에서 발전시키고 있는 광학 문자 인식 엔진이다.
앞서 제시한 연구 주제를 구현하는 방법은 다음과 같은 [Figure 1]의 순서로 진행된다. 영화의 정보를 입력받아 원하는 장면을 추출하고, 장면 속에서 텍스트가 존재하는 영역의 이미지를 검출한 후, 검출한 이미지 전처리 과정을 거쳐, 이미지 속 문자를 인식 가능한 텍스트로 변환한 후, 최종적으로 이에 대한 위치 정보를 반환한다.
해당 텍스트가 실존하는 상호 또는 주소일 경우, 위도와 경도 데이터를 포함한 주소 데이터를 얻을 수 있다. 위도와 경도 데이터를 지도로 시각화하여 주소와 함께 출력함으로써 사용자의 편의를 증진하였다. 이를 통해, 사용자는 실제로 방문하고 싶은 장면의 시간을 입력하는 과정만으로도 영화 시청 중 발견한 자신만의 장소의 위치 정보와 지도를 편리하게 확인하고, 나아가 실제로 여행을 떠날 수 있다.
다음으로, 이미지 평활화를 위해 Grayscale로 전환한 이미지에 Gaussian Blur를 적용했다. 이를 통해 노이즈를 제거함으로써 엣지 검출을 용이하게한 후, Canny Edge Detector를 사용하였다. 그 결과, 이미지 데이터에 윤곽선만 남게 되어 텍스트 인식의 정확도를 향상할 수 있다.
이전 단계에서 추출한 텍스트 영역 이미지를 다음과 같은 기법들로 전처리했으며, OpenCV 라이브러리의 내장 함수를 사용하였다. 먼저, 컬러 영화의 색채 이미지를 Grayscale 이미지로 전환했다.

이론/모형

따라서 Grayscale 이미지로 전환하여 RGB 데이터를 제거함으로써 이미지 인식 성능 저하를 방지하고, 연산량을 감소시켜 텍스트 인식의 속도를 높일 수 있었다. 다음으로, 이미지 평활화를 위해 Grayscale로 전환한 이미지에 Gaussian Blur를 적용했다. 이를 통해 노이즈를 제거함으로써 엣지 검출을 용이하게한 후, Canny Edge Detector를 사용하였다.
본 연구에서는 영화 속 장면에 등장하는 촬영지 정보를 담고 있는 문자의 위치를 파악하고 인식하기 위하여 OCR 기술을 사용하였다. 이를 통해, 영화 시청 후 사용자가 실제로 방문하고 싶은 해당 장면 속 위치 정보를, OCR로 추출하여 여행지로 제안하는 방식으로 맞춤형 여행 콘텐츠 개발에 활용하고자 한다.
본격적으로 이미지에서 문자의 위치를 탐지하는 과정으로 OCR을 시작하였다. 이 과정에서 딥러닝 기반의 텍스트 영역 탐지 모델인 EAST 모델을 활용하였다. EAST (An Efficient and Accurate Scene Text Detector) 모델은 내츄럴 이미지에서 빠르고 정확하게 텍스트를 탐지하는 단순하면서도 강력한 모델이다(Zhou et al.

성능/효과

이를 통해 노이즈를 제거함으로써 엣지 검출을 용이하게한 후, Canny Edge Detector를 사용하였다. 그 결과, 이미지 데이터에 윤곽선만 남게 되어 텍스트 인식의 정확도를 향상할 수 있다.
일반적으로 RGB의 세 가지 색 데이터로 구성된 색채 이미지 데이터를 사용할 경우, 컴퓨터가 이미지를 인식할 때 어느 색상에 가중치를 두어야 할지 불분명해져 성능이 저하될 수 있다(Won, 2019). 따라서 Grayscale 이미지로 전환하여 RGB 데이터를 제거함으로써 이미지 인식 성능 저하를 방지하고, 연산량을 감소시켜 텍스트 인식의 속도를 높일 수 있었다. 다음으로, 이미지 평활화를 위해 Grayscale로 전환한 이미지에 Gaussian Blur를 적용했다.
그러나 영화 장면 특성상, 텍스트는 대부분 화면의 전체가 아닌 일부만을 차지한다. 따라서 효율적인 이미지 전처리를 위해, 본 연구에서는 텍스트의 위치를 먼저 검출한 후, 해당 텍스트 영역에만 여러 이미지 전처리 기법을 적용하여 효율적이고 정확하게 OCR 성능을 향상하였다.
본 연구는 향후 4차 산업 기술을 활용한 영화관광 플랫폼 구축에 활용되어 ‘영화 관광’ 분야의 지속적인 성장에 기여할 수 있다는 점에서 큰 의의가 있다.
이에 대한 STEEP 분석과 연계한 연구진 회의와 전문가 평가 결과, ‘DIY 여행’ 트렌드는 실제 발현 정도에서 10대 트렌드 중 네 번째로 높은 값을 보였으며, 지속⋅발전 가능성에서 두 번째로 높은 값을 보였다.
이처럼 Grayscale 이미지로 전환, Gaussian Blur 적용, Canny Edge Detector를 사용한 윤곽선 검출의 세 단계로 이미지를 전처리함으로써, 전처리하지 않았을 때보다 텍스트 인식의 정확도를 개선할 수 있었다.
첫째, 기존의 ‘영화 관광’에서 더 나아가, 개인의 취향을 반영한 ‘맞춤형 영화 관광’을 제공해준다는 점이다.

후속연구

Tesseract는 현재 100여 개의 다양한 언어의 인식을 지원하고 있지만, 외국어들의 인식률은 다소 저조하다. 그리하여 추후 다른 모델, 툴을 이용하거나 자체적인 OCR 알고리즘 개발을 통하여 인식률을 향상할 필요가 있다. 둘째로, 텍스트가 포함되지 않은 장면의 경우 OCR 자체를 진행하지 못한다는 점이다.
현재로서는 관광 산업과 4차 산업 기술을 접목시킨 플랫폼 또는 콘텐츠의 개발이 아직 시작 단계에 있다. 본 연구는 4차 산업 기술을 여행 산업에 접목한 분야의 선두로서 추후 다양한 활용 가능성을 내포하고 있다.
본 연구의 한계점으로는 첫째로, 영어를 제외한 외국어의 글자 인식률이 낮다는 점이다. Tesseract는 현재 100여 개의 다양한 언어의 인식을 지원하고 있지만, 외국어들의 인식률은 다소 저조하다.
패키지 상품 개발 외에도 스카이스캐너 등의 항공권 및 숙소 예약 서비스의 마케팅에 활용되어 사용자에게 해당 장면 속 위치 정보와 함께 해당 장소까지의 교통 및 숙소 예약 정보도 함께 제공한다. 이처럼 본 플랫폼은 영화 시청 후 소비자 개인이 만드는 DIY 여행(자유 여행)부터 패키지 상품까지 다양한 형태의 관광 제공에 활용될 수 있다.
사용자가 직접 영화 장면 시간을 입력하면, 그 장면에 있는 도로 표지판, 간판과 같은 이미지 속 텍스트를 인식하여, 위치 정보를 제공해주는 형식으로 진행된다. 향후 플랫폼을 통하여 4차 산업혁명에 따른 사용자의 개인 취향에 맞는 영화 속 여행지를 추천해주는 서비스를 제공할 수 있다.

질의응답

핵심어	질문	논문에서 추출한 답변
	이미지 전처리를 OCR 전에 행하는 이유는 무엇인가?	이미지 전처리는 컴퓨터의 인식 정확도를 향상시키기 위해, 이미지 데이터를 정제하는 과정이다. OCR의 인식률은 촬영 환경, 이미지의 왜곡, 명암 등에 민감한 영향을 받기 때문에, 이러한 저해 요인들을 전처리 과정을 통해 제거하는 것만으로도 기존의 인식률을 현저히 높일 수 있다(Kim et al., 2015).
	영화 관광을 하는 관광객은 어떤 관광객을 의미하는가?	이미 많은 경험을 한 관광객들은 새로운 여행지와 경험을 찾으며, 관광 산업은 이러한 니즈를 충족시키기 위한 새로운 관광지 발굴 경쟁이 치열하다. 그러나 관광 산업 내의 마케팅과는 직접적인 관련이 없는 영화 촬영지로 여행을 떠나는 관광객이 늘고 있으며, 이러한 현상을 ‘영화 관광’이라고 한다(Rewtrakunphaiboon, 2009).
	OCR은 어떤 기술인가?	OCR(광학 문자 인식, Optical Character Recognition)은 이미지나 영상에 쓰인 문자를 컴퓨터가 인식할 수 있는 문자로 변환하는 기술이다.

참고문헌 (18)

Bodla, N., B. Singh, R. Chellappa, and L. S. Davis, "Soft-NMS-improving object detection with one line of code", in Proceedings of the IEEE International Conference on Computer Vision, 2017, 5561-5569.
Dann, G. M., "Anomie, ego-enhancement and tourism", Annals of Tourism Research, Vol.4, No.4, 1977, 184-194.

상세보기
Hudson, S. and J. B. Ritchie, "Promoting destinations via film tourism: An empirical identification of supporting marketing initiatives", Journal of Travel Research, Vol.44, No.4, 2006, 387-396.

상세보기
Joinson, A. N., "Looking at, looking up or keeping up with people? Motives and use of Facebook", in Proceedings of the SIGCHI Conference on Human Factors in Computing Systems, 2008, 1027-1036.
Macionis, N., "Understanding the film-induced tourist", in International tourism and media conference proceedings, Vol.24, 2004, 86-97.
Neumann, L. and J. Matas, "A method for text localization and recognition in real-world images", in Asian Conference on Computer Vision, 2010, 770-783.
Nurul Azzahra Putri Kamis, "식품 불내성 환자를 위한 포장 식품의 OCR 기반 안전확인 시스템", 석사학위, 한국해양대학교 대학원, 2020.
Rewtrakunphaiboon, W., "Film-induced tourism: Inventing a vacation to a location", BU Academic Review, Vol.8, No.1, 2009, 33-42.
Rosebrock, A. 2018, OpenCV Text Detection (EAST text detector), https://www.pyimagesearch.com/2018/08/20/opencv-text-detection-east-textdetector/
Zhou, X., C. Yao, H. Wen, Y. Wang, S. Zhou, W. He, and J. Liang, "EAST: an efficient and accurate scene text detector", in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017, 5551-5560.
김나연, 이상길, 류현준, 박종제, 권정주, 이현명, 전준석, 이지원, 정하윤, "2020 팔리는 라이프스타일 트렌드", 한스미디어, 2019.
김재완, 김상태, 윤준용, 주양익, "OCR 기반의 개인 처방전 관리 시스템", 한국정보통신학회논문지, 제19권, 제10호, 2015, 2423-2428.

원문보기 상세보기
박주현, 이현동, 김동현, 조대수, "광학문자 인식을 이용한 여행 정보 공유 시스템의 개발", 한국컴퓨터정보학회 학술대회 논문집, 제26권, 제2호, 2018, 189-190.
왕명명, 류시영, 송운강, "한국 영상매체 접촉과 관광지 이미지, 방문의도 간의 관계: 중국인 잠재 방한 관광자를 중심으로", 관광연구저널, 제25권, 제1호, 2011, 129-142.
원태연, "딥 러닝 향상을 위한 이미지 전처리 자동화", 석사 학위, 한성대학교 대학원, 2019.
이규철, 유지상, "한글 음식 메뉴 인식을 위한 OCR 기반 어플리케이션 개발", 한국정보통신학회논문지, 제21권, 제5호, 2017, 951-959.

원문보기 상세보기
이원희, 박주영, 조아라, "관광 트렌드 분석 및 전망: 2020-2024", 한국문화관광연구원, 2019.
트렌드모니터, 2018, 취향(호불호)에 대한 인식 조사, https://www.trendmonitor.co.kr/tmweb/trend/allTrend/detail.do?bIdx1718&code0401&trendTypeCKOREA

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증