본 논문은 영상으로부터 풍부한 메타데이터를 자동으로 생성하고 키워드로 동영상을 검색하는 선행 연구를 개선하여 문장 단위로 동영상을 검색할 수 있게 하였다. 문장 단위의 검색을 위해, 검색 문장에 대해 형태소를 분석하여 문장에서 핵심어를 추출하고, 각 핵심어에 가중치를 부여한 다음, 선행 연구에서 작성된 랭킹 알고리즘을 적용하여 동영상들을 추천한다. 본 논문의 동영상 검색 성능을 평가하기 위해서는 충분한 양의 동영상과 충분한 수의 사용자 경험이 필요하다. 하지만 이것이 부족한 현 상황에서 검색 결과에 대한 사용자의 전반적인 만족도, 추천 점수와 사용자 만족도의 비교 평가, 동영상 카테고리별 사용자 만족도 등을 평가하는 간접적인 방법을 사용하였다. 성능 평가 결과, 본 논문에서 구현한 풍부한 메타데이터 구축 및 동영상 추천 시스템은 사용자에게 높은 검색 만족도를 주는 것을 나타났다.
본 논문은 영상으로부터 풍부한 메타데이터를 자동으로 생성하고 키워드로 동영상을 검색하는 선행 연구를 개선하여 문장 단위로 동영상을 검색할 수 있게 하였다. 문장 단위의 검색을 위해, 검색 문장에 대해 형태소를 분석하여 문장에서 핵심어를 추출하고, 각 핵심어에 가중치를 부여한 다음, 선행 연구에서 작성된 랭킹 알고리즘을 적용하여 동영상들을 추천한다. 본 논문의 동영상 검색 성능을 평가하기 위해서는 충분한 양의 동영상과 충분한 수의 사용자 경험이 필요하다. 하지만 이것이 부족한 현 상황에서 검색 결과에 대한 사용자의 전반적인 만족도, 추천 점수와 사용자 만족도의 비교 평가, 동영상 카테고리별 사용자 만족도 등을 평가하는 간접적인 방법을 사용하였다. 성능 평가 결과, 본 논문에서 구현한 풍부한 메타데이터 구축 및 동영상 추천 시스템은 사용자에게 높은 검색 만족도를 주는 것을 나타났다.
This paper makes it possible to search videos based on sentence by improving the previous research which automatically generates rich metadata from videos and searches videos by key words. For search by sentence, morphemes are analyzed for each sentence, keywords are extracted, weights are assigned ...
This paper makes it possible to search videos based on sentence by improving the previous research which automatically generates rich metadata from videos and searches videos by key words. For search by sentence, morphemes are analyzed for each sentence, keywords are extracted, weights are assigned to each keyword, and some videos are recommended by applying a ranking algorithm developed in the previous research. In order to evaluate performance of video search in this paper, a sufficient amount of videos and sufficient number of user experiences are re required. However, in the current situation where these are insufficient, three indirect evaluation methods were used: evaluation of overall user satisfaction, comparison of recommendation scores and user satisfaction, and evaluation of user satisfaction by video categories. As a result of performance evaluation, it was shown that the rich metadata construction and video recommendation implementation in this paper give users high search satisfaction.
This paper makes it possible to search videos based on sentence by improving the previous research which automatically generates rich metadata from videos and searches videos by key words. For search by sentence, morphemes are analyzed for each sentence, keywords are extracted, weights are assigned to each keyword, and some videos are recommended by applying a ranking algorithm developed in the previous research. In order to evaluate performance of video search in this paper, a sufficient amount of videos and sufficient number of user experiences are re required. However, in the current situation where these are insufficient, three indirect evaluation methods were used: evaluation of overall user satisfaction, comparison of recommendation scores and user satisfaction, and evaluation of user satisfaction by video categories. As a result of performance evaluation, it was shown that the rich metadata construction and video recommendation implementation in this paper give users high search satisfaction.
본 논문에서는 선행 연구에서 개발한 VMeta 시스템에 문장 기반 검색을 추가한 VMeta2의 구현을 소개하고 성능을 평가하였다. VMeta2에서 문장 기반 검색은 총 4단계로 이루어졌다.
본 논문은 VMeta2에서 문장으로 검색하는 기능을 구현한 사례와 VMeta2 시스템의 영상 추천 성능을 평가한다. 본 논문은 다음과 같이 구성된다.
제안 방법
VMeta2 시스템의 성능을 보다 선명하게 평가하기 위해서는 25개의 카테고리에 걸쳐 많은 영상이 저장되어 있고 오랜 시간 많은 사용자들로부터 추천 성능을 평가해야 하지만, 현재로서는 충분한 양의 영상과 충분한 수의 사용자 경험이 축적된 것은 아니다. 그럼에도 불구하고, 현재 저장된 적은 수의 영상으로 VMeta2 시스템의 성능을 평가할 수 있는 간접적인 방법으로 성능 평가를 진행하였다.
또한 본 논문에서는 VMeta2의 검색 성능을 직접 평가하는 것이 거의 불가능하기 때문에 간접적인 방법을 사용하였다. 사용자의 평균적인 만족도가 매우 높게 평가되었으며, 추천 영상에 대한 추천 점수가 높을수록 사용자 만족도도 함께 높아진 것으로 평가되었고, 영상이 많은 카테고리일수록 추천 점수와 사용자 만족도가 함께 높은 것으로 평가되어 VMeta2 시스템의 추천 알고리즘이 정확하다고 판단된다.
본 논문에서는 추천 점수와 사용자의 만족도를 비교 평가하여 알고리즘의 정확도를 평가하였다. 이를 위해, 다음 3 개의 문장을 검색 질의로 선정하고 검색을 실행하였다.
시스템의 성능은 영상으로부터 높은 질의 메타데이터를 만드는 성능과 사용자 질의로부터 만족도 높은 영상을 추천하는 검색 성능을 세분된다. 하지만, 메타데이터의 질에 관한 직접적인 평가가 쉽지 않고, 추천 성능은 궁극적으로 메타데이터의 질을 포함하기 때문에, 추천 성능을 평가함으로써 VMeta2 시스템의 성능을 평가한다.
대상 데이터
추출된 핵심어들을 분석하여 총 25가지의 카테고리들 중에서 관련 카테고리를 찾아낸다. 그리고 카테고리를 핵심어 리스트에 추가한다.
데이터처리
VMeta2 시스템에 대한 사용자의 전반적인 만족도를 평가한다. 사용자로부터 추천 받은 영상들에 대해 5점 만점으로 만족도를 평가하였으며 그 결과는 그림 4와 같다.
그리고 각 검색 질의에 대해 추천된 영상들 중 최고점 3개의 평균을 구하여 알고리즘의 추천 점수로 하였다. 실험 결과는 그림 5와 같다.
이 절에서는 VMeta2 시스템의 성능을 평가한다. 시스템의 성능은 영상으로부터 높은 질의 메타데이터를 만드는 성능과 사용자 질의로부터 만족도 높은 영상을 추천하는 검색 성능을 세분된다.
이 절에서는 VMeta2Ranking 알고리즘이 사용자의 검색 목적을 얼마나 달성하는지에 대한 정확도를 평가한다. 사용자 만족도 평가 결과가 어느 정도의 정확성을 보여주지만 알고리즘의 정확도는 직접적으로 평가할 수는 없기 때문에 간접적인 방법을 사용한다.
이론/모형
가중치가 부여된 핵심어들을 기존의 VMetaRanking 알고리즘에 적용해 검색된 영상과 각 핵심어들의 랭킹 결과를 얻고 추천 영상의 최종 확률 리스트를 반환받는다.
VMeta2에서 문장 기반 검색은 총 4단계로 이루어졌다. 검색 문장에서 형태소를 분석하여 핵심어를 추출하고, 핵심어들로부터 카테고리를 결정하여 카테고리를 핵심어에 다시 추가하고, 핵심어들에게 가중치를 부여한 다음, 마지막으로 기존의 VideoRanking 알고리즘을 적용하여 영상을 추천한다.
저장된 이미지들은 총 4가지의 클래스로 분류되어 영상이 표현되는 방식인 Presentation과 말하기 방식을 나타내는 Narrative Type으로 결정된다. 또한, 영상의 각 프레임에서 OCR 기법으로 텍스트를 추출해 영상 스크립트를 생성한다. 생성된 영상과 음성 스크립트는 KoNLPy의 형태소 분석 등 전처리 과정을 거치고, KR-WordRank 키워드 추출 라이브러리를 활용해 Keyword와 Index를 생성한다.
생성된 영상과 음성 스크립트는 KoNLPy의 형태소 분석 등 전처리 과정을 거치고, KR-WordRank 키워드 추출 라이브러리를 활용해 Keyword와 Index를 생성한다. 마지막으로 생성된 Keyword는 한국 십진분류법(KDC)를 사용하여 총 25 카테고리(Category)로 분류된다.
VMeta2의 문장 기반 검색은 크게 4개의 단계로 이루어진다. 먼저 문장에 대한 형태소를 분석하고, 문장에서 핵심어를 추출하고, 각 핵심어에 가중치를 부여한 다음, 기존의 VMetaRanking 알고리즘을 적용하여 영상을 추천한다. 그림 3은 VMeta2에서의 영상 추천 알고리즘 VMeta2Ranking 알고리즘의 작동 과정을 보여준다.
성능/효과
Q3의 질의에 대해서는 질의에 해당하는 영상이 별로 없고 질의와 잘 일치되는 영상이 없는 상황이다. 검색 시스템은 추천한 3개의 영상 정확성을 45.99%로 매우 낮게 평가하면서 추천하였다. 이 영상을 추천받은 사용자 역시 영상을 보고 나서 영상에 대한 만족도를 3.
만일 추천 알고리즘이 정확하다면, 추천된 영상들의 추천 점수가 높을수록 알고리즘은 사용자가 찾는 영상임을 더 강력히 나타내는 것이고, 그러므로 그 영상에 대한 사용자의 만족도는 높은 경향을 보여야한다. 구체적으로 본 논문에서는 추천된 영상 중 상위 3개의 추천도 평균이 높을수록 사용자 만족도도 높은 경향성을 보이면, 추천 알고리즘의 정확도는 높다고 판단한다. 만일 추천 점수가 90% 이상인데 사용자의 만족도는 5점 만점에 2점이라고 하면, 알고리즘이 사용자의 검색 목적에 강력히 일치할 것이라고 했지만, 실제 사용자는 불만족하다고 하는 경우이다.
따라서 많은 영상을 가진 카테고리일수록 사용자 만족도가 높는 것으로 평가되었다. 그러므로 우리가 예측한바와 같이 카테고리에 포함된 영상의 개수가 많을수록 사용자 만족도가 높아 추천 알고리즘이 정확하다는 것을 간접적으로 보여준다.
실험 결과는 그림 5와 같다. 그림 5에서 Q1 검색에 대해 VMeta2의 영상 추천 점수 평균은 95.46%이며 사용자의 만족도는 4.8점으로서, 높은 추천 점수와 사용자의 만족도도 매우 높았다. 즉 Q1 질의에 대해 검색 알고리즘이 추천한 영상들이 사용자의 검색 목표에 일치할 확률이 매우 높다고 추천하였으며, 사용자 역시 자신의 의도와 매우 부합하다고 평가하였다.
그림 6의 결과를 보면, 58.62%의 비율로 가장 많은 영상을 포함하고 있는 예술 카테고리에서 사용자가 문장으로 검색하였을 때 만족도는 평균 4.6점이고, 두 번째로 높은 비율을 보인 IT 카테고리는 4점, 마지막으로 영상의 비율이 17.24%에 불과한 동물 카테고리는 2.1점의 만족도를 보인다. 따라서 많은 영상을 가진 카테고리일수록 사용자 만족도가 높는 것으로 평가되었다.
동일한 카테고리의 영상이 많을수록 영상에서 추출된 메타데이터가 많아지므로 검색 대상이 되는 데이터가 많아지며, 평균적으로 영상의 추천 정확도가 높아질 것으로 예측되고, 사용자의 만족도가 높아질 것으로 예측된다.
1점의 만족도를 보인다. 따라서 많은 영상을 가진 카테고리일수록 사용자 만족도가 높는 것으로 평가되었다. 그러므로 우리가 예측한바와 같이 카테고리에 포함된 영상의 개수가 많을수록 사용자 만족도가 높아 추천 알고리즘이 정확하다는 것을 간접적으로 보여준다.
또한 본 논문에서는 VMeta2의 검색 성능을 직접 평가하는 것이 거의 불가능하기 때문에 간접적인 방법을 사용하였다. 사용자의 평균적인 만족도가 매우 높게 평가되었으며, 추천 영상에 대한 추천 점수가 높을수록 사용자 만족도도 함께 높아진 것으로 평가되었고, 영상이 많은 카테고리일수록 추천 점수와 사용자 만족도가 함께 높은 것으로 평가되어 VMeta2 시스템의 추천 알고리즘이 정확하다고 판단된다.
즉 Q1 질의에 대해 검색 알고리즘이 추천한 영상들이 사용자의 검색 목표에 일치할 확률이 매우 높다고 추천하였으며, 사용자 역시 자신의 의도와 매우 부합하다고 평가하였다. 알고리즘이 정확하다는 것을 간접적으로 보여준다.
8점으로서, 높은 추천 점수와 사용자의 만족도도 매우 높았다. 즉 Q1 질의에 대해 검색 알고리즘이 추천한 영상들이 사용자의 검색 목표에 일치할 확률이 매우 높다고 추천하였으며, 사용자 역시 자신의 의도와 매우 부합하다고 평가하였다. 알고리즘이 정확하다는 것을 간접적으로 보여준다.
후속연구
하지만, 실험에 사용된 영상의 수가 충분하지 않기 때문에 평가 결과의 신뢰성에는 한계가 있다. 추후 영상의 수를 더 확보하고 오랜 시간에 걸쳐 세밀하게 성능을 평가하는 연구를 수행하고자 한다.
하지만, 실험에 사용된 영상의 수가 충분하지 않기 때문에 평가 결과의 신뢰성에는 한계가 있다. 추후 영상의 수를 더 확보하고 오랜 시간에 걸쳐 세밀하게 성능을 평가하는 연구를 수행하고자 한다.
참고문헌 (11)
Gregory Gimpel, "The Future of Video Platforms: Key?Questions Shaping the TV and Video Industry",?International Journal on Media Management, Vol 17,?No. 1, pp. 25-46, 2015.?DOI: https://doi.org/10.1080/14241277.2015.1014039.
Limor Peer, Thomas B., Ksiazek, "YOUTUBE AND THE?CHALLENGE TO JOURNALISM", Journalism Studies,?Vol 12, No. 1, pp. 45-63, 2011,?DOI: https://doi.org/10.1080/1461670X.2010.511951.
Torhonen, M., Sjoblom, M., Hassan, L. and Hamari, J.,?"Fame and fortune, or just fun? A study on why?people create content on video platforms", Internet?Research, Vol. 30, No. 1, pp. 165-190.2020,?DOI: https://doi.org/10.1108/INTR-06-2018-0270.
N. Dimitrova, Hong-Jiang Zhang, B. Shahraray, I.?Sezan, T. Huang and A. Zakhor, "Applications of?video-content analysis and retrieval", IEEE?MultiMedia, Vol. 9, No. 3, pp. 42-55, 2002,?DOI: https://doi.org/10.1109/MMUL.2002.1022858.
Julien Law-To, et al., "A Scalable Video Search Engine?Based on Audio Content Indexing and Topic?Segmentation", CoRR. abs/1111.6265. 2011.
Kitae Hwang, In hwan Jung, and Jae Moon Lee,?"Construction of Metadata of Video for Effective?Video Search", International Journal of Computational?Vision and Robotics. Supposed to be published in?2023.
Vered Silber-Varod, Nitza Geri. "Can automatic?speech recognition be satisficing for audio/video?search? Keyword-focused analysis of Hebrew?automatic and manual transcription", Online Journal?of Applied Knowledge Management, A Publication of?the International Institute for Applied Knowledge?Management Vol. 2, Issue 1, pp. 104-121, 2014
Jing Thong, et al., "Speechbot: An experimental?speech-based search engine for multimedia content?on the Web", IEEE Transactions on Multimedia, Vol.?4. pp. 88-96.?DOI: https://doi.org/2002.10.1109/6046.985557.
Yeongbin Choi, Myeonggeun Ji, Sungryul Kim.(2021).?Online learning platform providing video content?search based on voice recognition, Proceedings of?KIIT Conference,(),537-539.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.