축구는 미디어 방송을 통해 사람들이 가장 즐기는 스포츠 중 하나로 자리매김했다. 이러한 인기 때문에, 방송사들은 요약된 매치 콘텐트를 생성하기 위한 가장 편리한 기술을 계속해서 찾고 있다. 이러한 목적을 위해 채택된 기술들 중 흔한 것은 전통적인 비디오 편집인데, 이것은 시간이 많이 걸리고 많은 기술이 필요하다. 그러므로, 이 연구는 축구 비디오 요약에 대한 딥 러닝 기술을 제시한다. 이 기술은 ...
축구는 미디어 방송을 통해 사람들이 가장 즐기는 스포츠 중 하나로 자리매김했다. 이러한 인기 때문에, 방송사들은 요약된 매치 콘텐트를 생성하기 위한 가장 편리한 기술을 계속해서 찾고 있다. 이러한 목적을 위해 채택된 기술들 중 흔한 것은 전통적인 비디오 편집인데, 이것은 시간이 많이 걸리고 많은 기술이 필요하다. 그러므로, 이 연구는 축구 비디오 요약에 대한 딥 러닝 기술을 제시한다. 이 기술은 3차원 (3D), 콜볼루션 신경망(CNN), Long Short-Term Memory(LSTM)-순환 신경망(RNN) 의 공간적 특성 학습 능력을 활용한다. 본 논문에서 제안된 접근법은 1) UCF101 데이터세트를 벤치마크하여 기존 모델보다 인간 행동을 더 잘 학습하는 3차원 잔류 신경망(3D-ResNet)를 통해 아키텍처를 단계별로 검색하고, 2) 5개의 축구 행동 부류를 기준으로 744개의 축구 클립을 수동으로 수집하고 분류하였으며 3) 3D-ResNet의 기능을 적용하여 축구 영상의 특징 추출 능력으로 확장하였고 4) 3D-ResNet을 통해 추출한 축구 영상 특징을 LSTM network를 통해 학습한다. 이 완성된 모델은 축구의 하이라이트 영상 인식을 위해 사용된다. 긴 축구 비디오를 요약하기 위해, 각 비디오는 연쇄된 비디오 세그먼트들의 연속된 집합체로 모델링되며 제작된 하이라이트 요약 비디오는 나누어진 비디오 세그먼트들의 적절성 검증을 기반으로 제작된다. 본 연구는 제안된 모델을 사용하여 요약하였고 10개의 처리되지 않은 축구 경기 비디오를 다운로드하여 시스템 평가에 사용하였으며 8개국에서 온 48명의 참가들이 요약된 비디오를 평가하였다. 평균 의견 점수 (MOS) 척도는 요약된 비디오를 평가하기 위해 사용되었다. 종합적으로, 요약된 비디오는 5점 만점에 4점을 받았는데 여기서 1점은 가장 낮은 점수 5점이 가장 높은 점수에 해당된다. 이 연구를 통해, 더 긴 비디오 클립이 신경 네트워크가 공간적 특징을 더 잘 배우도록 돕는다는 것이 확인되고 증명되었다. 하지만 긴 비디오 클립의 빈번한 장면 변화는 사건 중복과 같은 엄청난 문제를 야기한다. 이러한 문제점은 미래의 연구를 위한 기반이 된다. 최소한의 수정으로, 본 연구에서 다루어지는 요약 기술은 핸드볼 또는 네트볼과 같은 축구와 비슷한 스포츠에 적용될 수 있다.
축구는 미디어 방송을 통해 사람들이 가장 즐기는 스포츠 중 하나로 자리매김했다. 이러한 인기 때문에, 방송사들은 요약된 매치 콘텐트를 생성하기 위한 가장 편리한 기술을 계속해서 찾고 있다. 이러한 목적을 위해 채택된 기술들 중 흔한 것은 전통적인 비디오 편집인데, 이것은 시간이 많이 걸리고 많은 기술이 필요하다. 그러므로, 이 연구는 축구 비디오 요약에 대한 딥 러닝 기술을 제시한다. 이 기술은 3차원 (3D), 콜볼루션 신경망(CNN), Long Short-Term Memory(LSTM)-순환 신경망(RNN) 의 공간적 특성 학습 능력을 활용한다. 본 논문에서 제안된 접근법은 1) UCF101 데이터세트를 벤치마크하여 기존 모델보다 인간 행동을 더 잘 학습하는 3차원 잔류 신경망(3D-ResNet)를 통해 아키텍처를 단계별로 검색하고, 2) 5개의 축구 행동 부류를 기준으로 744개의 축구 클립을 수동으로 수집하고 분류하였으며 3) 3D-ResNet의 기능을 적용하여 축구 영상의 특징 추출 능력으로 확장하였고 4) 3D-ResNet을 통해 추출한 축구 영상 특징을 LSTM network를 통해 학습한다. 이 완성된 모델은 축구의 하이라이트 영상 인식을 위해 사용된다. 긴 축구 비디오를 요약하기 위해, 각 비디오는 연쇄된 비디오 세그먼트들의 연속된 집합체로 모델링되며 제작된 하이라이트 요약 비디오는 나누어진 비디오 세그먼트들의 적절성 검증을 기반으로 제작된다. 본 연구는 제안된 모델을 사용하여 요약하였고 10개의 처리되지 않은 축구 경기 비디오를 다운로드하여 시스템 평가에 사용하였으며 8개국에서 온 48명의 참가들이 요약된 비디오를 평가하였다. 평균 의견 점수 (MOS) 척도는 요약된 비디오를 평가하기 위해 사용되었다. 종합적으로, 요약된 비디오는 5점 만점에 4점을 받았는데 여기서 1점은 가장 낮은 점수 5점이 가장 높은 점수에 해당된다. 이 연구를 통해, 더 긴 비디오 클립이 신경 네트워크가 공간적 특징을 더 잘 배우도록 돕는다는 것이 확인되고 증명되었다. 하지만 긴 비디오 클립의 빈번한 장면 변화는 사건 중복과 같은 엄청난 문제를 야기한다. 이러한 문제점은 미래의 연구를 위한 기반이 된다. 최소한의 수정으로, 본 연구에서 다루어지는 요약 기술은 핸드볼 또는 네트볼과 같은 축구와 비슷한 스포츠에 적용될 수 있다.
Soccer has established itself as one of the most enjoyed sport via media broadcast. Due to its popularity, broadcasters continue to search for the most convenient technique for generating summarised match content. Common among the techniques employed for this purpose is traditional video editing, wh...
Soccer has established itself as one of the most enjoyed sport via media broadcast. Due to its popularity, broadcasters continue to search for the most convenient technique for generating summarised match content. Common among the techniques employed for this purpose is traditional video editing, which is time-consuming and requires great skill. This research, therefore, presents a deep learning approach to soccer video summarization. It leverages the spatiotemporal feature learning ability of three-dimensional (3D) Convolutional Neural Network (CNN) and Long Short-Term Memory (LSTM) – Recurrent Neural Network (RNN). The proposed approach involves 1) a step-by-step search for a three-dimensional Residual Neural Network (3D-ResNet) architecture that learns human actions better than existing benchmark models on UCF101 dataset, 2) manually collecting and annotating 744 soccer clips based on five soccer action classes, 3) extending the capabilities of 3D-ResNet as a feature extractor for soccer clips, and 4) training an LSTM network with soccer features extracted by 3D-ResNet. This complete model is used for soccer highlight recognition. To summarise long soccer videos, each video is modelled as a sequential collection of concatenated video segments, thus, enabling a segment to be treated as a highlight whose inclusion in a summary video production is based on its validated relevance. For system evaluation, ten complete soccer match videos were downloaded and summarised using the proposed model. 48 participants drawn from 8 countries evaluated the summarised videos. Collectively, the summarised videos received a 4 of 5 rating, where 1 and 5 are the lowest and highest scores respectively. Through this research, it has been identified and proven that longer video clips help neural networks to learn spatiotemporal features better. However, frequent scene changes in long video clips present enormous challenges, such as event overlapping. These challenges are the foundation for future works. With minimal modification, this summarization technique can be applied to soccer-related sports such as handball and netball.
Soccer has established itself as one of the most enjoyed sport via media broadcast. Due to its popularity, broadcasters continue to search for the most convenient technique for generating summarised match content. Common among the techniques employed for this purpose is traditional video editing, which is time-consuming and requires great skill. This research, therefore, presents a deep learning approach to soccer video summarization. It leverages the spatiotemporal feature learning ability of three-dimensional (3D) Convolutional Neural Network (CNN) and Long Short-Term Memory (LSTM) – Recurrent Neural Network (RNN). The proposed approach involves 1) a step-by-step search for a three-dimensional Residual Neural Network (3D-ResNet) architecture that learns human actions better than existing benchmark models on UCF101 dataset, 2) manually collecting and annotating 744 soccer clips based on five soccer action classes, 3) extending the capabilities of 3D-ResNet as a feature extractor for soccer clips, and 4) training an LSTM network with soccer features extracted by 3D-ResNet. This complete model is used for soccer highlight recognition. To summarise long soccer videos, each video is modelled as a sequential collection of concatenated video segments, thus, enabling a segment to be treated as a highlight whose inclusion in a summary video production is based on its validated relevance. For system evaluation, ten complete soccer match videos were downloaded and summarised using the proposed model. 48 participants drawn from 8 countries evaluated the summarised videos. Collectively, the summarised videos received a 4 of 5 rating, where 1 and 5 are the lowest and highest scores respectively. Through this research, it has been identified and proven that longer video clips help neural networks to learn spatiotemporal features better. However, frequent scene changes in long video clips present enormous challenges, such as event overlapping. These challenges are the foundation for future works. With minimal modification, this summarization technique can be applied to soccer-related sports such as handball and netball.
주제어
#Soccer highlight Video Summarization Deep Learning
학위논문 정보
저자
Agyeman Rockson
학위수여기관
영남대학교 대학원
학위구분
국내석사
학과
정보통신공학과 정보통신공학전공
지도교수
최규상
발행연도
2019
총페이지
ix, 58 p.
키워드
Soccer highlight Video Summarization Deep Learning
※ AI-Helper는 부적절한 답변을 할 수 있습니다.