본 논문에서는 오디오 정보 분석을 이용하여 골프 통영상을 자동 색인하는 알고리즘을 제안한다. 제안하는 알고리즘에서는 입력되는 골프 동영상을 비디오 신호와 오디오 신호로 분리한 후에, 연속적인 오디오 스트림을 AdaboostCascade 분류방식을 통하여 스튜디오 환경에서의 아나운서의 음성구간, 선수이름이 TV 화면에 소개 될 때 수반되는 음악구간, 선수들의 플레이에 따라 반응하는 관중들의 박수 및 환호성 소리구간, 필드에서의 레포터의 음성구간, 바다나 바람 등의 필드환경 잡음 사운드구간 등의 5가지 구간으로 분류한다. 그리고 드라이브 샷, 아이런 샷과 퍼팅 샷 시에 발생하는 스윙 사운드는 onset 검출과 변조스펙트럼 검증 방법을 통해 검출되며, 관객의 박수 소리 구간과 결합하여 액션 및 하이라이트를 효율적으로 색인할 수 있게 한다. 제안된 알고리즘은 오디오 신호의 간단한 연산을 통해 의미를 지니고 있는 기본구조들을 검출하기 때문에 골프 동영상에서 사용자가 원하는 부분을 빠르게 브라우징하는 임베이디드 시스템에 적용가능하다.
본 논문에서는 오디오 정보 분석을 이용하여 골프 통영상을 자동 색인하는 알고리즘을 제안한다. 제안하는 알고리즘에서는 입력되는 골프 동영상을 비디오 신호와 오디오 신호로 분리한 후에, 연속적인 오디오 스트림을 Adaboost Cascade 분류방식을 통하여 스튜디오 환경에서의 아나운서의 음성구간, 선수이름이 TV 화면에 소개 될 때 수반되는 음악구간, 선수들의 플레이에 따라 반응하는 관중들의 박수 및 환호성 소리구간, 필드에서의 레포터의 음성구간, 바다나 바람 등의 필드환경 잡음 사운드구간 등의 5가지 구간으로 분류한다. 그리고 드라이브 샷, 아이런 샷과 퍼팅 샷 시에 발생하는 스윙 사운드는 onset 검출과 변조스펙트럼 검증 방법을 통해 검출되며, 관객의 박수 소리 구간과 결합하여 액션 및 하이라이트를 효율적으로 색인할 수 있게 한다. 제안된 알고리즘은 오디오 신호의 간단한 연산을 통해 의미를 지니고 있는 기본구조들을 검출하기 때문에 골프 동영상에서 사용자가 원하는 부분을 빠르게 브라우징하는 임베이디드 시스템에 적용가능하다.
This paper proposes an automatic indexing algorithm of golf video using audio information. In the proposed algorithm, the input audio stream is demultiplexed into the stream of video and audio. By means of Adaboost-cascade classifier, the continuous audio stream is classified into announcer's speech...
This paper proposes an automatic indexing algorithm of golf video using audio information. In the proposed algorithm, the input audio stream is demultiplexed into the stream of video and audio. By means of Adaboost-cascade classifier, the continuous audio stream is classified into announcer's speech segment recorded in studio, music segment accompanied with players' names on TV screen, reaction segment of audience according to the play, reporter's speech segment with field background, filed noise segment like wind or waves. And golf swing sound including drive shot, iron shot, and putting shot is detected by the method of impulse onset detection and modulation spectrum verification. The detected swing and applause are used effectively to index action or highlight unit. Compared with video based semantic analysis, main advantage of the proposed system is its small computation requirement so that it facilitates to apply the technology to embedded consumer electronic devices for fast browsing.
This paper proposes an automatic indexing algorithm of golf video using audio information. In the proposed algorithm, the input audio stream is demultiplexed into the stream of video and audio. By means of Adaboost-cascade classifier, the continuous audio stream is classified into announcer's speech segment recorded in studio, music segment accompanied with players' names on TV screen, reaction segment of audience according to the play, reporter's speech segment with field background, filed noise segment like wind or waves. And golf swing sound including drive shot, iron shot, and putting shot is detected by the method of impulse onset detection and modulation spectrum verification. The detected swing and applause are used effectively to index action or highlight unit. Compared with video based semantic analysis, main advantage of the proposed system is its small computation requirement so that it facilitates to apply the technology to embedded consumer electronic devices for fast browsing.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 논문에서는 onset 검출과 변조스펙트럼 방법을 이용하여 스윙으로 인해 발생하는 임펙트 소리를 검출한다. 이 러한 과정은 두 단계로 수행된다.
본 논문에서는 오디오 정보를 기반으로 골프 동영상을 여러 개의 의미를 지니고 있는 기본구간 별로 자동 색인하는 알고리즘을 제안한다. 골프 프로그램의 구조는 스튜디오 음성, 필드 음성, 음악, 관객의 박수 배경 필드 등의 여러 개의 의미를 지니고 있는 기본 구간으로 구성되어 있다 이 중에서 스윙과 관객의 박수 소리는 하나의 액션 구간을 구성한다.
본 논문에서는 축구나 야구경기보다 배경잡음이 상대적으로 조용한 골프 동영상에서 오디오 신호 분석을 통해 사용자가 찾고자 하는 구간 및 사용자가 선호하는 하이라이트와 같은 액션구간이 포함된 의미적 기본구간들을 검출하는 알고리즘을 제안한다.
가설 설정
본 논문에서는 통계적인 방법 적용에 있어서 H1 (스윙으로 발생한 이벤트)와 H0 (스윙으로 발생하지 않은 이벤트의 두 가지의 이벤트 발생을 가정하고, Hl, H0의 파라미터를 주정하기 위해 Standard Gaussian Mixtures를 사용하였다. Hl 가정의 모델은 학습 데이터 내의 스윙 이벤트의 특징 값을 바탕으로 학습되고 H0 가정의 모델은 스윙 이벤트 검출에 실패한 특징 값으로 생성된다. 스윙 발생 결정과정은 onset 후보로부터 GMM (Gaussian Mixture Models)에 의해 계산된 H1과 H0의 우도비의 차이와 사전에 정의된 임계값과 비교하여 이벤트 발생을 과。을 통해 스윙 검출을 결정하게 된다.
제안 방법
1초 단위의 오디오 클립을 분류한 결과는 다시 STD, SOM, APP, SPG, SIL의 5개의 의미구간으로 조정 분할된다 조정 분할에 있어서 9OM은 대부분 10초 이상 지속되기 때문에 지속시간에 의존하여 측정되고, 명확한 시작과 끝점을 보유하고 있어 측정이 용이하다. APP는 1초에서 15초 내에 지속시간이 복합되어 있으며, 기본 구간의 전후에 자주 위치하고, 특정한 규칙 없이 산발적으로 분포하여 시작과 끝점이 명확하지 않으므로 박수 회수를 측정하였다. 표 2는 의미기반 기본구간 조정분할의 성능을 나타낸다.
검출된 스윙 구간과 중요 이벤트와 관련되는 관중들의 APP에 의해 주줄된 Exciting Hit, Good Hit, Ordinary Hit 등의 세 가지의 Action Unit를 결합하여 하이라이트 요약본을 자동으로 색인한다. 때때로 검출된 APP의 위치를 보면 스윙구간에 근접하지 않게 발생하는 2가지 경우가 있다.
구간별 오디오 분류는 Support Vector Machine (SVM) 기반의 AdaBoost Cascade 분류구조 [6]를 이용하여 오디오 신호를 STD, SOM, APP, SPC, SIL 등의 5개의 정의된 구간으로 각각 자동 분류한다. 본 논문에서는 Linear SVM 을 이용하여 학습된 모델을 생성하였다.
이러한 방법은 적절하지 못한 시간 동안 지속되거나 불가능한 장소에서 발생하는 의미 없는 기본구간을 제거할 수 있게 한다. 또한, 의미 없는 기본 구간을 합치면서 적절한 시간과 위치에 있는 하나의 완전한 기본구간 중의 하나로 결합하고, 하나의 기본구간을 시간과 위치에 어울리는 형태의 기본구간으로 바꿔 준다.
Cascade 각 층에서는 분류속도와 성능을 고려하여 정해진 하나의 기본구간 클래스에 대해 모델을 생성하고 다른 나머지 클래스로부터 또 다른 하나의 모델을 생성하여 입력된 1초 단위의 오디오 클립을 하나의 클래스로 분류하게 된다. 본 논문에서는 5개의 기본구간을 사용하기 때문에 5개의 층으로 이루어진 cascade 분류구조를 통해 입력된 오디오 클립을 5개의 기본 구간 중에 하나로 분류한다.
구간별 오디오 분류는 Support Vector Machine (SVM) 기반의 AdaBoost Cascade 분류구조 [6]를 이용하여 오디오 신호를 STD, SOM, APP, SPC, SIL 등의 5개의 정의된 구간으로 각각 자동 분류한다. 본 논문에서는 Linear SVM 을 이용하여 학습된 모델을 생성하였다. 커널을 사용하는 형태의 다른 SVM의 경우에는 커널 적용 및 서포트 벡터와의 계산 때문에 연산량이 많아 실시간 검출이 불가능하다.
입력되는 골프 동영상 스트림은 신호분배기에 의해 영상 신호와 오디오 신호로 각각 분리된다. 분리된 오디오 신호의 AC-3 Audio Encoder에 의해 추출된 MDCT (Modified Discrete Cosine Transform) 계수를 기반으로 오디오 특징값을 추출한다. MDCT는 부분 압축영역에서 추출되는 오디오 계수로서 MDCT 계수를 이용하여 사용하고자 하는 오디오 특징값을 추출함으로써 비 압축영역으로 전환하여 오디오 특징값을 추출하는 신호처리 시간을 단축할 수 있게 된다.
신호 에너지의 갑작스런 증가로 나타나는 급격하게 짧게 발생하는 소리의 시작을 나타내는 Onset 검출과 변조 스펙트럼 방법을 이용하여 MDCT 계수로부터 스윙으로 인해 발생하는 임펙트 소리를 검출한다. 오디오 분류를 통해 검출된 APP 구간과 스윙 검출구간 (SWN)o] 결합되어 중요구간인 액션구간 (ACT)을 구성하며 하이라이트의 흥미로움 정도에 따른 최종 결과는 랭킹화되어 자동적으로 리플레이를 위한 하이라이트의 집합을 이루게 된다 각 검출된 STD, SOM, SPC, ACT 구간의 처음 시작점과 끝점은 골프동영상과 동기화되어 색인된다.
그 중에서 20개의 동영상이 학습에 사용되었고 나머지 20개의 동영상들을 대상으로 성능을 평가하였다. 실험을 위해 수집된 16 kH五로 녹화된 골프동영상의 오디오 스트림은 AC-3 오디오 인코더를 위해 44.1 k压 샘플링 신호로 변환하여 STD, SOM, SPC, APP, SIL의 5개의 기본 구간으로 라벨화 되었으며, 기본구간을 기반으로 EH, GH, OH 구간에 대해서도 라벨화를 수행하였다. 본 논문에서는 구간별 오디오 분류, 기본구간 조정 분할, 하이라이트와 같은 액션구간 검출을 통해 제안한 알고리즘의 성능을 측정하였으며, 시스템의 성능 평가를 위해서는 널리 알려진 precision과 recall 방식을 사용하였다.
연속된 오디오 신호를 1초 단위의 오디오 클립으로 나누어 STD, SOM, APP, SPC, SIL 등의 5개의 정의된 구간으로 분류하기 위해 본 논문에서 사용된 SVM 기반의 cascade 오디오 분류구조를 GMM 기반의 cascade 구조와 [1]에서 사용된 방식과 비교하여 분류성능을 측정하였다. 10개의 골프 동영상에 포함된 연속적인 오디오 신호를 1초 단위의 오디오 클립으로 나누어 실험을 수행한 결과는 표 1과 같다.
신호 에너지의 갑작스런 증가로 나타나는 급격하게 짧게 발생하는 소리의 시작을 나타내는 Onset 검출과 변조 스펙트럼 방법을 이용하여 MDCT 계수로부터 스윙으로 인해 발생하는 임펙트 소리를 검출한다. 오디오 분류를 통해 검출된 APP 구간과 스윙 검출구간 (SWN)o] 결합되어 중요구간인 액션구간 (ACT)을 구성하며 하이라이트의 흥미로움 정도에 따른 최종 결과는 랭킹화되어 자동적으로 리플레이를 위한 하이라이트의 집합을 이루게 된다 각 검출된 STD, SOM, SPC, ACT 구간의 처음 시작점과 끝점은 골프동영상과 동기화되어 색인된다.
오디오 특징은 AC-3 audio encoder에 의해 추출된 MDCT 계수로부터 1초 길이의 오디오 세그멘트 별로 1차의 RMS Energy, 23차의 Normalized Logarithmic MDCT(NLMDCT), 4차의 Delta NLMDCT, 2차의 SE23를 결합하여 하나의 특징벡터를 추출하여 사용한다. 특히, Delta NLMQT와 SE23는 아나운서의 목소리가 주변잡음환경에 섞여있는 골프 필드의 주변 잡음환경소음으로부터 아나운서의 음성을 구분할 수 있게 한다.
MDCT는 부분 압축영역에서 추출되는 오디오 계수로서 MDCT 계수를 이용하여 사용하고자 하는 오디오 특징값을 추출함으로써 비 압축영역으로 전환하여 오디오 특징값을 추출하는 신호처리 시간을 단축할 수 있게 된다. 추출된 오디오 특징값을 이용하여 연속된 오디오 신호는 STD, SOM, APP, SPC, SIL등의 5가지 기본구간으로 자동 분할된다.
대상 데이터
본 논문에서 제안된 시스템의 성능을 평가하기 위해 스포츠 채널에서 녹화한 총 64시간 이상의 40개 골프 동영상들을 사용하였다. 그 중에서 20개의 동영상이 학습에 사용되었고 나머지 20개의 동영상들을 대상으로 성능을 평가하였다. 실험을 위해 수집된 16 kH五로 녹화된 골프동영상의 오디오 스트림은 AC-3 오디오 인코더를 위해 44.
본 논문에서 제안된 시스템의 성능을 평가하기 위해 스포츠 채널에서 녹화한 총 64시간 이상의 40개 골프 동영상들을 사용하였다. 그 중에서 20개의 동영상이 학습에 사용되었고 나머지 20개의 동영상들을 대상으로 성능을 평가하였다.
데이터처리
최종적으로 추출된 변조스펙트럼 스케일 특징 행렬값에 통계적인 방법을 적용하여 스윙 이벤트를 검출한다. 본 논문에서는 통계적인 방법 적용에 있어서 H1 (스윙으로 발생한 이벤트)와 H0 (스윙으로 발생하지 않은 이벤트의 두 가지의 이벤트 발생을 가정하고, Hl, H0의 파라미터를 주정하기 위해 Standard Gaussian Mixtures를 사용하였다.
이론/모형
1 k压 샘플링 신호로 변환하여 STD, SOM, SPC, APP, SIL의 5개의 기본 구간으로 라벨화 되었으며, 기본구간을 기반으로 EH, GH, OH 구간에 대해서도 라벨화를 수행하였다. 본 논문에서는 구간별 오디오 분류, 기본구간 조정 분할, 하이라이트와 같은 액션구간 검출을 통해 제안한 알고리즘의 성능을 측정하였으며, 시스템의 성능 평가를 위해서는 널리 알려진 precision과 recall 방식을 사용하였다. 실험결과는 다음과 같다.
최종적으로 추출된 변조스펙트럼 스케일 특징 행렬값에 통계적인 방법을 적용하여 스윙 이벤트를 검출한다. 본 논문에서는 통계적인 방법 적용에 있어서 H1 (스윙으로 발생한 이벤트)와 H0 (스윙으로 발생하지 않은 이벤트의 두 가지의 이벤트 발생을 가정하고, Hl, H0의 파라미터를 주정하기 위해 Standard Gaussian Mixtures를 사용하였다. Hl 가정의 모델은 학습 데이터 내의 스윙 이벤트의 특징 값을 바탕으로 학습되고 H0 가정의 모델은 스윙 이벤트 검출에 실패한 특징 값으로 생성된다.
성능/효과
1초 단위의 오디오 클립을 분류한 결과는 다시 STD, SOM, APP, SPG, SIL의 5개의 의미구간으로 조정 분할된다 조정 분할에 있어서 9OM은 대부분 10초 이상 지속되기 때문에 지속시간에 의존하여 측정되고, 명확한 시작과 끝점을 보유하고 있어 측정이 용이하다. APP는 1초에서 15초 내에 지속시간이 복합되어 있으며, 기본 구간의 전후에 자주 위치하고, 특정한 규칙 없이 산발적으로 분포하여 시작과 끝점이 명확하지 않으므로 박수 회수를 측정하였다.
결과를 살펴보면 STD는 매우 높은 검출 성능을 나타냈으며 SOM은 11.4%의 오류를 보였고, 반면에 하이라이트 검출에 많은 영향을 미치는 APP의 검출성능은 우수하게 나타남을 알 수 있다.
그리하여 향후 연구방향은 SWN의 검출 성능을 높이는 방법에 집중할 계획이다. 그러나 다행스럽게도 하이라이트 검출에 많은 영향을 미치는 APP의 검출성능은 우수하게 나타났으며 OH보다 보다 GH와 EH의 검색 성능이 우수함을 확인 할 수 있었다. 그렇기 때문에 사용자가 good hit인 GH와 exciting hit인 EH를 시청하고자 한다면 충분히 만족할 만한 결과를 얻을 수 있을 것이다.
최종적으로 하이라이트 검출에 많은 영향을 미치는 관객의 박수소리의 검출 성능이 높게 나타나면서 전체적으로 신뢰할 만한 액션구간 검출 결과를 얻을 수 있었다. 전체적으로 good hit와 exciting hit은 98% 이상의 precision과 recall의 우수한 성능을 얻을 수 있었다. 또한 제안된 시스템은 오디오 정보만을 사용하여 하이라이트를 검출하기 때문에 연산량을 크게 감소 시켜 향후 임베디드 가전제품에 적용될 수 있다.
스윙은 갑작스러운 onset 검출과 변조스펙트럼 검증 과정의 평균에 의해서 검출되며 나머지는 기본 구간의 통계적인 모델에 의해서 인식된다. 최종적으로 하이라이트 검출에 많은 영향을 미치는 관객의 박수소리의 검출 성능이 높게 나타나면서 전체적으로 신뢰할 만한 액션구간 검출 결과를 얻을 수 있었다. 전체적으로 good hit와 exciting hit은 98% 이상의 precision과 recall의 우수한 성능을 얻을 수 있었다.
표 1에 나탄난 바와 같이 Adaboost cascade 학습기반을 이용한 SV时과 GMM 빙식 이 I기의 GMM만을 사용한 방식보다 분류정확도가 높았으며, 같은 cascade 구조에서는 SVM 방식이 GMM 방식보다 분류성능이 4% 높음을 알 수 있었다.
후속연구
그러나 다행스럽게도 하이라이트 검출에 많은 영향을 미치는 APP의 검출성능은 우수하게 나타났으며 OH보다 보다 GH와 EH의 검색 성능이 우수함을 확인 할 수 있었다. 그렇기 때문에 사용자가 good hit인 GH와 exciting hit인 EH를 시청하고자 한다면 충분히 만족할 만한 결과를 얻을 수 있을 것이다.
대부분의 SWN이 검출되었으나 절반정도가 잘못 검출된 이유를 살펴보면 아나운서의 감탄사나 음악에서의 강한비트, 갑자기 발생한 박수소리, 클럽이 바닥에 떨어지는 소리, 골프공이 바닥에 떨어지는 소리 녹화하는 채널의 클릭 소리 등의 갑자기 발생하는 강한 사운드가 SWN 검출에 많은 영향을 미쳤다고 판단된다. 그리하여 향후 연구방향은 SWN의 검출 성능을 높이는 방법에 집중할 계획이다. 그러나 다행스럽게도 하이라이트 검출에 많은 영향을 미치는 APP의 검출성능은 우수하게 나타났으며 OH보다 보다 GH와 EH의 검색 성능이 우수함을 확인 할 수 있었다.
전체적으로 good hit와 exciting hit은 98% 이상의 precision과 recall의 우수한 성능을 얻을 수 있었다. 또한 제안된 시스템은 오디오 정보만을 사용하여 하이라이트를 검출하기 때문에 연산량을 크게 감소 시켜 향후 임베디드 가전제품에 적용될 수 있다.
참고문헌 (6)
I. Otsuka, R. Radhakrishnan, M. Siracusa, A. Divakaran, and H. Mishima, "An enhanced video summarization system using audio features for a personal video recorder," IEEE Transactions on Consumer Electronics, vol. 52, no. 1, pp. 168-172, 2006
A. Ekin, A. M. Tekalp, and R. Mehrotra, "Automatic soccer video analysis and summarization," IEEE Transactions on Image Processing, vol. 12, no. 7, pp. 796-807, 2003
D. Zhang, and S. F. Chang, "Event detection in baseball video using superimposed caption recognition," Proc. of 10th ACM international Conf. on Multimedia, Juan-les-Pins, France, pp. 315-318, Dec. 2002
D. A. Sadlier, and N. E. O’Connor, "Event detection in field sports video using audio-visual features and a support vector machine," IEEE Transactions on Circuits and Systems for Video Technology, vol. 15, no. 10. pp. 1225-1233, 2005
H.-G. Kim, J. Jeong, J.-H. Kim, and J. Kim, "Real-time highlight detection in basebaI video for TVs with time-shift function," IEEE Transactions on Consumer Electronics, vol. 54, no. 2, pp. 831-838, 2008
S. Ravindran, D. V. Anderson, and J. Rehg, "Cascade jump support vector mactine dassifiers," IEEE Workshop on Machine Learning for Signal Processing, pp. 135-139, Sep. 2005
※ AI-Helper는 부적절한 답변을 할 수 있습니다.