[논문]오디오 정보를 이용한 골프 동영상 자동 색인 알고리즘

김형국

문제 정의

본 논문에서는 onset 검출과 변조스펙트럼 방법을 이용하여 스윙으로 인해 발생하는 임펙트 소리를 검출한다. 이 러한 과정은 두 단계로 수행된다.
본 논문에서는 오디오 정보를 기반으로 골프 동영상을 여러 개의 의미를 지니고 있는 기본구간 별로 자동 색인하는 알고리즘을 제안한다. 골프 프로그램의 구조는 스튜디오 음성, 필드 음성, 음악, 관객의 박수 배경 필드 등의 여러 개의 의미를 지니고 있는 기본 구간으로 구성되어 있다 이 중에서 스윙과 관객의 박수 소리는 하나의 액션 구간을 구성한다.
본 논문에서는 축구나 야구경기보다 배경잡음이 상대적으로 조용한 골프 동영상에서 오디오 신호 분석을 통해 사용자가 찾고자 하는 구간 및 사용자가 선호하는 하이라이트와 같은 액션구간이 포함된 의미적 기본구간들을 검출하는 알고리즘을 제안한다.

가설 설정

본 논문에서는 통계적인 방법 적용에 있어서 H1 (스윙으로 발생한 이벤트)와 H0 (스윙으로 발생하지 않은 이벤트의 두 가지의 이벤트 발생을 가정하고, Hl, H0의 파라미터를 주정하기 위해 Standard Gaussian Mixtures를 사용하였다. Hl 가정의 모델은 학습 데이터 내의 스윙 이벤트의 특징 값을 바탕으로 학습되고 H0 가정의 모델은 스윙 이벤트 검출에 실패한 특징 값으로 생성된다. 스윙 발생 결정과정은 onset 후보로부터 GMM (Gaussian Mixture Models)에 의해 계산된 H1과 H0의 우도비의 차이와 사전에 정의된 임계값과 비교하여 이벤트 발생을 과。을 통해 스윙 검출을 결정하게 된다.

제안 방법

1초 단위의 오디오 클립을 분류한 결과는 다시 STD, SOM, APP, SPG, SIL의 5개의 의미구간으로 조정 분할된다 조정 분할에 있어서 9OM은 대부분 10초 이상 지속되기 때문에 지속시간에 의존하여 측정되고, 명확한 시작과 끝점을 보유하고 있어 측정이 용이하다. APP는 1초에서 15초 내에 지속시간이 복합되어 있으며, 기본 구간의 전후에 자주 위치하고, 특정한 규칙 없이 산발적으로 분포하여 시작과 끝점이 명확하지 않으므로 박수 회수를 측정하였다. 표 2는 의미기반 기본구간 조정분할의 성능을 나타낸다.
검출된 스윙 구간과 중요 이벤트와 관련되는 관중들의 APP에 의해 주줄된 Exciting Hit, Good Hit, Ordinary Hit 등의 세 가지의 Action Unit를 결합하여 하이라이트 요약본을 자동으로 색인한다. 때때로 검출된 APP의 위치를 보면 스윙구간에 근접하지 않게 발생하는 2가지 경우가 있다.
구간별 오디오 분류는 Support Vector Machine (SVM) 기반의 AdaBoost Cascade 분류구조 [6]를 이용하여 오디오 신호를 STD, SOM, APP, SPC, SIL 등의 5개의 정의된 구간으로 각각 자동 분류한다. 본 논문에서는 Linear SVM 을 이용하여 학습된 모델을 생성하였다.
이러한 방법은 적절하지 못한 시간 동안 지속되거나 불가능한 장소에서 발생하는 의미 없는 기본구간을 제거할 수 있게 한다. 또한, 의미 없는 기본 구간을 합치면서 적절한 시간과 위치에 있는 하나의 완전한 기본구간 중의 하나로 결합하고, 하나의 기본구간을 시간과 위치에 어울리는 형태의 기본구간으로 바꿔 준다.
Cascade 각 층에서는 분류속도와 성능을 고려하여 정해진 하나의 기본구간 클래스에 대해 모델을 생성하고 다른 나머지 클래스로부터 또 다른 하나의 모델을 생성하여 입력된 1초 단위의 오디오 클립을 하나의 클래스로 분류하게 된다. 본 논문에서는 5개의 기본구간을 사용하기 때문에 5개의 층으로 이루어진 cascade 분류구조를 통해 입력된 오디오 클립을 5개의 기본 구간 중에 하나로 분류한다.
구간별 오디오 분류는 Support Vector Machine (SVM) 기반의 AdaBoost Cascade 분류구조 [6]를 이용하여 오디오 신호를 STD, SOM, APP, SPC, SIL 등의 5개의 정의된 구간으로 각각 자동 분류한다. 본 논문에서는 Linear SVM 을 이용하여 학습된 모델을 생성하였다. 커널을 사용하는 형태의 다른 SVM의 경우에는 커널 적용 및 서포트 벡터와의 계산 때문에 연산량이 많아 실시간 검출이 불가능하다.
입력되는 골프 동영상 스트림은 신호분배기에 의해 영상 신호와 오디오 신호로 각각 분리된다. 분리된 오디오 신호의 AC-3 Audio Encoder에 의해 추출된 MDCT (Modified Discrete Cosine Transform) 계수를 기반으로 오디오 특징값을 추출한다. MDCT는 부분 압축영역에서 추출되는 오디오 계수로서 MDCT 계수를 이용하여 사용하고자 하는 오디오 특징값을 추출함으로써 비 압축영역으로 전환하여 오디오 특징값을 추출하는 신호처리 시간을 단축할 수 있게 된다.
신호 에너지의 갑작스런 증가로 나타나는 급격하게 짧게 발생하는 소리의 시작을 나타내는 Onset 검출과 변조 스펙트럼 방법을 이용하여 MDCT 계수로부터 스윙으로 인해 발생하는 임펙트 소리를 검출한다. 오디오 분류를 통해 검출된 APP 구간과 스윙 검출구간 (SWN)o] 결합되어 중요구간인 액션구간 (ACT)을 구성하며 하이라이트의 흥미로움 정도에 따른 최종 결과는 랭킹화되어 자동적으로 리플레이를 위한 하이라이트의 집합을 이루게 된다 각 검출된 STD, SOM, SPC, ACT 구간의 처음 시작점과 끝점은 골프동영상과 동기화되어 색인된다.
그 중에서 20개의 동영상이 학습에 사용되었고 나머지 20개의 동영상들을 대상으로 성능을 평가하였다. 실험을 위해 수집된 16 kH五로 녹화된 골프동영상의 오디오 스트림은 AC-3 오디오 인코더를 위해 44.1 k压 샘플링 신호로 변환하여 STD, SOM, SPC, APP, SIL의 5개의 기본 구간으로 라벨화 되었으며, 기본구간을 기반으로 EH, GH, OH 구간에 대해서도 라벨화를 수행하였다. 본 논문에서는 구간별 오디오 분류, 기본구간 조정 분할, 하이라이트와 같은 액션구간 검출을 통해 제안한 알고리즘의 성능을 측정하였으며, 시스템의 성능 평가를 위해서는 널리 알려진 precision과 recall 방식을 사용하였다.
연속된 오디오 신호를 1초 단위의 오디오 클립으로 나누어 STD, SOM, APP, SPC, SIL 등의 5개의 정의된 구간으로 분류하기 위해 본 논문에서 사용된 SVM 기반의 cascade 오디오 분류구조를 GMM 기반의 cascade 구조와 [1]에서 사용된 방식과 비교하여 분류성능을 측정하였다. 10개의 골프 동영상에 포함된 연속적인 오디오 신호를 1초 단위의 오디오 클립으로 나누어 실험을 수행한 결과는 표 1과 같다.
신호 에너지의 갑작스런 증가로 나타나는 급격하게 짧게 발생하는 소리의 시작을 나타내는 Onset 검출과 변조 스펙트럼 방법을 이용하여 MDCT 계수로부터 스윙으로 인해 발생하는 임펙트 소리를 검출한다. 오디오 분류를 통해 검출된 APP 구간과 스윙 검출구간 (SWN)o] 결합되어 중요구간인 액션구간 (ACT)을 구성하며 하이라이트의 흥미로움 정도에 따른 최종 결과는 랭킹화되어 자동적으로 리플레이를 위한 하이라이트의 집합을 이루게 된다 각 검출된 STD, SOM, SPC, ACT 구간의 처음 시작점과 끝점은 골프동영상과 동기화되어 색인된다.
오디오 특징은 AC-3 audio encoder에 의해 추출된 MDCT 계수로부터 1초 길이의 오디오 세그멘트 별로 1차의 RMS Energy, 23차의 Normalized Logarithmic MDCT(NLMDCT), 4차의 Delta NLMDCT, 2차의 SE₂₃를 결합하여 하나의 특징벡터를 추출하여 사용한다. 특히, Delta NLMQT와 SE₂₃는 아나운서의 목소리가 주변잡음환경에 섞여있는 골프 필드의 주변 잡음환경소음으로부터 아나운서의 음성을 구분할 수 있게 한다.
MDCT는 부분 압축영역에서 추출되는 오디오 계수로서 MDCT 계수를 이용하여 사용하고자 하는 오디오 특징값을 추출함으로써 비 압축영역으로 전환하여 오디오 특징값을 추출하는 신호처리 시간을 단축할 수 있게 된다. 추출된 오디오 특징값을 이용하여 연속된 오디오 신호는 STD, SOM, APP, SPC, SIL등의 5가지 기본구간으로 자동 분할된다.

대상 데이터

본 논문에서 제안된 시스템의 성능을 평가하기 위해 스포츠 채널에서 녹화한 총 64시간 이상의 40개 골프 동영상들을 사용하였다. 그 중에서 20개의 동영상이 학습에 사용되었고 나머지 20개의 동영상들을 대상으로 성능을 평가하였다. 실험을 위해 수집된 16 kH五로 녹화된 골프동영상의 오디오 스트림은 AC-3 오디오 인코더를 위해 44.
본 논문에서 제안된 시스템의 성능을 평가하기 위해 스포츠 채널에서 녹화한 총 64시간 이상의 40개 골프 동영상들을 사용하였다. 그 중에서 20개의 동영상이 학습에 사용되었고 나머지 20개의 동영상들을 대상으로 성능을 평가하였다.

데이터처리

최종적으로 추출된 변조스펙트럼 스케일 특징 행렬값에 통계적인 방법을 적용하여 스윙 이벤트를 검출한다. 본 논문에서는 통계적인 방법 적용에 있어서 H1 (스윙으로 발생한 이벤트)와 H0 (스윙으로 발생하지 않은 이벤트의 두 가지의 이벤트 발생을 가정하고, Hl, H0의 파라미터를 주정하기 위해 Standard Gaussian Mixtures를 사용하였다.

이론/모형

1 k压 샘플링 신호로 변환하여 STD, SOM, SPC, APP, SIL의 5개의 기본 구간으로 라벨화 되었으며, 기본구간을 기반으로 EH, GH, OH 구간에 대해서도 라벨화를 수행하였다. 본 논문에서는 구간별 오디오 분류, 기본구간 조정 분할, 하이라이트와 같은 액션구간 검출을 통해 제안한 알고리즘의 성능을 측정하였으며, 시스템의 성능 평가를 위해서는 널리 알려진 precision과 recall 방식을 사용하였다. 실험결과는 다음과 같다.
최종적으로 추출된 변조스펙트럼 스케일 특징 행렬값에 통계적인 방법을 적용하여 스윙 이벤트를 검출한다. 본 논문에서는 통계적인 방법 적용에 있어서 H1 (스윙으로 발생한 이벤트)와 H0 (스윙으로 발생하지 않은 이벤트의 두 가지의 이벤트 발생을 가정하고, Hl, H0의 파라미터를 주정하기 위해 Standard Gaussian Mixtures를 사용하였다. Hl 가정의 모델은 학습 데이터 내의 스윙 이벤트의 특징 값을 바탕으로 학습되고 H0 가정의 모델은 스윙 이벤트 검출에 실패한 특징 값으로 생성된다.

성능/효과

1초 단위의 오디오 클립을 분류한 결과는 다시 STD, SOM, APP, SPG, SIL의 5개의 의미구간으로 조정 분할된다 조정 분할에 있어서 9OM은 대부분 10초 이상 지속되기 때문에 지속시간에 의존하여 측정되고, 명확한 시작과 끝점을 보유하고 있어 측정이 용이하다. APP는 1초에서 15초 내에 지속시간이 복합되어 있으며, 기본 구간의 전후에 자주 위치하고, 특정한 규칙 없이 산발적으로 분포하여 시작과 끝점이 명확하지 않으므로 박수 회수를 측정하였다.
결과를 살펴보면 STD는 매우 높은 검출 성능을 나타냈으며 SOM은 11.4%의 오류를 보였고, 반면에 하이라이트 검출에 많은 영향을 미치는 APP의 검출성능은 우수하게 나타남을 알 수 있다.
그리하여 향후 연구방향은 SWN의 검출 성능을 높이는 방법에 집중할 계획이다. 그러나 다행스럽게도 하이라이트 검출에 많은 영향을 미치는 APP의 검출성능은 우수하게 나타났으며 OH보다 보다 GH와 EH의 검색 성능이 우수함을 확인 할 수 있었다. 그렇기 때문에 사용자가 good hit인 GH와 exciting hit인 EH를 시청하고자 한다면 충분히 만족할 만한 결과를 얻을 수 있을 것이다.
최종적으로 하이라이트 검출에 많은 영향을 미치는 관객의 박수소리의 검출 성능이 높게 나타나면서 전체적으로 신뢰할 만한 액션구간 검출 결과를 얻을 수 있었다. 전체적으로 good hit와 exciting hit은 98% 이상의 precision과 recall의 우수한 성능을 얻을 수 있었다. 또한 제안된 시스템은 오디오 정보만을 사용하여 하이라이트를 검출하기 때문에 연산량을 크게 감소 시켜 향후 임베디드 가전제품에 적용될 수 있다.
스윙은 갑작스러운 onset 검출과 변조스펙트럼 검증 과정의 평균에 의해서 검출되며 나머지는 기본 구간의 통계적인 모델에 의해서 인식된다. 최종적으로 하이라이트 검출에 많은 영향을 미치는 관객의 박수소리의 검출 성능이 높게 나타나면서 전체적으로 신뢰할 만한 액션구간 검출 결과를 얻을 수 있었다. 전체적으로 good hit와 exciting hit은 98% 이상의 precision과 recall의 우수한 성능을 얻을 수 있었다.
표 1에 나탄난 바와 같이 Adaboost cascade 학습기반을 이용한 SV时과 GMM 빙식 이 I기의 GMM만을 사용한 방식보다 분류정확도가 높았으며, 같은 cascade 구조에서는 SVM 방식이 GMM 방식보다 분류성능이 4% 높음을 알 수 있었다.

후속연구

그러나 다행스럽게도 하이라이트 검출에 많은 영향을 미치는 APP의 검출성능은 우수하게 나타났으며 OH보다 보다 GH와 EH의 검색 성능이 우수함을 확인 할 수 있었다. 그렇기 때문에 사용자가 good hit인 GH와 exciting hit인 EH를 시청하고자 한다면 충분히 만족할 만한 결과를 얻을 수 있을 것이다.
대부분의 SWN이 검출되었으나 절반정도가 잘못 검출된 이유를 살펴보면 아나운서의 감탄사나 음악에서의 강한비트, 갑자기 발생한 박수소리, 클럽이 바닥에 떨어지는 소리, 골프공이 바닥에 떨어지는 소리 녹화하는 채널의 클릭 소리 등의 갑자기 발생하는 강한 사운드가 SWN 검출에 많은 영향을 미쳤다고 판단된다. 그리하여 향후 연구방향은 SWN의 검출 성능을 높이는 방법에 집중할 계획이다. 그러나 다행스럽게도 하이라이트 검출에 많은 영향을 미치는 APP의 검출성능은 우수하게 나타났으며 OH보다 보다 GH와 EH의 검색 성능이 우수함을 확인 할 수 있었다.
전체적으로 good hit와 exciting hit은 98% 이상의 precision과 recall의 우수한 성능을 얻을 수 있었다. 또한 제안된 시스템은 오디오 정보만을 사용하여 하이라이트를 검출하기 때문에 연산량을 크게 감소 시켜 향후 임베디드 가전제품에 적용될 수 있다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

오디오 정보를 이용한 골프 동영상 자동 색인 알고리즘
Automatic Indexing Algorithm of Golf Video Using Audio Information 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

참고문헌 (6)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

오디오 정보를 이용한 골프 동영상 자동 색인 알고리즘 Automatic Indexing Algorithm of Golf Video Using Audio Information 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

참고문헌 (6)

이 논문을 인용한 문헌

저자의 다른 논문 :

김형국 (53)

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

오디오 정보를 이용한 골프 동영상 자동 색인 알고리즘
Automatic Indexing Algorithm of Golf Video Using Audio Information 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper