$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

화면해설방송 저작을 위한 비 대사 구간 검출
Non-Dialog Section Detection for the Descriptive Video Service Contents Authoring 원문보기

방송공학회논문지 = Journal of broadcast engineering, v.19 no.3, 2014년, pp.296 - 306  

장인선 (한국전자통신연구원 실감방송미디어연구부 감성미디어연구실) ,  안충현 (한국전자통신연구원 실감방송미디어연구부 감성미디어연구실) ,  장윤선 (충남대학교 전자공학과)

초록
AI-Helper 아이콘AI-Helper

본 논문에서는 방송 오디오에서로부터 화면해설 삽입을 위한 비 대사 구간 검출 방법을 제시한다. 방송 오디오에서의 대사와 비 대사 구간을 분류하기 위해서는 대사와 배경 음악 등 다양한 종류의 소리가 혼합되어 있는 스테레오 신호로부터 음성 활성 여부의 검출이 우선되어야 한다. 본 논문에서는 방송 오디오 제작과정을 파악함으로써 신호의 채널 특성 분석 결과를 대사 음성 활성 여부 검출에 적용한다. 본 논문에서 제안하는 비 대사 구간 검출 방법은 방송 오디오의 센터채널과 서라운드 성분 간의 에너지 비율을 추가적인 오디오 특징으로 이용하여 센터채널의 음성 활성도와의 결합을 통해 성능 향상을 이루어 낸다. 또한, 실제 화면해설 방송물의 분석을 통해 생성한 규칙 기반의 후처리를 통해 화면해설 삽입이 가능한 비 대사 구간을 검출한다. 이를 실제 방송 컨텐츠를 대상으로 한 실험을 통하여 검증한다.

Abstract AI-Helper 아이콘AI-Helper

This paper addresses a problem of non-dialog section detection for the DVS authoring, the goal of which is to find meaningful section from the broadcasting audio, where audio description can be inserted. The broadcasting audio involves the presence of various sounds so that it first discriminates be...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 본 논문에서는 방송 오디오에서의 비 대사 구간 검출 방법을 제시하였다. 음성과 비 음성을 구분하기 위해 에너지 기반 분류 방식과 높은 차원의 오디오 특징을 기반으로 분류기를 학습하여 분류하는 방식이 개발되어 왔으나, 다양한 음원이 존재하는 방송 오디오에 적용하는데 있어서 각각의 방식은 구조와 성능 측면에서 장단점이 공존하였다.
  • 음성과 비 음성을 구분하기 위해 에너지 기반 분류 방식과 높은 차원의 오디오 특징을 기반으로 분류기를 학습하여 분류하는 방식이 개발되어 왔으나, 다양한 음원이 존재하는 방송 오디오에 적용하는데 있어서 각각의 방식은 구조와 성능 측면에서 장단점이 공존하였다. 본 논문에서는 방송 오디오의 채널 간 구조 특성을 활용하여 대사 음성 성분이 모여 있는 센터채널 신호로부터 음성 활성여부를 판단하고 센터채널과 서라운드 신호 간의 에너지 비율을 활용하여 비 대사 여부를 판단함으로써 DB 구축과 분류기의 훈련 과정에 대한 수고 없이 낮은 차원의 오디오 특징을 활용하여 보다 높은 성능의 비 대사 구간을 검출하는 방법을 제시하였다. 제안된 기술은 실제 방송 컨텐츠를 이용한 실험에서 92% 이상의 검출율을 보였으며 기존 기술과의 성능 비교를 통해 그 우수성이 검증되었다.
  • 본 논문에서는 효율적인 화면해설 제작을 위해 방송 오디오로부터의 비 대사 구간 검출 방법을 제안한다. 본 방법은 다양한 음원이 존재하는 방송 오디오의 채널 간 구조 특성과 음성 신호 특성을 활용하여 화면해설을 삽입할 수 있는 후보 구간을 검출한다.
  • 센터채널 추출 모듈은 방송 오디오 신호로부터 센터채널 성분과 서라운드 성분을 분리하여 각각의 신호를 생성한다. 이는 방송 오디오가 스테레오 음상 전반에 걸친 음상을 가지는 배경음 및 음향 효과 음원에 비해 대사 음원은 가운데 음상에 몰려서 위치하는 경향성을 이용해서 주로 대사 음원이 담겨 있는 센터채널 신호와 주로 배경음이 담겨 있는 서라운드 신호를 분리 생성하려는 목적이다
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
화면해설 서비스란 무엇인가? 화면해설 서비스(Descriptive Video Service; DVS)란 TV 프로그램, 영화 등 대중 영상 매체에 대하여 영상물의 원래 내용을 침범하지 않는 범위 내에서 때와 장소의 변화, 등장 인물의 표정이나 몸짓 등과 같은 상황 변화적 요소는 물론이고 자막이나 그래픽과 같은 시각적 요소들을 시각 장애인들이 인지할 수 있도록 별도의 음성 해설을 제공하는 서비스 이다. 이는 영상물의 내용을 시각장애인이 왜곡 없이 이해할 수 있도록 하여 정안인과 동등하게 내용을 파악하고 즐길 수 있도록 도와주는 복지 서비스의 일환이다.
우리나라 등록 장애인 수는 어떤 현상을 보이고 있는가? 하지만 시청각 장애인 및 고령자, 다문화 가정과 같이 일반적인 방송 시청에 어려움을 겪는 방송소외계층의 방송 접근성에 대한 보장은 여전히 충분하지 못한 상황이다. 우리나라의 경우, 등록 장애인 수는 2012년 12월 말 기준 251만 1천명으로, 2000년 12월 말 95만 8천명에서 약 162% 증가하였다 [1]. 이러한 현상은 선/후천적 장애와 인구 고령화에 기인하는 전 세계적인 추세이며 이들의 방송 접근권을 제고하고 디지털 미디어에 대한 차별 없는 접근성을 제공하는 미디어 복지강화를 위해 다양한 노력이 진행되고 있다[2][3][4].
화면해설 방송물을 제작하는 과정은 어떻게 되는가? 화면해설 방송물을 제작하는 과정은 다음과 같다. 먼저, 대상이 되는 원 영상물을 선정하고 화면해설방송 작가가 영상물을 분석하여 시각장애인에게 영상의 내용을 충분히 전달할 수 있도록 자막이나 그래픽, 배경과 표정 등 중요한 시각적 요소들에 대하여 대화가 이루어지지 않는 시간에 삽입시킬 화면해설용 대본을 작성한다. 이후 전문 성우의 음성 녹음을 통해 화면해설 음성 데이터를 생성하며, 프로듀서가 원본 오디오와 화면해설 음성 데이터를 믹싱 하여 화면해설용 음성 트랙을 생성한다. 화면해설 음성 데이터는 방송물의 본 흐름을 해치지 않도록 원본 오디오 내 음성이 없는 구간에 삽입한다. 완성된 화면해설용 음성 트랙은 별도의 기록매체에 저장되거나, 방송용 마스터 테이프로 제작한다. 이를 도식화 하면 그림 1과 같다.
질의응답 정보가 도움이 되었나요?

참고문헌 (13)

  1. Korea Employment Agency for the Disabled, 2013 the disables statistics, Ministry of Employment and Labor, April 2013. 

  2. M. Park, ITU Activities for improving ICT accessibility of disabled people, Policy of Broadcasting and Telecommunication, vol 25, no. 12, July 2013. 

  3. ITU-T BT.2207-2 (11/2012) Accessibility to broadcasting services for persons with disabilities. (http://www.itu.int/pub/R-REP-BT.2207-2-2012) 

  4. Korean Association for Broadcasting & Telecommunication Studies, Study on improving the media accessibility of broadcasting alienation class including the blind and the deaf, Korea Communications Commission, Dec. 2010. 

  5. Korea Communications Commission Announcement issue 2011-53, "Announcement of broadcasting access right guarantee for the disabled, which is including organizing and providing the broadcasting for the disabled, " Dec. 2011. 

  6. http://www.miranda.com/family/12/Audio_or_Video_Description 

  7. A. Szarkowska, "Text-to-speech audio description: towards wider availability of AD", Journal of Specialised Translation 15, pp. 142-163, 2011. 

  8. W. Lim, C. Ahn, "Descriptive video service using text to speech," in Proc. Conference of the Korean Society of Broadcast Engineers, June 2013. 

  9. B. Elizalde, G. Friedland, "Lost in segmentation: three approaches for speech/non-speech detection in consumer-produced videos," in Proc. ICME, SanJose, USA, July 2013. 

  10. T. Ng, B. Zhang, L. Nguyen, S. Matsoukas, X. Zhou, N. Mesgarani, K. Vesely, and P.l Matejka, "Developing a speech activity detection system for the DARPA RATS program," in Proc. Interspeech, 2012. 

  11. H. Meinedo and J. Neto, "Audio segmentation, classification and clustering in a broadcast news task," in Proc. ICASSP, pp. II 5-8, 2003. 

  12. L. Lu, S. Li, and H. J. Zhang, "Content-based audio segmentation using support vector machines," in Proc. ICME, pp. 749-752, 2001. 

  13. G. Jung, Management of TV System and Image Production, Cheongmoongak publishing co., 2009. 

저자의 다른 논문 :

LOADING...

관련 콘텐츠

오픈액세스(OA) 유형

BRONZE

출판사/학술단체 등이 한시적으로 특별한 프로모션 또는 일정기간 경과 후 접근을 허용하여, 출판사/학술단체 등의 사이트에서 이용 가능한 논문

이 논문과 함께 이용한 콘텐츠

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로