[논문]시선에 따른 영상 음향 정위 일치에 관한 연구

이규원; 최해근; 박소연; 박구만; 김성권

doi:10.13067/jkiecs.2018.13.6.1293

초록
AI-Helper

$360^{\circ}$ 영상은 많은 영상정보를 담고 있어 유용하나, 눈에 보이는 물체의 방향과 그 물체의 소리가 들려오는 방향이 다른 경우 시청자에게 피로도를 느끼게 하여 감각적 이질감이 증대되어 그 활용도가 떨어지고 있다. 이에 본 논문에서는 $360^{\circ}$ 영상에서 시선에 따른 음향 정위가 얼마나 일치하는지를 백분율로 나타내는 기준을 제안하며, 제시한 영상 음향 정위 일치율을 이용하여 몰입도를 증대시키는 $360^{\circ}$ 영상의 제작 가능성을 제시한다. 제안한 영상 음향 정위 일치율은, 입체음향 콘텐츠 제작, 재생 솔루션의 정위 성능을 측정, 평가에 유용하고, 더욱 실감성 높은 시스템을 제작하는데 기여할 것으로 기대한다.

Abstract ▼ AI-Helper

The $360^{\circ}$ video has a lot of image information and usefulness; however, the position of the audio source judged by hearing is different from the position on the screen. Therefore, human feels tired, the immersion decrease and user cant watch the video for Moreer time. In this pape...

The $360^{\circ}$ video has a lot of image information and usefulness; however, the position of the audio source judged by hearing is different from the position on the screen. Therefore, human feels tired, the immersion decrease and user cant watch the video for Moreer time. In this paper, the concordance rate of the video and the audio localization is defined. The rate is expressed in a percentage. It means how much the system makes the sound localization real according to the position of the source on the screen. With this rate, the audio localization performance of immersive audio producing and playing system can be evaluated. It will be helpful for developers to make the higher performance system and expected to contribute to make makinguality system with reality.

주제어

표/그림 (14)

그림 그림 1. ITD 와 ILD Fig. 1 ITD and ILD
그림 그림 2. 음원과 관찰자와의 각도에 따른 ITD 그래프. Fig. 2 ITD graph.
그림 그림 3. 음원과 관찰자의 각도에 따른 ILD 그래프 Fig. 3 ILD Graph
그림 그림 4. 수평면상에서 θ_V와 θ_A Fig. 4 θ_V and θ_A in azimuth plane
그림 그림 5. θ_A도출 알고리즘 Fig. 5 θ_A generating algorithm
그림 그림 6. 360° 영상의 영상 음향 정위 일치율 Fig. 6 360° Video Graph expressed with concordance rate of video and audio localization
그림 그림 7. 360° 영상 입체음향 획득장치 Fig. 7 360° video and spatial audio recorder
그림 그림 8. 시선에 따른 4방향 음원 믹싱 방법 Fig. 8 Mixing Method using 4 audio source by points of view
표 표 1. 실험에 사용된 장비 Table 1. Equipments for experiment
그림 그림 9. ITD, ILD 측정 과정 Fig. 9 Process of measuring ITD, ILD
그림 그림 10. θ_V = 90°인 상황에서 좌(위)·우(아래)로 들어온 신호 파형 Fig. 10 Waveform when θ_V = 90°. L(up), R(down)
표 표 2. ITD 측정 결과 (㎲) Table 2. Result of measuring ITD (㎲)
표 표 3. ILD 측정 결과 (dB)Table 3. Result of measuring ILD (dB)
그림 그림 11. 개선된 360° 영상에서의 영상 음향 정위 일치율 그래프 Fig. 11 Graph of concordance rate of video and audio localization of the improved 360° video

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서는 2장에서 실제 청각 특성에 관해 설명하고, 이를 밑바탕으로 만든 360° 영상 제작, 재생 시스템이 얼마나 실제와 유사하게 음향 정위를 구현해 내는지 분석할 수 있는 지표인 영상 음향 정위 일치율을 제안한다.
본 논문에서는 360° 영상에서 시선이 이동할 때, 그에 따른 영상에서 음원의 위치와 음향으로 표출된 음원의 위치 사이의 일치율을 정의하였으며, 영상 음향 정위 일치율을 개선하기 위하여, 360° 영상 카메라 를 중심으로 4방향에서 음원을 획득하여, 믹싱되는 시스템을 제안하였다.
본 연구에서는 360° 영상에서 영상 음향 정위 일치율의 개선을 위하여 360° 영상 카메라에 카메라를 중심으로 4방향에 마이크를 부착해 녹음하였으며, 시청자의 시선에 따라 영상이 회전할 때, 4채널 오디오의 볼륨과 패닝을 조절하여 영상의 시선에 맞게 믹싱해 스테레오로 출력해주는 시스템을 제작하였다.

제안 방법

360° 영상 입체음향 콘텐츠를 재생하고 영상에서 시선을 돌려 영상 속 물체의 방향 ΘV를 90°부터 – 90°까지 변화시킬 때 표출되는 음향 스테레오 신호를 다시 녹음해 ITD, ILD를 측정하였다.
360° 영상 카메라에 카메라를 중심으로 4방향에서 음원을 획득한 개선된 영상에 대해서 영상 음향 정위 일치율을 다음과 같이 측정하였다.
360° 카메라를 중심으로 4개의 지향성 마이크를 90° 간격으로 배치하였고, 360° 영상 촬영과 4채널 멀티트랙 녹음이 동시에 진행된 후, 관찰자의 시선에 따라 자동으로 4채널 오디오를 팬, 볼륨을 조절하여 스테레오로 믹스다운 할 수 있게 하였다.
360° 영상 카메라에 카메라를 중심으로 4방향에서 음원을 획득한 개선된 영상에 대해서 영상 음향 정위 일치율을 다음과 같이 측정하였다. ILD 측정을 위해 sine noise, ITD 측정을 위해 burst noise를 측정용 음원으로 활용하였고, ITD와 ILD는 주파수 별로 다르게 나타나기 때문에 용이한 측정을 위해 250Hz, 500Hz, 1kHz, 2.5kHz, 5kHz 음원을 순차적으로 재생하면서 녹화했다.
ITD 및 ILD 를 통하여, 사람은 머리를 기준으로 수평면상에서 좌·우로 음원이 어느 방향에 있는지 알아차린다.
본 연구에서 제안하는 영상 음향 정위 일치율은 360° 영상에서 화면상에 나타난 음원의 방향과 음향이 표출해 내는 소리의 방향이 일치하는 정도를 의미 한다.

대상 데이터

Yamaha MPS5로 음원을 재생하고, RODE M5, Roland OCTA Capture, Samsung Gear 360, Logic Pro X를 이용하여 360° 영상과 음향을 획득하였다.
Yamaha MPS5로 음원을 재생하고, RODE M5, Roland OCTA Capture, Samsung Gear 360, Logic Pro X를 이용하여 360° 영상과 음향을 획득하였다. 영상 음향 정위 일치율을 측정하는 과정에서 Roland OCTA Capture, Logic Pro X, ZOOM H4n을 사용하였다.

이론/모형

그림 2와 그림 3의 정보를 이용하면, 바이노럴 음향신호의 ITD와 ILD 정보를 이용하여, 역으로 음원과 관찰자의 각도를 구할 수 있게 된다. 음원과 관찰자와의 각도 변화에 따른 ITD와 ILD의 관계는 머리의 형태, 귀의 모양, 몸의 형상 등 다양한 영향을 받을 수 있어 그 데이터 값은 여러 연구소에서 측정을 통해 통계적으로 제공하고 있으며, 본 연구 에서는 Woodworth 모델에 기초로 측정된 데이터를 이용한다[7][8].

성능/효과

개선된 영상에서 영상 음향 정위 일치율은 평균 84.75%로 나타났으며, 기존의 영상대비 약 35.57%의 개선 효과가 있었다.
제안한 시스템으로 개선된 360° 영상에서 영상 음향 정위 일치율은 평균 84% 이상을 나타내었으며, 기존의 영상대비 약 35% 이상의 개선 효과를 보였다.
즉, 360° 영상을 영상 음향 정위 일치율이 100%에 가깝게 만들수록, 영상의 음향은 더 실제와 비슷한 음상 정위를 제공하게 되고, 제시한 영상 음향 정위 일치율을 이용하여 몰입도를 증대시키는 360° 영상의 제작 가능성을 제시하였다.

후속연구

4장에서는 이 지표를 활용하여 재생 시스템의 성능을 분석하고 개선한 사례를 보인다. 마지막으로 향후 이 지표가 실감성 높은 시스템을 제작 하는 데 기여할 것이라는 결론을 내린다
제안한 영상 음향 정위 일치율은, 입체음향 콘텐츠 제작, 재생 솔루션의 정위 성능을 측정, 평가에 유용하고, 더욱 실감성 높은 시스템을 제작하는데 기여할 것으로 기대한다

질의응답

핵심어	질문	논문에서 추출한 답변
	ITD는 어떠한 요소인가?	사람은 두 개의 귀를 가지고 있기 때문에 소리의 방향을 인식할 수 있는데, 이때, 가장 중요하게 작용 하는 요소는 ITD (Inter-aural Time Difference)와 ILD (Inter-aural Level Difference)이다[4].
	미디어 기술은 어떠한 방향으로 진화해 왔나?	미디어 기술은 초창기부터 이용자가 마치 실제상황에 있는 것처럼 느끼도록 하는 방향으로 진화해 왔으며, 특히, 360° 영상 기술은 직사각형 모니터 화면에 영상을 국한하지 않고 마치 이용자가 서 있는 곳을 기준으로 모든 방향의 영상정보를 제공하며, 차세대 실감 미디어 기술로써 초기에는 많은 집중을 받았다. 그러나, 개인방송 같은 열악한 환경에서 제작되는 360° 영상은 음상정위가 맞추어지지 않아, 시청자의 집중도를 분산시키며, 감각적 이질감의 한계를 넘지 못해 상용화에 어려움을 겪고 있는 문제점이 있었다.
	미디어 기술이 가진 문제점은?	미디어 기술은 초창기부터 이용자가 마치 실제상황에 있는 것처럼 느끼도록 하는 방향으로 진화해 왔으며, 특히, 360° 영상 기술은 직사각형 모니터 화면에 영상을 국한하지 않고 마치 이용자가 서 있는 곳을 기준으로 모든 방향의 영상정보를 제공하며, 차세대 실감 미디어 기술로써 초기에는 많은 집중을 받았다. 그러나, 개인방송 같은 열악한 환경에서 제작되는 360° 영상은 음상정위가 맞추어지지 않아, 시청자의 집중도를 분산시키며, 감각적 이질감의 한계를 넘지 못해 상용화에 어려움을 겪고 있는 문제점이 있었다. 또한, 360° 영상기술에 상응하는 다양한 입체음향 솔루션이 개발되고 있지만, 입체음향 표출 시스템이 얼마나 영상 속 음원의 위치에 따라 실제 청각과 유사한 경험을 제공하는지를 평가할 수 있는 뚜렷한 기준이 없었다[1-2]. 사람은 물체의 위치를 시각으로 인식할 수 있고, 청각으로도 인식할 수 있는데, 자연환경에서는 눈에 보이는 물체의 위치와 귀로 판단한 물체의 위치가 일치하는 상황이 대부분이지만, 스피커를 통해 음향을 확성하거나, 스크린으로 영상을 재생하게 되면 위치가 불일치되는 상황이 생기고, 이는 시청자가 피로를 느끼게 한다.

참고문헌 (10)

Y. Kim, H. Myung, H. Jung, and K. Kim, "3D Sound Technology," Communications of Korean Institute of Information Scientists and Engineers, vol. 19, no. 5, May 2001, pp. 30-37.
C. Song, C. Yang, S. Park, J. Ku, and H. Park, "Audio Object Localization for 2D Stereo to 3D Virtual Audio Contents Converting," Proc. of Information and Control Symp., Chung-Ang University, Korea, Apr. 2014, pp. 164-165.
T. Joe, S. Kim, G. Park, E. Go, J. Yang, and Y. Kim, "A study for change of audio data according to rotation degree of VR video," J. of Korea Institute of Electronic Communication Science, vol. 12, no. 6, Dec. 2017, pp. 1135-1142.
T. Francart, A. Lenssen, and J. Wouters, "Enhancement of interaural level differences improves sound localization in bimodal hearing," J. Acoust. Soc. Am., vol. 130, no. 5, Nov. 2011, pp. 2817-2826.

상세보기
J. Kim, S. Kim, Y. Lee, S. Yeo, and H. Cho, "A Study of Immersive Audio Improvement of FTV using an effective noise," J. of the Korea Institute of Electronic Communication Sciences, vol. 10, no. 2, Feb. 2015, pp. 233-238.
N. L. Aronson and W. M Hartmann, "Testing, correction, and extending the Woodworth model for interaural time difference," J. Acoust. Soc. Am., vol. 135, no. 2, Feb. 2014, pp. 817-823.
C. Han, B. Park, J. Seo, and H. Kim, "Direction of arrival Estimation using Frequency Domain Binaural Model," Proc. of KIIT Summer Conference, Kumoh National Institute of Technology, Korea, June 2007, pp. 233-237.
S. Kim, Y. Lee, and Y. Lee, "3D Sound System Based on Audio/Video Analysis," In Proc. IEEK SUMMER Conf., Maison GLAD Jeju, Korea, July 2013, pp. 1924-1927.
R. C. G. Smith and S. R. Price, "Modelling of Human Low Frequency Sound Localization Acuity Demonstrates Dominance of Spatial Variation of Interaural Time Difference and Suggests Uniform Just-Noticeable Differences in Interaural Time Difference," PLoS ONE, vol. 9, no. 2, Feb. 2014, e89033.
T. Kawashima and T. Sato, "Adaptation in Sound Localization Processing Induced by Interaural Time Difference in Amplitude Envelope at High Frequencies," PLoS ONE, vol. 7, no. 7, July 2012, e41328.

상세보기

이 논문을 인용한 문헌

저자의 다른 논문 :

LOADING...

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

시선에 따른 영상 음향 정위 일치에 관한 연구
Study on the Localization Concordance of Video and Audio 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

표/그림 (14)

표/그림 (14)

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (10)

이 논문을 인용한 문헌

저자의 다른 논문 :

연구과제 타임라인

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

시선에 따른 영상 음향 정위 일치에 관한 연구 Study on the Localization Concordance of Video and Audio 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

표/그림 (14) 모든 표/그림 보기

표/그림 (14) 슬라이드로 보기

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (10)

이 논문을 인용한 문헌

저자의 다른 논문 :

김성권 (38)

연구과제 타임라인

전체(0) 논문(0) 특허(0) 보고서(0)

전체(0) 논문(0) 특허(0) 보고서(0)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

시선에 따른 영상 음향 정위 일치에 관한 연구
Study on the Localization Concordance of Video and Audio 원문보기

초록
AI-Helper

표/그림 (14)

표/그림 (14)

AI 본문요약
AI-Helper