디지털 신호처리 기술의 발달로 게임, 멀티미디어 콘텐츠, 가상현실 등에서 입체음향에 대한 관심이 증대되었다. 입체음향에 대한 많은 연구에서는 현실감을 증가시키기 위한 여러 가지 단서를 제시하고 있다. 그러나 이런 단서들은 입체음향이 인간의 두 귀가 정상인 바이노럴 환경에서 생성됨을 기본 바탕으로 삼고 있다. 따라서 이 단서들을 한쪽의 귀에만 적용하는 모노럴 환경에 적용하게 되면 그 성능이 감소된다. 이에 모노럴 환경에서도 효율적인 입체음향 구현을 위한 여러 가지 단서들이 연구되고 있는데 가장 대표적인 것이 양이 단서 (Duplex theory)이다. 양이 단서는 음이 방사되는 방향에 따라서 귓바퀴 등의 인간의 신체에 의해 영향을 받게 된다는 것으로 이 특성을 강조시키면 모노럴 환경에서도 각 방향에 따른 방향감을 개선시킬 수 있게 된다. 본 논문에서는 인간의 청각 특성을 이용하여 모노럴 환경에서 음상 정위감을 개선시키기 위한 알고리즘을 제안한다. 서로 대칭되는 각 머리전달함수의 여기에너지를 계산하고 각 bark 대역에 따른 비율을 추출한 후 이를 이용하여 각 방향에 해당하는 특성을 부각시키는 방법을 제안하였으며 청감테스트를 통하여 제안한 방식이 모노럴 환경의 입체음향 시스템에서 향상된 입체음향을 재생함을 확인할 수 있었다.
디지털 신호처리 기술의 발달로 게임, 멀티미디어 콘텐츠, 가상현실 등에서 입체음향에 대한 관심이 증대되었다. 입체음향에 대한 많은 연구에서는 현실감을 증가시키기 위한 여러 가지 단서를 제시하고 있다. 그러나 이런 단서들은 입체음향이 인간의 두 귀가 정상인 바이노럴 환경에서 생성됨을 기본 바탕으로 삼고 있다. 따라서 이 단서들을 한쪽의 귀에만 적용하는 모노럴 환경에 적용하게 되면 그 성능이 감소된다. 이에 모노럴 환경에서도 효율적인 입체음향 구현을 위한 여러 가지 단서들이 연구되고 있는데 가장 대표적인 것이 양이 단서 (Duplex theory)이다. 양이 단서는 음이 방사되는 방향에 따라서 귓바퀴 등의 인간의 신체에 의해 영향을 받게 된다는 것으로 이 특성을 강조시키면 모노럴 환경에서도 각 방향에 따른 방향감을 개선시킬 수 있게 된다. 본 논문에서는 인간의 청각 특성을 이용하여 모노럴 환경에서 음상 정위감을 개선시키기 위한 알고리즘을 제안한다. 서로 대칭되는 각 머리전달함수의 여기에너지를 계산하고 각 bark 대역에 따른 비율을 추출한 후 이를 이용하여 각 방향에 해당하는 특성을 부각시키는 방법을 제안하였으며 청감테스트를 통하여 제안한 방식이 모노럴 환경의 입체음향 시스템에서 향상된 입체음향을 재생함을 확인할 수 있었다.
According to developments of digital signal processing, 3D sound come into focus on multimedia systems. Many studies on 3d sound have proposed lots of clues to create realistic sounds. But these clues are only focused on binaural systems which two ears are normal. If we make the 3d sound using those...
According to developments of digital signal processing, 3D sound come into focus on multimedia systems. Many studies on 3d sound have proposed lots of clues to create realistic sounds. But these clues are only focused on binaural systems which two ears are normal. If we make the 3d sound using those clues at monaural systems, the performance goes down dramatically. In order to use the clues for monaural systems, we have studies algorithms such as duplex theory. In duplex theory, the sounds that we listen are affected by human's body, pinna and shoulder. So, we can enhance sound localization performances using its characteristics. In this paper, we propose a new method to use psychoacoustic theory that creates realistic 3D audio at monaural systems. To improve 3d sound, we calculate the excitation energy rates of each symmetric HRTF and extract the weights in each bark range. Finally, they are applied to emphasize the characteristics related to each direction. Informal listening tests show that the proposed method improves sound localization performances much better than the conventional methods.
According to developments of digital signal processing, 3D sound come into focus on multimedia systems. Many studies on 3d sound have proposed lots of clues to create realistic sounds. But these clues are only focused on binaural systems which two ears are normal. If we make the 3d sound using those clues at monaural systems, the performance goes down dramatically. In order to use the clues for monaural systems, we have studies algorithms such as duplex theory. In duplex theory, the sounds that we listen are affected by human's body, pinna and shoulder. So, we can enhance sound localization performances using its characteristics. In this paper, we propose a new method to use psychoacoustic theory that creates realistic 3D audio at monaural systems. To improve 3d sound, we calculate the excitation energy rates of each symmetric HRTF and extract the weights in each bark range. Finally, they are applied to emphasize the characteristics related to each direction. Informal listening tests show that the proposed method improves sound localization performances much better than the conventional methods.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 논문에서는 헤드폰을 이용한 모노럴 재생 시스템에서 머리전달함수를 이용하여 입체음향을 생성할 때 정확한 방향감을 강조하기 위한 알고리즘을 제안한다. 머리전달함수가 인간의 청각에 미치는 영향을 고려하여 가중치를 생성하고 이를 원 머리전달함수에 적용한다.
본 논문은 모노럴 환경에서 음상을 정위하고자 할 때, 머리전달함수의 지각적인 특성을 이용하여 방향감을 강조하는 알고리즘을 제안한다. 이에 제안된 알고리즘의 성능을 확인하기 위하여 헤드폰 환경에서 음상 정위 테스트를 수행하였다.
5 m의 거리를 두고 전방부터 후방까지 오른쪽으로 음을 이동시켜가며 피실험자에게 들려주었다. 이 학습은 피실험자에게 모노럴 환경에 대한 이해를 높이고 한 쪽 귀 청취에 대한 상세한 느낌을 부여함으로서 보다 정확한 테스트를 수행함에 그 목적이 있다. 기존의 연구 결과에서 확인할 수 있듯이 학습을 통해 음상 정위의 정확도가 상승할 수 있으므로 이는 매우 필요한 과정이라 할 수 있다.
즉 방향 결정 대역은 인간의 청각에 가장 많은 영향을 미치는 대역이므로 그에 따른 영향을 강조하게 되면 해당 방향감이 개선될 것이라 생각할 수 있다. 이를 위해 각 방향 머리전달함수의 주파수 특성이 청자의 귀에 미치는 영향을 고려함으로서 원하는 방향과 관련한 인지 특성을 부각시키고자 한다 [4]. 다음으로 사람의 청각 시스템에서의 주파수 변별력을 나타내는 임의의 임계대역 또는 바크 인덱스 (Bark index) z에서 X(ω,p)에 대한 p방향의 임계대역 에너지 (critical band intensity)를 계산한다.
이에 따라서 본 논문에서는 모노럴 시스템을 이용하여 수평면 상에서 입체음향을 구현하는 경우 성능을 향상시키기 위한 알고리즘을 제안하고자 한다. 본 논문의 2절에서는 입체음향 생성에 관련한 이론에 관해 기술하고 제 3절에서는 제안된 알고리즘에 대해 설명한다.
이에 본 논문에서는 기존에 연구된 결과를 기반으로 하여 수평면 상에서 머리전달함수가 인간의 청각에 미치는 영향을 고려하고 이를 바탕으로 하여 머리전달함수를 개선하는 알고리즘을 제안하고자 한다. 한 귀 만을 사용하는 모노럴 환경이므로 본 논문에서는 좌/우측 채널의 머리전달함수 중 우측 방향만을 고려한다.
가설 설정
① 순음보다 복합음이나 광대역 잡음 쪽이 정위는 좋다.
제안 방법
본 장에서는 테스트가 수행된 장소는 일반 생활 잡음이 존재하는 연구실 공간으로 피실험자들은 중앙에 설치된 의자에 편하게 앉도록 하였다. 더불어 조명을 끄거나 눈을 가림으로서 실험에 영향을 줄 수 있는 외부 자극을 차단하였다. 사용된 사운드 신호들은 오디오 CD에서 추출된 44.
그러나 Fisher는 학습에 의하여 두 귀 청취와 같은 정도의 정위 정밀도가 얻어지는 것을 나타냈다. 두 귀가 모두 정상인 청력을 가진 피험자의 오른쪽 귀를 막아서 역치를 상승시키고, 자극의 강도를 낮게 해서 의사적으로 한 귀 청취를 모의하였다. 자극은 지속 시간 120 μs의 잡음을 사용하였으며 사전에 자극을 제시하여 음원 방향을 가르치는 것을 반복하는 강제 학습을 시켰다.
가청 주파수 대역 전체에 걸쳐서 에너지가 분포하고 있으며 시간에 따라 신호가 변화하기 때문에 다양한 경우에 대하여 테스트를 사용하기에 알맞다. 또한 Helicopter 신호는 저주파 대역에의 에너지가 큰 신호로서 시간에 따른 변화도가 적은 경우에서의 성능 테스트를 위해 사용하였다.
먼저 음상을 정위시키길 원하는 p방향의 머리전달함수 hrtf(n,p) 및 이와 대칭 방향인 q방향의 머리전달함수, hrtf(n,q)에 푸리에 변환을 적용하여 전력 스펙트럼을 계산한다.
비교 대상은 원 머리전달함수 및 기존 방법으로 Kim이 제안한 머리전달함수의 주파수 차를 이용한 방식 [15] 그리고 제안한 방식으로 정면을 방위각 0°, 오른쪽 90°, 뒷면 180°로 가정할 때, 방위각 30°/150°, 45°/135°, 60°/120°, 75°/115°의 네 방향에 대해서 테스트를 실시하였다.
앞에서 말한 3가지 방법에 따라 생성된 각 방향의 입체음향 3가지를 들려준 후 각 방향에 대해 인지하는 정확도를 측정하였으며 ± 10°내의 인지 오차의 경우는 정답으로 인정하였다.
본 논문은 모노럴 환경에서 음상을 정위하고자 할 때, 머리전달함수의 지각적인 특성을 이용하여 방향감을 강조하는 알고리즘을 제안한다. 이에 제안된 알고리즘의 성능을 확인하기 위하여 헤드폰 환경에서 음상 정위 테스트를 수행하였다. 앞에서 말한 3가지 방법에 따라 생성된 각 방향의 입체음향 3가지를 들려준 후 각 방향에 대해 인지하는 정확도를 측정하였으며 ± 10°내의 인지 오차의 경우는 정답으로 인정하였다.
즉 제안한 방법은 머리전달함수의 전체 주파수 대역 중에서 인간이 해당 방향 인지에 필요한 대역을 찾고 강조한다. 그 결과로 방향감이 개선된 머리전달함수는 사운드 신호에 적용되어 입체음향을 생성하게 된다.
이들은 헤드폰으로 테스트를 수행하기 전에 음원 방향 인지와 관련하여 간단한 학습을 수행하였다. 학습은 피실험자의 한 쪽 귀에 대한 역치를 높이고자 귀마개로 왼쪽 귀를 막은 후 스피커를 이용하여 1.5 m의 거리를 두고 전방부터 후방까지 오른쪽으로 음을 이동시켜가며 피실험자에게 들려주었다. 이 학습은 피실험자에게 모노럴 환경에 대한 이해를 높이고 한 쪽 귀 청취에 대한 상세한 느낌을 부여함으로서 보다 정확한 테스트를 수행함에 그 목적이 있다.
기존의 연구 결과에서 확인할 수 있듯이 학습을 통해 음상 정위의 정확도가 상승할 수 있으므로 이는 매우 필요한 과정이라 할 수 있다. 학습이 종료된 후 본격적인 테스트를 위하여 헤드폰을 착용시킨 후 우측 채널에서만 음을 재생시켜 피 실험자가 이를 청취하는 방법으로 테스트가 진행되었다.
이에 본 논문에서는 기존에 연구된 결과를 기반으로 하여 수평면 상에서 머리전달함수가 인간의 청각에 미치는 영향을 고려하고 이를 바탕으로 하여 머리전달함수를 개선하는 알고리즘을 제안하고자 한다. 한 귀 만을 사용하는 모노럴 환경이므로 본 논문에서는 좌/우측 채널의 머리전달함수 중 우측 방향만을 고려한다.
대상 데이터
더불어 조명을 끄거나 눈을 가림으로서 실험에 영향을 줄 수 있는 외부 자극을 차단하였다. 사용된 사운드 신호들은 오디오 CD에서 추출된 44.1 kHz, 16 bits/sample 사운드 신호를 이용하였다. 사용된 머리전달함수로는 MIT Media Lab.
비교 대상은 원 머리전달함수 및 기존 방법으로 Kim이 제안한 머리전달함수의 주파수 차를 이용한 방식 [15] 그리고 제안한 방식으로 정면을 방위각 0°, 오른쪽 90°, 뒷면 180°로 가정할 때, 방위각 30°/150°, 45°/135°, 60°/120°, 75°/115°의 네 방향에 대해서 테스트를 실시하였다. 입력 사운드 신호로는 표 2와 같이 Vocal, Helicopter sound의 2가지를 사용하였다.
에서 측정한 것을 사용하였다. 테스트 장비로는 청취자의 귀에 밀착되는 헤드폰 (audio-technica ATH-ES7), Notebook computer (i3 core), 스피커 등을 사용하였다. 그리고 재생시스템과 피실험자 간에 거리를 두고 랜덤한 순서로 입체 음향을 들려주어 청취자가 음원의 종류나 방향을 사전에 알 수 없도록 하였다.
테스트에 참가한 피실험자는 2~30대의 일반 남녀 10명이며 그 중 1명은 후천적인 원인으로 20대 중반에 한쪽 귀의 청력을 상실한 피실험자이다. 이들은 헤드폰으로 테스트를 수행하기 전에 음원 방향 인지와 관련하여 간단한 학습을 수행하였다.
성능/효과
결과를 보면 원 머리전달함수에 비해 Vocal의 경우는 50%, Helicopter의 경우는 75%의 혼돈 횟수가 감소하였음을 알 수 있다. 머리전달함수를 사용하여 입체음향을 생성할 경우 앞/뒷 방향에 따라서 주파수 에너지가 우세한 대역이 존재하며 그에 따라 청각에 미치는 영향도 달라진다.
즉 60°~120° 이외의 범위에 음상을 정위시키기 위한 단서를 제대로 부각시키지 못하기 때문에 청자는 명확하게 들리는 음향의 방향만을 구별할 수 있기 때문이다. 그러나 제안된 방법의 테스트 결과를 살펴보면 넓은 범위에 음상이 제대로 정위됨을 볼 수 있다. 이는 머리전달함수를 이용하여 입체음향을 생성할 때 인간의 청각에 미치는 영향을 고려하여 영향이 큰 대역을 부각시킴으로서 결과적으로 인간이 지각하게 되는 방향감을 강조할 수 있기 때문이다.
기존의 방법은 앞/뒷 방향의 단서를 사용한다 하더라도 청자가 지각하지 못하게 되어 혼돈을 가져오게 된다. 그러나 제안된 알고리즘은 청자가 앞/뒷 방향에 따라 청자가 지각하는 부분을 강조함으로서 혼돈 횟수를 줄일 수가 있어 더욱더 현실적인 음상 정위를 할 수 있다.
일반적으로 입체음향이란 모노음의 음의 고저, 음색, 음원의 방향이나 거리감을 조절하여 청자로 하여금 현장감이나 입체감을 가지게 하는 음향이다 [2]. 이것에 의하여 음원의 위치, 주위의 환경, 자신의 위치, 물체의 움직임, 음상의 형태와 표정 등을 얻을 수 있고, 칵테일파티 효과도 얻어진다. 2채널을 사용하는 바이노럴 시스템에서 입체음향을 구현하는 방법에는 여러 가지가 있으나 가장 대표적인 방법은 머리전달함수를 이용하는 방법이다.
이때 보다 정밀한 음상정위를 위하여 대칭방향의 두 머리전달함수의 여기에너지 비율을 고려하게 된다. 제안된 방식을 적용하여 생성된 입체음향은 음상정위 테스트를 수행한 결과 기존의 방법에 비해 정확한 방향감을 생성함을 확인할 수 있었다. 이밖에 피실험자가 인지한 방향이 원음상의 방향과의 오차가 일정 각도 이상 발생하더라도 앞/뒷 방향에 대한 혼돈 횟수가 크게 감소하였다.
테스트 결과에 따르면 순수한 머리전달함수 및 기존의 방법을 통해 생성된 음상은 대부분 60°~120° 사이에서만 정확하게 정위된다.
후속연구
이밖에 피실험자가 인지한 방향이 원음상의 방향과의 오차가 일정 각도 이상 발생하더라도 앞/뒷 방향에 대한 혼돈 횟수가 크게 감소하였다. 이를 통해 모노럴 환경에서 입체음향 구현 시 본 알고리즘을 적용함으로서 보다 향상된 입체음향을 생성할 수 있을 것이라 생각된다.
질의응답
핵심어
질문
논문에서 추출한 답변
사람이 방향 지각을 인지할 때 일반적으로 무엇을 이용하는가?
사람이 방향 지각을 인지할 때 일반적으로 양이 단서(binaural cue)와 편이 (여과) 단서 (Monaural (filtering)cue)를, 그리고 거리 지각을 인지할 때 음량감 (Loudness perception), 확산감 (Spectral perception) 및 잔향감(Reverberation perception)을 이용한다 [8]. 이중 이론(Duplex theory)으로도 불리는 양이 단서는 청취자의 방위각 (azimuth)에서의 정위를 인지하는 단서로써 두 귀 사이의 시간차 (Interaural Time Difference; ITD)와 두 귀 사이의 음압차 (Interaural Intensity Difference; IID)로 구분되며 ITD는 중저역대 (100~1.
사람이 거리 지각을 할때 무엇을 이용하는가?
사람이 방향 지각을 인지할 때 일반적으로 양이 단서(binaural cue)와 편이 (여과) 단서 (Monaural (filtering)cue)를, 그리고 거리 지각을 인지할 때 음량감 (Loudness perception), 확산감 (Spectral perception) 및 잔향감(Reverberation perception)을 이용한다 [8]. 이중 이론(Duplex theory)으로도 불리는 양이 단서는 청취자의 방위각 (azimuth)에서의 정위를 인지하는 단서로써 두 귀 사이의 시간차 (Interaural Time Difference; ITD)와 두 귀 사이의 음압차 (Interaural Intensity Difference; IID)로 구분되며 ITD는 중저역대 (100~1.
이기승, 이석필, "원형 머리 모델을 이용한 머리 전달 함수의 보간," 한국음향학회지, 27권, 7호, 333-341쪽, 2008.
K. R. Rao, J. Ben-Arie, "Optimal Head Related Transfer Functions for Hearing and Monaural Localization in Elevation: A Signal Processing Design Perspective," IEEE Trans. on Biomedical Engineering, vol. 43, no. 11, pp. 1093-1105, November. 1996.
M. V. Wanrooij, A. J. Van Opstal, "Contribution of Head Shadow and Pinna Cues to Chronic Monaural Sound Localization," The Jounal of Neuroscience, vol. 24, no. 17, pp. 4163-4171, Apr. 2004.
T. Yan, T. Kochiyama and J. Wu, "Ability to Discriminate and Elevation in Sound: The Effects of an Altered Pinna in Subjects with Monaural Hearing," Int'l Conference on Complex Medical Engineering, pp. 1454-1457, 2007.
구교식, 차형태, "개선된 머리전달함수를 이용한 3차원 입체음향 성능 개선 연구," 한국음향학회지, 28권, 6호, 557-565쪽, 2009.
C. I. Cheng and G. H. Wakefield, "Introduction to Head-Related Transfer Functions(HRTFs)," J. Audio Eng. Soc. pp. 231-249, April. 2001.
Durand R. Begault, 3-D Sound for Virtual Reality and Multimedia, NASA, 2000.
박장식, 김현태, "합성 스테레오 방식 3차원의 입체음향의 실시간 구현을 위한 머리전달 함수의 IIR 필터 설계," 한국콘텐츠학회논문지, 5권, 6호, 74-86쪽, 2005.
D. N. Zotkin, R. Duraiswami and L. S. Davis, "Rendering Localized Spatial Audio in a Virtual Auditory Space," IEEE Trans. on Multimedia. vol. 6, no. 4, pp. 553-564, Aug. 2004.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.