입체음향 시스템의 목적은 청취자에게 음원을 획득한 장소에 있는 것과 같은 느낌을 주는 것이다. 이를 위해 일반적으로 더미헤드가 많이 사용되고 있다. 인간의 머리형태를 한 더미헤드의 특성 때문에 더미헤드를 통해 획득한 음원을 헤드폰을 통해 청취하는 경우 현장감을 느낄 수 있다. 하지만 더미헤드의 형태 및 크기는 공공장소에서 사용하기에는 제약이 있고 더미헤드를 통해 획득한 신호는 멀티채널로 확장하기가 어렵기 때문에 본 논문에서는 이러한 더미헤드를 구체로 간략화 한 후 구체 위에 다수 개의 마이크를 배치하여 입체음원을 획득하기 위한 멀티채널 3차원 마이크 기술에 대해 제안한다. 본 논문에서 제안하는 멀티채널 3차원 마이크는 구체 위의 수평면 상에 5개의 마이크를 배치하여 입체 음원을 획득한 다음 후처리 과정을 통해 헤드폰, 스테레오, 스테레오 다이폴, 4채널 및 5채널 재생환경 등에서 재생이 가능하다. 다양한 재생신호의 생성을 위한 후처리 과정은 많은 연산량을 필요로 하기 때문에, H/W로 제작하였다. 멀티채널 3차원 마이크의 성능을 검증하기 위해 방향성 실험을 수행한 결과, 멀티채널 재생환경에서 더미헤드 기술의 단점인 전/후방 혼동현상을 현저하게 줄일 수 있었다.
입체음향 시스템의 목적은 청취자에게 음원을 획득한 장소에 있는 것과 같은 느낌을 주는 것이다. 이를 위해 일반적으로 더미헤드가 많이 사용되고 있다. 인간의 머리형태를 한 더미헤드의 특성 때문에 더미헤드를 통해 획득한 음원을 헤드폰을 통해 청취하는 경우 현장감을 느낄 수 있다. 하지만 더미헤드의 형태 및 크기는 공공장소에서 사용하기에는 제약이 있고 더미헤드를 통해 획득한 신호는 멀티채널로 확장하기가 어렵기 때문에 본 논문에서는 이러한 더미헤드를 구체로 간략화 한 후 구체 위에 다수 개의 마이크를 배치하여 입체음원을 획득하기 위한 멀티채널 3차원 마이크 기술에 대해 제안한다. 본 논문에서 제안하는 멀티채널 3차원 마이크는 구체 위의 수평면 상에 5개의 마이크를 배치하여 입체 음원을 획득한 다음 후처리 과정을 통해 헤드폰, 스테레오, 스테레오 다이폴, 4채널 및 5채널 재생환경 등에서 재생이 가능하다. 다양한 재생신호의 생성을 위한 후처리 과정은 많은 연산량을 필요로 하기 때문에, H/W로 제작하였다. 멀티채널 3차원 마이크의 성능을 검증하기 위해 방향성 실험을 수행한 결과, 멀티채널 재생환경에서 더미헤드 기술의 단점인 전/후방 혼동현상을 현저하게 줄일 수 있었다.
The purpose of a spatial audio system is to give a listener an impression as if he were present in a recorded environment when its sound is reproduced. For this purpose a dummy head microphone is generally used. Because of its human-like shape, dummy head microphone can reproduce spatial images thro...
The purpose of a spatial audio system is to give a listener an impression as if he were present in a recorded environment when its sound is reproduced. For this purpose a dummy head microphone is generally used. Because of its human-like shape, dummy head microphone can reproduce spatial images through headphone reproduction. However, its shape and size are restriction to public use and it is difficult to convert the output signal of dummy head microphone into a multi-channel signal for multi-channel environment. So, in this paper, we propose a multi-channel 3D microphone technology. The multi-channel 3D microphone acquire a spatial audio using five microphones around a horizontal plane of a rigid sphere and through post processing, it can reproduce various reproduction signals for headphone, stereo, stereo dipole, 4ch and 5ch reproduction environments. Because of complex computation, we implemented H/W based post processing system. To verily the Performance of the multi-channel 3D microphone, localization experiments were Performed. The result shows that a front/back confusion, which is the one of common limitations of conventional dummy head technology, can be reduced dramatically.
The purpose of a spatial audio system is to give a listener an impression as if he were present in a recorded environment when its sound is reproduced. For this purpose a dummy head microphone is generally used. Because of its human-like shape, dummy head microphone can reproduce spatial images through headphone reproduction. However, its shape and size are restriction to public use and it is difficult to convert the output signal of dummy head microphone into a multi-channel signal for multi-channel environment. So, in this paper, we propose a multi-channel 3D microphone technology. The multi-channel 3D microphone acquire a spatial audio using five microphones around a horizontal plane of a rigid sphere and through post processing, it can reproduce various reproduction signals for headphone, stereo, stereo dipole, 4ch and 5ch reproduction environments. Because of complex computation, we implemented H/W based post processing system. To verily the Performance of the multi-channel 3D microphone, localization experiments were Performed. The result shows that a front/back confusion, which is the one of common limitations of conventional dummy head technology, can be reduced dramatically.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
이러한 크루스투크 현상을 제거하기 위해 다양한 방법을 사용하는데 [8,11-13], 본 논문에서는 Fast Deconvolution 방법을 사용한다[8]. 멀티채널 디콘볼루션의 목적은 주어 진 S 개의 스피 커를 이용하여 공간상의 R 위치에서 음장을 가능한 정확하게 재생하는 것이다. 본 논문에서는 5X5, 4X4 와 2X2역필터를 이용하여 5채널, 4채널 및 스테레오/스테레오 다이폴[14,15] 재생환경에서 크로스토크를 제거한다.
이러한 크루스투크 현상을 제거하기 위해 다양한 방법을 사용하는데 [8,11-13], 본 논문에서는 Fast Deconvolution 방법을 사용한다[8]. 멀티채널 디콘볼루션의 목적은 주어 진 S 개의 스피 커를 이용하여 공간상의 R 위치에서 음장을 가능한 정확하게 재생하는 것이다. 본 논문에서는 5X5, 4X4 와 2X2역필터를 이용하여 5채널, 4채널 및 스테레오/스테레오 다이폴[14,15] 재생환경에서 크로스토크를 제거한다.
본 논문에서는 구체 위에 배치한 다수 개의 마이크를 이용하여 제작한 멀티채널 3차원 마이크를 이용하여 3차원 오디오 신호를 획득하고 후처리 과정을 통해 다양한 재생환경에서 재생 가능한 입체음향 획득 시스템에 대해 기술하였다. 멀티채널 3차원 마이크는 중앙의 음원을 강조하고 인간의 머리움직임을 고려하기 위한 위치에 마이크를 배치하여 제작하였다.
본 논문은 전/후방 혼동현상을 극복할 수 있고, 다양한 재생환경에서 적응할 수 있는 입체음향 획득 및 재생 시스템을 제안한다. 본 시스템은 구체 위 수평면 상에 다섯 개의 마이크를 배치하여 입체음을 획득하고 이 신호를 후처리 과정을 통해 헤드폰, 스테레오, 스테레오 다이폴, 4채널, 5채널 재생환경 등 다양한 재생환경에서 재생 가능한 신호를 생성한다.
신호를 재생환경의 중앙에 위치한 구체 위의 4개의 위치에서 가능한 정확하게 재생하기 위한 것이다. 스테레오/스테레오 다이폴 재생을 위한 역필터는 멀티채널 3차원 마이크의 출력신호를 이용하여 생성한 헤드폰 재생신호를 재생환경의 중앙에 위치한 구체 수평면상의 좌/우 90도 위치에 가능한 정확하게 재생하기 위한 것이다.
신호를 재생환경의 중앙에 위치한 구체 위의 4개의 위치에서 가능한 정확하게 재생하기 위한 것이다. 스테레오/스테레오 다이폴 재생을 위한 역필터는 멀티채널 3차원 마이크의 출력신호를 이용하여 생성한 헤드폰 재생신호를 재생환경의 중앙에 위치한 구체 수평면상의 좌/우 90도 위치에 가능한 정확하게 재생하기 위한 것이다.
제안 방법
TMS320C 6416은 Integer 연산을 위한 DSP이기 때문에 다양한 역 필터를 Integer 형태로 변환해 주어야 한다. Float 형태의 필터계수 및 연산을 Integer로 변경하는 경우 Integer변환에 따른 오차가 발생하는데, 이를 최소화 하기 위해 필터계수의 스케일을 조절하였다. 그림 11은 Float 필터와 Integer 필터를 이용하여 콘볼루션 연산을 수행한 결과 및 오차를 나타낸다.
구체의 특성상 전/후방 같은 방향에서 입사한 임펄스 응답은 동일하므로 구체의 좌/우 90도 위치에 마이크를 설치하여 획득한 음원은 전/후방 혼동현상이 더미헤드보다 더 발생한다. 따라서 본 논문에서 제안하는 시스템은 구체의 좌/우 90도에 마이크를 위치시키지 않고, 특정한 위치에 다수개의 마이크를 위치시킴으로써, 전/후방 혼동현상을 감소시킨다.
구체의 특성상 전/후방 같은 방향에서 입사한 임펄스 응답은 동일하므로 구체의 좌/우 90도 위치에 마이크를 설치하여 획득한 음원은 전/후방 혼동현상이 더미헤드보다 더 발생한다. 따라서 본 논문에서 제안하는 시스템은 구체의 좌/우 90도에 마이크를 위치시키지 않고, 특정한 위치에 다수개의 마이크를 위치시킴으로써, 전/후방 혼동현상을 감소시킨다.
실험에 사용한 콘텐츠의 길이는 30초이고, 방향은 그림 13과 같이 전면 0도에서 후면 180도까지 15도의 간격을 가지고 있다. 멀티채널 방향성 평가 실험은 피험자가 무향실에 배치한 멀티채널 스피커 재생환경의 중앙에 위치하고 임의의 순서로 재생한 각각의 콘텐츠에 대해 피험자가 느끼는 음원의 방향을 지적하는 방법으로 수행하였다.
본 논문에서는 구체 위에 배치한 다수 개의 마이크를 이용하여 제작한 멀티채널 3차원 마이크를 이용하여 3차원 오디오 신호를 획득하고 후처리 과정을 통해 다양한 재생환경에서 재생 가능한 입체음향 획득 시스템에 대해 기술하였다. 멀티채널 3차원 마이크는 중앙의 음원을 강조하고 인간의 머리움직임을 고려하기 위한 위치에 마이크를 배치하여 제작하였다. 후처리 과정은 다양한 재생 환경에서의 스피커 배치에 따른 크로스토크를 제거하는 과정으로써, 재생환경에 적합한 역필터를 이용하여 각각의 크로스토크를 제거한다.
본 논문에서는 구체 위에 배치한 다수 개의 마이크를 이용하여 제작한 멀티채널 3차원 마이크를 이용하여 3차원 오디오 신호를 획득하고 후처리 과정을 통해 다양한 재생환경에서 재생 가능한 입체음향 획득 시스템에 대해 기술하였다. 멀티채널 3차원 마이크는 중앙의 음원을 강조하고 인간의 머리움직임을 고려하기 위한 위치에 마이크를 배치하여 제작하였다. 후처리 과정은 다양한 재생 환경에서의 스피커 배치에 따른 크로스토크를 제거하는 과정으로써, 재생환경에 적합한 역필터를 이용하여 각각의 크로스토크를 제거한다.
실험에 사용한 콘텐츠의 길이는 30초이고, 방향은 그림 13과 같이 전면 0도에서 후면 180도까지 15도의 간격을 가지고 있다. 멀티채널 방향성 평가 실험은 피험자가 무향실에 배치한 멀티채널 스피커 재생환경의 중앙에 위치하고 임의의 순서로 재생한 각각의 콘텐츠에 대해 피험자가 느끼는 음원의 방향을 지적하는 방법으로 수행하였다.
본 논문에서 제안한 멀티채널 3차원 마이크의 성능을 평가하기 위해 헤드폰과 멀티채널 재생환경에서 주관적 방향성 평가실험을 수행하였다. 실험은 일본 동경전기 대학 (Tokyo Denki University)의 무향실에서 청력이 정상인 10명의 학생을 대상으로 수행하였다.
멀티채널 디콘볼루션의 목적은 주어 진 S 개의 스피 커를 이용하여 공간상의 R 위치에서 음장을 가능한 정확하게 재생하는 것이다. 본 논문에서는 5X5, 4X4 와 2X2역필터를 이용하여 5채널, 4채널 및 스테레오/스테레오 다이폴[14,15] 재생환경에서 크로스토크를 제거한다.
멀티채널 디콘볼루션의 목적은 주어 진 S 개의 스피 커를 이용하여 공간상의 R 위치에서 음장을 가능한 정확하게 재생하는 것이다. 본 논문에서는 5X5, 4X4 와 2X2역필터를 이용하여 5채널, 4채널 및 스테레오/스테레오 다이폴[14,15] 재생환경에서 크로스토크를 제거한다.
C(k)와 C(k)의 Hermition 매트릭스 CH(k)값을 이용하여 RxS 매트릭스 형태의 HI(K)를 구한다. 본 논문에서는 S = R = T =5, 4, 2 인 경우의 역필터를 이용하여 5채널, 4채널, 스테레오/스테레오 다이폴 재생을 위한 신호를 생성한다. Fast Deconvolution 방법의 특징은 역필터를 구할 때 수식 (1)의 β를 이용하여 역필터의 특성을 조절할 수 있다는 점이다.
C(k)와 C(k)의 Hermition 매트릭스 CH(k)값을 이용하여 RxS 매트릭스 형태의 HI(K)를 구한다. 본 논문에서는 S = R = T =5, 4, 2 인 경우의 역필터를 이용하여 5채널, 4채널, 스테레오/스테레오 다이폴 재생을 위한 신호를 생성한다. Fast Deconvolution 방법의 특징은 역필터를 구할 때 수식 (1)의 β를 이용하여 역필터의 특성을 조절할 수 있다는 점이다.
본 논문은 전/후방 혼동현상을 극복할 수 있고, 다양한 재생환경에서 적응할 수 있는 입체음향 획득 및 재생 시스템을 제안한다. 본 시스템은 구체 위 수평면 상에 다섯 개의 마이크를 배치하여 입체음을 획득하고 이 신호를 후처리 과정을 통해 헤드폰, 스테레오, 스테레오 다이폴, 4채널, 5채널 재생환경 등 다양한 재생환경에서 재생 가능한 신호를 생성한다. 후처리 과정에서는 다양한 재생환경에서 크로스토크 제거를 위해 Fast Deconvolution 방법을 이용하여 역필터를 생성한다[8].
본 논문은 전/후방 혼동현상을 극복할 수 있고, 다양한 재생환경에서 적응할 수 있는 입체음향 획득 및 재생 시스템을 제안한다. 본 시스템은 구체 위 수평면 상에 다섯 개의 마이크를 배치하여 입체음을 획득하고 이 신호를 후처리 과정을 통해 헤드폰, 스테레오, 스테레오 다이폴, 4채널, 5채널 재생환경 등 다양한 재생환경에서 재생 가능한 신호를 생성한다. 후처리 과정에서는 다양한 재생환경에서 크로스토크 제거를 위해 Fast Deconvolution 방법을 이용하여 역필터를 생성한다[8].
수식 (2)를 이용하여 생성한 구체 임펄스 응답의 변환 필터와 멀티채널 3차원 마이크의 5채널 출력신호 사이의 콘볼루션 연산을 통해 5채널 출력신호를 구체 위의 LT (좌측 90도)와 RT (우측 90도)로 변환한다.
이러한 역필터들은 재생환경의 특정 위치에서 원하는 신호가 재생될 수 있도록 설계하였다. 시스템의 성능평가를 위해 주관적 방향성 평가실험을 수행하였다. 실험결과 5채널과 4채널 재생환경에서 전/후방 혼동현상을 현저하게 줄일 수 있었고, 헤드폰 재생인 경우 더미헤드와 비슷한 결과를 보였다.
이러한 역필터들은 재생환경의 특정 위치에서 원하는 신호가 재생될 수 있도록 설계하였다. 시스템의 성능평가를 위해 주관적 방향성 평가실험을 수행하였다. 실험결과 5채널과 4채널 재생환경에서 전/후방 혼동현상을 현저하게 줄일 수 있었고, 헤드폰 재생인 경우 더미헤드와 비슷한 결과를 보였다.
실험은 일본 동경전기 대학 (Tokyo Denki University)의 무향실에서 청력이 정상인 10명의 학생을 대상으로 수행하였다. 실험에 사용한 콘텐츠는 모노 음원을 구체의 임펄스 응답을 통해 변환하여 제작하였다. 3개의 콘텐츠는 남성과 여성의 목소리와 클래식 음악으로 구성하였다.
헤드폰을 이용한 방향성 실험을 위해, 수식 (3)을 이용하여 생성한 헤드폰 재생신호와 KEMAR 더미헤드의 HRTF를 이용하여 생성한 헤드폰 재생신호를 이용하여 실험을 수행하였다. 실험은 멀티채널 재생환경에서의 방향성 실험과 동일한 방법을 사용하였다. 그림 16은 헤드폰을 이용한 방향성 평가 실험 결과를 보여주는데 두 경우 모두 멀티채널 재생실험에 비해 전/후방 혼동현상이 많이 발생하였다.
위에서 설명한 5X5, 4X4, 2X2역필터는 모두 재생 환경에 따른 각각의 스피커와 구체 위에 설치한 마이크 사이의 임펄스응답을 이용하여 구하였다. 역필터의 주파수 응답을 보면 대각선 부분 즉 스피커와 마이크의 직접 신호는 평탄한 특성을 보이고 나머지 크로스토크 신호는 효율적으로 제거됨을 알 수 있다.
머리의 정 중앙면 (median plane)에서 음이 입사하는 경우 머리를 움직이지 않으면 ITD와 ILD가 동일하기 때문에 방향을 판단하기가 어려워진다. 일반적으로 인간이 방향을 판단하기 위해 회전하는 머리의 각도가 20~40도 이기 때문에 본 논문에서 제안하는 멀티채널 3차원 마이크 시스템은 구체 위에 30도의 각도를 두고 좌/우에 두 개의 마이크를 위치시켜서 입체음원을 획득한다.
머리의 정 중앙면 (median plane)에서 음이 입사하는 경우 머리를 움직이지 않으면 ITD와 ILD가 동일하기 때문에 방향을 판단하기가 어려워진다. 일반적으로 인간이 방향을 판단하기 위해 회전하는 머리의 각도가 20~40도 이기 때문에 본 논문에서 제안하는 멀티채널 3차원 마이크 시스템은 구체 위에 30도의 각도를 두고 좌/우에 두 개의 마이크를 위치시켜서 입체음원을 획득한다.
후처리 과정에서 재생환경에 따른 다양한 역필터를 구하기 위해 구체의 임펄스 응답을 측정하였다. 임펄스 응답은 무향실에서 (크기: 6.2mX 5.4mX 4.95m (WxDxH), 암소음: 19dB(A) 이상, 역제곱 특성: JIS Z 8732 및 ISO 3745 준거) 그림 1과 같이 1.2m 높이에 구체를 설치한 후, 스피커와 1.4m 거리를 두고 구체를 수평면에서 5도씩 회전하면서 총 72개의 임펄스 응답을 측정하였다.
후처리 과정에서 재생환경에 따른 다양한 역필터를 구하기 위해 구체의 임펄스 응답을 측정하였다. 임펄스 응답은 무향실에서 (크기: 6.2mX 5.4mX 4.95m (WxDxH), 암소음: 19dB(A) 이상, 역제곱 특성: JIS Z 8732 및 ISO 3745 준거) 그림 1과 같이 1.2m 높이에 구체를 설치한 후, 스피커와 1.4m 거리를 두고 구체를 수평면에서 5도씩 회전하면서 총 72개의 임펄스 응답을 측정하였다.
멀티채널 및 스테레오/스테레오 다이폴 재생환경 등 다양한 재생환경에 따른 재생신호의 생성을 위해 멀티채널 3차원 마이크로폰을 통해 획득한 신호와 다양한 역필터 사이의 콘볼루션 연산이 필요하다. 특히 멀티채널 재생신호의 생성을 위해서는 입력신호와 역필터 사이의 5X5 콘볼루션 연산이 필요하기 때문에, 실시간 처리를 위해 후처리 H/W를 제작하였다. 후처리 H/W는 두 개의 TMS320C6416 DSP를 이용하여 구현하였다.
멀티채널 및 스테레오/스테레오 다이폴 재생환경 등 다양한 재생환경에 따른 재생신호의 생성을 위해 멀티채널 3차원 마이크로폰을 통해 획득한 신호와 다양한 역필터 사이의 콘볼루션 연산이 필요하다. 특히 멀티채널 재생신호의 생성을 위해서는 입력신호와 역필터 사이의 5X5 콘볼루션 연산이 필요하기 때문에, 실시간 처리를 위해 후처리 H/W를 제작하였다. 후처리 H/W는 두 개의 TMS320C6416 DSP를 이용하여 구현하였다.
헤드폰 재생을 위한 2채널 신호의 생성을 위해 멀티채널 3차원 마이크의 5채널 출력 신호와 구체 임펄스 응답의 변환필터를 이용한다 수식 (2)는 구체의 임펄스 응답을 이용하여 헤드폰 신호의 생성을 위한 변환필터를 생성하기 위한 것이다. 수식 (2)에서 SIRn (Sphere Impulse Response for n degree)은 스피커와 구체 위의 마이크 사이의 각도가 n 도인 경우의 구체 임펄스 응답을 나타내고, #는 구체 위의 마이크와 스피커 사이의 각도가 0인 구체 임펄스 응답의 역필터를 의미한다.
헤드폰을 이용한 방향성 실험을 위해, 수식 (3)을 이용하여 생성한 헤드폰 재생신호와 KEMAR 더미헤드의 HRTF를 이용하여 생성한 헤드폰 재생신호를 이용하여 실험을 수행하였다. 실험은 멀티채널 재생환경에서의 방향성 실험과 동일한 방법을 사용하였다.
후처리 과정에서 재생환경에 따른 다양한 역필터를 구하기 위해 구체의 임펄스 응답을 측정하였다. 임펄스 응답은 무향실에서 (크기: 6.
후처리 과정에서 재생환경에 따른 다양한 역필터를 구하기 위해 구체의 임펄스 응답을 측정하였다. 임펄스 응답은 무향실에서 (크기: 6.
후처리 과정에서는 5채널, 4채널, 스테레오/스테레오 다이폴 재생환경에서의 크루스투-크 제거를 위한 역필터와 다양한 입력신호의 콘볼루션 연산을 통해 각각의 재생환경에 적합한 재생신호를 생성한다. 또한 멀티채널 3차원 마이크 출력신호와 구체 임펄스 응답의 변환필터를 이용하여 헤드폰 재생을 위한 신호를 생성한다.
후처리 과정에서는 5채널, 4채널, 스테레오/스테레오 다이폴 재생환경에서의 크루스투-크 제거를 위한 역필터와 다양한 입력신호의 콘볼루션 연산을 통해 각각의 재생환경에 적합한 재생신호를 생성한다. 또한 멀티채널 3차원 마이크 출력신호와 구체 임펄스 응답의 변환필터를 이용하여 헤드폰 재생을 위한 신호를 생성한다.
대상 데이터
실험에 사용한 콘텐츠는 모노 음원을 구체의 임펄스 응답을 통해 변환하여 제작하였다. 3개의 콘텐츠는 남성과 여성의 목소리와 클래식 음악으로 구성하였다. 실험에 사용한 콘텐츠의 길이는 30초이고, 방향은 그림 13과 같이 전면 0도에서 후면 180도까지 15도의 간격을 가지고 있다.
실험에 사용한 콘텐츠는 모노 음원을 구체의 임펄스 응답을 통해 변환하여 제작하였다. 3개의 콘텐츠는 남성과 여성의 목소리와 클래식 음악으로 구성하였다. 실험에 사용한 콘텐츠의 길이는 30초이고, 방향은 그림 13과 같이 전면 0도에서 후면 180도까지 15도의 간격을 가지고 있다.
5채널 재생실험을 위해 ITU 5.1 스피커 배치 중 LFE를 위한 subwoofer를 제외한 5개의 스피커를 무향실에 그림 13와 같이 설치하고 실험을 수행하였다 4채널 재생실험에서는 5채널 재생환경 중 중앙의 스피커를 제외한 4개의 스피커를 이용하였다. 그림 14는 5채널 방향성 실험의 결과를 보여준다.
5채널 재생실험을 위해 ITU 5.1 스피커 배치 중 LFE를 위한 subwoofer를 제외한 5개의 스피커를 무향실에 그림 13와 같이 설치하고 실험을 수행하였다 4채널 재생실험에서는 5채널 재생환경 중 중앙의 스피커를 제외한 4개의 스피커를 이용하였다. 그림 14는 5채널 방향성 실험의 결과를 보여준다.
3개의 콘텐츠는 남성과 여성의 목소리와 클래식 음악으로 구성하였다. 실험에 사용한 콘텐츠의 길이는 30초이고, 방향은 그림 13과 같이 전면 0도에서 후면 180도까지 15도의 간격을 가지고 있다. 멀티채널 방향성 평가 실험은 피험자가 무향실에 배치한 멀티채널 스피커 재생환경의 중앙에 위치하고 임의의 순서로 재생한 각각의 콘텐츠에 대해 피험자가 느끼는 음원의 방향을 지적하는 방법으로 수행하였다.
3개의 콘텐츠는 남성과 여성의 목소리와 클래식 음악으로 구성하였다. 실험에 사용한 콘텐츠의 길이는 30초이고, 방향은 그림 13과 같이 전면 0도에서 후면 180도까지 15도의 간격을 가지고 있다. 멀티채널 방향성 평가 실험은 피험자가 무향실에 배치한 멀티채널 스피커 재생환경의 중앙에 위치하고 임의의 순서로 재생한 각각의 콘텐츠에 대해 피험자가 느끼는 음원의 방향을 지적하는 방법으로 수행하였다.
본 논문에서 제안한 멀티채널 3차원 마이크의 성능을 평가하기 위해 헤드폰과 멀티채널 재생환경에서 주관적 방향성 평가실험을 수행하였다. 실험은 일본 동경전기 대학 (Tokyo Denki University)의 무향실에서 청력이 정상인 10명의 학생을 대상으로 수행하였다. 실험에 사용한 콘텐츠는 모노 음원을 구체의 임펄스 응답을 통해 변환하여 제작하였다.
이론/모형
더미헤드를 통해 녹음한 바이노럴 신호를 스피커를 통해 재생하는 경우 좌측 스피커 신호가 우측 귀에 들리고, 우측 스피커 신호가 좌측 귀에 들리는 크로스토크 현상이 발생한다. 이러한 크루스투크 현상을 제거하기 위해 다양한 방법을 사용하는데 [8,11-13], 본 논문에서는 Fast Deconvolution 방법을 사용한다[8]. 멀티채널 디콘볼루션의 목적은 주어 진 S 개의 스피 커를 이용하여 공간상의 R 위치에서 음장을 가능한 정확하게 재생하는 것이다.
더미헤드를 통해 녹음한 바이노럴 신호를 스피커를 통해 재생하는 경우 좌측 스피커 신호가 우측 귀에 들리고, 우측 스피커 신호가 좌측 귀에 들리는 크로스토크 현상이 발생한다. 이러한 크루스투크 현상을 제거하기 위해 다양한 방법을 사용하는데 [8,11-13], 본 논문에서는 Fast Deconvolution 방법을 사용한다[8]. 멀티채널 디콘볼루션의 목적은 주어 진 S 개의 스피 커를 이용하여 공간상의 R 위치에서 음장을 가능한 정확하게 재생하는 것이다.
본 시스템은 구체 위 수평면 상에 다섯 개의 마이크를 배치하여 입체음을 획득하고 이 신호를 후처리 과정을 통해 헤드폰, 스테레오, 스테레오 다이폴, 4채널, 5채널 재생환경 등 다양한 재생환경에서 재생 가능한 신호를 생성한다. 후처리 과정에서는 다양한 재생환경에서 크로스토크 제거를 위해 Fast Deconvolution 방법을 이용하여 역필터를 생성한다[8]. 이러한 역필터들은 재생환경의 특정 위치에서 원하는 신호가 재생될 수 있도록 설계하였다.
성능/효과
7도의 각도오차가 있었고, KEMAR 더미헤드인 경우 평균 41도의 각도오차가 있었다. 따라서 멀티채널 재생인 경우 (5채널, 4채널) 기존 더미헤드에 비해 전/후방 혼동 현상이 현저하게 줄어 들었고, 헤드폰 재생 시는 비슷한 결과를 보임을 알 수 있다.
후처리 과정은 다양한 콘볼루션 연산을 위해 많은 계산량이 필요하기 때문에 H/W로 제작하였다. 멀티채널 3차원 마이크의 성능을 검증하기 위한 방향성 평가 실험 결과 멀티채널 재생환경에서 기존 더미헤드 기술의 단점인 전/후방 혼동현상을 현저하게 줄일 수 있었다. 본 논문에서 제안한 입체음향의 획득을 위한 멀티채널 3차원 마이크관련 기술은 향후 실감방송이나 3DTV등에서 사용할 입체음향의 획득에 활용 가능하다.
후처리 과정은 다양한 콘볼루션 연산을 위해 많은 계산량이 필요하기 때문에 H/W로 제작하였다. 멀티채널 3차원 마이크의 성능을 검증하기 위한 방향성 평가 실험 결과 멀티채널 재생환경에서 기존 더미헤드 기술의 단점인 전/후방 혼동현상을 현저하게 줄일 수 있었다. 본 논문에서 제안한 입체음향의 획득을 위한 멀티채널 3차원 마이크관련 기술은 향후 실감방송이나 3DTV등에서 사용할 입체음향의 획득에 활용 가능하다.
표의 값은 실험에 사용한 각각의 콘텐츠의 실제 각도와 피험자가 지적한 각도의 평균오차 값을 의미한다. 멀티채널 재생인 경우, 5채널 환경에서는 평균 7.4도의 각도오차가 있었고, 4채널 재생인 경우 평균 9.6도의 각도오차가 있었다. 헤드폰 재생인 경우 평균 42.
시스템의 성능평가를 위해 주관적 방향성 평가실험을 수행하였다. 실험결과 5채널과 4채널 재생환경에서 전/후방 혼동현상을 현저하게 줄일 수 있었고, 헤드폰 재생인 경우 더미헤드와 비슷한 결과를 보였다.
시스템의 성능평가를 위해 주관적 방향성 평가실험을 수행하였다. 실험결과 5채널과 4채널 재생환경에서 전/후방 혼동현상을 현저하게 줄일 수 있었고, 헤드폰 재생인 경우 더미헤드와 비슷한 결과를 보였다.
위에서 설명한 5X5, 4X4, 2X2역필터는 모두 재생 환경에 따른 각각의 스피커와 구체 위에 설치한 마이크 사이의 임펄스응답을 이용하여 구하였다. 역필터의 주파수 응답을 보면 대각선 부분 즉 스피커와 마이크의 직접 신호는 평탄한 특성을 보이고 나머지 크로스토크 신호는 효율적으로 제거됨을 알 수 있다. 각각의 그림에서 hRS는 S 스피커에서 구체 위의 R 위치까지의 역 필터를 의미한다.
6도의 각도오차가 있었다. 헤드폰 재생인 경우 평균 42.7도의 각도오차가 있었고, KEMAR 더미헤드인 경우 평균 41도의 각도오차가 있었다. 따라서 멀티채널 재생인 경우 (5채널, 4채널) 기존 더미헤드에 비해 전/후방 혼동 현상이 현저하게 줄어 들었고, 헤드폰 재생 시는 비슷한 결과를 보임을 알 수 있다.
6도의 각도오차가 있었다. 헤드폰 재생인 경우 평균 42.7도의 각도오차가 있었고, KEMAR 더미헤드인 경우 평균 41도의 각도오차가 있었다. 따라서 멀티채널 재생인 경우 (5채널, 4채널) 기존 더미헤드에 비해 전/후방 혼동 현상이 현저하게 줄어 들었고, 헤드폰 재생 시는 비슷한 결과를 보임을 알 수 있다.
후속연구
멀티채널 3차원 마이크의 성능을 검증하기 위한 방향성 평가 실험 결과 멀티채널 재생환경에서 기존 더미헤드 기술의 단점인 전/후방 혼동현상을 현저하게 줄일 수 있었다. 본 논문에서 제안한 입체음향의 획득을 위한 멀티채널 3차원 마이크관련 기술은 향후 실감방송이나 3DTV등에서 사용할 입체음향의 획득에 활용 가능하다.
멀티채널 3차원 마이크의 성능을 검증하기 위한 방향성 평가 실험 결과 멀티채널 재생환경에서 기존 더미헤드 기술의 단점인 전/후방 혼동현상을 현저하게 줄일 수 있었다. 본 논문에서 제안한 입체음향의 획득을 위한 멀티채널 3차원 마이크관련 기술은 향후 실감방송이나 3DTV등에서 사용할 입체음향의 획득에 활용 가능하다.
본 시스템은 재생환경의 중앙에 위치한 청취자만을 위한 시스템으로, 향후 청취영역의 확대 및 재생 시 전/후방 음원의 음색 변화에 대한 연구가 필요하다.
본 시스템은 재생환경의 중앙에 위치한 청취자만을 위한 시스템으로, 향후 청취영역의 확대 및 재생 시 전/후방 음원의 음색 변화에 대한 연구가 필요하다.
참고문헌 (16)
Francis Rumsey and Tim McCormick, Sound and Recording: An Introduction. Focal Press, 2002
Blauert, Spatial Hearing: The Psychophysics of Human Sound Localization, MIT. Cambridge, MA. 1983
강경옥, 장대영, 서정일, 정대권, '객체기반 3차원 오디오 방송 시스템 설계', 한국음향학회지, 22 (7), 592-602, 2003
D. H. Cooper and J. Sauck. 'Prospects for transaural recording,' J. Audio Eng. Soc. 37 (1/2), 3-19, 1989
Yuvi Kahana, Philip A. Nelson, Ole Kirkeby, and Hareo Hamada, 'A multiple microphone recording technique for the generation of virtual acoustic images,' J. Acoustic. Soc. Am., 105 (3), 1503-1516, 1999
Ole Kirkeby, Philip A. Nelson, Hareo Hamada, and Felipe Orduna-Bustamante, 'Fast Deconvolution of Multichannel Systems Using Regularization,' IEEE Trans. On Speech and Audio Processing, 6 (2), 189-194, 1998
Corey I. Cheng and Gregory H. Wakefield, 'Introduction to HRTFs: Representations of HRTFs in Time, Frequency, and Space,' J. AES, 49 (4), 231-249, 2001
구자현, 'Rayleigh의 소리 방향 지각 연구에 대한 과학서적 고찰', 한국음향학회지, 21 (8), 695-702, 2002
P. A. Nelson and S. J. Elliott, Active Control of Sound, Academic Press, 1992
최갑근, 방승범, 정완섭, 김순협, '5.1채널 스피커 시스템에서 트랜스오럴 필터 구현에 관한 연구', 한국음향학회지, 21 (3), 245-255, 2002
김래훈, 임준석, 성굉모, '3차원 오디오 시스템에서 합과 차 여파기를 이용한 새로운 간섭신호 제거 방법', 한국음향학회지, 20 (4), 17-21, 2001
Hareo Hamada, Hironori Tokuno, Yuko Watanabe and P. A. Nelson, '3D Sound Generation using Two Loudspeakers Stereo Dipole System and Its Applications,' AES 15th International Conference, 1998
Ole Kirkeby, Philip A. Nelson and Hareo Hamada, 'The Stereo Dipole - A Virtual Source Imaging System Using Two Closely Spaced Loudspeakers,' J. AES, 46 (5), 387-395 1998
ITU-R Recommendation BS. 755: 'Multi-channel stereophonic sound system with or without accompanying picture' 1993
※ AI-Helper는 부적절한 답변을 할 수 있습니다.