두세 명 혹은 그 이상의 참가자간사이의 다자간통화 시 음량불균형, 음량포화, 잡음레벨상승으로 인해서 음질 저하가 발생한다. 이 문제를 해결하기 위해서 본 논문은 소프트웨어 기반의 다지점제어장치를 위한 향상된 오디오 믹싱알고리즘을 제안한다. 제안된 방식은 음성구간검출과 게인콘트롤이 결합된 기술로서 음성신호 분류, 음량 추정, 게인값 적용, 모든 채널의 음성신호를 믹싱하는 알고리즘들로 구성되어 있다. 제안된 오디오 믹싱 알고리즘은 효율적인 연산과 고품질의 음성을 제공하며, 실질적인 다자간 음성 통화에 적합하다.
두세 명 혹은 그 이상의 참가자간사이의 다자간통화 시 음량불균형, 음량포화, 잡음레벨상승으로 인해서 음질 저하가 발생한다. 이 문제를 해결하기 위해서 본 논문은 소프트웨어 기반의 다지점제어장치를 위한 향상된 오디오 믹싱 알고리즘을 제안한다. 제안된 방식은 음성구간검출과 게인콘트롤이 결합된 기술로서 음성신호 분류, 음량 추정, 게인값 적용, 모든 채널의 음성신호를 믹싱하는 알고리즘들로 구성되어 있다. 제안된 오디오 믹싱 알고리즘은 효율적인 연산과 고품질의 음성을 제공하며, 실질적인 다자간 음성 통화에 적합하다.
The speech quality of multi-party audio telephony between two, three or more participants is decreased by audio volume imbalance, audio volume saturation and noise level increase. To solve this issue, this paper proposes an advanced audio mixing algorithm for software-based multi-point control unit....
The speech quality of multi-party audio telephony between two, three or more participants is decreased by audio volume imbalance, audio volume saturation and noise level increase. To solve this issue, this paper proposes an advanced audio mixing algorithm for software-based multi-point control unit. Our approach is based on the combined voice activity detection and gain control technique that consists of a set of algorithms that classify audio signals, estimate audio volumes, adjust gain factors and mix audio signals of all channels. The proposed audio mixing algorithm is computationally efficient, delivers high-quality speech, and is suitable for use in any practical multi-party audio telephony.
The speech quality of multi-party audio telephony between two, three or more participants is decreased by audio volume imbalance, audio volume saturation and noise level increase. To solve this issue, this paper proposes an advanced audio mixing algorithm for software-based multi-point control unit. Our approach is based on the combined voice activity detection and gain control technique that consists of a set of algorithms that classify audio signals, estimate audio volumes, adjust gain factors and mix audio signals of all channels. The proposed audio mixing algorithm is computationally efficient, delivers high-quality speech, and is suitable for use in any practical multi-party audio telephony.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
[3]이러한 잡음의 영향을 줄이기 위해서 잡음제거를 동반한 음성구간검출이 사용되거나, 가우시안 분포를 이용한 음성구간검출[6]이 사용되지만, 연산량의 증가로 인해 실시간 통화가 어려워지는 단점이 존재한다. 본 논문에서는 다양한 잡음환경 및 잡음레벨이 변화하는 현재의 상황에 빠르게 적응하여 문턱값을 갱신시킴으로써 더 효과적으로 음성구간과 비음성구간을 검출할 수 있는 음성구간 검출방법을 제안한다.
본 논문에서는 다자간 음성통화 품질 향상을 위한 오디오 믹서 알고리즘을 제안하였다. 제안된 방식은 잡음환경에서도 음성구간 검출의 정확도를 향상시켜 오디오 믹싱 시 음량포화를 방지하고 음량균일화를 효과적으로 수행하였다.
본 논문에서는 음량포화 및 잡음레벨 상승과 음량 불균형을 해소하기 위해서, 음성구간검출을 적용함으로써 각 채널로부터 입력되는 연속된 음성 신호를 기준음량에 맞추는 게인콘트롤을 사용해서 음량포화를 방지하고 음량을 균일화시키는 방법을 이용해서 문제를 해결하고자 한다.
제안 방법
각 채널의 모든 음성신호들을 기준음량에 맞추어 게인을 조정하게 되면빈번한 게인값 변동과 무리한 음량조절로 인해서 음성신호 간의 불연속적인 잡음이 발생하거나, 음성신호파형에 왜곡이 발생하게 되는데, 이러한 문제를 해결하기 위해서 본 논문에서 Fig . 4의 구조를 갖는 게인콘트롤 방식을 제안한다.
[2] 본 논문에서는 음성구간검출을 통해서 찾아진 사용자가 실제로 발성하는 구간인 연속되는 음성구간에서 기준음량으로 균일화시키기 위한 게인값을 구하기 때문에 잡음레벨의 상승으로 인한 클리핑현상을 방지한다. 또한, 연속된 음성구간단위로 게인값을 적용함으로써 급격한 게인값 변동을 방지하여 안정적인 음량을 유지할 수 있다.
본 논문에서 제안하는 오디오 믹서 알고리즘의 성능을 측정하기 위해 다양한 잡음환경 및 다양한 음량크기를 가지는 10가지 실험군을 구성하였다. 각 실험군은 16 kHz 샘플링레이트로 녹음되었으며, 성인 남성 2명과 여성 1명이 한국어로 대화하는 10가지 상황으로 구성하였다.
PESQ는 객관적인 음질평가 지표로서, 1~5의 점수로 표현되며 수치가 높을수록좋은 음질인 경우이다. 게인콘트롤 과정이 없는 일반믹싱 TM(True Mixing)을 기준으로 각 믹서별 출력결과의 PESQ 측정을 통해서 믹싱방식에 따른 음질 훼손정도를 실험하였다. Fig.
잡음상황의 변화를 추정하기 위해서 Recursive -averaging 방법을 통해 비음성구간의 평균에너지 #와 평균AC #을 계산한다. 계산된 평균에너지와 평균AC는 이전 패킷의 평균에너지와 평균 AC의 비교를 통해서 잡음상황의 변화를 추정한다. i는 패킷 번호, βE (0<βE<1)는 에너지의 스무딩 상수, βA (0<βA<1)는 AC의 스무딩 상수이다.
찾아진 Max Peaki를 기준음량에 맞추어 음량을 균일화시킴으로써 음량의 포화를 방지하기 위함이다. 그리고 연속된 음성구간을 한 문장으로 설정하여 게인값을 구하고, 다음 연속된 음성구간에 동일한 게인값을 적용함으로써 빈번한 게인값 변동으로 인한 음성신호간의 불연속점과 음성신호의 왜곡을 방지한다.
다음으로, Power Loss는 입력된 음성신호가 믹서를 거쳐서 적절한 음량조절이 이루어졌는지를 나타낸다. 믹서에서 불필요한 음량의 감소나 증가 없이 음량 균일화가 수행되는 것을 확인하기 위해 Powe rLoss를 측정하였다. 초기 입력된 음성신호들의 음량을 기준으로 하기 위해서 TM의 음성신호를 기준으로 각 Power Loss를 측정하였다.
현재 음성패킷에 기본게인값을 적용 시, 음량한계점보다 작으면 게인값을 적용해도 음량포화가 발생하지 않는다고 판단하여, 기본게인값을 현재 음성패킷에 적용하기 위한 게인값으로 결정한다. 반대로 현재 음성패킷에 게인값 적용 시 음량한계점을 초과하면 음량포화가 발생하는 상황으로 판단하여, 음량한계점과 현재 입력된 음성패킷의 크기의 비율로 음량포화방지를 위한 게인값을 계산한다.
본 논문에서 제안한 다자간 음성통화 품질 향상을 위한 오디오 믹서 알고리즘의 구조는 Fig. 1과 같이 음성구간검출기, 게인콘트롤부, 믹싱콘트롤부로 구성된다.
본 논문에서는 입력되는 각 채널의 음성신호들을 기준음량에 맞추는 게인콘트롤을 사용한다. 각 채널의 모든 음성신호들을 기준음량에 맞추어 게인을 조정하게 되면빈번한 게인값 변동과 무리한 음량조절로 인해서 음성신호 간의 불연속적인 잡음이 발생하거나, 음성신호파형에 왜곡이 발생하게 되는데, 이러한 문제를 해결하기 위해서 본 논문에서 Fig .
여기서, 기준음량 Basic Volume=15000으로, 이는 음성신호의 표현범위 절반에 해당하는 값이다. 음량 포화를 방지하고 안정적으로 음량을 균일화하기 위해 중간대역의 음량을 기준으로 게인값을 계산한다. 찾아진 Max Peaki를 기준음량에 맞추어 음량을 균일화시킴으로써 음량의 포화를 방지하기 위함이다.
입력된 음성 패킷은 저주파 대역에 집중되어있는 잡음에 대한 영향을 줄이기 위해 고주파통과필터를 통과시키고, 출력된 음성 신호를 이용해서 에너지 Ei와 Auto-correlation(AC) ACi을 계산한다. 현재 입력된 음성 패킷에서 계산된 에너지와 AC가 각각의 설정된 문턱값 ΨiE, ΘiA보다 작은 경우에는 비음성 구간으로 판별한다.
믹서에서 불필요한 음량의 감소나 증가 없이 음량 균일화가 수행되는 것을 확인하기 위해 Powe rLoss를 측정하였다. 초기 입력된 음성신호들의 음량을 기준으로 하기 위해서 TM의 음성신호를 기준으로 각 Power Loss를 측정하였다. Power Loss는 수치가 0에 가까울수록 불필요한 음량의 감소 및 증가가 없다는 의미이다.
대상 데이터
본 논문에서 제안하는 오디오 믹서 알고리즘의 성능을 측정하기 위해 다양한 잡음환경 및 다양한 음량크기를 가지는 10가지 실험군을 구성하였다. 각 실험군은 16 kHz 샘플링레이트로 녹음되었으며, 성인 남성 2명과 여성 1명이 한국어로 대화하는 10가지 상황으로 구성하였다.
이론/모형
음성구간검출결과를 기반으로 연속된 음성구간의 음량크기를 나타내는 음성신호의 정점 Max Peaki를 식 (4)를 통해 검출한다.Max Peaki는 연속된 음성구간 내에서 각 음성패킷의 크기를 나타내는 Peaki중에서 최대값을 의미한다.
제안한 방식의 성능 비교평가를 위해, 출력신호들에 대한 스무스한 게인을 적용하는 믹싱 방식인 Enhanced Align-to-Greatest Weighted 방식[4](M1), 각 채널을 개별적으로 게인콘트롤 한 후 믹싱하는 방식인 Automatic Gain Controller and Adjustment Rate 방식[5](M2), 그리고 입력된 음성신호에 대해서 잡음제거와 음성구간검출[7]을 수행 후 믹싱을 하는 방식인 Enhanced Stream Regulation and Mixing 방식[4](M3)을 적용하여 PESQ, Power LOSS, 출력잡음레벨, 처리속도 등의 성능을 측정하였다.
성능/효과
Power Loss는 수치가 0에 가까울수록 불필요한 음량의 감소 및 증가가 없다는 의미이다. Fig. 5의 Power Loss를 측정한 결과를 보면, 제안된 방식은 출력 음성신호가 기존의 방식들에 비해 적은 Power Loss를 보였다. 게인콘트롤을 하더라도 원래의 음량에서 불필요한 음량감소 및 증가가 없다는 것을 의미한다.
마지막으로, 처리속도의 실험결과는 각 믹서별로 20 ms의 1패킷 단위 처리속도를 나타낸다. Fig. 6의 Processing time에 대한 실혐 결과를 보면, 제안된 방식은 간단한 연산만을 수행하는 M1과 M2보다는 처리시간이 길지만, 잡음제거가 선행되어 매우 긴처리시간을 가지는 M3에 비해 불필요한 연산을 방지하여 처리시간을 줄였다.
제안된 방식은 잡음환경에서도 음성구간 검출의 정확도를 향상시켜 오디오 믹싱 시 음량포화를 방지하고 음량균일화를 효과적으로 수행하였다. PESQ, Power Loss, 출력잡음레벨, 처리속도 등의 성능측정에 있어서 제안된 오디오 믹서 알고리즘은 기존방식과 비교하여 우수한 성능을 제시함을 알 수 있었다. 본 연구를 통해 개발된 오디오 믹서 알고리즘은 향후 실재감 혹은 현장감을 향상시키는 다자간 몰입형 화상통화에 적용할 수 있으리라고 생각된다.
기존의 오디오 믹서는 음성 및 비음성구간 구분없이 임의의 음량을 기준으로 설정하여 모든 음량을 균일화하는 방식을 사용하기 때문에 잡음레벨까지도 상승하여 클리핑 현상이 발생하고, 급격한 게인값 변동을 수반하므로 음량균일화 유지 및 음량포화 방지가 어렵기 때문에, 본 논문에서는 잡음에 강인한 음성구간검출기를 통해서 연속되는 음성구간단위로 게인값을 구하여 적용함으로써 안정적인 음량을 유지 할 수 있다.
[2] 본 논문에서는 음성구간검출을 통해서 찾아진 사용자가 실제로 발성하는 구간인 연속되는 음성구간에서 기준음량으로 균일화시키기 위한 게인값을 구하기 때문에 잡음레벨의 상승으로 인한 클리핑현상을 방지한다. 또한, 연속된 음성구간단위로 게인값을 적용함으로써 급격한 게인값 변동을 방지하여 안정적인 음량을 유지할 수 있다. 하지만 다자간 음성통화 및 원격회의 시, 각 채널의 사용자들은 다양한 잡음환경에 노출되어있다.
또한, 음량균일화룰 위한 게인콘트롤에서는 각 채널의 입력신호들에 대해 가장 큰 음량의 세션을 기준으로 음량을 균일화하여 게인값을 적용함으로써 실질적인 음량균일화가 이루어지지 않는 기존의 오디오 믹서에서 발생하는 문제점을 해결하여, 음량균일화를 이루고 음량포화를 방지한다.
7에서와 같이 각 채널로부터 입력되는 음성신호의 크기에 차이가 있는 상황에서는 기존의 믹서방식들은 각 문장들이 균일화되지 않은 채로 출력된 것을 확인 할 수 있다. 반면, 제안된 방식은 각 채널의 음량추정을 위한 초기 문장을 제외한 이후의 음성 신호에 게인을 적용하여 음량이 균일화된 것을 확인할 수 있다. 이는 게인을 조정하더라도 음성신호의 Power Loss가 적으며 음질 저하를 방지하여 높은 PESQ를 유지하는 오디오 믹서라 할 수 있다.
본 논문에서는 다자간 음성통화 품질 향상을 위한 오디오 믹서 알고리즘을 제안하였다. 제안된 방식은 잡음환경에서도 음성구간 검출의 정확도를 향상시켜 오디오 믹싱 시 음량포화를 방지하고 음량균일화를 효과적으로 수행하였다. PESQ, Power Loss, 출력잡음레벨, 처리속도 등의 성능측정에 있어서 제안된 오디오 믹서 알고리즘은 기존방식과 비교하여 우수한 성능을 제시함을 알 수 있었다.
5를 보면, 10개 실험군에 대한 각 믹서별 PESQ 평균을 기재하였다. 제안된 방식이 기존의 믹서방식보다 높은 PESQ를 보이고 있어, 음성신호파형의 왜곡이 적고 음질이 좋다는 것을 알 수 있다.
M1과 M2는 잡음이 입력되었을 때, 잡음에서도 게인콘트롤을 해서 잡음레벨에 변동이 있다. 하지만 제안된 방식은 잡음만 존재하는 구간에서는 게인콘트롤을 하지 않기 때문에, 각 잡음을 합성한 잡음레벨인 -18.8 dB가 측정되었다. 이는 입력된 두 잡음을 게인콘트롤 없이 믹싱한 결과와 같으며, 불필요한 게인콘트롤을 방지하여 연산량을 감소시켰다는 것을 알 수 있다.
후속연구
PESQ, Power Loss, 출력잡음레벨, 처리속도 등의 성능측정에 있어서 제안된 오디오 믹서 알고리즘은 기존방식과 비교하여 우수한 성능을 제시함을 알 수 있었다. 본 연구를 통해 개발된 오디오 믹서 알고리즘은 향후 실재감 혹은 현장감을 향상시키는 다자간 몰입형 화상통화에 적용할 수 있으리라고 생각된다.
질의응답
핵심어
질문
논문에서 추출한 답변
오디오 믹서 알고리즘의 성능을 비교평가하기위한 방법을 설명하시오.
제안한 방식의 성능 비교평가를 위해, 출력신호들에 대한 스무스한 게인을 적용하는 믹싱 방식인 Enhanced Align-to-Greatest Weighted 방식[4](M1), 각 채널을 개별적으로 게인콘트롤 한 후 믹싱하는 방식인 Automatic Gain Controller and Adjustment Rate 방식[5](M2), 그리고 입력된 음성신호에 대해서 잡음제거와 음성구간검출[7]을 수행 후 믹싱을 하는 방식인 Enhanced Stream Regulation and Mixing 방식[4](M3)을 적용하여 PESQ, Power LOSS, 출력잡음레벨, 처리속도 등의 성능을 측정하였다.
다자간 음성통화 시스템이란?
최근에는 일대일 방식의 VoIP 서비스에서 여러 명이 한꺼번에 음성통화 서비스를 이용할 수 있는 ‘다자간 음성통화’ 시스템[1-3] 이 등장하고 있다. 다자간 음성통화 시스템은 컴퓨터 혹은 스마트폰 및 네트워크를 이용하여 음성 데이터를 실시간으로 전송함으로써 컴퓨터, 스마트TV 혹은 스마트폰을 이용해 여러 명의 사용자가 음성대화를 가능하게 하는 시스템이다. 이러한 다자간 음성통화가 실시간으로 이루어지기 위해서는 다자간 음성통화 시에 여러 참여자들로부터 전송받은 음성 정보를 실시간으로 믹싱을 수행하는 오디오 믹서[1]의 역할이 매우 중요하다.
Output noise level에 대한 실험 이란?
Output noise level에 대한 실험은 -19 dB의 백색잡음과 -38 dB의 핑크잡음이 입력될 때, 각 믹서별로 출력결과의 잡음레벨을 측정한 실험이다. Fig.
참고문헌 (7)
D. Song, Y. Mo, and F. Wang, "Architecture of multiparty conferencing using SIP," in Proc. IEEE Int'l. Conf. on WiCOM, 2, 1361-1364 (2005).
F. Xing G, U. Wei-Kang, and Y. Xiu-qing, "Research on fast real time adaptive audio mixing in multimedia conference," J. of Zhejiang Univ. Sci. 6, 507-512 (2005).
S. V. Gerven and F. Xie, "A comparative study of speech detection methods," in Proc. of EUROSPEECH, 3, 1095-098 (1997).
S. P. Chandra, K. M. Senthil, and M. P. P. Bala, "Audio mixer for multi-party conferencing in VoIP," in Poc. IEEE Int'l. Conf. on IMSAA, 1-6 (2009).
V. M. Baskaran, and K. Wong "Audio mixer with automatic gain controller for software based multipoint control unit," APCCAS, 164-167 (2010).
Y. S. Um, J. H. Chang, and D. K. Kim, "Signal subspace-based vioc activity detection using generalized gaussian distortion" (in Korean), J. Acoust. Soc. Kr. 32, 131-137 (2013).
※ AI-Helper는 부적절한 답변을 할 수 있습니다.