본 논문에서는 객관적으로 정량화된 복합 신호음의 조화도를 새로운 심리 음향 파라미터로 제안하였다. 사람이 복합신호음을 인지하는 과정에서 발생하는 masking 효과, 등청감 곡선, criticalband 등의 심리음향학적인 모델들을 적용시킨 후, 그 소리가 어느정도의 조화도를 갖는지를 정량화시키는 모델을 제안하였고, 이를 검증하기 위하여 복합음으로 구성된 자동차 Horn 신호로 실험을 수행하였다. 실험 결과, 제안한 알고리즘에 의하여 정량화된 객관적인 조화도와 청취 평가를 통한 주관적인 조화도가 0.95의 cross correlation을 보였다. 현재 객관적인 심리음향학적인 파라미터로는 Zwicker 파라미터 외에는 거의 전무한 상태여서 제안하는 알고리즘을 통하여 소리의 심리음향학적인 효과를 보다 객관적으로 파악하는 데에 도움이 될 것으로 보인다.
본 논문에서는 객관적으로 정량화된 복합 신호음의 조화도를 새로운 심리 음향 파라미터로 제안하였다. 사람이 복합신호음을 인지하는 과정에서 발생하는 masking 효과, 등청감 곡선, criticalband 등의 심리음향학적인 모델들을 적용시킨 후, 그 소리가 어느정도의 조화도를 갖는지를 정량화시키는 모델을 제안하였고, 이를 검증하기 위하여 복합음으로 구성된 자동차 Horn 신호로 실험을 수행하였다. 실험 결과, 제안한 알고리즘에 의하여 정량화된 객관적인 조화도와 청취 평가를 통한 주관적인 조화도가 0.95의 cross correlation을 보였다. 현재 객관적인 심리음향학적인 파라미터로는 Zwicker 파라미터 외에는 거의 전무한 상태여서 제안하는 알고리즘을 통하여 소리의 심리음향학적인 효과를 보다 객관적으로 파악하는 데에 도움이 될 것으로 보인다.
In this paper, objectively quantified consonance of complex sound is proposed as a new psychoacoustical parameter. Proposing algorithm quantifies consonance of complex sound after applying psycho acoustical models which are parts of human perception such as masking effect, equal loudness contour, an...
In this paper, objectively quantified consonance of complex sound is proposed as a new psychoacoustical parameter. Proposing algorithm quantifies consonance of complex sound after applying psycho acoustical models which are parts of human perception such as masking effect, equal loudness contour, and critical band. To verify proposing algorithm, experiments with 10 car horn signals which have different complex sound were performed. The experiments show cross correlation of 0.95 between objectively quantified consonance by proposing algorithm and subjectively assessed consonance by listening tests. Considering the fact that there are few psychoacoustical parameter except Zwicker parameter, proposing algorithm will help to quantify psychoacoustical effect of complex sounds objectively.
In this paper, objectively quantified consonance of complex sound is proposed as a new psychoacoustical parameter. Proposing algorithm quantifies consonance of complex sound after applying psycho acoustical models which are parts of human perception such as masking effect, equal loudness contour, and critical band. To verify proposing algorithm, experiments with 10 car horn signals which have different complex sound were performed. The experiments show cross correlation of 0.95 between objectively quantified consonance by proposing algorithm and subjectively assessed consonance by listening tests. Considering the fact that there are few psychoacoustical parameter except Zwicker parameter, proposing algorithm will help to quantify psychoacoustical effect of complex sounds objectively.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 논문에서는 복합 신호음들의 조화도를 객관적으로 측정할 수 있는 알고리즘을 제안하였다. 제안한 알고리즘은 masking 현상, 등청감곡선 등의 심리음향 모델들을 사용하여 각각의 부조화를 야기하는 성분들에 가중치를 부가하였고, 단일음에서의 Plomp와 Levelt의 조화도 모델을 사용하였다
음의 조화도 (consonance)가 정의되었다. 본 논문에서는 이러한 조화도 이론을 현재 다양한 기계, 전기, 전자 제품에서 사용되는 신호음에 적용시켜 각각의 신호음의 심리음향학적인 파라미터로서의 사용을 제안하고자 한다.
않았다. 이에, 본 논문에서는 신호음에 대한 평가 파라미터로 쓰일 수 았을 정랑券된 조화도 (Quantified Consonance)에 대하여 제안흐卜고자 한다.
제안 방법
여부를 판별한다. 그림 1과 같이 Plomp와 Levelt의 조화도 이론이 크리티컬 밴드의 1.2배가 되는 주파수 간격을 갖는 신호에 대하여 정의되어 있으므로, 크리티컬 밴드의 1.2배 이내에 존재하는 피크들을 쌍 (pair)으로 구분지어 놓는다 크리티컬 밴드의 폭은 한 쌍의 peak들로부터 그 중심 주파수 (九)를 구하고 이를 다음과 같이 정의되는 ERB (Equivalent Rectangular Bandwidth) 모델을 적용시켜 구한다. [6]
심리음향 모델을 거쳐 유효한 피크 쌍들의 부조 화도를 모두 측정한 후, 이로부터 최종적인 조화도를 산출해낸다. 이러한 조화도 산출에서는 두가지의 가중치가 적용된다.
위의 과정들을 통하여 사람의 청각기관 특성이 반영된 신호들을, 모든 피크 성분들끼리 Plomp와 Levelt에 의하여 정의된 조화도 이론을 통하여 부조화도를 측정하기 전에, 각각의 피크 쌍들이 동일한 크리티컬 밴드안에 위치하는지의 여부를 판별한다. 그림 1과 같이 Plomp와 Levelt의 조화도 이론이 크리티컬 밴드의 1.
제안하는 알고리즘의 검증을 위하여 구현한 알고리즘을 통한 객관 평가와 청취 평가를 통한 주관 평가와의 관계를 살펴보았다. 보다 정확한 평가를 위하여 객관 평가를 위한 알고리즘 구현시에는 MPEG의 마스킹 모델, IS。의 등청감곡선 등 표준 데이터를 사용하였고, 주관평가를 위해서 조화도의 등급에 따른 참조 음원들을 사용하였다.
수 있는 알고리즘을 제안하였다. 제안한 알고리즘은 masking 현상, 등청감곡선 등의 심리음향 모델들을 사용하여 각각의 부조화를 야기하는 성분들에 가중치를 부가하였고, 단일음에서의 Plomp와 Levelt의 조화도 모델을 사용하였다
청취평가에서는 보다 나은 결과를 얻기 위하여 Plomp 와 Levelt 이론에 근거하여 임의로 만든, 조화도가 0에서 0.1 간격으로 1까지 11개의 음원을 통하여 트레이닝 과정을 포함시켰다. 트레이닝 데이터는 청취 평가 도중에도 들을 수 있도록 하였고, 각각의 청취 평가 음원들을 0~1 사이 0.
크리티컬 밴드 분석 이후, 각각의 피크의 쌍의 주파수 간격과 크리티컬 밴드 폭을 그림 1의 Plomp와 Levelt의조화도 이론을 통하여 부조화도를 구한다.
1 간격으로 1까지 11개의 음원을 통하여 트레이닝 과정을 포함시켰다. 트레이닝 데이터는 청취 평가 도중에도 들을 수 있도록 하였고, 각각의 청취 평가 음원들을 0~1 사이 0.1 간격의 10개의 등급 중 하나를 주도록 하였다. 청취 평가 결과는 표 3과 같이 나타났다.
대상 데이터
보았다. 사용된 음원으로는 io가지의 각기 다른 자동차 경적 신호음이 사용되었다
모델, IS。의 등청감곡선 등 표준 데이터를 사용하였고, 주관평가를 위해서 조화도의 등급에 따른 참조 음원들을 사용하였다. 그 결과 제안한 알고리즘에 의한 객관 평가 결과와 청취 평가에 의한 주관 평가 결과가 0.
주어진 10개의 음원들에 대하여 주관적으로 어느 정도 조화 도를 보이고 있는지 확인하기 위하여 기존에 다른 청취평가에 경험이 있는 10명을 대상으로 청취평가를 실시하였다.
데이터처리
제안하는 알고리즘을 확인하고자 제안하는 알고리즘을 통하여 객관적으로 조화도를 계산하였고, 청취평가를 통하여 조화도를 평가하여 각각의 결과를 비교해 보았다. 사용된 음원으로는 io가지의 각기 다른 자동차 경적 신호음이 사용되었다
이론/모형
다이어그램이다. 본 알고리즘에서는 등청감 곡선 [8], 마스킹 (Masking) 효과 [1, 5, 8], 크리티컬 밴드 [3, 8, 9] 등의 심리 음향 모델이 사용되었다.
실험에서는 가장 일반적인 변환인 이산 푸리에 변환 (Discrete Time Fourier Transform)0] 사용되었다.
성능/효과
보다 정확한 평가를 위하여 객관 평가를 위한 알고리즘 구현시에는 MPEG의 마스킹 모델, IS。의 등청감곡선 등 표준 데이터를 사용하였고, 주관평가를 위해서 조화도의 등급에 따른 참조 음원들을 사용하였다. 그 결과 제안한 알고리즘에 의한 객관 평가 결과와 청취 평가에 의한 주관 평가 결과가 0.95의 상관도을 갖는 것으로 확인 되었고, 이로서 제안하는 복합 신호음의 객관적으로 정량화된 조화도는 심리 음향학적인 지표로 사용 가능할 것으로 보인다.
둘째, 부조화도는 음원 전체의 라우드니스의 함수가 아니므로, 음원의 전체 에너지로 측정된 부조화도를 normalize해야 한다.
후속연구
95의 상당히 높은 상관도를 보였다. 따라서, 제안하는 알고리즘인 복합 신호음의 조화도는 심리 음향학적인 지표로 사용될 수 있을 것으로 보인다.
참고문헌 (10)
Bosi, Marina and Goldberg, Richard E., Introduction to Digital Audio Coding and Standards, (Kluwer Academic Publishers, 2003)
Burns, Edward M., The Psychology of Music, (San Diego: Academic Press, 1999)
Howard, D.M. and Angus, J., Acoustics and Psychoacoustics, (Forcal Press, 1996)
ISO 226:2003, Acoustics 'Normal Equal-Loudness-Level Contours,' ISO, 2003
ISO/IEC 11172, Information Technology, 'Coding of Moving Pictures and Associated Audio for Digital Storage Media at up to about 1.5 Mbits/s,' 1993
Moore, B.C.J. and Glasberg, B.P., 'Suggested Formulae for Calculating Auditory-Filter Bandwidths and Excitation Patterns,' Journal of the Acoustical Society of America, 74 (3), 750-753, 1983
※ AI-Helper는 부적절한 답변을 할 수 있습니다.