발성유형지수 k (PTI k)는 F0와 모음 음가의 영향을 배제한, 단순하고 단일화된 스펙트럼 기울기의 척도다. 본 논문은 한국인 20대 남성화자 10명으로부터 얻은 모음 /이, 에, 아, 오, 우/에 나타난 PTI k를 연구한다. 환경, 발성유형, 모음, 그리고 화자를 요인으로 하여 각 집단간에 PTI k의 값에 유의미한 차이가 있는지 알아본다. 연구 결과 환경, 발성유형, 모음, 그리고 화자 각각에 집단간에 유의미한 차이가 있었다.
발성유형지수 k (PTI k)는 F0와 모음 음가의 영향을 배제한, 단순하고 단일화된 스펙트럼 기울기의 척도다. 본 논문은 한국인 20대 남성화자 10명으로부터 얻은 모음 /이, 에, 아, 오, 우/에 나타난 PTI k를 연구한다. 환경, 발성유형, 모음, 그리고 화자를 요인으로 하여 각 집단간에 PTI k의 값에 유의미한 차이가 있는지 알아본다. 연구 결과 환경, 발성유형, 모음, 그리고 화자 각각에 집단간에 유의미한 차이가 있었다.
Phonation type index k (PTI In) presents a single and simplified measure of the spectral tilt. which is free from the effects of fundamental frequency and vowel qualify This study investigates PTI k with vowels /i . e. a. o, u/ obtained from 10 Korean male subjects. Specifically. this study tests th...
Phonation type index k (PTI In) presents a single and simplified measure of the spectral tilt. which is free from the effects of fundamental frequency and vowel qualify This study investigates PTI k with vowels /i . e. a. o, u/ obtained from 10 Korean male subjects. Specifically. this study tests the significance of differences in PTI k across Positions, Phonation types. vowels, and speakers, respectively The results showed that there was a significant difference in PTI k across positions, Phonation types, vowels. and speakers.
Phonation type index k (PTI In) presents a single and simplified measure of the spectral tilt. which is free from the effects of fundamental frequency and vowel qualify This study investigates PTI k with vowels /i . e. a. o, u/ obtained from 10 Korean male subjects. Specifically. this study tests the significance of differences in PTI k across Positions, Phonation types. vowels, and speakers, respectively The results showed that there was a significant difference in PTI k across positions, Phonation types, vowels. and speakers.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
[4]에서 기존의 측정단위에서 고려되지 않았던 기본주파수와 모음의 영향을 모두 배제한 발성유형지수 k (phonation type index k, 줄여서 PTI k)를 음원 여과기 이론 (Source Filter Theory)을 확장하여 새로이 제시한 이후 후속연구에서 PTI k의 타당성을 검증하였다[5-9]. ⑷에서는 3명의 남성 화자를 대상으로 문두의 CV와 어중의 VCV 연쇄체에서 한국어의 치조파열음, 마찰음, 그리고 경구개 파찰음 다음에 따라오는 모음 /a/에서 실현되는 PTI k만을 대상으로 연구하였다. 본 논문은 10명의 한국인 남성이 발화한 모음 /i, e, a, o, u/를 대상으로 환경 (어두 및 모음간), 발성유형 (격음, 연음, 경음), 모음 (/이, 에, 아, 오, 우/), 그리고 화자별로 각 집단간에 PTI k의 값에 유의미한 차이가 있는지 알아본다.
따라서 연구 결과에서도 모음 오'와 ''우''는 다른 모음과 다른 행동을 보일 것으로 예측된다. 그러나 이 자체도 PTI k와 관련된 화자 특성을 보여줄 수 있는 한 특징으로 보고 본 연구에서는 그대로 포함시켜 제시할 것이다.
다음으로 PTI k가 환경, 발성유형, 모음에 따라 어떤 차이를 보이는지 살펴본다. PTI k의 환경별, 발성유형별, 모음별 평균과 표준편차가 표 2에 제시되어 있다.
⑷에서는 3명의 남성 화자를 대상으로 문두의 CV와 어중의 VCV 연쇄체에서 한국어의 치조파열음, 마찰음, 그리고 경구개 파찰음 다음에 따라오는 모음 /a/에서 실현되는 PTI k만을 대상으로 연구하였다. 본 논문은 10명의 한국인 남성이 발화한 모음 /i, e, a, o, u/를 대상으로 환경 (어두 및 모음간), 발성유형 (격음, 연음, 경음), 모음 (/이, 에, 아, 오, 우/), 그리고 화자별로 각 집단간에 PTI k의 값에 유의미한 차이가 있는지 알아본다.
본 연구에서는 기본주파수와 모음의 영향을 배저한 가운데 전체적인 스펙트럼의 기울기를 하나의 지표로 나타내는 PTI k를 한국어 모음 /i, e, a, o, u/를 포함한 음성샘플을 대상으로 살펴보았다. 본 연구의 결과 VCV 환경보다 #CV 환경에서 PTI k의 값이 크게 나타났고, 격음에서보다 연음과 격음에서 PTI k의 값이 크게 나타났으며, 모음 /o, u/가 모음 /i, e, a/보다 PTI k의 값이 크게 나타났다.
이는 사실과 다른 F1 과 F2의 값을 얻을 수 있음을 시사한다. 본 연구에서는 다른 모음과 동일한 LPC 계수를 이용했을 경우 어떤 차이점이 있는지 살펴보는 것도 일단 하나의 연구 내용으로 설정하였다. 하지만 이를 최소화하기 위하여 모음 ''오'' 와 ”우”의 경우 F2가 1900 Hz가 넘으면 PTI k의 계산에서 배제하였다.
제안 방법
본 연구에서는 모음 "오''와 岑”를 다른 모음과 동일한 LPC 계수를 적용하여 구하였다. 이는 사실과 다른 F1 과 F2의 값을 얻을 수 있음을 시사한다.
포먼트 주파수와 대역폭 값은 LPC 스펙트럼에서 구했고, 배음 20개의 주파수와 진폭은 FFT 스펙트럼에서 구했다. LPC 스펙트럼 (LPC 계수: 25)과 FFT 스펙트럼 (FFT point: 1024) 및 기본주파수는 20 ms Hamming 창을 이용흐여 구하였다. 이 값들은 모음의 한 특정 부분에서 구한 것이 아니라 모음 전체에 걸쳐 처음부터 끝까지 10 ms씩 중복하여 이동하면서 구하였다 그래서 100 ms의 길이를 가진 모음에서는 모두 9개의 FFT와 LPC 스펙트럼을 얻었다.
다음으로 배음과 관련해서는 측정된 기본주파수 값의 10배와 10번째 배음의 주파수 값의 차이와 첫 번째 배음의 주파수 값의 10배와 10번째 배음의 주파수 값의 차이의 합이 500 Hz 이상일 때는 PTI k의 계산에서 배제하였다. 그리고 20번째 배음의 주파수가 4, 000 Hz 이상일 경우 PTI k의 계산에서 배제하였다.
측정해야 한다. 먼저 성도전달함수의 기여분을 계산하기 위해서는 가장 낮은 네 포먼트의 주파수와 대역폭 (bandwidth)의 값이 필요하고, 최적선을 구하기 위해서는 배음 20개의 주파수와 대역폭의 값이 필요하며, 음원 비율의 계산을 위해서는 기본주파수의 값이 필요하다 Microsoft Visual C++ 6.0을 이용하여 PTI k를 얻는 프로그램을 짰다. 음성매개변수 중 기본주파수는 자기 상관 피치 검출법을 이용하여 구하였고 포만트의 주파수와 대역폭은 MFCC를 이용하여 구하였다.
여기에서는 환경 (#CV, VCV), 발성유형 (격음 연음, 경음), 모음 (/이, 에 아, 오, 우 /), 화자 등의 요인에 따른 PTI k의 기술통계량을 제시하고 각 요인별로 나타나는 특징적인 차이를 기술할 것이다. 먼저 화자별 차이를 보기 위해 PTI k의 분포를 살펴보았다. 화자별 PTI k의 분포를 보여주는 히스토그램이 그림 12에 제시되어 있다.
뿐만 아니라 환경과 발성유형에 따라 PTI k의 값이 특징적인 차이를 보여 주었다. 여기에서는 환경 (#CV, VCV), 발성유형 (격음 연음, 경음), 모음 (/이, 에 아, 오, 우 /), 화자 등의 요인에 따른 PTI k의 기술통계량을 제시하고 각 요인별로 나타나는 특징적인 차이를 기술할 것이다. 먼저 화자별 차이를 보기 위해 PTI k의 분포를 살펴보았다.
LPC 스펙트럼 (LPC 계수: 25)과 FFT 스펙트럼 (FFT point: 1024) 및 기본주파수는 20 ms Hamming 창을 이용흐여 구하였다. 이 값들은 모음의 한 특정 부분에서 구한 것이 아니라 모음 전체에 걸쳐 처음부터 끝까지 10 ms씩 중복하여 이동하면서 구하였다 그래서 100 ms의 길이를 가진 모음에서는 모두 9개의 FFT와 LPC 스펙트럼을 얻었다. 창의 크기가 20 ms 이하일 경우 음성매개변수들의 값을 구하지 않았다.
한편 분산분석의 결과 요인의 조합에 대하여 유의미한 교호작용 (interaction effect)0] 있었다. 이들 중 환경, 발성유형, 모음 등 세 요인의 조합에 대하여 추정된 주변평균을 보여주는 프로파일 도표를 살펴보았다. 먼저 환경과 발생유형에 대한 PTI k의 추정된 주변 평균이 그림 15에 제시되어 있다.
음성매개변수 중 기본주파수는 자기 상관 피치 검출법을 이용하여 구하였고 포만트의 주파수와 대역폭은 MFCC를 이용하여 구하였다. 포먼트 주파수와 대역폭 값은 LPC 스펙트럼에서 구했고, 배음 20개의 주파수와 진폭은 FFT 스펙트럼에서 구했다. LPC 스펙트럼 (LPC 계수: 25)과 FFT 스펙트럼 (FFT point: 1024) 및 기본주파수는 20 ms Hamming 창을 이용흐여 구하였다.
대상 데이터
위에서 제시한 두 자리에 나타나는 모음 5개와 자음 8 개의 조합으로 구성된 40개의 문장을 10명의 화자가 10 번씩 반복하여 모두 4, 000개의 문장을 녹음하였다. 화자는 모두 서울 출신의 20대 남자들이었고, 녹음 당시에 발음 이상이 없었으며 이전에 언어병력이 없었다.
데이터처리
Tukey's HSD를 이용하여 발성유형, 모음, 화자에 대한 사후 분석을 실시하였다. 그 결과 발성유형에 대해서는 연음과 경음이 격음보다 유의미하게 큰 PTI k 값을 가지고 있었으며 연음과 경음 사이에는 유의미한 차이가 없었다.
본 연구에서는 모음만을 대싱.으로 하여 PTI k를 계산하였다. 하지만 다른 필터 특성이 있는 비음이나 유음 그리고 기식음의 연구에서는 가능한 한 정확한 음원 특성을 얻기 위하여 필터 특성을 적절히 제거한 후 PTI k를 계산하여야 할 것이다.
표 2에서 보여 주는 집단간의 평균이 유의미한 차이인지 알아보기 위하여 PTI k를 종속변수로, 환경, 발성유형, 모음, 화자를 각각 요인으로 하는 일변량 4원 배치 분산 분석을 실시하였다. 유의도는 0.
이론/모형
0을 이용하여 PTI k를 얻는 프로그램을 짰다. 음성매개변수 중 기본주파수는 자기 상관 피치 검출법을 이용하여 구하였고 포만트의 주파수와 대역폭은 MFCC를 이용하여 구하였다. 포먼트 주파수와 대역폭 값은 LPC 스펙트럼에서 구했고, 배음 20개의 주파수와 진폭은 FFT 스펙트럼에서 구했다.
성능/효과
본 연구의 결과 모음 ''오"와 "우''의 경우 다른 모음과 뚜렷이 구분되는 행동을 보여주었다. 이는 기존의 Park (2002)[4]에서 모음 ''아"만을 대상으로 한 연구에서 한걸음 더 나간 결과이다.
Tukey's HSD를 이용하여 발성유형, 모음, 화자에 대한 사후 분석을 실시하였다. 그 결과 발성유형에 대해서는 연음과 경음이 격음보다 유의미하게 큰 PTI k 값을 가지고 있었으며 연음과 경음 사이에는 유의미한 차이가 없었다. 모음에 대해서는 /u/ > /o/ > /i/ > /a/, /e/의 순으로 유의미한 차이가 있었으며 /a/와 lei 사이에는 유의미한 차이가 없었다.
대상으로 살펴보았다. 본 연구의 결과 VCV 환경보다 #CV 환경에서 PTI k의 값이 크게 나타났고, 격음에서보다 연음과 격음에서 PTI k의 값이 크게 나타났으며, 모음 /o, u/가 모음 /i, e, a/보다 PTI k의 값이 크게 나타났다. 이는 F1 과 F2가 인접해 있어 배음의 진폭이 상승된 결과로 보인다.
요약하면 환경, 발성유형, 모음, 화자 등 각 요인에 대하여 유의미한 주효과가 있었고 환경, 발성유형, 모음 등 요인의 조합에 대해 유의미한 교호작용이 있었다. 이는 환경, 발성유형, 모음, 화자에 따라 PTI k값이 유의미한 차이를 보여준다는 것을 의미하며 각 요인간에 서로 다른 값의 추이를 보여준다는 것을 의미한다.
전체 음성샘플의 수 44, 645중에서 오류가 있는 음성샘플의 수 16, 851 (37, 7 %)를 배제한 결과 유효한 음성샘플의 수는 27, 794 (62.3 %)였다.
이는 F1 과 F2가 인접해 있어 배음의 진폭이 상승된 결과로 보인다. 평균과 표준편차 및 범위와 첨 도를 대상으로 한 산점도에서 화자별로 특징적인 차이를 보임으로써 PTI k가 화자간의 발성유형의 차이를 보여주는 의미 있는 음성 파라미터임을 확인하였다.
후속연구
PTI k는 음성학에서 스펙트럼의 기울기를 측정하는데 쓰일 뿐만 아니라 화자의 특성을 추출하는 음성 공학 분야와 음성의학 등에 두루 쓰일 수 있을 것으로 기대한다. 특히 PTI k는 화자에 따라 그 값의 통계적 지표들이 뚜렷이 달라지는 점을 고려할 때 음성을 이용하여 범인을 확인하는 법의학이나 화자인식과 같은 분야에서 화자의 특성을 보여주는 지표로 쓰일 수 있을 것으로 기대한다.
하지만 다른 필터 특성이 있는 비음이나 유음 그리고 기식음의 연구에서는 가능한 한 정확한 음원 특성을 얻기 위하여 필터 특성을 적절히 제거한 후 PTI k를 계산하여야 할 것이다. 또 본 연구에서는 남성만을 대상으로 연구하였는데 남성과 여성의 발성유형상의 특성을 비교하기 위해서는 여성의 음성을 녹음하여 연구하여야 할 것이다. 이러한 연구는 다음의 과제로 남겨둔다.
조음위치의 영향을 피하기 위하여 양순음과 연구개음은 선택하지 않았다. 보다 포괄적인 연구를 위해서는 다른 조음위치에 나타나는 파열음도 포함되어야 한다. 비음과 유음은 독특한 특성을 가지고 있어서 이 부류의 음성에 대한 충분한 연구 후에 포함시킬 예정이다.
보다 포괄적인 연구를 위해서는 다른 조음위치에 나타나는 파열음도 포함되어야 한다. 비음과 유음은 독특한 특성을 가지고 있어서 이 부류의 음성에 대한 충분한 연구 후에 포함시킬 예정이다. 본 연구에서는 모음만을 대싱.
PTI k는 기본적으로 음원의 특성 중 스펙트럼의 기울기를 나타내는 매개변수이고 이는 성대가 닫히는 속도와 관계가 있다. 성대의 진동 시 성대가 닫히는 속도가 특이한 경우 이 매개변수를 이용하여 화자 혹은 환자의 특성을 살펴볼 수 있으므로 음성의학어}서 사용할 수 있을 것으로 기대된다. 뿐만 아니라 SenSyn과 같은 음성매개변수를 이용한 음성합성에서도 저}3포만트의 진폭이 스펙트럼의 기울기가 6dB/ octave로 감소할 때와 얼마나 다른가를 TL이라는 변수로 설정하여 스펙트럼의 기울기를 통제한다.
특히 PTI k는 화자에 따라 그 값의 통계적 지표들이 뚜렷이 달라지는 점을 고려할 때 음성을 이용하여 범인을 확인하는 법의학이나 화자인식과 같은 분야에서 화자의 특성을 보여주는 지표로 쓰일 수 있을 것으로 기대한다.
참고문헌 (10)
H. M. Hanson, 'Glottal characteristics of female speakers: acoustic correlates,' Journal of the Acoustical Society of America, 101 (1), 466-481, 1997
P. Kirk, P. Ladefoged, J. Ladefoged, 'Linquistic use of different phonation types,' UCLA Working Papers in Phonetics, 59. 102-113. 1984
P. Ladefoged, 'The linguistic use of different phonation types,' Vocal fold physiology: contemporary research and clinical issues College Hill Press, San Diego, 1983, 351-360, 1983
H. Park, Temporal and Spectral Characteristics of Korean Phonation Types, Ph.D. Dissertation, (The University of Texas at Austin, 2002,)
박한상, '발성유형지수 k,' 2002 대한음성학회 가을 학술대회 논문집, 77-80, 서울 11월, 2002
H. Park, 'Phonation Type Index k: A New Measure of Spectral Tilt,' Eoneohag Journal of the Linguistic Society of Korea 36, 101-111, 2003
이후동, 강선미, 박한상, 장문수, '녹음 환경의 차이에 따른 화자의 음원 특성 비교: 발성유형지수 k를 중심으로,' 음성과학 10 (3), 213-224, 2003
H. Park, 'Problems in Source Characteristics,' Proceedings of the 2nd International Conference on Speech Sciences, 107-114, Seoul, May, 2004
H. Lee, S. Kang, M. Chang, H. Park, 'A Study of Phonation Type Index k as a Parameter for Speaker Verification:' Proceedings of the 2nd International Conference on Speech Sciences, pp.255-260, Seoul, May, 2004
G. Fant, Acoustic theory of speech production (Mouton, The Hague, 1960,)
※ AI-Helper는 부적절한 답변을 할 수 있습니다.