[논문]한국어 대용량발화말뭉치의 단모음분석

윤태진; 강윤정

doi:10.13064/ksss.2014.6.3.139

한국어 대용량발화말뭉치의 단모음분석
Monophthong Analysis on a Large-scale Speech Corpus of Read-Style Korean 원문보기

말소리와 음성과학 = Phonetics and speech sciences, v.6 no.3, 2014년, pp.139 - 145

윤태진 (청주대학교) , 강윤정

Abstract ▼ AI-Helper

The paper describes methods of conducting vowel analysis from a large-scale corpus with the aids of forced alignment and optimal formant ceiling methods. 'Read Style Corpus of Standard Korean' is used for building the forced alignment system and a subset of the corpus for the processing and extraction of features for vowel analysis based on optimal formant ceiling. The results of the vowel analysis are reliable and comparable to the results obtained using traditional analytical methods. The findings indicate that the methods adopted for the analysis can be extended and be used for more fine-grained analysis without time-consuming manual labeling without losing accuracy and reliability.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

, 2009). 본 논문에서는 자동 추출한 최적의 포먼트 상한선을 토대로 강제음성정렬된 음성신호에서 포먼트를 추출하여 대용량 말뭉치의 방대한 자표를 이용해 모음 정보를 추출하고자 한다.
본 논문에서는 정확성을 유지하면서 모음분석작업을 자동화시킬 수 있는 방법을 사용하는 것을 제안한다. 일반적으로 각각의 모음은 성별에 따라 4000Hz에서 6000Hz사이의 주파수를 LPC를 기반으로 한 최적으로 포먼트를 추출할 수 있는 최고값이라고 할 수 있으므로, 4000Hz에서 6000Hz중 성별과 모음에 따라 포먼트 측정치의 변이(variation)를 최소화하는 주파수값을 설정할 수 있다면, 그 최소의 변이를 가져오는 주파수값을 최적의 포먼트 상한선(optimal formant ceiling)이라고 할 수 있을 것이다 (Escudero et al.
본 논문은 이러한 측정상의 오류를 극복하고 대용량의 음성자료를 처리할 수 있는 방법을 실증해 보여주었다. 다시 말해, 본 논문은 대용량의 음성 말뭉치를 사용하여 강제음성정렬장치와 최적의 포먼트 측정을 통한 한국어 단모음의 분석방법을 제시하였다.
이처럼 영어는 말뭉치기반의 음성학(corpus phonetics) 혹은 말뭉치 기반의 음운론(corpus phonology)라는 학제 간 연구에서 강제음성정렬(forced alignment)과 자동 포먼트 측정을 토대로 한 음성말뭉치 연구가 이루어지고 있다. 본 논문의 연구 목적은 한국어를 대상으로 강제음성정렬장치와 LPC 기반의 포먼트 추출에서 필요한 최적의 포먼트 상한선(optimal ceiling) 설정을 자동화하여 모음연구를 하는데 필요한 방법론적인 연구를 하는 것이다.
하지만, 자동 음향 분석을 할 수 있는 적절한 도구가 널리 이용되고 있지 않다는 점에서, 말뭉치 기반의 음성학 연구가 널리 이용되고 있지는 않다. 본 연구는 강제음성정렬장치와 최적의 상한선(optimal ceiling)을 이용한 포먼트 추출방식을 이용한 연구 방법을 이용하여 대용량 음성자료에서의 모음 연구를 수행하는 방법을 제시하고자 한다. 음성 자료는 ‘서울말 낭독체 발화말뭉치’를 이용하였다.
강제음성정렬(forced alignment)은 음성인식장치(Automatic Speech Recognition System)에 제약을 가하여 주어진 발화체들의 단어 및 단어를 구성하는 음소들의 연쇄만을 찾도록 하는 장치이다 (Hosom, 2000). 본 연구는 대용량 말뭉치에서 모음을 추출하고 분석하는 작업을 수행하기 위해 발화체들을 구성하는 단어와 음소들을 강제음성정렬(forced aligned)시키는 작업을 우선적으로 수행하였다. 이 작업을 위해 은닉마르코프모형(Hidden Markov Model; HMM) 기반의 자동강제음성정렬장치를 개발하였다.
우선 Burg 방식에 따른 포먼트 방식에 대해 살펴보고, 대용량의 음성자료에 자동처리 방식을 적용하여 결과를 추출하였을 때 어떠한 이론적 및 실용적 문제점을 지니는 지 살펴보도록 하겠다. 모음 분석을 위해서는 말뭉치의 자료 중 ’호랑이와 곶감’에서 나타난 단모음만을 대상으로 하였다.

제안 방법

최적의 포먼트 상한선을 찾기 위해서는 다음과 같은 방식이 사용되었다. 4000Hz에서 시작하여 100Hz씩 증가시켜 6500Hz까지 최적의 포먼트 상한선의 후보 값이 될 수 있도록 하였다. 이 26 개의 후보값 중에서, F1과 F2 측정치의 변이(variance)가 가장 적게 나타나는 포먼트 상한선 값을 최적형으로 선택하였다 (Escudero et al.
우선, 강제음성정렬장치를 통해 음성신호에서 단어 및 유사음소단위 정렬을 하였다. 강제음성정렬된 정보를 이용하여 단모음들을 파악한 후, F1과 F2를 각각의 단모음들이 가지고 있는 음향음성학적 특성과 각각의 화자들이 가지고 있는 특성에 맞추어 추출하기 위해 최적의 포먼트 상한선을 설정하는 작업을 수행하였다. 그리고 마지막으로 각 화자들이 가지고 있는 평균 포먼트 값에서 2x표준편차 이상으로 벗어나서 추출된 포먼트 값은 이상치(outlier)라고 판단하여 분석대상에서 제외하였다.
사용된 음향매개 변수는 12개의 MFCC(Mel Frequency Cepstral Coefficients)와 1개의 Energy를 기본 매개변수로 하여, 이들의 일차도함수 13개 및 이차도함수 13개를 도출하여, 총 39개의 음향매개변수를 사용하였다. 기본적인 음성모델링을 진행한 후, 문장 발화에서 단어(word)와 단어사이, 구(phrase)나 구사이, 혹은 발화문(utterance)의 시작점과 종결점에서 발생할 수도 있는 짧은 휴지(short pause)를 인식할 수 있는 휴지모형(silence model)을 설정하였다. 그리고 정형화된 발음열을 가진 발음사전을 사용하여 각각의 음성단위에 대한 정규분포의 결합(Gaussian Mixture)을 증가시키면서 음향모형을 재훈련시키는 방법을 사용하여 강제음성정렬시스템의 성능을 향상시켰다 (Yoon, 2013).
본 논문은 이러한 측정상의 오류를 극복하고 대용량의 음성자료를 처리할 수 있는 방법을 실증해 보여주었다. 다시 말해, 본 논문은 대용량의 음성 말뭉치를 사용하여 강제음성정렬장치와 최적의 포먼트 측정을 통한 한국어 단모음의 분석방법을 제시하였다. 우선, 강제음성정렬장치를 통해 음성신호에서 단어 및 유사음소단위 정렬을 하였다.
발음사전을 만들기 위해서 ‘서울말 낭독체 발화 말뭉치’에서 관찰된 어절을 추출한 후, 어절 당 하나씩의 정형화된 발음열을 가진 기본 사전을 구축하였다.
우선 음향모형을 만든 방법은 다음과 같다: 42개의 음성단위(phone unit)를 설정하고, HMM의 상태수 (number of states) 3의 연속음성훈련을 수행하도록 설계되었다. 사용된 음향매개 변수는 12개의 MFCC(Mel Frequency Cepstral Coefficients)와 1개의 Energy를 기본 매개변수로 하여, 이들의 일차도함수 13개 및 이차도함수 13개를 도출하여, 총 39개의 음향매개변수를 사용하였다. 기본적인 음성모델링을 진행한 후, 문장 발화에서 단어(word)와 단어사이, 구(phrase)나 구사이, 혹은 발화문(utterance)의 시작점과 종결점에서 발생할 수도 있는 짧은 휴지(short pause)를 인식할 수 있는 휴지모형(silence model)을 설정하였다.
다시 말해, 본 논문은 대용량의 음성 말뭉치를 사용하여 강제음성정렬장치와 최적의 포먼트 측정을 통한 한국어 단모음의 분석방법을 제시하였다. 우선, 강제음성정렬장치를 통해 음성신호에서 단어 및 유사음소단위 정렬을 하였다. 강제음성정렬된 정보를 이용하여 단모음들을 파악한 후, F1과 F2를 각각의 단모음들이 가지고 있는 음향음성학적 특성과 각각의 화자들이 가지고 있는 특성에 맞추어 추출하기 위해 최적의 포먼트 상한선을 설정하는 작업을 수행하였다.
이 정보를 해석하기 위해서는 파워 스펙트럼과 시간에 따른 변화를 추적해야하는 기술이 필요한데, 여러 기술 중 통계적 모델링 방법인 Hidden Markov Model(HMM)이 가장 성공적인 학습기술로 알려져 있다. 음성인식구축을 위한 공개소프트웨어인 HTK(HMM Tool Kit, Version 3.4.1, Young et al., 2006)과 HTK을 운용하기 위해 스크립팅 언어인 Python (version 2.7)를 사용하여 강제음성정렬 시스템을 구축하였다.
4000Hz에서 시작하여 100Hz씩 증가시켜 6500Hz까지 최적의 포먼트 상한선의 후보 값이 될 수 있도록 하였다. 이 26 개의 후보값 중에서, F1과 F2 측정치의 변이(variance)가 가장 적게 나타나는 포먼트 상한선 값을 최적형으로 선택하였다 (Escudero et al. 2009). <그림> 3은 각 모음별로, 포먼트 상한선값(x-축)에 따라 F1, F2의 평균값과 변이(y-축)가 어떻게 달라지는 지를 나타낸다.
본 연구는 대용량 말뭉치에서 모음을 추출하고 분석하는 작업을 수행하기 위해 발화체들을 구성하는 단어와 음소들을 강제음성정렬(forced aligned)시키는 작업을 우선적으로 수행하였다. 이 작업을 위해 은닉마르코프모형(Hidden Markov Model; HMM) 기반의 자동강제음성정렬장치를 개발하였다.
발화 말뭉치에는 약 5,500개의 변별적인 어절 유형이 19개의 낭독체 텍스트에 분포되어 있다. 한글자모를 토대로 음절화시킨 후, 음절화된 자모를 유니코드의 기준에 맞추어 로마자 표기(Romanization)를 하였다. 국어에서는 음절사이의 자음들이 위치동화(place assimilation), 비음화(nasalization), 설측음화(lateralization) 등과 같은 음운변화를 겪는다는 점을 반영하여 (Ahn, 1996), 어절내의 음절 간에 일어나는 음운규칙을 일부 적용시켰다 (Yoon, 2013).

대상 데이터

모음 분석을 위해서는 말뭉치의 자료 중 ’호랑이와 곶감’에서 나타난 단모음만을 대상으로 하였다.
본 논문에서 자료로 이용할 말뭉치는 ‘서울말 낭독체 발화 말뭉치’이다.
모음 분석을 위해서는 말뭉치의 자료 중 ’호랑이와 곶감’에서 나타난 단모음만을 대상으로 하였다. 분석 화자의 수는 음성파일에 이상이 없고 강제음성정렬에서도 오류를 나타내지 않은 88명을 대상으로 하였다. <표> 3은 ‘호랑이와 곶감’에 나오는 모음의 분포를 화자 1명이 발화한 것이다.
음성 자료는 ‘서울말 낭독체 발화말뭉치’를 이용하였다.
이 말뭉치는 20대에서 70대 사이의 서울 경기 지역 화자로, 부모 역시 서울 경기 지역 화자인 120명의 낭독체 자료이다. 이 120명의 화자들은 남자 60명과 여자 60명으로 구성되어 있다. <표> 1은 연령대별 남녀 화자의 수를 보여준다.
이 ‘서울말 낭독체 발화 말뭉치’는 국립국어원에서 2002년에 개발하고 2005년도 경에 공개 및 분배한 말뭉치이다. 이 말뭉치는 20대에서 70대 사이의 서울 경기 지역 화자로, 부모 역시 서울 경기 지역 화자인 120명의 낭독체 자료이다. 이 120명의 화자들은 남자 60명과 여자 60명으로 구성되어 있다.

데이터처리

이상의 LPC 차수의 최적의 포먼트 상한선(optimal formant ceiling)을 이용하여 추출한 각 단모음에 해당하는 F1과 F2를 가지고, 평균과 표준편차를 구하였다. 평균에서 2x표준편차 내에 95%이상의 토큰들이 분포를 이루고 있으므로, 2x표준편차이상으로 벗어나는 토큰들의 포먼트값은 이상치(outliers)로 간주하고 분석에서 제외하였다.

이론/모형

양병곤(2008: 50)에 의하면, 합성음의 포먼트 분석에서 Praat의 Burg 방식에서 가장 적은 측정에러가 나온다. 따라서 본 논문에서는 Burg 방식에 의한 포먼트 추출을 따르기로 한다.
이상 HTK와 Python를 기반으로 하여 ‘서울말 낭독체 발화 말뭉치’를 훈련시켜 개발한 강제음성정렬장치는 Korean Phonetic Aligner라는 이름으로 웹기반에서 이용할 수 있도록 하였다3).

성능/효과

<그림> 5는 20대 여성 화자들의 단모음에 따른 optimal ceiling의 분포를 보여주고 있다. <그림> 5를 통해 후설모음일 경우의 최적의 포먼트 상한선 값이 전설모음일 경우의 최적의 포먼트 상한선 값보다 다소 낮아지는 경향이 있다는 것을 관찰할 수 있다.
Yang, 1996)4). 이는 본 논문에서 시도한 포먼트 자동 측정 방식이 신뢰할 만한 정도의 정확성을 가지고 있음을 나타내는 것이다. <그림> 7을 보면, /ɛ/와 /æ/의 경우, F1-F2 모음 공간상에서 이미 합병(merger)이 되었다는 것을 알 수 있다.
이상 88명의 화자들이 ‘호랑이와 곶감’라는 작품을 낭독한 음성자료를 가지고 자동음성정렬장치와 최적의 포먼트 상한선을 선택하는 방식을 통해 대용량의 음성자료를 처리할 수 있는 방법을 실증하였다.
<그림> 2는 한 여성 화자의 음성자료에서 F1과 F2를 Burg 방식을 이용하여 추출한 모음도(vowel chart)이다. 일반적인 관행을 따라, 여성 화자이므로 포먼트 상한선(Formant ceiling)을 5500Hz으로 한 후, 모음 측정의 오류를 줄이기 위해 모음의 중앙 20% 구간의 평균 F1과 F2 값을 측정한 결과임에도 불구하고, 측정상의 에러(measurement error)를 보여주는 토큰들이 다수 있다는 것을 알 수 있다.
강제음성정렬장치에서도 오류가 발생할 수 있고, 고정된 매개변수를 상정하여 포먼트를 추출하는 과정에서도 오류가 발생 할 수 있다. 포먼트의 분포에 제약을 가함으로써 분석상의 오류들을 최소화 할 수 있으며, 이는 대용량의 음성자료를 생태학적으로 유효한 결과를 도출하고 기존의 통제된 환경에서 도출한 모음 분석 결과와 비교할 수 있는 유효성을 가져다주는 효과를 가지고 있다.

후속연구

이 말뭉치를 연구의 대상으로 삼은 이유는 비록 수년 동안 국립국어원에서 수집한 공개 음성자료이긴 하지만, 이 음성 자료를 활용한 음성 혹은 언어학적인 연구가 많지 않다는 것과 기존에 수행된 세대별 서울말 연구에 대한 보완책으로서 활용될 수 있다는 것이다. 또한 통제된 환경에서 추출된 발화에서는 경험하지 못한 대용량 음성말뭉치 특유의 분석상의 어려움을 파악하고 극복하는 데 도움이 되기 때문이다.

질의응답

핵심어	질문	논문에서 추출한 답변
	Linear Predictive Coding을 이용한 포먼트 추출방식이 가지는 문제점은?	그런데, 이 LPC를 이용한 포먼트 추출에는 근본적인 문제점이 있다. LPC를 이용해 포먼트를 추출할 때, LPC 차수(order)는 보통 포먼트 개수의 두 배가 되도록 지정한다. 일반적으로 남성 화자들의 포먼트를 신뢰성있게 추출하기 위해서는 여성화자들보다 더 많은 LPC 차수(order)를 지정해야 한다. Praat의 매뉴얼에 LPC를 구하기 위해서, 평균 성인 여성의 경우 5500Hz를 그리고 평균 성인 남성의 경우 5000Hz를 최고의 포먼트값으로 정하는 것이 적절하다고 지적되어 왔다 (Boersma & Weenink, 2014). LPC 차수는 성별뿐만 아니라, 모음의 종류에 따라 영향을 받는다. 일반적으로 후설모음은 높은 LPC차수가 필요하고, 전설모음은 낮은 LPC차수가 필요하다 (Yao et al., 2010).
	모음의 포먼트는 어떤 역할을 하는가?	음성 자료는 ‘서울말 낭독체 발화말뭉치’를 이용하였다. 말소리 중 모음의 포먼트(Formant)는 턱과 혀의 움직임에 따른 성도 모양(vocal tract configuration)의 변화를 반영하며, 모음을 발화하고 인지하는 데 중요한 역할을 한다(cf. Adank, 2003; Yang, 2008).
	서울말 낭독체 발화 말뭉치란?	본 논문에서 자료로 이용할 말뭉치는 ‘서울말 낭독체 발화 말뭉치’이다. 이 ‘서울말 낭독체 발화 말뭉치’는 국립국어원에서 2002년에 개발하고 2005년도 경에 공개 및 분배한 말뭉치이다. 이 말뭉치는 20대에서 70대 사이의 서울 경기 지역 화자로, 부모 역시 서울 경기 지역 화자인 120명의 낭독체 자료이다. 이 120명의 화자들은 남자 60명과 여자 60명으로 구성 되어 있다.

참고문헌 (18)

Adank, P. (2003). Vowel normalization: A perceptual-acoustic study of Dutch vowels. Ph.D. thesis, University of Nijmegen.
Ahn, S.-C. (1996). An Introduction to Korean Phonology. Seoul: Hanshin Publishing Co.
Boersma, P. & Weenink, D. (2014). Praat: doing phonetics by computer [Computer program]. Version 5.3.85, retrieved 19 September 2014 from http://www.praat.org.
Chae, S.-Y. (2005). External Constraints on Sound Change: The Raising of /o/ in Seoul Korean. Doctoral Dissertation, University of Pennsylvania.
Escudero, P., Boersma, P., Rauber, A. S., & Bion, R. A. H. (2009). A cross-dialect acoustic description of vowels: Brazilian and European Portuguese. Journal of Acoustical Society of America, 126, 1379-1393.

상세보기
Evanini, K. (2009). The permeability of dialect boundaries: a case study of the region surrounding Erie, Pennsylvania. Doctoral Dissertation, University of Pennsylvania.
Han, J.-I. & Kim, J.-Y., (2014). A phonetic investigation of Korean monophthongs in the early twentieth century. Phonetics and Speech Sciences, 6(1), 31-38. (한정임 & 김주연. (2014). 20세기 초 한국어 단모음의 음향 음성학적 연구. 말소리와 음성과학 6(1), 31-38.)

원문보기 상세보기
Hong, Y. (1988) A sociolinguistic study of Seoul Korean. Unpublished Ph.D. thesis, University of Pennsylvania.
Hosom, J.-P. (2000). Automatic Time Alignment of Phonemes Using Acoustic-Phonetic Information. Ph.D. thesis, Oregon Graduate Institute.
Kang, Y. (2013). A corpus-based study of positional variation in Seoul Korean vowels. Paper presented at Japanese Korean Linguistics Conference 23. October 11-13.
Labov, W., I. Rosenfelder, & J. Fruehwald. (2013) One hundred years of sound change in Philadelphia: Linear incrementation, reversal, and reanalysis. Language, 89(1), 30-65.

상세보기
Yang, B. (2008). Formant measurement of complex waves and vowels produced by students. Korean Journal of Phonetic Sciences 15(3), 39-52. (양병곤 (2008). 복합음과 대학생이 발음한 모음 포먼트 측정. 음성과학 15(3), 39-52)
Yang, B. (1996) A comparative study of American English and Korean vowels produced by male and female speakers. Journal of Phonetics, 24, 245-261.

상세보기
Yao, Y., S. Tilsen, R. L. Sprouse, & K. Johnson. (2010). Automatic Measurement of Vowel Formant in the Buckeye Corpus. UC Berkeley Phonology Lab Annual Report.
Yoon, T.-J. (2013). Large-scale Studies of Phonetic Data using Forced Alignment System. Studies in Linguistics, 29, 207-227. (윤태진 (2013). 강제음성정렬장치를 이용한 대용량음성자료 연구. 언어학연구, 29, 207-227.)
Young, S. J., G. Evermann, M. J. F. Gales, T. Hain, D. Kershaw, G. Moore, J. Odell, D. Ollason, D. Povey, V. Valtchev, & P. C. Woodland. (2006). The HTK Book (version 3.4), Cambridge University Engineering Department
Yuan, J. & M. Liberman (2008). "Speaker identification on the SCOTUS corpus," Proceedings of Acoustics 2008, 5687-5690.
Yun, J. & Seung, C. (2013). Effects of F1/F2 manipulation on the perception of Korean vowels /o/ and /u/. Speech Sciences, 5(3), 39-45. (윤지현, 성철재. (2013). F1/F2의 변화가 한국어 /오/, /우/모음의 지각판별에 미치는 영향. 말소리와 음성과학, 5(3), 39-45.)

원문보기 상세보기

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증