대화체 연속음성은 자연스러운 발화로 낭독체 문장에 비해 잡음, 간투어와 같은 비문법적인 요소가 많고, 발음의 변이가 심하다. 이런 이유로 대화체 연속음성을 인식하기 위해서는 대화 현상을 분석하고 그 특징을 반영하여야 한다. 본 논문에서는 실제 대화음성에 빈번히 나타나는 대화 현상들을 분류하고 각 현상들을 모델링하여 대화체 연속음성 인식을 위한 기본 베이스라인을 구축하였다. 대화 현상을 묵음 구간과 잡음, 간투어, 반복/수정 발화의 디스풀루언시 (disfluencies), 표준전사와 다른 발음을 갖는 발음변이 현상으로 나누었다. 발음변이 현상은 다시 양성음의 음성음화, 음운축약/탈락현상, 패턴화된 발음변이, 발화오류로 세분화하였다. 대화체 음성인식을 위해서 빈번히 나타나는 묵음구간을 고려한 학습과 잡음, 간투어 처리를 위한 음향모델을 각각 추가하였다. 발음변이 현상에 대해서는 출현빈도수가 높은 것들만을 대상으로 발음사전에 다중 발음열을 추가하였다. 대화현상을 고려하지 않고 낭독체 스타일로 음성인식을 수행하였을 때 형태소 에러율 (MER: Morpheme Error Rate)은 31.65%였다. 이에 대한 형태소 에러율의 절대값 감소는 묵음 모델과 잡음 모델을 적용했을 때 2.08%, 간투어 모델을 적용했을 때 0.73%, 발음변이 현상을 반영했을때 0.92%였으며, 최종적으로 27.92%의 형태소 에러율을 얻었다. 본 연구는 대화체 연속음성 인식을 위한 기초 연구로 음향모델과 어휘모델, 언어모델 각각에 대한 베이스라인으로 삼고자 한다.
대화체 연속음성은 자연스러운 발화로 낭독체 문장에 비해 잡음, 간투어와 같은 비문법적인 요소가 많고, 발음의 변이가 심하다. 이런 이유로 대화체 연속음성을 인식하기 위해서는 대화 현상을 분석하고 그 특징을 반영하여야 한다. 본 논문에서는 실제 대화음성에 빈번히 나타나는 대화 현상들을 분류하고 각 현상들을 모델링하여 대화체 연속음성 인식을 위한 기본 베이스라인을 구축하였다. 대화 현상을 묵음 구간과 잡음, 간투어, 반복/수정 발화의 디스풀루언시 (disfluencies), 표준전사와 다른 발음을 갖는 발음변이 현상으로 나누었다. 발음변이 현상은 다시 양성음의 음성음화, 음운축약/탈락현상, 패턴화된 발음변이, 발화오류로 세분화하였다. 대화체 음성인식을 위해서 빈번히 나타나는 묵음구간을 고려한 학습과 잡음, 간투어 처리를 위한 음향모델을 각각 추가하였다. 발음변이 현상에 대해서는 출현빈도수가 높은 것들만을 대상으로 발음사전에 다중 발음열을 추가하였다. 대화현상을 고려하지 않고 낭독체 스타일로 음성인식을 수행하였을 때 형태소 에러율 (MER: Morpheme Error Rate)은 31.65%였다. 이에 대한 형태소 에러율의 절대값 감소는 묵음 모델과 잡음 모델을 적용했을 때 2.08%, 간투어 모델을 적용했을 때 0.73%, 발음변이 현상을 반영했을때 0.92%였으며, 최종적으로 27.92%의 형태소 에러율을 얻었다. 본 연구는 대화체 연속음성 인식을 위한 기초 연구로 음향모델과 어휘모델, 언어모델 각각에 대한 베이스라인으로 삼고자 한다.
Spontaneous speech is ungrammatical as well as serious phonological variations, which make recognition extremely difficult, compared with read speech. In this paper, for conversational speech recognition, we analyze the transcriptions of the real conversational speech, and then classify the characte...
Spontaneous speech is ungrammatical as well as serious phonological variations, which make recognition extremely difficult, compared with read speech. In this paper, for conversational speech recognition, we analyze the transcriptions of the real conversational speech, and then classify the characteristics of conversational speech in the speech recognition aspect. Reflecting these features, we obtain the baseline system for conversational speech recognition. The classification consists of long duration of silence, disfluencies and phonological variations; each of them is classified with similar features. To deal with these characteristics, first, we update silence model and append a filled pause model, a garbage model; second, we append multiple phonetic transcriptions to lexicon for most frequent phonological variations. In our experiments, our baseline morpheme error rate (WER) is 31.65%; we obtain MER reductions such as 2.08% for silence and garbage model, 0.73% for filled pause model, and 0.73% for phonological variations. Finally, we obtain 27.92% MER for conversational speech recognition, which will be used as a baseline for further study.
Spontaneous speech is ungrammatical as well as serious phonological variations, which make recognition extremely difficult, compared with read speech. In this paper, for conversational speech recognition, we analyze the transcriptions of the real conversational speech, and then classify the characteristics of conversational speech in the speech recognition aspect. Reflecting these features, we obtain the baseline system for conversational speech recognition. The classification consists of long duration of silence, disfluencies and phonological variations; each of them is classified with similar features. To deal with these characteristics, first, we update silence model and append a filled pause model, a garbage model; second, we append multiple phonetic transcriptions to lexicon for most frequent phonological variations. In our experiments, our baseline morpheme error rate (WER) is 31.65%; we obtain MER reductions such as 2.08% for silence and garbage model, 0.73% for filled pause model, and 0.73% for phonological variations. Finally, we obtain 27.92% MER for conversational speech recognition, which will be used as a baseline for further study.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 논문에서는 대화체 연속음성의 특성을 분석하고 낭독체 인식 기술을 기반으로 대화특성을 반영하여 대화체 연속음성 인식을 위한 기본 인식 실험을 수행하였다.
본 논문에서는 어절과 어절 사이에서 나타나는 잡음만을 대상으로 HMM 모델링하였다[2]. 각 잡음들의 특성에 따른 세분화된 HMM 모델링이 필요하지만, 본 논문에서는 한 개의 HMM 모델을 사용하였다.
본 논문에서는 자연스러운 발화시 나타나는 대화 현상을 음성인식 측면에서 분류하고, 기본적인 낭독체 인식기술을 적용할 때의 문제점 및 개선 사항들에 대해 논의하고자 한다.
이런 경우 형태소 분석에 상관없이 "예약하셨”을 무시할 것인지, 아니면 형태소 정보를 사용할 것 인지는 더 많은 연구를 필요로 한다. 본 논문에서는 조각난 단어도 형태소 분석을 수행하는 것을 원칙으로 하였다.
TP#1은 총 25개의 시나리오로 구성되어 있고, 25조가 한조당4개의 대화를 발화하여 총 100개의 대화로구성된다. 자연스러운 발화를 위해 여행사 직원에게만 자세한 정보를 주고 고객은 문의하면서 예약/변경/취소 등의 목적을 달성하도록 하였다. 즉 완성된 형태의 문장이 주어지지 않으므로 발화중간에 머뭇거림이나 반복, 수정, 재질문 등이 빈번히 일어나므로 실제 대화와 매우 유사하다.
제안 방법
음향모델의 경우, 간투어를 잡음과함께 하나의 잡음 모델로 생성하는 예도 있으나[3], 간투어는 잡음과는 다른 특성을 가지므로 본 논문에서는 잡음과 분리하여 모델링하였다. 또한 머뭇거리거나 생각할 때 나타나는 "어”, "음” 등과 같은 간투어의 발화구간이 어절 안에서 나타나 는 같은음절보다 길게 나타나는 특성을 보이므로, 간투어 에 따라 다른 PLU (Phone-Ilke Unit)로 모델링하는 것이 효과적이라 여겨진다 본논문에서는 빈도수가높은“예”, “ 어”, “ 아” 에 대해서 다른 PLU를 사용하여 모델링하였다. 실험 결과로부터 "어"는 인식 성능은 개선하였다.
"또한 머뭇거리거나 생각할 때 나타나는 ""어”, ""음” 등과 같은 간투어의 발화구간이 어절 안에서 나타나는 같은 음절보다 길게 나타나는 특성을 보이므로, 간투어에 따라 다른 PLU (Phone-Ilke Unit)로 모델링하는 것이 효과적이라 여겨진다 본 논문에서는 빈도수가높은 “예”, “ 어” , “ 아” 에 대해서 다른 FW를 사용하여 모델링하였다."
사람이 직접 음성을 듣고 입술소리, 쩝소리 등의 잡음, "아”, "어” 등의 간투어 발음변이 (표준전사와틀린 발음), 수정 또는 잘못된 발화 등을 전사하였다 (전사 예는 부록 A 참조). “/”를 기준으로 왼쪽의 텍스트는 실제 음성을 그대로 받아쓴 것이고, 오른쪽의 텍스트는 대화분 석이나 언어모델 생성을 위해 문어체의 올바른 형태로 고쳐 썼다.
디스풀루언시는 낭독체에서는 전혀 나타나지 않는 현상으로 추가 고려가 필요한 부분이다. [7,8]에서는 디스풀루언시를 간투어 반복, 대치, 삽입, 삭제, 음성 오류로 세분화하였지만, 본 논문에서는 잡음, 간투어, 반복/수정 발화의 세 부분으로 간략하게 분류하였다. 발음변이는 표준전사와 다른 발음이라고 명시한 것처럼 텍스트상으로는 낭독체와 같지만 실제 음성은 매우 다른 발음현상을 보인다.
디스풀루언시는 낭독체에서는 전혀 나타나지 않는 현상으로 추가 고려가 필요한 부분이다. [7,8]에서는 디스풀루언시를 간투어 반복, 대치, 삽입, 삭제, 음성 오류로 세분화하였지만, 본 논문에서는 잡음, 간투어, 반복/수정 발화의 세 부분으로 간략하게 분류하였다. 발음변이는 표준전사와 다른 발음이라고 명시한 것처럼 텍스트상으로는 낭독체와 같지만 실제 음성은 매우 다른 발음현상을 보인다.
패턴화된 발음변이는 위 두 현상과 발화오류를 제외한 것을 모두 포함하는데, 대체로 발화 경향이 일정하여 패턴화 가능한 부분이므로 발생빈도가 높은 것만을 대상으로 발음 사전에 추가하였다. “어트케” 의 발음열을 “어떻게”의 다중발음열로추가하는등, 총 13개 형태소에 대해 24개의 다중발음열을 추가하였다.
패턴화된 발음변이는 위 두 현상과 발화오류를 제외한 것을 모두 포함하는데, 대체로 발화 경향이 일정하여 패턴화 가능한 부분이므로 발생빈도가 높은 것만을 대상으로 발음 사전에 추가하였다. “어트케” 의 발음열을 “어떻게”의 다중발음열로추가하는등, 총 13개 형태소에 대해 24개의 다중발음열을 추가하였다.
본 논문에서는 어절과 어절 사이에서 나타나는 잡음만을 대상으로 HMM 모델링하였다[2]. 각 잡음들의 특성에 따른 세분화된 HMM 모델링이 필요하지만, 본 논문에서는 한 개의 HMM 모델을 사용하였다. 이 모델을 사용하여 형태소 에러율을 1.
낭독체와 비교되는 대화체의 특징을 분류 I과 같이 디스풀루언시 (DFs)와 발음변이의 두 가지로 분류하였다. 디스풀루언시는 낭독체에서는 전혀 나타나지 않는 현상으로 추가 고려가 필요한 부분이다.
탈락현상은 서술격 조사 “이”의 탈락이 대부분이다. 대 화체 인식 실험을 위해서 변형된 종결어미를 표준 전사의 다중 발음으로 발음사전에 추가하였다. 탈락현상은 인식해야 할 형태소가 없어지기 때문에 언어모델에 반영해야 하므로 전사된 텍스트를 탈락된 형태로 수정하였다.
대화체 음성 데이터 베이스의 자유도에 따른 인식 성능 을 비교하기 위하여 TP#1과 TP#2의 인식 실험을 수행하였다. 인식 실험은 대화 현상을 반영하지 않은 모델을 사용하였다.
대화체 음성 데이터 베이스의 자유도에 따른 인식 성능을 비교하기 위하여 TT組과 TP#2의 인식 실험을 수행하였다.
탈락현상은 서술격 조사 “이”의 탈락이 대부분이다. 대 화체 인식 실험을 위해서 변형된 종결어미를 표준 전사의 다중 발음으로 발음사전에 추가하였다. 탈락현상은 인식해야 할 형태소가 없어지기 때문에 언어모델에 반영해야 하므로 전사된 텍스트를 탈락된 형태로 수정하였다.
46%의 언어모델 혼잡도와 바이그램 히트율 (bigramhit ratio)을 얻어 두 데이터 베이스 모두 언어모델 생성을 위한 텍스트 데이터가 매우 부족함을 알 수 있다. 데이터 부족을 줄이기 위하여 두 데이터 베이스의 학 습 데이터를 합쳐서 언어모델을 생성했을 때 언어모델 혼잡도가 174, 49.6으로 감소하지만, 두 데이터 베이스의 이질성이 크기 때문에 인식 성능에는 영향을 미치지 못하 였으므로 본 실험에서는 각각의 학습데이터로 생성한 언어모델을 사용하여 인식 실험을 수행하였다.
46%의 언어모델 혼잡도와 바이그램 히트율 (bigramhit ratio)을 얻어 두 데이터 베이스 모두 언어모델 생성을 위한 텍스트 데이터가 매우 부족함을 알 수 있다. 데이터 부족을 줄이기 위하여 두 데이터 베이스의 학 습 데이터를 합쳐서 언어모델을 생성했을 때 언어모델 혼잡도가 174, 49.6으로 감소하지만, 두 데이터 베이스의 이질성이 크기 때문에 인식 성능에는 영향을 미치지 못하 였으므로 본 실험에서는 각각의 학습데이터로 생성한 언어모델을 사용하여 인식 실험을 수행하였다.
학습 및 테스트에 사용된 음성 데이터 베이스는 표 8과 같다. 두 데이터 베이스 모두 화자 독립이 되도록 4조 8화자의 모든 음성을 테스트에 이용하였고, 테스트에 이용되지 않는 나머지를 학습에 이용하였다.
이외에도 “예_어”, “예_예” 등을하나의 어휘모델로 할 것인지 분리할 것인지의 여부와 평가시에 간투어를 인식률에 포함시킬지 등이 여전히 문제로 남는다. 본논문에서는 간투어도 사전의 한 단어로 간주하여 실험하였다.
이외에도 “예_어”, “예_예” 등을하나의 어휘모델로 할 것인지 분리할 것인지의 여부와 평가시에 간투어를 인식률에 포함시킬지 등이 여전히 문제로 남는다. 본논문에서는 간투어도 사전의 한 단어로 간주하여 실험하였다.
탈락현상은 인식해야 할 형태소가 없어지기 때문에 언어모델에 반영해야 하므로 전사된 텍스트를 탈락된 형태로 수정하였다. 수정된 전사 텍스트로부터 얻은 언어모델을 기본 인식 실험에 이용하여 탈락현상은 베이스 인식률에 포함시켰다.
음성데이터는 한사람씩 번갈아가며 말한 것을 하나의 발화(utterance)로 하여 하나의 파일로 분할하였다. 한 발화는 "예”, "네”와 같이 짧은 문장도 존재하고, 여러 문장이 하나의 발화를 구성하기도 한다.
음성데이터는 한사람씩 번갈아가며 말한 것을 하나의 발화(utterance)로 하여 하나의 파일로 분할하였다. 한 발화는 "예”, "네”와 같이 짧은 문장도 존재하고, 여러 문장이 하나의 발화를 구성하기도 한다.
음향모델의 경우, 간투어를 잡음과 함께 하나의 잡음 모델로 생성하는 예도 있으나囲, 간투어는 잡음과는 다른 특성을 가지므로 본 논문에서는 잡음과 분리하여 모델링하였다.
음향모델의 경우, 간투어를 잡음과함께 하나의 잡음 모델로 생성하는 예도 있으나[3], 간투어는 잡음과는 다른 특성을 가지므로 본 논문에서는 잡음과 분리하여 모델링하였다. 또한 머뭇거리거나 생각할 때 나타나는 "어”, "음” 등과 같은 간투어의 발화구간이 어절 안에서 나타나 는 같은음절보다 길게 나타나는 특성을 보이므로, 간투어 에 따라 다른 PLU (Phone-Ilke Unit)로 모델링하는 것이 효과적이라 여겨진다 본논문에서는 빈도수가높은“예”, “ 어”, “ 아” 에 대해서 다른 PLU를 사용하여 모델링하였다.
그러나묵음구간의 위치를파악하기 위해서는 사람이 직접 음성을 듣고 레이블링을 수행해야하는 어려움이 있다. 이를 해결하기 위하여 학습의 폴스얼라인먼트 (force alignment) 단계에서 묵음 구간을 찾을 수 있도록 모든 발음열의 끝에 짧은 묵음과 묵음 모두를 첨부하도록 발음 사전을 구성하였다. 이렇게 학습한 음향 모델을 사용하여 인식 실험을 수행하였을 때 형태소 에러율이 1% (absolute) 감소하였다.
본 실험에서 사용한 음향모델은 CHMM (Continuous Hidden Markov Model)을 기반으로 하였으며 6개의 가우시안 믹스츄어를 사용하였다. 잡음 처리를 위하여 하나의 잡음 모델을 사용하였다.
본 실험에서 사용한 음향모델은 CHMM (Continuous Hidden Markov Model)을 기반으로 하였으며 6개의 가우시안 믹스츄어를 사용하였다. 잡음 처리를 위하여 하나의 잡음 모델을 사용하였다.
대 화체 인식 실험을 위해서 변형된 종결어미를 표준 전사의 다중 발음으로 발음사전에 추가하였다. 탈락현상은 인식해야 할 형태소가 없어지기 때문에 언어모델에 반영해야 하므로 전사된 텍스트를 탈락된 형태로 수정하였다. 수정된 전사 텍스트로부터 얻은 언어모델을 기본 인식 실험에 이용하여 탈락현상은 베이스 인식률에 포함시켰다.
대상 데이터
좀더 안정적인 음향모델 생성을 위하여 대화체 음성데이터 베이스만으로학습하지 않고 낭독체 데이터 베이스를 함께 사용하였다. 낭독체 음성 데이터 베이스 18000문장으로 학습하여 생성된 음향 모델을 대화체 학습데이터 베이스로 적응 훈련하였다. 그러나 적응 훈련만으로는 발화 길이와 잡음, 간투어를 반영하지 못하므로 실험에서는 묵음모델, 잡음모델, 간투어모델은 대화체 음성 데이터 베이스로 학습한 음향 모델을 사용하였다.
본 연구에 사용된 대화체 음성 데이터베이스는 서강대학교 음성언어처리연구실에서 한국전자통신연구원의 용역으로 98, 99년도에 C-STAR 과제를 위해서 구축한 대화체 음성 데이터 베이스이다. 여행 계획을 위한 가상의 대화이며 시나리오 설정과 대화시에 발화의 자유도에 차이를 두었다.
본 연구에 사용된 대화체 음성 데이터베이스는 서강대학교 음성언어처리연구실에서 한국전자통신연구원의 용역으로 98, 99년도에 C-STAR 과제를 위해서 구축한 대화체 음성 데이터 베이스이다. 여행 계획을 위한 가상의 대화이며 시나리오 설정과 대화시에 발화의 자유도에 차이를 두었다.
여행계획 데이터 베이스, TP#2는 발화시 제약을 많이 주었기 때문에 올바르게 말하는 경향이 있어서 대화체의 특징이 잘 나타나지 않으므로 발음변이는 TP#1만을 대상으로 하였다. 표 6의 분류 II는 TP#1에 나타나는 발음변이 현상을 세분화한 것으로, 음성데이타를 전사한 문장에 나타난 현상들이 공통된 특징을 갖도록 분류하였다.
여행계획 데이터 베이스, T啓2는 발화시 제약을 많이 주었기 때문에 올바르게 말하는 경향이 있어서 대화체의 특징 이 잘 나타나지 않으므로 발음변이는 旺#1만을 대상으로 하였다.
표 1은 두 음성 데이터 베이스의 전사된 텍스트를 대상으로 형태소 분석을 수행한 후의 전체 크기이다. 잡음을 제외한 간투어 등을 모두 포함하였다. 유일 (unique) 형태소 수는 TP#1이 1,994이고 TP#2는 1,174로, 두 데이터 베이스 모두 사전 크기가 크지는 않지만 TP#1이 TP#2보다는 많은 어휘의 사용을 보여준다.
좀더 안정적인 음향모델 생성을 위하여 대화체 음성데이터 베이스만으로학습하지 않고 낭독체 데이터 베이스를 함께 사용하였다. 낭독체 음성 데이터 베이스 18000문장으로 학습하여 생성된 음향 모델을 대화체 학습데이터 베이스로 적응 훈련하였다.
이론/모형
[7,8]의 연구는 디스풀루언시를 체계적으로 분류하고, 다양한 분석을 통해 예전의 연구에서는 단순한 잡음으로 분류되던 디스풀루언시가 체계적인 분포를 보일 뿐 아니라 예측 기능이 있음을 보였다. [4,12]에서는 디스풀루언시 정보를 통계적 언어모델 생성에 이용하였다. 큰 성능개선을 얻지는 못했지만 반복, 삭제 현상이 혼잡도의 감소시키므로 정보를 포함하고 있음을 확인하였다.
[7,8]의 연구는 디스풀루언시를 체계적으로 분류하고, 다양한 분석을 통해 예전의 연구에서는 단순한 잡음으로 분류되던 디스풀루언시가 체계적인 분포를 보일 뿐 아니라 예측 기능이 있음을 보였다. [4,12]에서는 디스풀루언시 정보를 통계적 언어모델 생성에 이용하였다. 큰 성능개선을 얻지는 못했지만 반복, 삭제 현상이 혼잡도의 감소시키므로 정보를 포함하고 있음을 확인하였다.
낭독체 음성 데이터 베이스 18000문장으로 학습하여 생성된 음향 모델을 대화체 학습데이터 베이스로 적응 훈련하였다. 그러나 적응 훈련만으로는 발화 길이와 잡음, 간투어를 반영하지 못하므로 실험에서는 묵음모델, 잡음모델, 간투어모델은 대화체 음성 데이터 베이스로 학습한 음향 모델을 사용하였다. 또한 TP#1과 TPft2는 각기 다른 학습 모델을 생성하였다.
낭독체 음성 데이터 베이스 18000문장으로 학습하여 생성된 음향 모델을 대화체 학습데이터 베이스로 적응 훈련하였다. 그러나 적응 훈련만으로는 발화 길이와 잡음, 간투어를 반영하지 못하므로 실험에서는 묵음모델, 잡음모델, 간투어모델은 대화체 음성 데이터 베이스로 학습한 음향 모델을 사용하였다. 또한 TP#1과 TPft2는 각기 다른 학습 모델을 생성하였다.
대화체 연속음성 인식을 위해 HTK (Hidden Markov Model Toolkit)[11]를 이용하여 인식 실험을수행하였다. 본 실험에서 사용한 음향모델은 CHMM (Continuous Hidden Markov Model)을 기반으로 하였으며 6개의 가우시안 믹스츄어를 사용하였다.
대화체 연속음성 인식을 위해 HTK (Hidden Markov Model Toolkit)[U]를 이용하여 인식 실험을수행하였다.
대화체 연속음성 인식을 위해 HTK (Hidden Markov Model Toolkit)[11]를 이용하여 인식 실험을수행하였다. 본 실험에서 사용한 음향모델은 CHMM (Continuous Hidden Markov Model)을 기반으로 하였으며 6개의 가우시안 믹스츄어를 사용하였다. 잡음 처리를 위하여 하나의 잡음 모델을 사용하였다.
대화체 연속음성 인식을 위해 HTK (Hidden Markov Model Toolkit)[11]를 이용하여 인식 실험을수행하였다. 본 실험에서 사용한 음향모델은 CHMM (Continuous Hidden Markov Model)을 기반으로 하였으며 6개의 가우시안 믹스츄어를 사용하였다. 잡음 처리를 위하여 하나의 잡음 모델을 사용하였다.
생성된 음성 데이터 베이스의 바르게 말한 정도를 평가하기 위하여 코퍼스의 특성을 잘 설명할 수 있는 지수함수 CckbL를 사용하였다[7,8] 여기서 L은“efficient“ (excluding edited) 단어들로 이루어진 문장길이, b는바르게 말한정도 (1-b는 디스풀루언시의 전체 비율)를 의미한다. C는상수로 y축과의 교점을 나타내고, 문장 길이 L을 이용하여 b를 추정한다.
대화체 음성 데이터 베이스의 자유도에 따른 인식 성능 을 비교하기 위하여 TP#1과 TP#2의 인식 실험을 수행하였다. 인식 실험은 대화 현상을 반영하지 않은 모델을 사용하였다. 인식 결과는 표 9과 같다.
성능/효과
표 5는 여행계획 데이터 베이스에 나타난 간투어의 분포이다. 약 10여 개의 간투어가 여행계획 음성 데이터에 빈번히 나타났으며, 두 사람이 문의하고 대답하는 형식의 대화이고 발화 자체가 길기 때문에 응답성의 간투어 "예"가 가장 많이 나타났다.
가장 많은 부분을 차지하는 양성음의 음성음 발화는 사람들이 자연스럽게 말할 때 흔하게 나타나는 현상으로 71.8%에 달하지만, 제약을 많이 준 TP#2의 경우는 38%로 TP#1과 비교할 때 상대적으로 적게 나타났다. 형태소의 어미 부분에서 이 현상이 나타나므로 인식 단위를 형태소로 하면, 대화체 인식을 위해서 단순히 발음사전에 변형된 어미를 표준 어미의 다중 발음의 하나로 추가하여 인식 성능을 개선할 수 있다.
가장 많은 부분을 차지하는 양성음의 음성음 발화는 사람들이 자연스럽게 말할 때 흔하게 나타나는 현상으로 71.8%에 달하지만, 제약을 많이 준 TP#2의 경우는 38%로 과 비교할 때 상대적으로 적게 나타났다.
대화 현상의 기초적인 분석을 통해서 절대치로 3.73%, 상대치로 12%의 형태소 에러율을 감소시켰다. 묵음과 잡음 모델의 추가로 가장 많은 형태소 에러율 감소를 얻었는데 이는 대화체 음성이 기본적으로 낭독체 음성과 매우 다른 특성을 가지고 있음을 단적으로 보여주는 예라고 하겠다.
대화체 연속 음성 데이터베이스의 분석을 통해 대화체 음성은 낭독체 음성과 달리 묵음 구간이 길고 많은 잡음을 포함할 뿐 아니라, 발화 사이사이에 존재하는 간투어, 발음변이 현상들이 빈번히 나타나고 있음을 확인하였다.
인식 결과는 표 9과 같다. 두 데이터 베이스 모두 대화체의 특성을 가지므로 낭독체 데이터 베이스보 다 인식 성능이 떨어지지만, 대화체의 특성을 많이 포함하는 TP#1의 형태소 에러율이 TP#2와 비교할 때 큰 것을 볼 때 대화체 음성의 인식이 쉽지 않은 것을 알 수 있다.
인식 결과는 표 9과 같다. 두 데이터 베이스 모두 대화체의 특성을 가지므로 낭독체 데이터 베이스보 다 인식 성능이 떨어지지만, 대화체의 특성을 많이 포함하는 TP#1의 형태소 에러율이 TP#2와 비교할 때 큰 것을 볼 때 대화체 음성의 인식이 쉽지 않은 것을 알 수 있다.
두 데이터 베이스의 생성시 자유도에 따라 간투어의 분포와 현상이 달라지는 것을 확인할 수 있다. TP#2는응답성 의 "예" , "네" 가 70% 이상을 차지하는 반면, TP#1에서는 "어", "음"과 같이 발화 도중에 생각하거나 “아”와 같이 발화의 수정을 위한 간투어들이 많이 나타나는 현상을 보였다.
두 데이터 베이스의 생성시 자유도에 따라 간투어의 분포와 현상이 달라지는 것을 확인할 수 있다. TP#2는응답성 의 "예" , "네" 가 70% 이상을 차지하는 반면, TP#1에서는 "어", "음"과 같이 발화 도중에 생각하거나 “아”와 같이 발화의 수정을 위한 간투어들이 많이 나타나는 현상을 보였다.
발음변이 현상들을 양성음의 음성음화 (P1), 축약과 패턴화된 발음변이 현상 (P2)으로 나누어 다중발음사전에 반영한 후에 인식 실험을 수행한 결과에서는 0.92%의 형태소 에러율 감소를 얻었다. P1의 형태소 에러율 감소가 P2보다 더 큰 이유는 양성음의 음성음 발화 현상의 출현 빈도가 매우 높기 때문으로 분석된다.
발음변이 현상들을 양성음의 음성음화 (P1), 축약과 패턴화된 발음변이 현상 (P2)으로 나누어 다중발음사전에 반영한 후에 인식 실험을 수행한 결과에서는 0.92%의 형태소 에러율 감소를 얻었다. P1의 형태소 에러율 감소가 P2보다 더 큰 이유는 양성음의 음성음 발화 현상의 출현 빈도가 매우 높기 때문으로 분석된다.
또한 머뭇거리거나 생각할 때 나타나는 "어”, "음” 등과 같은 간투어의 발화구간이 어절 안에서 나타나 는 같은음절보다 길게 나타나는 특성을 보이므로, 간투어 에 따라 다른 PLU (Phone-Ilke Unit)로 모델링하는 것이 효과적이라 여겨진다 본논문에서는 빈도수가높은“예”, “ 어”, “ 아” 에 대해서 다른 PLU를 사용하여 모델링하였다. 실험 결과로부터 "어"는 인식 성능은 개선하였다. 그러나 "예"와 "네" 같은 간투어는 대답과 간투어를 구분하기 어렵기 때문에 언어모델에서는 간투어를 특별히 구별하지 않고 모델링하였다.
약 10여 개의 간투어가 여행계획 음성 데이터에 빈번히 나타났으며, 두 사람이 문의하고 대답호)는 형식의 대화이고 발화 자체가 길기 때문에 응답성의 간투어 “예가 가장 많이 나타났다.
언어모델은 학습데이터로부터 백오프 바이그램 (backoff bigram)을 생성하였으며 TP#1은 262, 87.13%, TP#2는 98.86, 91.46%의 언어모델 혼잡도와 바이그램 히트율 (bigramhit ratio)을 얻어 두 데이터 베이스 모두 언어모델 생성을 위한 텍스트 데이터가 매우 부족함을 알 수 있다. 데이터 부족을 줄이기 위하여 두 데이터 베이스의 학 습 데이터를 합쳐서 언어모델을 생성했을 때 언어모델 혼잡도가 174, 49.
언어모델은 학습데이터로부터 백오프 바이그램 (backoff bigram)을 생성하였으며 TP#1은 262, 87.13%, TP#2는 98.86, 91.46%의 언어모델 혼잡도와 바이그램 히트율 (bigramhit ratio)을 얻어 두 데이터 베이스 모두 언어모델 생성을 위한 텍스트 데이터가 매우 부족함을 알 수 있다. 데이터 부족을 줄이기 위하여 두 데이터 베이스의 학 습 데이터를 합쳐서 언어모델을 생성했을 때 언어모델 혼잡도가 174, 49.
인식 실험을 통해 발화 스타일이 대화체에 가까울수록 디스풀루언시와 발음변이가 많아지고 인식 성능도 저하되었으며, 각 대화현상을반영하여 12%(relative)의 형태소 에러율을 감소시켰다.
[4,12]에서는 디스풀루언시 정보를 통계적 언어모델 생성에 이용하였다. 큰 성능개선을 얻지는 못했지만 반복, 삭제 현상이 혼잡도의 감소시키므로 정보를 포함하고 있음을 확인하였다. 또한 간투어는 위치에 따른 혼잡도가 다르고 대부분이 문장의 시작부분에 나타나므로 음성 분할시에 이용할 수 있음을 말하였다.
후속연구
한국어에 있어서 인식 단위를 형태소로 하는 경우 이런 조각난단어의 처리에 있어서, “예약하셨/ 예약하셨는데요"라고 발화했을 경우 "예약하셨"을 형태소 분석하면 "예약+하+셨”으로 분할 가능하다. 이런 경우 형태소 분석에 상관없이 "예약하셨”을 무시할 것인지, 아니면 형태소 정보를 사용할 것 인지는 더 많은 연구를 필요로 한다. 본 논문에서는 조각난 단어도 형태소 분석을 수행하는 것을 원칙으로 하였다.
본논문에서는 대화체 연속음성에 대한 기초적인 연구이므로 대화 현상에 대한 깊이 있는 연구를 필요로 한다. 음향모델과 어휘모델, 언어모델에서 데이터 부족 문제, 인식 실험에 간투어를포함시킬지의 여부등에 대한 연구가 필요하지만, 대화체 연속음성 인식을 위해 대화 음성을 어떤 정보를 갖도록 어떻게 전사할 것인가도 무엇보다 중요한 과제라 하겠다.
본논문에서는 대화체 연속음성에 대한 기초적인 연구이므로 대화 현상에 대한 깊이 있는 연구를 필요로 한다. 음향모델과 어휘모델, 언어모델에서 데이터 부족 문제, 인식 실험에 간투어를포함시킬지의 여부등에 대한 연구가 필요하지만, 대화체 연속음성 인식을 위해 대화 음성을 어떤 정보를 갖도록 어떻게 전사할 것인가도 무엇보다 중요한 과제라 하겠다.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.