[논문]N-gram 기반의 유사도를 이용한 대화체 연속 음성 언어 모델링

박영희; 정민화

문제 정의

또한 여러 시스템들이 간투어를 모델링하여 사용하는데 unigram만을 사용하므로 성능의 개선이 극히 미미했다[3]. 본 논문에서는 간 투어가 주변 단어에 대한 예측 기능이 있다는 것을 기본 가정으로 하여, 이전 연구[6]에서와 같이 간투어를 일반 단어들처럼 취급하여 모델링하고자 한다.
이러한 문서분류 기법은 키워드의 출현빈도 분포를 사용하므로 인접한 단어간의 관련성이나 구조적인 정보를 유사도 측정에 반영할 수 없다. 본 논문에서는 대화체 도메인과 이질성이 큰 타 도메인과의 결합을 효과적으로 수행하기 위하여 n-gram 기반의 t*ifdf 유사도를 이용한 새로운 언어 모델 적응 방법을 제안한다.
대한 예측 기능이 있다고 알려져 있다[6]. 본 논문에서는 이와 같은 간 투어 의예 측 기능을 모델링하고 평가하였다.
본 논문에서는 한국어 대화체 음성을 방송뉴스와 신문기사들과 비교.분석하여, 특정 보조사의 빈번한 사용, 어미나 조사의 빈번한 생략이나 축약 등의 대화 현상들이 있음을 밝혔다.
본 논문에서는 효과적인 대화체 언어 모델을 생성하기 위하여 대화체의 스타일을 최대로 반영할 수 있도록 하는데 초점을 두어, 두 가지 측면에서 접근하였다. 첫 번째는 n-gram 기반의 t*ifdf (Term Frequency Inverse Document Frequency) 유사도를 가중치로 이용하여 문서 단위로 대화체 도메인과 타 도메인을 결합하였다.

제안 방법

T*idff 척도는 벡터 공간 모델을 이용하여 문서를 표현하는데, 본 논문에서는 벡터 모델의 키워드로 단어를 사용하는 대신 bigram 단어열 (#)을 사용하여 스타일을 반영하였다. 키워드 선정을 위하여, 코퍼스에 나타난 모든 bigram 단어열을 대상으로 inverse document frequency (idf)를 계산하였다.
set 2의 경우를 반영한 모델로, FP-0 모델의 unigram 정보와 함께 일반 단어의 간 투어 예측 기능도 모델링하였다.
각 간투어 모델과 여러가지 결합 방법에 의해 생성된 트라이그램 언어 모델의 혼잡도와 인식의 결과로 나온 WER (Word Error Rate)를, , 에 나타내었다.
음향모델은 각 상태당 6개의 가우시안 혼합분포를 갖는 연속 HMM 모델을 사용하였다. 대화체 연속 음성인식에 적합한 음향모델 생성을 위해, 약 20시간 분량의 낭독체 음성으로 학습한 후, 90 대화의 대화체 음성으로 화자 적응하였으며, 각 하나씩의 잡음 모델과 간 투어 모델을 추가하였다[2]. 언어 모델은 트라이그램을 사용하였다.
분석하여, 특정 보조사의 빈번한 사용, 어미나 조사의 빈번한 생략이나 축약 등의 대화 현상들이 있음을 밝혔다. 또한 효과적인 대화체 언어 모델 생성을 위하여 타 도메인 텍스트와 결합하는 과정에 이러한 대화 특징들을 반영할 수 있는 n-gram 기반 의 t*ifdf 유사도를 이용한 언어 모델 적응 방법과 간투어 모델링을 제안하였다.
본 논문에서는 in-domain과 out-of-domain의 언어 모델을 interpolation하는 대신각 문서의 적응 가중치 를 이용하여 n-gram count를 직접 결합하였다. w h를 단어 w의 history라고 하면 결합 count #는 다음과 같다.
다음 단계로 형태소 분석을 수행하였다. 본 논문의 인식 단위는 형태소이므로 대화 현상에 대한 분석도 형태소를 기본 단위로 하였다. 형태소 분석 후, 코퍼스의 크기는 103, 406 형태소이고, 유일 형태소 수는 2, 292이며 모두 발음사전의 어휘로 사용하였다.
위의 특징들은 형태소를 기본 단위로 하여(2)의 결과를 바탕으로 분석된 것으로, 대화 현상 중 언어 모델에 영향을 주는 것들만을 나열하였다. 이외의 특징들은 다중 발음열을 사전에 추가하여 처리하였다([2]참조).
형태소가 축약되거나 생략되는 것과 같은 대화 현상들은 앞뒤 형태소에 의존적으로 일어나는 현상이지만, 정보검색 기법을 이용한 기존의 연구는 단어의 unigram 정보만을 이용하므로 이러한 현상의 반영이 어렵다는 문제점을 가지고 있다[1, 5]. 이에 대한 해결 방안으로 본 논문에서는 bigram 단어열에 대한 가중치를 구하여 위의 문제를 해결하였다.
여행 계획 음성 데이터베이스는 50 화자, 25 조가 각 4 대화씩을 발화하여 총 100 대화로 구성되고, 분석 결과는<표 1>과 같다. 잡음, 간 투어, 반복/수정 발화 등의 주석을 달고 표준발음을 전사하는 등의 과정을 수행하였다. 간투어가 전체 어절의 9.
최대로 반영할 수 있도록 하는데 초점을 두어, 두 가지 측면에서 접근하였다. 첫 번째는 n-gram 기반의 t*ifdf (Term Frequency Inverse Document Frequency) 유사도를 가중치로 이용하여 문서 단위로 대화체 도메인과 타 도메인을 결합하였다. 형태소가 축약되거나 생략되는 것과 같은 대화 현상들은 앞뒤 형태소에 의존적으로 일어나는 현상이지만, 정보검색 기법을 이용한 기존의 연구는 단어의 unigram 정보만을 이용하므로 이러한 현상의 반영이 어렵다는 문제점을 가지고 있다[1, 5].
스타일을 반영하였다. 키워드 선정을 위하여, 코퍼스에 나타난 모든 bigram 단어열을 대상으로 inverse document frequency (idf)를 계산하였다.
한국어 대화 음성의 스타일을 잘 반영할 수 있도록 n-gram 기반의 t*idff 유사도를 이용하여 타 영역 코퍼스를 결합하고, 간투어를 모델링하여 언어 모델에 추가하였다.

대상 데이터

여행 계획 음성 데이터베이스는 50 화자, 25 조가 각 4 대화씩을 발화하여 총 100 대화로 구성되고, 분석 결과는과 같다.
언어 모델은 트라이그램을 사용하였다. 학습에 사용되지 않은 10개의 대화를 언어 모델과 인식을 위한 테스트 셋으로 사용하였다.
본 논문의 인식 단위는 형태소이므로 대화 현상에 대한 분석도 형태소를 기본 단위로 하였다. 형태소 분석 후, 코퍼스의 크기는 103, 406 형태소이고, 유일 형태소 수는 2, 292이며 모두 발음사전의 어휘로 사용하였다.

이론/모형

간투어 모델링을 위하여[6]의 cleanup 모델을 이용하였으며, 학습 데이터에 서간 투어를 포함한 단어열의 수정이 필요하다.<표 2>는 간투어를 포함한 문장의 trigram 단어열을 나열한 것으로, 일반 단어를 위한 trigram count를 위해서는 set 1 을 사용한다.
대화체 연속 음성인식에 적합한 음향모델 생성을 위해, 약 20시간 분량의 낭독체 음성으로 학습한 후, 90 대화의 대화체 음성으로 화자 적응하였으며, 각 하나씩의 잡음 모델과 간 투어 모델을 추가하였다[2]. 언어 모델은 트라이그램을 사용하였다. 학습에 사용되지 않은 10개의 대화를 언어 모델과 인식을 위한 테스트 셋으로 사용하였다.
트라이그램 네트워크 디코데8]를 사용하였다. 음향모델은 각 상태당 6개의 가우시안 혼합분포를 갖는 연속 HMM 모델을 사용하였다. 대화체 연속 음성인식에 적합한 음향모델 생성을 위해, 약 20시간 분량의 낭독체 음성으로 학습한 후, 90 대화의 대화체 음성으로 화자 적응하였으며, 각 하나씩의 잡음 모델과 간 투어 모델을 추가하였다[2].
인식 실험은 본 연구실에서 대어휘 연속 음성 인식을 위해 개발한 1-패스 세미다이나믹 트라이그램 네트워크 디코데8]를 사용하였다. 음향모델은 각 상태당 6개의 가우시안 혼합분포를 갖는 연속 HMM 모델을 사용하였다.

성능/효과

비교.분석하여, 특정 보조사의 빈번한 사용, 어미나 조사의 빈번한 생략이나 축약 등의 대화 현상들이 있음을 밝혔다. 또한 효과적인 대화체 언어 모델 생성을 위하여 타 도메인 텍스트와 결합하는 과정에 이러한 대화 특징들을 반영할 수 있는 n-gram 기반 의 t*ifdf 유사도를 이용한 언어 모델 적응 방법과 간투어 모델링을 제안하였다.
실험에 사용한 인식기는 1-패스에 하나의 발화를 인식하는데, 한 발화는 여러 문장으로 이루어져 있으므로 문장 경계에서 간투어의 역할이 더욱 효과적이었다고 볼 수 있다.
은 간투어의 uaigram만을 언어 모델에 사용했을 때의 실험 결과로, 의 실험결과와 비교할 때 간투어 정보가 대화체 연속 음성 인식에 많은 도움을 주고 있음을 확인할 수 있다.
인식 결과로부터, n-gram 기반의 t*idff 유사도를 적용하여 간투어 모델 각각에 대해 4.7% (FP-O), 2.9% (FP-1), 3.8% (FP-2)의 WER를 감소시켰고, 간투어 모델 FP-2를 적용하여 9.7%의 WER를 감소시켰다.
최종적으로, 본 논문에서 제안한 n-gram 기반의 t*idff 유사도를 이용한 언어 모델 적응 방법과 간투어 모델 FP-2를 적용하여 26.11% WER를 얻었으며, FP-0/ CV의 성능에 대해 9.7%의 성능 개선을 보였다.
반면 t*idff 가중치를 적용한 언어 모델은 모두 우수한 인식 성능을 보여주고 있다. 특히 본논문에서 제안한 bi-TFIDF는 CV에 대해서 4.7% (FP-0), 2.9% (FP-1), 3.8% (FP-2)의WER를 감소시켜 가장 좋은 성능을 보여주었다.

후속연구

그러나 아직 한국어 대화체에 대한 통일된 대화 현상이나 전사 규칙 등이 정립되지 않은 상태이다. 대화체 음성과 텍스트 코퍼스 자체도 매우 중요하지만 이들 코퍼스를 제대로 분석할 수 있도록 하는 여러 대화 현상들을 어떻게 표기할 것인가 등에 대한 연구도 함께 이루어져야 하겠다.
이번 연구에서는 disfluency를 처리하기 위한 모델로 간투어만을 고려하였지만, 차후에는 간투어 이외의 다른 현상들로 각 특징에 맞는 모델링이 필요하다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

N-gram 기반의 유사도를 이용한 대화체 연속 음성 언어 모델링
Spontaneous Speech Language Modeling using N-gram based Similarity 원문보기

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

N-gram 기반의 유사도를 이용한 대화체 연속 음성 언어 모델링 Spontaneous Speech Language Modeling using N-gram based Similarity 원문보기

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

저자의 다른 논문 :

박영희 (2) 정민화 (10)

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

N-gram 기반의 유사도를 이용한 대화체 연속 음성 언어 모델링
Spontaneous Speech Language Modeling using N-gram based Similarity 원문보기

AI 본문요약
AI-Helper