$\require{mediawiki-texvc}$
  • 검색어에 아래의 연산자를 사용하시면 더 정확한 검색결과를 얻을 수 있습니다.
  • 검색연산자
검색연산자 기능 검색시 예
() 우선순위가 가장 높은 연산자 예1) (나노 (기계 | machine))
공백 두 개의 검색어(식)을 모두 포함하고 있는 문서 검색 예1) (나노 기계)
예2) 나노 장영실
| 두 개의 검색어(식) 중 하나 이상 포함하고 있는 문서 검색 예1) (줄기세포 | 면역)
예2) 줄기세포 | 장영실
! NOT 이후에 있는 검색어가 포함된 문서는 제외 예1) (황금 !백금)
예2) !image
* 검색어의 *란에 0개 이상의 임의의 문자가 포함된 문서 검색 예) semi*
"" 따옴표 내의 구문과 완전히 일치하는 문서만 검색 예) "Transform and Quantization"
쳇봇 이모티콘
안녕하세요!
ScienceON 챗봇입니다.
궁금한 것은 저에게 물어봐주세요.

논문 상세정보

대화체 연속음성 인식을 위한 한국어 대화음성 특성 분석

Analysis of Korean Spontaneous Speech Characteristics for Spoken Dialogue Recognition

초록

대화체 연속음성은 자연스러운 발화로 낭독체 문장에 비해 잡음, 간투어와 같은 비문법적인 요소가 많고, 발음의 변이가 심하다. 이런 이유로 대화체 연속음성을 인식하기 위해서는 대화 현상을 분석하고 그 특징을 반영하여야 한다. 본 논문에서는 실제 대화음성에 빈번히 나타나는 대화 현상들을 분류하고 각 현상들을 모델링하여 대화체 연속음성 인식을 위한 기본 베이스라인을 구축하였다. 대화 현상을 묵음 구간과 잡음, 간투어, 반복/수정 발화의 디스풀루언시 (disfluencies), 표준전사와 다른 발음을 갖는 발음변이 현상으로 나누었다. 발음변이 현상은 다시 양성음의 음성음화, 음운축약/탈락현상, 패턴화된 발음변이, 발화오류로 세분화하였다. 대화체 음성인식을 위해서 빈번히 나타나는 묵음구간을 고려한 학습과 잡음, 간투어 처리를 위한 음향모델을 각각 추가하였다. 발음변이 현상에 대해서는 출현빈도수가 높은 것들만을 대상으로 발음사전에 다중 발음열을 추가하였다. 대화현상을 고려하지 않고 낭독체 스타일로 음성인식을 수행하였을 때 형태소 에러율 (MER: Morpheme Error Rate)은 31.65%였다. 이에 대한 형태소 에러율의 절대값 감소는 묵음 모델과 잡음 모델을 적용했을 때 2.08%, 간투어 모델을 적용했을 때 0.73%, 발음변이 현상을 반영했을때 0.92%였으며, 최종적으로 27.92%의 형태소 에러율을 얻었다. 본 연구는 대화체 연속음성 인식을 위한 기초 연구로 음향모델과 어휘모델, 언어모델 각각에 대한 베이스라인으로 삼고자 한다.

Abstract

Spontaneous speech is ungrammatical as well as serious phonological variations, which make recognition extremely difficult, compared with read speech. In this paper, for conversational speech recognition, we analyze the transcriptions of the real conversational speech, and then classify the characteristics of conversational speech in the speech recognition aspect. Reflecting these features, we obtain the baseline system for conversational speech recognition. The classification consists of long duration of silence, disfluencies and phonological variations; each of them is classified with similar features. To deal with these characteristics, first, we update silence model and append a filled pause model, a garbage model; second, we append multiple phonetic transcriptions to lexicon for most frequent phonological variations. In our experiments, our baseline morpheme error rate (WER) is 31.65%; we obtain MER reductions such as 2.08% for silence and garbage model, 0.73% for filled pause model, and 0.73% for phonological variations. Finally, we obtain 27.92% MER for conversational speech recognition, which will be used as a baseline for further study.

저자의 다른 논문

참고문헌 (15)

  1. 개념 및 구문정보를 이용한 한국어 대화체 분석 시스템 , 왕지현;서영훈 , 제9회 한글 및 한국어 정보처리 학술발표 논문집 / v.,pp.341-346, 1997
  2. 한국어 낭독체 인식의 발성 잡음처리를 위한 Human Garbage 모델링 , 이경님;정민화 , 한국음향학회 하계학술대회논문집 / v.,pp.323-326, 2001
  3. 한국어 대화체 인식 시스템의 구현 , 이항섭;박준;권오욱 , 제13회 음성통신 및 신호처리 워크샵 / v.13,pp.145-148, 1996
  4. Statistical language modeling for speech disfluencies , A. Stolcke;E. Shriberg , Proc. of International Conference on Acoustics, Speech, and Signal / v.1,pp.405-408, 1996
  5. The SRI march 2000 HUB-5 conversational speech transcription system , A. Stolcke;H. Bratt;J. Butzberger;H. Franco;V.R. Rao Graoble;M. Plauche;C. Richey;E. Shriberg;K. Sonmez;F. Weng;J. Zheng , Proc. of NIST Speech Transcription Workshop / v.,pp., 2000
  6. Pronunciation modeling using a Hand-labelled corpus for conversational speech recognition , B. Byrne;M. Finke;S. Khudanpur;J. McDounugh;H. Nock;M. Riley;M. Saraclar;C. Wooters;G. Zavaliagkos , Proc. of International Conference on Acoustics, Speeech, and Signal / v.1,pp.313-316, 1998
  7. Preliminaries to a Theory of Speech Disfluencies , E. Shriberg , Ph. D. thesis / v.,pp., 1994
  8. Disfluencies in switchboard , E. Shriberg , Proc. of Inter-national Conference on Spoken Language Processing / v.3,pp.1301-1305, 1996
  9. Word Predictability after hesitations;A corpus-based study , E. Shriberg;A. Stolcke , Proc. of International Conference on Spoken Language Processing / v.3,pp.691-695, 1996
  10. SWITCHBOARD;Telephone speech corpus for research and development , J.J. Godfrey;E.C. Holliman;J. McDaniel , Proc. of International Conference on Acoustics, Speech, and Signal / v.,pp., 1992
  11. HTK Hidden Markov Model Tookit, Version 2.2 / v.,pp., 0000
  12. Modeling disfluencies in conversational speech , M.H. Siu;M. Ostendorf , Proc. of International Conference on Spoken Language Processing / v.1,pp.621-625, 1996
  13. Speaking mode dependent pronunciation modeling in large vocabulary conversational speech recognition , M. Finke;A. Waibel , Proc. of EUROSPEECH / v.5,pp.2359-2382, 1997
  14. Effect of speaking style on LVCSR performance , M. Weintraub;K. Taussing;K.H.;A. Snodgrass , Proc. of Inter-national Conference on Spoken Language Processing / v.3,pp.1036-1039, 1996
  15. Error analysis and disfluencies modeling in the Switchboard domain , R. Rosenfeld;R. Agarwal;R. lyer;L Shriberg;D. Vergyri , JHU Summer Workshop / v.,pp., 1995

이 논문을 인용한 문헌 (1)

  1. 2004. "" The journal of the Acoustical Society of Korea, 23(e2): 51~55 

원문보기

원문 PDF 다운로드

  • ScienceON :

원문 URL 링크

  • 원문 URL 링크 정보가 존재하지 않습니다.

원문 PDF 파일 및 링크정보가 존재하지 않을 경우 KISTI DDS 시스템에서 제공하는 원문복사서비스를 사용할 수 있습니다. 원문복사서비스 안내 바로 가기

상세조회 0건 원문조회 0건

DOI 인용 스타일