최소 단어 이상 선택하여야 합니다.
최대 10 단어까지만 선택 가능합니다.
다음과 같은 기능을 한번의 로그인으로 사용 할 수 있습니다.
NTIS 바로가기멀티미디어학회논문지 = Journal of Korea Multimedia Society, v.14 no.1, 2011년, pp.85 - 93
오상엽 (경원대학교 IT대학 컴퓨터소프트웨어)
Previous existing vocabulary recognition programs calculate general vector values from a database, so they can not process phonemes that form during a search. And because they can not create a model for phoneme data, the accuracy of the Gaussian model can not secure. Therefore, in this paper, we rec...
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
안찬식, 오상엽, "공유모델 인식 성능 향상을 위한 효율적인 연속 어휘 군집화 모델링", 한국컴퓨터정보학회지, 제15권, 제1호, 177-183쪽, 2010년 1월.
이를 위한 신호 처리 단계에서의 어휘 인식 오류 보정에 대한 여러 가지 연구가 진행되고 있다[1].
김우성, 구명완 "반음소 모델링을 이용한 거절기능에 관한 연구", 한국음향학회지, 제18권, 제3호, 3-9쪽, 1999년 3월.
사용범위가 넓고 다양한 화자 독립적인 최근의 시스템에서 전처리인 신호 처리만으로 인식의 효율을 높이는 것은 매우 제한적이므로 어휘의 단순한 신호처리 위주의 인식 결과로부터 좀 더 신뢰할 수 있는 결과를 얻기 위한 어휘 후처리에서 오류 보정에 대한 연구가 진행되고 있다[2].
문광식, 김회린, 정재호, 이영직, "가변어휘 단어 인식에서의 미등록어 거절 알고리즘의 성능비교", 신호처리합동학술대회논문집, 제12권, 제1호, 305-308쪽, 1999년 10월.
핵심어 검출 방식은 문법을 설계할 때 핵심어만 고려하고 나머지 단어는 가비지(garbage) 모델을 사용하여 불필요한 단어를 제거하여 사용하는 방법이다[3].
안찬식, 오상엽, "MLHF 모델을 적용한 어휘 인식 탐색 최적화 시스템", 한국컴퓨터정보학회지, 제14권, 제10호, 217-223쪽, 2009년 10월.
그러나 두 시스템 모두 미리정해 놓은 특정 인식 대상 단어가 입력될 것이라는 가정 하에 음성 인식 기능을 수행하며 사용자의 실수 또는 고의로 인식 대상 단어를 말하면 대상 단어중의 하나로 잘못 인식하는 결과를 보여주므로 다른 단어로 인식해 버리는 문제점이 있다[5].
김용현, 정민화, "에러패턴 학습과 후처리 모듈을 이용한 연속 음성 인식의 성능향상", Proc. KISS Spring Semiannual Conf. 제27권, 제1호, 441-443쪽, 2000년 4월.
필러모델들은 핵심어에 해당하지 않는 음성 구간들인 비핵심어들과 비음성, 묵음 또는 배경 잡음 구간들을 표현하는데 사용된다[6].
A. S. Manos and V. W. Zue, "A study on out-of- vocabulary word modeling for a segment-based keyword spotting system", Master Thesis, MIT, 1996.
HMM에서는 관측할 수 없는 음성의 통계적인 특성을 관측 가능한 벡터열을 통해 추정함으로서 음성의 통계적인 변이성을 반영한다[7].
김동주, 김한우, "문맥가중치가 반영된 문장 유사도 척도," 전자공학회 논문지, 제43권, 제6호, 496-504쪽, 2006년.
이러한 거리 측정 방법 에는 유클리디안 알고리즘, DTW알고리즘, 바타챠랴 거리 측정 알고리즘이 사용되고 있다[8].
L. R. Bahl, P. V. deSouza, P. S. Gopalakrishnan, D. Nahamoo, and M. Picheny, "A Fast Match for Continuous Speech Recognition Using Allophonic Models", InProc. IEEE ICASSP- 92, Vol.1, pp.17-21, 1992.
단순 거리 계산을 수행하는 방법이므로 실시간을 요구하는 인식과정에서는 일반적으로 동적 프로그램 기술인 비터비 코딩(Viterbidecoding) 방법을 이용하여 상태경로의 변이와 최적의 모델을 추정하여 인식한다[9].
L. R. Rabiner, B. H. Juang, "Fundamentals of speech recognition", Prentice Hall, 1993.
단일한 가우시안으로는 모델링 할 수 없는 북수개의 중심점을 가지는 1차원 데이터와 2차원 환형 데이터에 대하여 견고하게 모델링된다[10].
T. Jitsuhiro, S. Takatoshi, and K. Aikawa, "Rejection of out-of-vocabulary words using phoneme confidence likelihood", ICASSP, pp.217-220, 1998.
계산의 단순함과 오류의 대한 경계값을 제공함으로써 유연성을 갖는다[11].
이경록, 김철, 김진영, 최승호, 최승호, "정규화 신뢰도를 이용한 핵심어 검출 성능향상", 한국음향학회지, 제21권, 제4호, 380-386쪽, 2002년 5월.
임의의 음성 특징 벡터의 관측열。티。1,。2,...,이이 사실임을 가정할 때 주어진 N-states HMM 모델에서의 상태열이 ]=心魚,…,如)라면 결국 관측열의 확률은 다음 식(H)과 같이 주어진다 [12].
김동주, 김한우, "문맥가중치가 반영된 문장 유사도 척도", 대한전자공학회논문지, 제43권, 제6호, 496-504쪽, 2006년.
이러한 확률 계산은 음성 구간에 따라 모델이 지수 함수적으로 증가하는 상태 열을 갖기 때문에 쉽게 계산할 수 없고 계산량이 지나치게 방대해지므로 전향, 후향 알고리즘을 이용하여 HMM 모델의 관측열의 확률을 추정한다[13].
김상운, 신성효, "ML/MMSE를 이용한 HMM- Net 분류기의 학습에 대한 실험적 고찰",대한전자공학회논문지C, 제36C권, 제6호, 44-51쪽, 1999년 6월.
혼합 거리는 비슷한 가중치를 갖는 가우시안들이 조합되기가 더 쉽기 때문에 축적된 형태로 구하게 된다 [14].
S. Young, D. Kershaw, J. Odell, D. Ollason, Valtcher, P. Woodland, "The HTK Book", Cambridge University Engineering Department, 2002.
이러한 set이 남성음이 5set, 여성음이 5set으로 모두 l0set으로 구성하였다[15].
최승호, "정규화 신뢰도 기반 가변 어휘 고립 단어 인식기의 거절기능 성능 분석", 한국음향학회지, 제25권, 제2호, 96-100쪽, 2006년 2월.
미등록어 거절의 성능은 다음과 같은 항목을 기준으로 평가하였다[17].
K. Demuynck, J. Duchateau, and D. Van Compernolle, "A static lexicon network representation for cross-word context dependent phones", In Proc. EUROSPEECH, Vol.1, pp.143-146, 1997.
표 3은 기존의 에러 패턴 학습을 이용한 방법[18,19] 인 error pattern 과 의미기반의 방법 [20] 인 semantic 그리고 본 논문의 제안 방법인 가우시안 모델 최적화의 결과를 나타내었다.
김기태, 문광식, 김회린, 이영직, 정재호, "가변어휘 단어 인식에서의 미등록어 거절 알고리즘 성능 비교", 한국음향학회지, 제20권, 제2호, 27-34쪽, 2001년 2월.
표 3은 기존의 에러 패턴 학습을 이용한 방법[18,19] 인 error pattern 과 의미기반의 방법 [20] 인 semantic 그리고 본 논문의 제안 방법인 가우시안 모델 최적화의 결과를 나타내었다.
M. W. Jeong, B. C. Kim, and G. G. Lee, "Semantic-oriented error correction for spoken query processing", Proc. IEEE Workshop on ASRU, pp.156-161, Nov, 2003.
표 3은 기존의 에러 패턴 학습을 이용한 방법[18,19] 인 error pattern 과 의미기반의 방법 [20] 인 semantic 그리고 본 논문의 제안 방법인 가우시안 모델 최적화의 결과를 나타내었다.
*원문 PDF 파일 및 링크정보가 존재하지 않을 경우 KISTI DDS 시스템에서 제공하는 원문복사서비스를 사용할 수 있습니다.
출판사/학술단체 등이 한시적으로 특별한 프로모션 또는 일정기간 경과 후 접근을 허용하여, 출판사/학술단체 등의 사이트에서 이용 가능한 논문
※ AI-Helper는 부적절한 답변을 할 수 있습니다.