$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

바타챠랴 거리 측정 기법을 사용한 가우시안 모델 기반 음소 인식 향상
Improving Phoneme Recognition based on Gaussian Model using Bhattacharyya Distance Measurement Method 원문보기 논문타임라인

멀티미디어학회논문지 = Journal of Korea Multimedia Society, v.14 no.1, 2011년, pp.85 - 93  

오상엽 (경원대학교 IT대학 컴퓨터소프트웨어)

초록
AI-Helper 아이콘AI-Helper

기존의 어휘 인식에서는 일반적인 벡터 값을 데이터베이스를 이용하여 구하므로 탐색 중에 형성되는 음소를 처리하지 못하는 문제점을 제공하며, 음소 데이터에 대한 모델을 구성할 수 없는 단점으로 인하여 가우시안 모텔의 정확성을 확보하지 못하게 된다. 따라서 본 논문에서는 음소가 갖는 특징을 기반으로 바타챠랴 거리 측정법을 이용하여 정확한 음소로 인식할 수 있도록 유도하였으며 유사 음소 인식과 오인식 오류를 최소화하여 인식률을 향상시켰다. 연속 확률 분포의 공유로부터 가우시안 모델 최적화를 실험한 결과 향상된 신뢰도로 인해 높은 인식 성능을 확인하였으며, 본 논문에서 제안한 바타챠랴 거리 측정법을 이용하여 실험한 결과 기존의 방법들에 비하여 평균 1.9%의 성능 향상을 나타내었으며 신뢰성을 바탕으로 인식율에서 평균 2.9%의 성능 향상을 나타내었다.

Abstract AI-Helper 아이콘AI-Helper

Previous existing vocabulary recognition programs calculate general vector values from a database, so they can not process phonemes that form during a search. And because they can not create a model for phoneme data, the accuracy of the Gaussian model can not secure. Therefore, in this paper, we rec...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 어휘 인식에서는 인식 학습 시 나타나지 않는 미등록어의 트라이 폰이 나타나므로 모델 파라미터들의 초기 추정치를 생성할 수 없으므로 음소 데이터에 대한 모델을 구성할 수 없다’ 이러한 단점으로 인하여 가우시안 모델의 정확성이 떨어지게 되어 인식의 신뢰도가 저하되고, 일반적인 벡터 값을 데이터베이스를 이용하여 구하므로 탐색 중에 형성되는 음소를 처리하지 못하는 문제점을 제공하지만, 본 논문에서는 이를 개선하기 위하여 본 논문에서는 바타차랴거리 측정법을 이용한 가우시안 모델을 최적화한 방법을 제안하여 가우시안 모델의 정확성을 향상하고, 음소를 관리 및 제어할 수 있도록 하였다.
  • 모델을 구성할 수 없다’ 이러한 단점으로 인하여 가우시안 모델의 정확성이 떨어지게 되어 인식의 신뢰도가 저하되고, 일반적인 벡터 값을 데이터베이스를 이용하여 구하므로 탐색 중에 형성되는 음소를 처리하지 못하는 문제점을 제공하지만, 본 논문에서는 이를 개선하기 위하여 본 논문에서는 바타차랴거리 측정법을 이용한 가우시안 모델을 최적화한 방법을 제안하여 가우시안 모델의 정확성을 향상하고, 음소를 관리 및 제어할 수 있도록 하였다.
본문요약 정보가 도움이 되었나요?

참고문헌 (20)

  1. 안찬식, 오상엽, "공유모델 인식 성능 향상을 위한 효율적인 연속 어휘 군집화 모델링", 한국컴퓨터정보학회지, 제15권, 제1호, 177-183쪽, 2010년 1월. 

    인용구절

    인용 구절

    이를 위한 신호 처리 단계에서의 어휘 인식 오류 보정에 대한 여러 가지 연구가 진행되고 있다[1].

  2. 김우성, 구명완 "반음소 모델링을 이용한 거절기능에 관한 연구", 한국음향학회지, 제18권, 제3호, 3-9쪽, 1999년 3월. 

    인용구절

    인용 구절

    사용범위가 넓고 다양한 화자 독립적인 최근의 시스템에서 전처리인 신호 처리만으로 인식의 효율을 높이는 것은 매우 제한적이므로 어휘의 단순한 신호처리 위주의 인식 결과로부터 좀 더 신뢰할 수 있는 결과를 얻기 위한 어휘 후처리에서 오류 보정에 대한 연구가 진행되고 있다[2].

  3. 문광식, 김회린, 정재호, 이영직, "가변어휘 단어 인식에서의 미등록어 거절 알고리즘의 성능비교", 신호처리합동학술대회논문집, 제12권, 제1호, 305-308쪽, 1999년 10월. 

    인용구절

    인용 구절

    핵심어 검출 방식은 문법을 설계할 때 핵심어만 고려하고 나머지 단어는 가비지(garbage) 모델을 사용하여 불필요한 단어를 제거하여 사용하는 방법이다[3].

  4. 방기덕, 강철호, "가변 신뢰도 문턱치를 사용한 미등록어 거절 알고리즘에 대한 연구", 한국멀티미디어학회논문지, 제11권, 제11호, 1471-1479쪽, 2008년 11월. 

    원문보기 상세보기 타임라인에서 보기
    인용구절

    인용 구절

    필러 모델은 구성방식이 단어 기반이므로 가변 어휘 단어 인식 시스템을 위한 발화 검증 구현을 위해서는 매 음소단위의 검증기능이 있어야하며 반음소 모델을 사용하는 방식이 제안되고 있다[4].

  5. 안찬식, 오상엽, "MLHF 모델을 적용한 어휘 인식 탐색 최적화 시스템", 한국컴퓨터정보학회지, 제14권, 제10호, 217-223쪽, 2009년 10월. 

    인용구절

    인용 구절

    그러나 두 시스템 모두 미리정해 놓은 특정 인식 대상 단어가 입력될 것이라는 가정 하에 음성 인식 기능을 수행하며 사용자의 실수 또는 고의로 인식 대상 단어를 말하면 대상 단어중의 하나로 잘못 인식하는 결과를 보여주므로 다른 단어로 인식해 버리는 문제점이 있다[5].

  6. 김용현, 정민화, "에러패턴 학습과 후처리 모듈을 이용한 연속 음성 인식의 성능향상", Proc. KISS Spring Semiannual Conf. 제27권, 제1호, 441-443쪽, 2000년 4월. 

    인용구절

    인용 구절

    필러모델들은 핵심어에 해당하지 않는 음성 구간들인 비핵심어들과 비음성, 묵음 또는 배경 잡음 구간들을 표현하는데 사용된다[6].

  7. A. S. Manos and V. W. Zue, "A study on out-of- vocabulary word modeling for a segment-based keyword spotting system", Master Thesis, MIT, 1996. 

    인용구절

    인용 구절

    HMM에서는 관측할 수 없는 음성의 통계적인 특성을 관측 가능한 벡터열을 통해 추정함으로서 음성의 통계적인 변이성을 반영한다[7].

  8. 김동주, 김한우, "문맥가중치가 반영된 문장 유사도 척도," 전자공학회 논문지, 제43권, 제6호, 496-504쪽, 2006년. 

    인용구절

    인용 구절

    이러한 거리 측정 방법 에는 유클리디안 알고리즘, DTW알고리즘, 바타챠랴 거리 측정 알고리즘이 사용되고 있다[8].

  9. L. R. Bahl, P. V. deSouza, P. S. Gopalakrishnan, D. Nahamoo, and M. Picheny, "A Fast Match for Continuous Speech Recognition Using Allophonic Models", InProc. IEEE ICASSP- 92, Vol.1, pp.17-21, 1992. 

    인용구절

    인용 구절

    단순 거리 계산을 수행하는 방법이므로 실시간을 요구하는 인식과정에서는 일반적으로 동적 프로그램 기술인 비터비 코딩(Viterbidecoding) 방법을 이용하여 상태경로의 변이와 최적의 모델을 추정하여 인식한다[9].

  10. L. R. Rabiner, B. H. Juang, "Fundamentals of speech recognition", Prentice Hall, 1993. 

    인용구절

    인용 구절

    단일한 가우시안으로는 모델링 할 수 없는 북수개의 중심점을 가지는 1차원 데이터와 2차원 환형 데이터에 대하여 견고하게 모델링된다[10].

  11. T. Jitsuhiro, S. Takatoshi, and K. Aikawa, "Rejection of out-of-vocabulary words using phoneme confidence likelihood", ICASSP, pp.217-220, 1998. 

    인용구절

    인용 구절

    계산의 단순함과 오류의 대한 경계값을 제공함으로써 유연성을 갖는다[11].

  12. 이경록, 김철, 김진영, 최승호, 최승호, "정규화 신뢰도를 이용한 핵심어 검출 성능향상", 한국음향학회지, 제21권, 제4호, 380-386쪽, 2002년 5월. 

    인용구절

    인용 구절

    임의의 음성 특징 벡터의 관측열。티。1,。2,...,이이 사실임을 가정할 때 주어진 N-states HMM 모델에서의 상태열이 ]=心魚,…,如)라면 결국 관측열의 확률은 다음 식(H)과 같이 주어진다 [12].

  13. 김동주, 김한우, "문맥가중치가 반영된 문장 유사도 척도", 대한전자공학회논문지, 제43권, 제6호, 496-504쪽, 2006년. 

    인용구절

    인용 구절

    이러한 확률 계산은 음성 구간에 따라 모델이 지수 함수적으로 증가하는 상태 열을 갖기 때문에 쉽게 계산할 수 없고 계산량이 지나치게 방대해지므로 전향, 후향 알고리즘을 이용하여 HMM 모델의 관측열의 확률을 추정한다[13].

  14. 김상운, 신성효, "ML/MMSE를 이용한 HMM- Net 분류기의 학습에 대한 실험적 고찰",대한전자공학회논문지C, 제36C권, 제6호, 44-51쪽, 1999년 6월. 

    인용구절

    인용 구절

    혼합 거리는 비슷한 가중치를 갖는 가우시안들이 조합되기가 더 쉽기 때문에 축적된 형태로 구하게 된다 [14].

  15. S. Young, D. Kershaw, J. Odell, D. Ollason, Valtcher, P. Woodland, "The HTK Book", Cambridge University Engineering Department, 2002. 

    인용구절

    인용 구절

    이러한 set이 남성음이 5set, 여성음이 5set으로 모두 l0set으로 구성하였다[15].

  16. 권석봉, 윤성락, 장규철, 김용래, 김봉완, 김회린, 유창동, 이용주, 권오욱, "한국어 음성인식 플랫폼(ECHOS)의 개선 및 평가", 대한음성학회지:말소리, 제59호, 53-68쪽, 2006년 9월. 

    원문보기 상세보기
    인용구절

    인용 구절

    녹음된 데이터는 인식기 학습을 위해 MFCC 특성 추출 방법을 사용하였고 인식기는 SITEC에서 개발한 ECHOSL[16] 이용하였다.

  17. 최승호, "정규화 신뢰도 기반 가변 어휘 고립 단어 인식기의 거절기능 성능 분석", 한국음향학회지, 제25권, 제2호, 96-100쪽, 2006년 2월. 

    인용구절

    인용 구절

    미등록어 거절의 성능은 다음과 같은 항목을 기준으로 평가하였다[17].

  18. K. Demuynck, J. Duchateau, and D. Van Compernolle, "A static lexicon network representation for cross-word context dependent phones", In Proc. EUROSPEECH, Vol.1, pp.143-146, 1997. 

    인용구절

    인용 구절

    표 3은 기존의 에러 패턴 학습을 이용한 방법[18,19] 인 error pattern 과 의미기반의 방법 [20] 인 semantic 그리고 본 논문의 제안 방법인 가우시안 모델 최적화의 결과를 나타내었다.

  19. 김기태, 문광식, 김회린, 이영직, 정재호, "가변어휘 단어 인식에서의 미등록어 거절 알고리즘 성능 비교", 한국음향학회지, 제20권, 제2호, 27-34쪽, 2001년 2월. 

    인용구절

    인용 구절

    표 3은 기존의 에러 패턴 학습을 이용한 방법[18,19] 인 error pattern 과 의미기반의 방법 [20] 인 semantic 그리고 본 논문의 제안 방법인 가우시안 모델 최적화의 결과를 나타내었다.

  20. M. W. Jeong, B. C. Kim, and G. G. Lee, "Semantic-oriented error correction for spoken query processing", Proc. IEEE Workshop on ASRU, pp.156-161, Nov, 2003. 

    인용구절

    인용 구절

    표 3은 기존의 에러 패턴 학습을 이용한 방법[18,19] 인 error pattern 과 의미기반의 방법 [20] 인 semantic 그리고 본 논문의 제안 방법인 가우시안 모델 최적화의 결과를 나타내었다.

관련 콘텐츠

오픈액세스(OA) 유형

BRONZE

출판사/학술단체 등이 한시적으로 특별한 프로모션 또는 일정기간 경과 후 접근을 허용하여, 출판사/학술단체 등의 사이트에서 이용 가능한 논문

이 논문과 함께 이용한 콘텐츠

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로