$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

호출 명령어 방식 핵심어 검출 시스템의 임베디드 DSP 구현에 관한 연구
A Study on Embedded DSP Implementation of Keyword-Spotting System using Call-Command 원문보기

멀티미디어학회논문지 = Journal of Korea Multimedia Society, v.13 no.9, 2010년, pp.1322 - 1328  

송기창 (광운대학교 전자통신공학과, 아이디폰 연구소) ,  강철호 (광운대학교 전자통신공학과)

초록
AI-Helper 아이콘AI-Helper

최근 핵심어 검출 시스템은 유비쿼터스 홈네트워크의 UI(User Interface) 기술로써 각광받고 있다. 핵심어 검출 시스템은 TV, 라디오, 떠드는 소리 등과 같은 동적 생활 잡음에 매우 취약하다. 특히, 실제 임베디드 DSP(Digital Signal Processor) 환경에서는 상대적으로 CPU(Central Processing Unit) 연산능력이 떨어지므로, 실시간으로 입력되는 음성을 인식하기가 어려워 인식율은 급격히 하락하게 된다. 본 논문은 임베디드 DSP 환경에서 원활한 연속음성인식을 수행하기 위하여 '나래야', '홈매니저'등과 같은 호출명령어를 선정하고 잡음을 포함한 묵음구간과 호출명령어로 구성된 최소의 인식네트워크를 토큰으로 구성하여 입력된 음성에 대해 실시간 음성인식을 계속적으로 수행한다.

Abstract AI-Helper 아이콘AI-Helper

Recently, keyword spotting system is greatly in the limelight as UI(User Interface) technology of ubiquitous home network system. Keyword spotting system is vulnerable to non-stationary noises such as TV, radio, dialogue. Especially, speech recognition rate goes down drastically under the embedded D...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 본 논문에서 화자독립 연속음성인식 엔진의 DSP 구현을 위하여 음성의 입력에 대한 음성신호 검출 동작과 인식동작을 독립적으로 설계하여 실시간 음성처리를 기반으로 설계하였다. 또한, 홈네트워크의 다양한 응용시스템에 임베딩하기 위한 DSP모듈의 외부 인터페이스를 그림 5와 같이 표준화하여 설계하였다.
  • 오히려, 미등록어 판별 연산을 수행하는 중 화자의 실제 명령이 입력되는 경우가 많아 실제의 음성 인식율이 급격히 하락할 수 밖에 없다. 본 논문에서는 “나래야”, “홈매니저”와 같은 최소의 호출 명령어 인식 네트워크를 구성, 판별함으로써 300MHz CPU 성능을 갖는 임베디드 DSP 환경에서도 실시간 연속 음성인식이 가능한 시스템을 구현하 였다 N

가설 설정

  • Token-Passing 알고리즘에 의해 디코딩하면 최대 100(10*10) 개의 토큰만이 필요하게 되며, 인식율이 저하되지 않는 한도에서 빠른 계산을 위하여 빔폭은 40-50개의 토큰만으로 제한하여 계산량을 최소화 시킨다. 여기서 40개의 토큰이 실시간으로 계산되면서, 호출명령어 인식 네트워크에서 묵음 모델로 천이하는 순간 역전파 경로 (Back Propagation Path)를 검사했을 때, 호출 명 령어 "나래야”로 인식되었으면 화자가 명령어를 발성하고 있다고 가정하고 연속음성인식 네트워크로 전파한다. 그림 3의 실시간 호출명령어 인식네트워크의 계산량은 실시간 MFCC 파라미터 추출 및 40 토큰 Decoding에 필요한 계산량으로 중소규모 인식기인 300단어 연속음성인식 네트워크(*33000 토큰)에 비해 극소량에 불과하다.
  • 기존의 핵심어 검출 인식 네트워크는 각 단어 모델의 앞뒤에 묵음(silence)이 있다고 가정하고 각 단어 모델은 인식하고자 하는 하부 단위 모델의 네트워크로 구성되어 진다. 입력되는 음성 혹은 음향으로부터 추출된 특징 파라미터는 구성된 인식 네트워크의 경로를 통해 인식되어 지는데, 본 논문에서는 그림 3과 같은 2단계 인식 네트워크를 제안한다.
본문요약 정보가 도움이 되었나요?

참고문헌 (12)

  1. 한종욱, 이덕규, 정교일, "홈네트워크 보안기술 동향," 한국통신학회지, 제23권 제9호, pp.113- 124, 2006. 

  2. 신상열, "홈네트워크 개요 및 정책 동향," 電波, 제128호, pp.60-63, 2006. 

  3. R. A. Sukkar and C-H. Lee, "Vocabulary independent discriminative utterance verification for non-keyword in subword based speech recognition," IEEE Trans. on speech and audio processing, Vol.4, No.6, pp.420-429, Nov. 1996. 

  4. Mazin G Rahim, Chin-Hui Lee, Biing-Hwang Juang and Wu Chou, "Discriminative Utterance Verification Using Minimum String Verification Error(MSVE) Training," ICASSP, 1996. 

  5. Hoi-Rin Kim, SingHun Yi and Hang-Seop Lee, "Out-Of-Vocabulary Rejection using Phone Filler Model in Variable Vocabulary Word Recognition," ICSP, Vol.1, pp.337-339, 1999. 

  6. J. Kim, J Lee, and S Choi, "Hybrid Confidence Measure for Domain-Specific Keyword Spotting," Proc. of IEA/AIE, 15, 736-745, 2002. 

  7. L. Rabiner and Biing-Hwang Juang, "Fundamentals of speech recognition", Prentice- Hall International, Inc., 1993. 

  8. 박진영, 권호민, 박정원, 김창근, 허강인, "DSP기반의 잡음환경에 강인한 화자 독립 음성 인식기 구현," 대한전자공학회 03 신호처리소사이어티 추계학술대회, pp.69-72, 2003. 11. 

  9. 장흥, 정익주, "TMS320C32 DSP를 이용한 실시간 화자종속 음성인식 하드웨어 모듈(VR32)구현," 한국음향학회지, 17권, 4호, pp.14-22, 1998년 5월. 

  10. Sadaoki Furui, "50 Years of Progress in Speech Recognition Technology-Where We Are, and Where We Should Go-," In Proc. ICASSP 2007 Plenary Speech, 2007. 

  11. Deng, A. Acero, M. Plumpe, and X.D. Huang, "Large-Vocabulary Speech Recognition under Adverse Acoustic Environments," In Proc. ICSLP, 2000, pp. III-806-809. 

  12. Texas Instruments, TMS320VC5501 Fixed- Point Digital Signal Processor (Rev. K). Nov 2008. 

저자의 다른 논문 :

관련 콘텐츠

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로