$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

광역 스펙트로그램과 심층신경망에 기반한 중첩된 소리의 인식과 영향 분석
Recognition of Overlapped Sound and Influence Analysis Based on Wideband Spectrogram and Deep Neural Networks 원문보기

방송공학회논문지 = Journal of broadcast engineering, v.23 no.3, 2018년, pp.421 - 430  

김영언 (서울과학기술대학교 NID융합대학원) ,  박구만 (서울과학기술대학교 NID융합대학원)

초록
AI-Helper 아이콘AI-Helper

많은 음성인식 시스템들은 MFCC와 HMM등의 분류 기법을 사용하여 사람의 음성을 인식한다. 그러나 이러한 음성인식 시스템은 단일 음성신호를 인식하는 것을 목적으로 설계되어, 인간과 기계사이의 일대일 음성 인식에는 적합하나, 애완동물 소리와 실내 소리같은 음성보다 다양하고 넓은 주파수의 소리 군으로 중첩된 음향 속에서 설정된 소리를 인식하기에는 제한이 있다. 중첩된 소리들의 주파수는 사람의 목소리보다 높은 최대 20 kHz까지 넓은 주파수 범위로 구성된다. 본 논문에서는 광역 사운드 스펙트로그램과 DNN에 기반한 케라스 시?셜 모델 기법을 활용하여 인지 주파수 범위를 넓게 확대하는 새로운 인식방법을 제안한다. 광역 사운드 스펙트로그램이 본 논문에서 설계된 특징 추출 및 분류 시스템과 같이 넓은 주파수 범위의 다양한 소리를 분석하고 실험하도록 채택되었다. 소리 인식률을 개선하기 위하여, 케라스 시?셜 모델이 사운드 스펙트로그램에 의하여 생성되어 추출된 특징을 사용하여 패턴인식을 수행하기 위한 방법으로 채용되었다. 제안된 특징 추출 및 분류 시스템이 광역 사운드 스펙트로그램과 케라스 시?셜 모델을 채용하여 애완동물 소리와 실내 소리같은 다양한 주파수들로 구성되어 중첩된 음향 속에서 설정된 소리를 우수하게 분류하는 것을 확인하였다. 그리고 중첩된 소리의 크기에 비례하여 인식에 미치는 특성과 영향을 단계별로 비교 분석하였다.

Abstract AI-Helper 아이콘AI-Helper

Many voice recognition systems use methods such as MFCC, HMM to acknowledge human voice. This recognition method is designed to analyze only a targeted sound which normally appears between a human and a device one. However, the recognition capability is limited when there is a group sound formed wit...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 본 논문에서는 애완동물 소리들과 실내 소리로 중첩된 소리샘플을 광역 사운드 스펙트로그램으로 특징을 추출하고 DNN 기법의 KSM으로 특징을 분류하여 목표로 하는 소리를 인식하는 방법과, 중첩된 소리신호의 중첩강도에 따라서 인식률에 미치는 영향을 분석, 평가하였다. III 장의 실험 결과와 같이 중첩된 소리샘플이, 난이하게 설정된 목표소리로 입력되면 평균 94.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
음성인식 시스템이 인식하기 어려운 소리는? 많은 음성인식 시스템들은 MFCC와 HMM등의 분류 기법을 사용하여 사람의 음성을 인식한다. 그러나 이러한 음성인식 시스템은 단일 음성신호를 인식하는 것을 목적으로 설계되어, 인간과 기계사이의 일대일 음성 인식에는 적합하나, 애완동물 소리와 실내 소리같은 음성보다 다양하고 넓은 주파수의 소리 군으로 중첩된 음향 속에서 설정된 소리를 인식하기에는 제한이 있다. 중첩된 소리들의 주파수는 사람의 목소리보다 높은 최대 20 kHz까지 넓은 주파수 범위로 구성된다.
음성인식 시스템은 무엇을 사용하여 사람의 음성을 인식하는가? 많은 음성인식 시스템들은 MFCC와 HMM등의 분류 기법을 사용하여 사람의 음성을 인식한다. 그러나 이러한 음성인식 시스템은 단일 음성신호를 인식하는 것을 목적으로 설계되어, 인간과 기계사이의 일대일 음성 인식에는 적합하나, 애완동물 소리와 실내 소리같은 음성보다 다양하고 넓은 주파수의 소리 군으로 중첩된 음향 속에서 설정된 소리를 인식하기에는 제한이 있다.
1980년대 음성 인식 시스템의 개발 상황은? 음성 인식 시스템은 대표적인 인간과 컴퓨터사이의 인터페이스로, 오늘날 스마트 폰, 티브이, 자동차 등의 다양한 분야에서 활용되고 있다[1]. 1980년대에 IBM이 HMM(Hidden Markov Model)을 활용한 대규모 음성시스템을 개발하면서 인식할 수 있는 단어가 1만 단어로 늘어났으며, 음성인식의 전성기가 시작되었다. 1990 ~ 2000년대에는 HMM 기반 음성인식 시스템이 주를 이루었으며, 음성인식 오류를 최소화하기 위한 변별학습(discriminative learning), 잡음이나 반향 등에 강인한 음성인식 기술 등이 개발되었다[2].
질의응답 정보가 도움이 되었나요?

참고문헌 (12)

  1. J. Jo, H. Yoo, S. Cha and I. Park, "Optimization of Floating-Point Bit-width for MFCC Feature Extraction," The Institute of electronics and information engineers of Korea, summer academic conference, Vol. 36, No. 1, pp. 1194-1197, June 2013.. 

  2. H. Park, S. Kim, M. Jin and C. You, “The latest Speech Recognition Technology Trends Based on Machine Learning,” The Magazine of the IEEE, Vol. 41, No. 3, pp. 18-27, March 2014. 

  3. J. Cho, “A Spectral Compensation Method for Noise Robust Speech Recognition,” The Institute of electronics and information engineers of Korea, Vol. 49, No. 2, pp. 9-17, June 2012. 

  4. Y. Li and G. Liu, "Sound Classification Based on Spectrogram for Surveillance Applications," Proceedings of NIDC2016, pp.293-297, June 2016. 

  5. X. WANG, X. Shi, D. Yang and Y. Zhou, "Research on the Application of 3D Spectrogram in Bird Tweet and Speech Signals," 19th Chinese Control And Decision Conference, pp.7744-7747, July 2017. 

  6. J. Lee, D. Yun and S. Choi, "Intelligibility Improvement of Low Bit-Rate Speech Coder Using Stochastic Spectral Equalizer," The Journal of Korean Institute of Communications and Information Sciences, Vol. 41 No. 10, pp. 1183-1185, Oct. 2016. 

  7. J. Choi, D. Yun and S. Choi, "A Method of Frequency Response Normalization of Smart Phones Based on Deep Neural Networks for Virtual Reality Sound Reconstruction," The Korean institute of broadcast and media engineers, Fall academic conference, pp.19-20, Nov. 2017. 

  8. A. Ghosal, R. Chakraborty, B. C. Dhara and S. K. Saha, "Song/ Instrumental Classification using Spectrogram Based Contextual Features," Cube 2012, pp.1-5, Sep. 2013. 

  9. J. Dennis, H. Tran and H. Li, “Spectrogram Image Feature for Sound Event Classification in Mismatched Conditions,” IEEE Signal Processing Letters, Vol. 18, No. 2, pp. 130-133, Feb. 2011. 

  10. N. Koluguri, G. NishaMeenakshi, and P. Ghosh, “Spectrogram Enhancement Using Multiple Window Savitzky-Golay (MWSG) Filter for Robust Bird Sound Detection,” IEEE/ACM Transactions on Audio, Speech and Language Processing, Vol. 25, No. 6, pp. 1183-1192, June 2017. 

  11. J. Choi, Y. Park, C. Jeong and Y. Kim, "Development of a Sound Detection System for Security using the MFCC and HMM," The Korea information and communication society, Fall academic conference, pp.352-353, Sep. 2016. 

  12. H. Tachibana, N. Ono, H. Kameoka and S. Sagayama, “Harmonic/Percussive Sound Separation Based on Anisotropic Smoothness of Spectrograms,” IEEE/ACM Transactions on audio, Speech and Language Processing, Vol. 22, No. 12, pp. 2059-2073, Dec. 2014. 

저자의 다른 논문 :

관련 콘텐츠

오픈액세스(OA) 유형

GOLD

오픈액세스 학술지에 출판된 논문

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로