보고서 정보
주관연구기관 |
서강대학교 Sogang University |
연구책임자 |
박형민
|
보고서유형 | 최종보고서 |
발행국가 | 대한민국 |
언어 |
한국어
|
발행년월 | 2017-05 |
과제시작연도 |
2016 |
주관부처 |
과학기술정보통신부 Ministry of Science and ICT |
등록번호 |
TRKO201800003331 |
과제고유번호 |
1711037581 |
사업명 |
개인연구지원 |
DB 구축일자 |
2018-04-21
|
키워드 |
청각 모델링.특징 추출.독순.능동외관모델.멀티모달 음성인식.시청각 융합 특징 정보.딥러닝.강인음성인식.가중치 갱신.Auditory processing modeling.Preprocessing on speech recognition.Lip reading feature extraction.Fusion of audio-visual features.Multimodal deep learning.Robust speech recognition.Deep learning.Robust speech recognition.Weight updating.
|
DOI |
https://doi.org/10.23000/TRKO201800003331 |
초록
▼
□ 연구의 목적 및 내용
본 연구는 시청각정보를 이용한 강인한 멀티모달 음성인식 기술 개발로서, 잡음 및 반향이 존재하는 환경에서 인간의 탁월한 청각기능을 공학적으로 모델링하고 여기에 화자의 입술영상 정보를 추가해 그 둘을 융합하여 높은 인식 성능을 보장하는 강인음성인식 시스템의 연구 개발에 대한 것이다. 음성인식과 관련된 시청각정보에는 발음 기관의 움직임과 발성된 음성에 서로 의존적인 성분이 매우 많이 존재하므로 이를 효과적으로 파악할 수 있는 딥러닝 기반 강인 융합 특징을 추출함으로써 실세계 고수준 잡음 환경에서 적용가능한
□ 연구의 목적 및 내용
본 연구는 시청각정보를 이용한 강인한 멀티모달 음성인식 기술 개발로서, 잡음 및 반향이 존재하는 환경에서 인간의 탁월한 청각기능을 공학적으로 모델링하고 여기에 화자의 입술영상 정보를 추가해 그 둘을 융합하여 높은 인식 성능을 보장하는 강인음성인식 시스템의 연구 개발에 대한 것이다. 음성인식과 관련된 시청각정보에는 발음 기관의 움직임과 발성된 음성에 서로 의존적인 성분이 매우 많이 존재하므로 이를 효과적으로 파악할 수 있는 딥러닝 기반 강인 융합 특징을 추출함으로써 실세계 고수준 잡음 환경에서 적용가능한 음성인식 기술을 연구 개발한다.
이를 개발하기 위해 1차년도에는 인간의 시청각 시스템을 모델링한 음원분리, 반향제거 기술 및 얼굴 특징 추출, 인간의 청각기능 모델링 및 특징추출 메커니즘, 두 귀 신호처리 기반 음원분리 기술, 늦은 반향성분 제거 방법 기술, 범용적인 분류기를 활용한 시청각 특징의 성능을 연구한다.
2차년도는 음성 특성에 기반한 관심 음원 성분 구분 및 강인음성인식 기술 개발, 더 세밀한 얼굴 특징 추출 기술 개발, 관심음원이 지배적이지 않은 영역을 구분하기 위한 이진마스크 추정 및 음성특징복원 기술 개발, Pitch 및 harmonicity를 활용하여 관심음원이 지배적이지 않은 영역을 구분하는 마스크 추정 기술 개발, Onset/offset를 활용하여 관심음원이 지배적이지 않은 영역을 구분하기 위한 마스크 추정 기술 개발, 다양한 조명 환경 등 실세계 환경에서 강인한 영상 전처리 과정 알고리즘 개발, 개발 기술에 대한 기존 멀티모달 인식 방법으로의 성능 평가를 수행한다.
3차년도는 딥러닝을 이용한 음성, 영상 특징 정보 융합 및 멀티모달 인식 기술 개발, 취득한 음성, 영상 정보를 학습할 딥러닝 모델 연구, 시청각 정보의 신뢰도를 기반으로 한 가중치 갱신 방법 연구, 딥러닝을 통해 얻어낸 음성, 영상 정보의 특징들을 이용한 최종 인식 성능 평가 연구를 끝으로 마무리한다.
□ 연구결과
위 연구개발내용을 통해 다음과 같은 연구개발 성과를 거두었다. 먼저, 음성 특성에 기반한 관심 음원 성분 구분 및 강인음성인식 기술 개발과 관련하여 총 7편의 저명한 SCI 국제저널논문, 총 5편의 국내외 학술대회논문을 발표하였을 뿐만 아니라, 지식재산권으로서 국내 특허 6건을 출원, 5건을 등록하였고, 미국 특허를 1건 출원하였다. 그리고 본 연구에 참여한 2명의 박사학위자와 8명의 석사학위자를 배출하였다. 또한, 한국음향학회에서 주최한 2016년도 음성통신 및 신호처리학술대회에서 발표한 논문이 최우수 발표상인 소리상으로 선정되는 등 우수한 연구 개발 성과를 다수 발표하여 그 우수성과 창의성을 입증하였다. 특히, 두 귀 신호처리에 기반한 신호 분리 기술을 ㈜사운드잇에 기술실시계약을 하였고, ㈜사운드잇은 본 기술을 활용하여 R&D 재발견 프로젝트를 통해 신제품을 출시하기 위해 개발을 진행 중으로, 실제 회사와 기술실시계약을 통해 본 연구 개발 결과에 대한 활용 가능성을 직접적으로 실증하였다.
□ 연구결과의 활용계획
본 연구는 실세계 잡음 및 반향 환경에서 높은 수준의 인식을 가능하게 하는 시청각 음성인식기술을 개발하는 것이다. 이러한 연구는 시각과 청각 정보를 함께 이용함으로써 음성인식에 도움이 되는 모든 정보를 최대한 활용할 뿐만 아니라, 시각 및 청각정보처리에 기반한 단일 모달리티에 대한 강인 특징 추출 기술과 시청각 정보의 연관성을 효과적으로 파악할 수 있는 융합 정보처리 기술을 통합 개발하여 음성인식 기술이 여전히 상용화 한계를 겪고 있는 고수준 잡음 및 반향 환경에서 한계 돌파가 가능한 기술을 개발하고자 한다. 자동차, 스마트 TV를 비롯한 각종 정보 및 가전기기, 로봇 등 음성인식 시스템의 상용화 응용범위를 확대하는데 이러한 멀티모달 음성인식 기술을 적극 활용할 수 있으며, 더 나아가 시청각 정보에 기반한 다방면의 human-computer interaction 기술 및 인간의 여러 감각기능을 융합한 더 높은 수준의 interaction 기술 개발의 발판이 될 것으로 기대된다.
(출처 : 한글요약문 5p)
Abstract
▼
□ Purpose & contents
This research develops a robust speech recognition technique using audio-visual information which achieves high accuracies in real-world environments. We develop feature extraction algorithms for either audio or visual information based on modeling of human auditory processin
□ Purpose & contents
This research develops a robust speech recognition technique using audio-visual information which achieves high accuracies in real-world environments. We develop feature extraction algorithms for either audio or visual information based on modeling of human auditory processing or focusing on shape and color, respectively, and a feature fusion technique based on deep learning which efficiently extracts robust features by analyzing relationship between movement of vocal organs and uttered speech.
We develop a robust technique for automatic speech recognition by fusing audio-visual information in real-world noisy reverberant environments. Details of annual research contents are as follows. * First year : Sound source separation and dereverberation using the precedence effect, and geometric face-feature extraction based on modeling human audio-visual system. (Modeling of human auditory processing, and analysis and implementation of feature extraction mechanism. Sound source separation based on binaural processing. Removal of late-reflection components based on the precedence effect. Investigation of the performance of audio-visual features using conventional classifiers.) * Second year : Target-speech segregation based on speech properties and its robust speech recognition, and enhanced face-feature extraction. (Binary-mask estimation based on pitch, harmonicity, and onset/offset to segregate segments where target speech is not dominant, and speech feature reconstruction of the segregated segments. Robust image preprocessing algorithm in real-world environments with various illuminations, or other distortions. Performance assessment of the developed techniques by conventional multi-modal recognition methods.) * Third year : Audio-visual information fusion and multi-modal recognition based on deep learning. (Investigation of deep learning models to learn acquired audio-visual information based on confidence of audio and visual information. Evaluation of recognition performance of audio-visual features based on deep learning.)
□ Result
We modeled human auditory processing robust to noisy and reverberant environments and added lip image to develop a speech recognition system that accomplished high recognition accuracies. Through the research, we obtained a number of achievements as follows. We published seven SCI journal and five conference papers, applied one U.S. and six Korean patents (registered five Korean patents). In addition, the paper published in the Proc. Conference of the Acoustical Society of Korea for Speech Communication and Signal Processing in 2016 was selected as the Best Paper. These achievements proved its superiority and creativity. In particular, we transferred the signal separation technique based on binaural processing to “Soundit (Corp.)”, and the company is preparing a new product of commercialized solution for robust speech recognition to be upgraded through “the R&D Rediscovery Project of the KIAT.” It shows the practical usefulness of the developed technique.
□ Expected Contribution
This research develops an audio-visual speech recognition technique to overcome the limitation for commercialization of speech recognition in real-world environments with high level noise and significant reverberation. The proposed multi-modal speech recognition technology can be extensively applied to various ICT devices such as cars, home appliances (smart TVs), and robots. Furthermore, it can be used for developing human-computer interaction technologies using audio-visual information and higher-level interaction technologies employing human multi-sensory information for various purposes.
(출처 : SUMMARY 6p)
목차 Contents
- 표지 ... 1
- 목차 ... 3
- 연구계획 요약문 ... 4
- 연구결과 요약문 ... 5
- 한글요약문 ... 5
- SUMMARY ... 6
- 연구내용 및 결과 ... 7
- 1. 연구개발과제의 개요 ... 7
- 2. 국내외 기술개발 현황 ... 22
- 3. 연구수행 내용 및 결과 ... 25
- 4. 목표달성도 및 관련분야에의 기여도 ... 65
- 5. 연구결과의 활용계획 ... 71
- 6. 연구과정에서 수집한 해외 과학기술정보 ... 72
- 7. 주관연구책임자 대표적 연구실적 ... 72
- 8. 참고문헌 ... 73
- 9. 연구성과 ... 76
- 10. 국가과학기술지식정보서비스에 등록한 연구시설‧장비 현황 ... 88
- 11. 연구개발과제 수행에 따른 연구실 등의 안전조치 이행실적 ... 88
- 12. 기타사항 ... 92
- 별첨1. 대 표 연 구 실 적 ... 93
- 별첨2. 세부 목표 관련 증빙 ... 107
- 끝페이지 ... 157
※ AI-Helper는 부적절한 답변을 할 수 있습니다.