[보고서]시청각정보를 이용한 강인한 멀티모달 음성인식 기술 개발

박형민

시청각정보를 이용한 강인한 멀티모달 음성인식 기술 개발
Development of a robust multi-modal speech recognition technique using audio-visual information 원문보기

보고서 정보
주관연구기관	서강대학교 Sogang University
연구책임자	박형민
보고서유형	최종보고서
발행국가	대한민국
언어	한국어
발행년월	2017-05
과제시작연도	2016
주관부처	과학기술정보통신부 Ministry of Science and ICT
등록번호	TRKO201800003331
과제고유번호	1711037581
사업명	개인연구지원
DB 구축일자	2018-04-21
키워드	청각 모델링.특징 추출.독순.능동외관모델.멀티모달 음성인식.시청각 융합 특징 정보.딥러닝.강인음성인식.가중치 갱신.Auditory processing modeling.Preprocessing on speech recognition.Lip reading feature extraction.Fusion of audio-visual features.Multimodal deep learning.Robust speech recognition.Deep learning.Robust speech recognition.Weight updating.
DOI	https://doi.org/10.23000/TRKO201800003331

초록 ▼

□ 연구의 목적 및 내용
본 연구는 시청각정보를 이용한 강인한 멀티모달 음성인식 기술 개발로서, 잡음 및 반향이 존재하는 환경에서 인간의 탁월한 청각기능을 공학적으로 모델링하고 여기에 화자의 입술영상 정보를 추가해 그 둘을 융합하여 높은 인식 성능을 보장하는 강인음성인식 시스템의 연구 개발에 대한 것이다. 음성인식과 관련된 시청각정보에는 발음 기관의 움직임과 발성된 음성에 서로 의존적인 성분이 매우 많이 존재하므로 이를 효과적으로 파악할 수 있는 딥러닝 기반 강인 융합 특징을 추출함으로써 실세계 고수준 잡음 환경에서 적용가능한 음성인식 기술을 연구 개발한다.
이를 개발하기 위해 1차년도에는 인간의 시청각 시스템을 모델링한 음원분리, 반향제거 기술 및 얼굴 특징 추출, 인간의 청각기능 모델링 및 특징추출 메커니즘, 두 귀 신호처리 기반 음원분리 기술, 늦은 반향성분 제거 방법 기술, 범용적인 분류기를 활용한 시청각 특징의 성능을 연구한다.
2차년도는 음성 특성에 기반한 관심 음원 성분 구분 및 강인음성인식 기술 개발, 더 세밀한 얼굴 특징 추출 기술 개발, 관심음원이 지배적이지 않은 영역을 구분하기 위한 이진마스크 추정 및 음성특징복원 기술 개발, Pitch 및 harmonicity를 활용하여 관심음원이 지배적이지 않은 영역을 구분하는 마스크 추정 기술 개발, Onset/offset를 활용하여 관심음원이 지배적이지 않은 영역을 구분하기 위한 마스크 추정 기술 개발, 다양한 조명 환경 등 실세계 환경에서 강인한 영상 전처리 과정 알고리즘 개발, 개발 기술에 대한 기존 멀티모달 인식 방법으로의 성능 평가를 수행한다.
3차년도는 딥러닝을 이용한 음성, 영상 특징 정보 융합 및 멀티모달 인식 기술 개발, 취득한 음성, 영상 정보를 학습할 딥러닝 모델 연구, 시청각 정보의 신뢰도를 기반으로 한 가중치 갱신 방법 연구, 딥러닝을 통해 얻어낸 음성, 영상 정보의 특징들을 이용한 최종 인식 성능 평가 연구를 끝으로 마무리한다.

□ 연구결과
위 연구개발내용을 통해 다음과 같은 연구개발 성과를 거두었다. 먼저, 음성 특성에 기반한 관심 음원 성분 구분 및 강인음성인식 기술 개발과 관련하여 총 7편의 저명한 SCI 국제저널논문, 총 5편의 국내외 학술대회논문을 발표하였을 뿐만 아니라, 지식재산권으로서 국내 특허 6건을 출원, 5건을 등록하였고, 미국 특허를 1건 출원하였다. 그리고 본 연구에 참여한 2명의 박사학위자와 8명의 석사학위자를 배출하였다. 또한, 한국음향학회에서 주최한 2016년도 음성통신 및 신호처리학술대회에서 발표한 논문이 최우수 발표상인 소리상으로 선정되는 등 우수한 연구 개발 성과를 다수 발표하여 그 우수성과 창의성을 입증하였다. 특히, 두 귀 신호처리에 기반한 신호 분리 기술을 ㈜사운드잇에 기술실시계약을 하였고, ㈜사운드잇은 본 기술을 활용하여 R&D 재발견 프로젝트를 통해 신제품을 출시하기 위해 개발을 진행 중으로, 실제 회사와 기술실시계약을 통해 본 연구 개발 결과에 대한 활용 가능성을 직접적으로 실증하였다.

□ 연구결과의 활용계획
본 연구는 실세계 잡음 및 반향 환경에서 높은 수준의 인식을 가능하게 하는 시청각 음성인식기술을 개발하는 것이다. 이러한 연구는 시각과 청각 정보를 함께 이용함으로써 음성인식에 도움이 되는 모든 정보를 최대한 활용할 뿐만 아니라, 시각 및 청각정보처리에 기반한 단일 모달리티에 대한 강인 특징 추출 기술과 시청각 정보의 연관성을 효과적으로 파악할 수 있는 융합 정보처리 기술을 통합 개발하여 음성인식 기술이 여전히 상용화 한계를 겪고 있는 고수준 잡음 및 반향 환경에서 한계 돌파가 가능한 기술을 개발하고자 한다. 자동차, 스마트 TV를 비롯한 각종 정보 및 가전기기, 로봇 등 음성인식 시스템의 상용화 응용범위를 확대하는데 이러한 멀티모달 음성인식 기술을 적극 활용할 수 있으며, 더 나아가 시청각 정보에 기반한 다방면의 human-computer interaction 기술 및 인간의 여러 감각기능을 융합한 더 높은 수준의 interaction 기술 개발의 발판이 될 것으로 기대된다.
(출처 : 한글요약문 5p)

Abstract ▼

□ Purpose & contents
This research develops a robust speech recognition technique using audio-visual information which achieves high accuracies in real-world environments. We develop feature extraction algorithms for either audio or visual information based on modeling of human auditory processing or focusing on shape and color, respectively, and a feature fusion technique based on deep learning which efficiently extracts robust features by analyzing relationship between movement of vocal organs and uttered speech.
We develop a robust technique for automatic speech recognition by fusing audio-visual information in real-world noisy reverberant environments. Details of annual research contents are as follows. * First year : Sound source separation and dereverberation using the precedence effect, and geometric face-feature extraction based on modeling human audio-visual system. (Modeling of human auditory processing, and analysis and implementation of feature extraction mechanism. Sound source separation based on binaural processing. Removal of late-reflection components based on the precedence effect. Investigation of the performance of audio-visual features using conventional classifiers.) * Second year : Target-speech segregation based on speech properties and its robust speech recognition, and enhanced face-feature extraction. (Binary-mask estimation based on pitch, harmonicity, and onset/offset to segregate segments where target speech is not dominant, and speech feature reconstruction of the segregated segments. Robust image preprocessing algorithm in real-world environments with various illuminations, or other distortions. Performance assessment of the developed techniques by conventional multi-modal recognition methods.) * Third year : Audio-visual information fusion and multi-modal recognition based on deep learning. (Investigation of deep learning models to learn acquired audio-visual information based on confidence of audio and visual information. Evaluation of recognition performance of audio-visual features based on deep learning.)

□ Result
We modeled human auditory processing robust to noisy and reverberant environments and added lip image to develop a speech recognition system that accomplished high recognition accuracies. Through the research, we obtained a number of achievements as follows. We published seven SCI journal and five conference papers, applied one U.S. and six Korean patents (registered five Korean patents). In addition, the paper published in the Proc. Conference of the Acoustical Society of Korea for Speech Communication and Signal Processing in 2016 was selected as the Best Paper. These achievements proved its superiority and creativity. In particular, we transferred the signal separation technique based on binaural processing to “Soundit (Corp.)”, and the company is preparing a new product of commercialized solution for robust speech recognition to be upgraded through “the R&D Rediscovery Project of the KIAT.” It shows the practical usefulness of the developed technique.

□ Expected Contribution
This research develops an audio-visual speech recognition technique to overcome the limitation for commercialization of speech recognition in real-world environments with high level noise and significant reverberation. The proposed multi-modal speech recognition technology can be extensively applied to various ICT devices such as cars, home appliances (smart TVs), and robots. Furthermore, it can be used for developing human-computer interaction technologies using audio-visual information and higher-level interaction technologies employing human multi-sensory information for various purposes.
(출처 : SUMMARY 6p)

목차 Contents

표지 ... 1
목차 ... 3
연구계획 요약문 ... 4
연구결과 요약문 ... 5
한글요약문 ... 5
SUMMARY ... 6
연구내용 및 결과 ... 7
1. 연구개발과제의 개요 ... 7
2. 국내외 기술개발 현황 ... 22
3. 연구수행 내용 및 결과 ... 25
4. 목표달성도 및 관련분야에의 기여도 ... 65
5. 연구결과의 활용계획 ... 71
6. 연구과정에서 수집한 해외 과학기술정보 ... 72
7. 주관연구책임자 대표적 연구실적 ... 72
8. 참고문헌 ... 73
9. 연구성과 ... 76
10. 국가과학기술지식정보서비스에 등록한 연구시설‧장비 현황 ... 88
11. 연구개발과제 수행에 따른 연구실 등의 안전조치 이행실적 ... 88
12. 기타사항 ... 92
별첨1. 대 표 연 구 실 적 ... 93
별첨2. 세부 목표 관련 증빙 ... 107
끝페이지 ... 157

표/그림 (99)

표 딥러닝을 이용한 시청각 특징 융합 음성인식기 구조
표 기존 시청각 음성인식기 구조
표 영상 및 음성정보를 이용한 음성인식 결과
표 연차별 주요목표
표 반향이 있는 환경에서 음원으로부터 두 마이크까지 도달하는 경로의 일부와 음원과 하나의 마이크 사이의 임펄스 응답
표 Martin의 선행효과 계산모델에 기반 한 직접 경로 성분 및 binary mask 추정
표 포락신호로부터 inhibition 신호를 얻기 위한 저대역 필터
표 ASM을 이용한 얼굴 형태 표현
표 AAM을 이용한 얼굴 형태 및 텍스처 표현
표 한 랜드마크의 초기위치와 다음위치로 갈 후보 위치
표 부정확한 특징 점 획득
표 입술영상 원본 및 컬러스페이스 변환영상
표 다양한 조명환경의 영상
표 오류 역전파 방식의 신경회로망 학습
표 멀티모달 특징 추출 과정
표 각종 멀티모달 특징 정보 추출 모델
표 시청각 정보를 이용한 음성인식기 구조
표 연차별 주요 목표
표 연차별 연구목표 및 세부과제의 단계별 목표
표 ASM, AAM, CLM에 사용한 특징점
표 LFPW 데이터에서 ASM, AAM, 그리고 CLM에 대한 정규 오차에 대한 누적 분포 함수.
표 ASM, AAM, 그리고 CLM에 대한 결과 영상. (a) ASM의 오차가 큰 영상, (b) AAM의 오차가 큰 영상.
표 특징점 추출 기반 음성인식 정확도
표 영상 패치 기반 음성인식 정확도
표 Face detector 프레임당 계산시간
표 기하학적 특징점 추출 방법별 프레임당 계산시간
표 영상 패치 특징 추출 방법별 프레임당 계산시간
표 기하학적 특징점 추출 및 영상패치 기반 음성인식 계산시간
표 사용한 잡음 데이터
표 SNR 결과값
표 VB6N0의 pitch tracking 과정 o = 최초 pitch, x = 최후 pitch
표 VB6N9의 pitch tracking 과정 o = 최초 pitch, x = 최후 pitch
표 VB6N0의 clean speech, mixture and segregated speech
표 VB6N9의 clean speech, mixture and segregated speech
표 잡음 환경에서의 청각 기능 기반 특징 정보에 따른 인식률
표 시뮬레이션 실험을 위한 환경 및 스펙
표 다양한 반향환경에 대한 교차상관도 기반 시간차 및 세기차 추정방법의 오차율
표 다양한 반향환경에 대한 영점 교차 기반 시간차 및 세기차 추정방법의 오차율
표 BRIR을 이용한 실세계 데이터 실험을 위한 환경 및 스펙
표 실제 반향환경에 대한 기존 및 제안하는 음원방향 추정방법의 인식률
표 무반향환경과 반향환경(RT60=0.47 s)에서 교차상관도 기반 음원방향 추정방법 및 영점 교차 기반 음원방향 추정방법의 반응성 비교
표 원본 신호, 반향 신호 그리고 inhibition이 적용된 신호에 대한 firing rate
표 Distortion rate 실험 결과 표
표 Distortion rate 실험 결과 그래프
표 음원의 방향에 해당하는 cross-correlogram과 이에 따른 음원의 각도에 따라 grouping 된 binary mask, 그리고 rate threshold까지 적용된 binary mask
표 Direct 신호와 Reverberant 신호의 마스크 적용 전, 후 비교
표 RT60과 inhibition gain에 따른 DRR 이득 실험 결과 표
표 RT60와 inhibition gain에 따른 DRR 이득 실험 결과
표 반향 환경에서 캡스트럼 영역 후처리를 적용한 특징 정보에 따른 인식률
표 얼굴 정렬(face alignment)에 사용한 특징점들.
표 입술 특징점에 위치한 패치들
표 DTW와 k-NN 결합에 의한 인식 정확도
표 입술 특징점 위치의 정규화
표 각 특징별 실험 결과
표 특징 결합에 따른 실험 결과.
표 각 특징별 연산 시간
표 CUAVE와 AVICAR 데이터세트에 대한 정확도 분석 결과
표 CUAVE와 AVICAR 데이터세트에 대한 클래스 별 정확도 분석 결과
표 AVICAR 데이터세트에 얼굴 회전 보정 전후의 정확도 비교
표 사용한 잡음 데이터
표 o는 개발한 pitch획득방법 x는 Conventional pitch획득방법
표 잡음 환경에서의 Pitch 오차율
표 15dB babble 환경에서 제안한 Mask(b)와 IBM 0.2(a)의 비교
표 15dB babble 환경에서 제안한 Mask(b)와 IBM 0.2(a)의 비교
표 Clean Speech의 Spectrogram
표 원 신호의 Onset 지점
표 On,Offset 검출 기법을 이용한 Onset 지점
표 원 신호의 Offset 지점
표 On,Offset 검출 기법을 이용한 Offset 지점
표 Onset Offset Similarity
표 Clean Speech의 Spectrogram
표 Mixing 신호의 Spectrogram
표 Onset Offset Mask
표 Mixing 신호를 그림 처리했을 때의 Output Spectrogram
표 Ideal Binary Mask>
표 Onset, Offset Masking 기법을 이용한 평가표
표 3가지 방법을 이용한 평가
표 15dB 환경에서 Combined Mask와 IBM 0.2의 비교
표 복원된 특징과 왜곡 없는 신호의 Log-Spectrum 영역에서의 일치율
표 각 15dB 환경에서 Log-Mel에서의 신호
표 (a)는 깨끗한 음성 특징, (b)는 잡음에 의해 왜곡된 음성 특징, (c)는 전처리하여 강화된 음성 특징 그리고 (d)는 전처리된 특징을 이용하여 클러스터 기반 복원한 특징
표 F16, 기계, 그리고 공장 등 3가지 환경에서 실험 데이터에 대한 단어 인식률
표 Speech와 Image 각각에 대한 단어 인식률
표 Baseline의 음성인식 결과
표 F16잡음에 대한 인식률
표 Factory 잡음에 대한 인식률
표 Operation 잡음에 대한 인식률
표 모든 잡음에 대한 평균 인식률
표 F16, Factory, Operation 3가지 환경에서 실험 데이터에 대한 단어 인식률
표 시청각 정보 학습 모델 (Finetuning형)
표 시청각 정보 학습 모델 (Finetuning 형 세부 정보)
표 CUAVE dataset 인식률 비교
표 Deep autoencoder의 구조
표 Deep autoencoder의 영상 특징 성능 비교
표 Deep autoencoder의 음성 특징 성능 비교
표 시청각 정보 학습 모델 (가중치 학습형1)
표 시청각 정보 학습 모델 (가중치 학습형 세부 정보)
표 시청각 음성 인식 성능 평가
표 LipNet 모델

과제명(ProjectTitle) :	-
연구책임자(Manager) :	-
과제기간(DetailSeriesProject) :	-
총연구비 (DetailSeriesProject) :	-
키워드(keyword) :	-
과제수행기간(LeadAgency) :	-
연구목표(Goal) :	-
연구내용(Abstract) :	-
기대효과(Effect) :	-

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 제목(한글), 저자명(한글), 발행일자, 전자원문, 초록(한글), 초록(영문) 관리번호, 제목(한글), 제목(영문), 저자명(한글), 저자명(영문), 주관연구기관(한글), 주관연구기관(영문), 발행일자, 총페이지수, 주관부처명, 과제시작일, 보고서번호, 과제종료일, 주제분류, 키워드(한글), 전자원문, 키워드(영문), 입수제어번호, 초록(한글), 초록(영문), 목차
저장형식	Text(ASCII format) Excel format
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

시청각정보를 이용한 강인한 멀티모달 음성인식 기술 개발
Development of a robust multi-modal speech recognition technique using audio-visual information 원문보기