[논문]원거리 음성 인식을 위한 잡음 환경에서의 음성 강화

오상준

[학위논문] 원거리 음성 인식을 위한 잡음 환경에서의 음성 강화
Speech enhancement in noisy environments for distant-talking speech recognition 원문보기

오상준 (高麗大學校大學院 컴퓨터ㆍ電波通信工學科 컴퓨터學專攻 국내석사)

초록 ▼
AI-Helper

음성 인식은 인간과 컴퓨터가 자연스럽게 상호작용할 수 있도록 하는 인간에게 가장 손쉬운 휴먼 인터페이스 방법이다. 특히 음성을 이용한 인터페이스는 가장 인간 친화적이고 편리하며 자연스러운 방법으로 키보드, 마우스, 리모컨, 얼굴인식, 햅틱 등 여타 인터페이스 기술에서는 불가능한 원거리 명령전달, 유기적인 쌍방향 인터액션, 다양한 의사전달 등을 가능하게 해주기 때문에 휴먼 인터페이스를 위해서 반드시 필요한 기술이다.
일반적으로 연구실의 조용한 환경에서 한 화자의 음성만을 찾아내고 인식하는 음성 인터페이스 기술은 지금까지 상당히 많은 연구가 진행되어 왔다. 그러나 실제 환경에서는 화자는 원거리에 존재할 수 있고, 또한 주변에 높은 수준의 잡음이 혼재할 수 있기 때문에 인간의 음성만을 선택적으로 강화할 수 있어야만 원거리 음성인식의 성능을 높일 수 있다. 따라서 본 논문에서는 주변에 소음이 있는 환경에서 말하는 사람이 있는 방향의 소리만을 강화하여 음성 인식에 사용할 수 있도록 하는 것을 목표로 한다.
원거리 음성을 인식하기 위해 인간의 음성을 강화하는 beamforming 과정은 사용자의 위치를 미리 알고 있어야만 빔을 형성하여 특정한 위치의 신호만을 강화 할 수 있다. 하지만 실제 환경에서 사용자의 위치는 일정한 장소에 고정되어 있지 않고, 상황에 따라 변할 수 있기 때문에 사용자의 위치를 추적하는 sound source localization (SSL) 과정이 계속적으로 선행 되어야 한다. 또한 voice activity detection (VAD) 과정을 통해 추적된 위치가 사용자의 음성이 맞는지 확인이 이루어져야 한다. 그러나 이러한 과정은 유기적으로 진행되어야 실제 원거리 음성인식의 성능을 높일 수 있다. 따라서 본 논문에서는 음원 위치 추적과 함께 대표적인 beamforming 알고리즘인 generalize sidelobe canceller (GSC) 방법을 기반으로 화자의 음성만을 강화하는 방법을 제안한다.
본 논문에서 제안하는 알고리즘은 크게 4단계로 나누어진다. 첫 번째 단계에서는 반향이 존재하는 공간에서 음원의 위치를 추적하는데 효과적인 steered response power-phase transform (SRP-PHAT) 방법을 통해 speech beamforming 후보를 선정한다. 이때, 전체 주파수 대역이 아닌 speech band에 해당하는 주파수에 대하여 SRP-PHAT 방법을 수행하여 후보군 선정의 성능을 높일 수 있도록 한다.
두 번째 단계에서는 첫번째 단계에서 결정된 후보군을 각각 frequency domain adaptive filter (FDAF) 를 기반으로한 GSC 방법으로 beamforming 하여 각 음원들의 선명도를 향상시킨다. 이 단계에서 후보군 중에 음성이 존재할 경우 음성의 스펙트럼 특성이 분명하게 드러나게 된다.
세 번째 단계에서는 전 단계에서 얻어진 beamforming 된 신호에서 음성과 관련된 스펙트럼 특성만을 계산한다. 다시 말하면 VAD 방법을 통해 음성에 해당하는 주파수 대역만을 사용하여 음성의 유사도를 계산한다.
마지막으로는 음성의 선호도가 가장 높은, 즉 높은 VAD 값을 가지는 위치를 화자의 위치로 선택하여 GSC beam forming 결과를 출력하게 된다.
일반적으로 소음이 존재하는 원거리 음성 인식에서 사용자의 음성만을 강화하는 것은 화자의 위치를 정확히 알기 어렵기 때문에 실제 환경에서 응용되기 힘든 측면이 있다. 따라서 본 논문에서는 화자 위치 추적을 포함하는 원거리 음성 인식을 위한 인간 음성 강화 방법을 제안하고, 실제 환경 혹은 room impulse response 데이터 상황에서 다양한 형태의 소음에 대하여 실험을 진행하였다.

Keyword

학위논문 정보

저자	오상준
학위수여기관	高麗大學校大學院
학위구분	국내석사
학과	컴퓨터ㆍ電波通信工學科 컴퓨터學專攻
지도교수	陸東錫
발행연도	2012
총페이지	xi, 46장
키워드	음원 위치 추적 음성 강화 Sound Source Localization Speech Enhancement
언어	kor
원문 URL	http://www.riss.kr/link?id=T12868603&outLink=K
정보원	한국교육학술정보원

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명(한글), 저자명(한글), 학위수여기관, 학위연도, 학위구분, 학과, 총페이지, 키워드, 초록(한글), 초록(영문) 관리번호, 논문명(한글), 논문명(영문), 저자명(한글), 저자명(영문), 학위수여기관, 학위연도, 학위구분, 학과, 총페이지, 키워드, 초록(한글), 초록(영문)
저장형식	Text(ASCII format) Excel format
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

[학위논문] 원거리 음성 인식을 위한 잡음 환경에서의 음성 강화
Speech enhancement in noisy environments for distant-talking speech recognition 원문보기

초록 ▼
AI-Helper

Keyword

학위논문 정보

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

[학위논문] 원거리 음성 인식을 위한 잡음 환경에서의 음성 강화 Speech enhancement in noisy environments for distant-talking speech recognition 원문보기

초록 ▼ 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Keyword

학위논문 정보

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

[학위논문] 원거리 음성 인식을 위한 잡음 환경에서의 음성 강화
Speech enhancement in noisy environments for distant-talking speech recognition 원문보기

초록 ▼
AI-Helper