[논문]음성신호의 선형예측계수에 의한 잡음량의 인식

최재승

문제 정의

이 결과, 신경회로망의 파라미터 및 학습횟수 및 입력데이터의 균형에 따라서 본 논문에서 추구하는 목적을 달성할 수 있었다. 그러나 음성인식 및 음성강조에 응용하기 위해서는, 다음과 같은 내용이 향후의 과제 및 목표라고 생각하며, 추후 더 상세한 연구를 실시하고자 한다. (1) 학습데이터에 정확하고 신속하게 수속하기 위한 중간층의 층수 및 유닛수의 선택 (2) 본 실험에서는, 식(11)의 조건에 적합한 프레임 만을 사용하였지만, 역으로 이 조건에 적합하지 않은 프레임을 사용하여 실험한다.
본 논문에서는 배경잡음의 영향을 줄여서 음성인식 시스템의 성능을 향상시키고 다양한 음성인식기의 입력으로 사용하기 위하여, 선형예측분석에 의한 선형예측계수를 신경회로망의 입력으로 한 시스템을 구축하고자 한다. 본 논문에서 사용하는 신경회로망의 입력데이터로는 각각의 프레임의 데이터를 사용하여 학습시키며, 신경회로망의 학습조건 및 학습방법 등을 바꾸어 음성 중의잡음량을 인식하여 이러한 잡음을 경감하는 것을 목적으로 한 연구를 진행한다.
또한 신경회로망의 입력데이터로는 캡스트럼 변환(cepstral transform)된 저역부의 캡스트럼 데이터를 신경회로망에 입력하여 잡음량을 추정하였다. 본 논문에서는 배경잡음의 영향을 줄여서 음성인식 시스템의 성능을 향상시키고 다양한 음성인식기의 입력으로 사용하기 위하여, 선형예측분석에 의한 선형예측계수를 신경회로망의 입력으로 한 시스템을 구축하고자 한다. 본 논문에서 사용하는 신경회로망의 입력데이터로는 각각의 프레임의 데이터를 사용하여 학습시키며, 신경회로망의 학습조건 및 학습방법 등을 바꾸어 음성 중의잡음량을 인식하여 이러한 잡음을 경감하는 것을 목적으로 한 연구를 진행한다.
본 논문에서는 신경회로망에 의한 3종류의 음성신호의 잡음량을 인식하는 것을 목적으로 하여, 선형예측계수를 입력으로 한 잡음량 인식의 실험을 실시하였다. 이 결과, 신경회로망의 파라미터 및 학습횟수 및 입력데이터의 균형에 따라서 본 논문에서 추구하는 목적을 달성할 수 있었다.
본 연구의 목적을 달성하기 위하여 본 논문에서는 잡음과 음성신호의 특징을 가진 선형예측계수(Linear Predictive Coefficient, LPC)를 신경회로망의 입력으로 하여 3종류의 잡음량을 인식하는 방법을 제안한다.
본장에서는 3층 구조의 퍼셉트론형의 신경회로망을 사용하여, 선형예측계수를 입력으로 하여 각 프레임에서 이 잡음량을 인식하는 것을 목적으로 한 실험에 대하여 기술한다.

가설 설정

또한 음성파형은 정상적으로 선형예측계수는시간적으로 변화하지 않는다고 가정한다. 이러한 가정하에서, 선형예측오차 e”의 2승 평균값을 최소로 하도록 선형예측계수를 결정한다.
음성신호의 표본값 사이에는 커다란 상관관계가 있으며 음성의 특징 추출을 위하여 이것을 이용한 예측 부호화가 실시되어진다回 이러한 예측의 개념을 일반화하여 다음 식과 같이 음성파형의 연속된 p + 1 개의 표본 값 사이에 높은 선형 예측성이 있다고 가정한다.
즉, 어떤 시점 n에서의 표본값은 그 이전의 연속한 p개의 표본값의 선형 하중값으로서 근사할 수 있다고 가정한다. 또한 음성파형은 정상적으로 선형예측계수는시간적으로 변화하지 않는다고 가정한다.

제안 방법

II장에서 기술한 방법으로, 음성신호의 표본값을 선형예측 분석하여 각 프레임 별로 10차의 선형예측계수를 구하여 신경회로망의 입력으로 한다.
여기에서 原은 각 문장의 문장 전체에서 구한 실효치이다(식 (9)) (10), (11) 참조). 각 프레임의 표본값을 선형예측 분석하여 10차의 선형예측계수를 구한다. 이렇게 함으로써 원래의 표본값은 10차의 선형예측계수와 잔차신호로 완전히 복구가 가능하다.
분석하고자 하는 음성신호의 표본값에 잡음이 중첩된 경우에 잡음은 선형예측계수와 잔차신호의 모두에 영향을 미치지만 본 실험에서는 잔차신호에는 조작을 하지 않고 선형예측계수만을 사용하여 이 값의 차이로부터 잡음량의 인식을 한다. 그리고 10차의 선형예측계수를 신경회로망의 입력으로 사용하여 학습을 한다. 신경회로망의 학습을 통해 얻어진 가중치를 저장한 후, 학습에 사용되지 않은 잡음이 중첩된 음성데이터의 선형예측 계수를 신경회로망의 입력으로 받아 田.
제안한 시스템은 Aurora2 데이터베이스로부터의 테스트 셋 A, B, C의 음성데이터와 테스트 셋 A의 자동차(car noise), 지하철 잡음(subway noise), 테스트 셋 C의. 도로잡음(street noise) 그리고 컴퓨터에 의해서 작성된 가우스 백색잡음(white noise) 등의 배경잡음을 사용하여 평가하였다. Aurora2 데이터베이스의 각 테스트 셋에는 백색잡음을 제외한 이러한 잡음들이 음성데이터에 혼입된 잡음이 중첩된 데이터(즉, SNRmdnput Signal-to-Noise Ratio)=8, 15 dB, 5 dB)들이 포함되어 있다.
백색잡음에 대해서는 Aurora2 데이터베이스의 각 음성데이터에 별도로 백색잡음을 부가하여 실험 데이터를 구하였다. 따라서 본 실험에서는 3종류의 입력 신호대잡음비 (SNRn=8, 15 dB, 5 dB)와 같이 잡음이 부가된 음성신호를 사용하여 신경회로망을 학습시켰다. Aurora2 데이터베이스를 사용할 경우에 백색잡음, 자동차잡음, 지하철 잡음을 Aurora2 데이터베이스의 음성신호에 부가한 후에 신경회로망이 학습되었다.
5로 한다. 또한 본 실험에서는 최대 학습횟수를 10, 000회로 하여, 각 음성데이터에 있어서 결합하중 凹项의 초기값을 바꾸어서 5회씩 시행한다.
참고문헌 [5] 에서는 음성에 포함되는 잡음의 크기를 신경회로망을 사용하여 학습하였으며, 이 때 입력되는 음성데이터의 각 프레임의 일부분의 데이터들을 사용하여 학습한 결과를 나타내었다. 또한 신경회로망의 입력데이터로는 캡스트럼 변환(cepstral transform)된 저역부의 캡스트럼 데이터를 신경회로망에 입력하여 잡음량을 추정하였다. 본 논문에서는 배경잡음의 영향을 줄여서 음성인식 시스템의 성능을 향상시키고 다양한 음성인식기의 입력으로 사용하기 위하여, 선형예측분석에 의한 선형예측계수를 신경회로망의 입력으로 한 시스템을 구축하고자 한다.
본 논문에서는 출력되어진 학습결과와 학습 신호를 비교하여 프레임에서의 잡음량의 인식율을 구한다. 잡음량 인식율 P는 다음 식과 같이 정의한다.
본 실험에서는 각 프레임에서 잡음이 없는 음성 (SNRin=8), 잡음이 적은 음성 (SNRn=15dB), 잡음이 많은 음성 (SNRin=5dB)의 3종류를 인식할 수 있도록 신경회로망의 출력층의 유닛수를 3으로 하여 학습시킨다. II장의 음성신호의 선형예측 분석에 의하여 구해진 10 차의 선형예측계수가 입력층의 각 유닛에 입력되며, 신경회로망의 교사신호는 (Tl) SNRn=8 일 때 (1.
이렇게 함으로써 원래의 표본값은 10차의 선형예측계수와 잔차신호로 완전히 복구가 가능하다. 분석하고자 하는 음성신호의 표본값에 잡음이 중첩된 경우에 잡음은 선형예측계수와 잔차신호의 모두에 영향을 미치지만 본 실험에서는 잔차신호에는 조작을 하지 않고 선형예측계수만을 사용하여 이 값의 차이로부터 잡음량의 인식을 한다. 그리고 10차의 선형예측계수를 신경회로망의 입력으로 사용하여 학습을 한다.
Aurora2 데이터베이스回이다. 제안한 시스템은 Aurora2 데이터베이스로부터의 테스트 셋 A, B, C의 음성데이터와 테스트 셋 A의 자동차(car noise), 지하철 잡음(subway noise), 테스트 셋 C의. 도로잡음(street noise) 그리고 컴퓨터에 의해서 작성된 가우스 백색잡음(white noise) 등의 배경잡음을 사용하여 평가하였다.
학습 문장 사이에서의 패턴의 유사성을 측정하기 위해서 아래의 식과 같이 정의된 선형예측계수의 거리 d 를 측정하여, 거리와 신경회로망에 의한 잡음량의 인식율과의 관계를 명확하게 하였다.

대상 데이터

따라서 본 실험에서는 3종류의 입력 신호대잡음비 (SNRn=8, 15 dB, 5 dB)와 같이 잡음이 부가된 음성신호를 사용하여 신경회로망을 학습시켰다. Aurora2 데이터베이스를 사용할 경우에 백색잡음, 자동차잡음, 지하철 잡음을 Aurora2 데이터베이스의 음성신호에 부가한 후에 신경회로망이 학습되었다.
이 학습법은 입력값이 주어졌을 때 교사신호와 출력값의 오차를 최소로 하며 신경세포 사이의 결합계수를 조절하는 방법이다. 그림 1은 본 실험에 사용한 3층 구조의 퍼셉트론(perceptron)형皿의 신경회로망의 구조이며, 입력층의 10 유닛, 중간층의 15 유닛, 출력층의 3 유닛으로 구성된 네트워크를 사용한다.
Aurora2 데이터베이스의 각 테스트 셋에는 백색잡음을 제외한 이러한 잡음들이 음성데이터에 혼입된 잡음이 중첩된 데이터(즉, SNRmdnput Signal-to-Noise Ratio)=8, 15 dB, 5 dB)들이 포함되어 있다. 백색잡음에 대해서는 Aurora2 데이터베이스의 각 음성데이터에 별도로 백색잡음을 부가하여 실험 데이터를 구하였다. 따라서 본 실험에서는 3종류의 입력 신호대잡음비 (SNRn=8, 15 dB, 5 dB)와 같이 잡음이 부가된 음성신호를 사용하여 신경회로망을 학습시켰다.
본 실험에서 사용한 음성 데이터는 8 kHz의 샘플링 주파수를 가진 환경에서 녹음된 연결된 영어숫자로 구성된 Aurora2 데이터베이스回이다. 제안한 시스템은 Aurora2 데이터베이스로부터의 테스트 셋 A, B, C의 음성데이터와 테스트 셋 A의 자동차(car noise), 지하철 잡음(subway noise), 테스트 셋 C의.

성능/효과

16%인 결과를 보였다. 따라서 본 논문에서 제안하는 방법과 비교하면 본 방식이 약 10%〜17% 정도 잡음량 인식율이 높은 것을 알 수 있다. 따라서 다른 방식과 비교하여도 본 방식의 효율성이 높다고 볼 수 있다.
또한 본 논문에서 제안한 표 2의 선형예측계수에 의한 3 패턴의 학습 신호에 의한 학습결과로부터, SNRn=15dB(T2)의 인식율이 다른 입력(T1 및 T3)보다 약간 인식율이 떨어지는 반면에, SNRn=(Tl)과 SNRm=5dB(T3)에서 상당히 좋은 인식결과를 볼 수 있었다.
73), 다른 경우와 비교하면 거리가 극히 밀접하기 때문에, 신경회로망에 의한 인식이 쉽지 않을 거라고 추측되어진다. 또한 켑스트럼거리 방식이 본 논문에서 제안한 선형예측계수 방식보다 거리가 상당히 떨어져 있으므로, 각 데이터간의 중첩이 적고 신경회로망에 의한 인식이 본 방식보다 어느 정도 용이하게 가능하다는 것을 판단할 수 있다. 이러한 방식들에 의한 인식 결과를 제V장에서 자세히 나타낸다.
8ms로 하였다 선형예측 켑스트럼 계수 (Linear Predictive Cepstral Coefficients: LPC)의 차수는 28차로 하였다. 모음 인식실험은 잡음을 혼입하지 않은 경우(clean)와 Gaussian 백색잡음을 각각 SNR 20dB, 10dB, 5曲로 혼입하여 화자독립일 경우의 인식율은 각각 86.4%, 82.4%, 78.9%, 77.9%이었다. 참고문헌 [13]에서는 음성신호의 샘플링 주파수을 12 kHz, 한 프레임을 256샘플, 프레임 길이를 21.
실시하였다. 이 결과, 신경회로망의 파라미터 및 학습횟수 및 입력데이터의 균형에 따라서 본 논문에서 추구하는 목적을 달성할 수 있었다. 그러나 음성인식 및 음성강조에 응용하기 위해서는, 다음과 같은 내용이 향후의 과제 및 목표라고 생각하며, 추후 더 상세한 연구를 실시하고자 한다.
이상의 결과로부터, 제IV.2절의 표 1의 거리측정 결과에서 알 수 있듯이 선형예측계수의 거리가 켑스트럼계수의 거리보다 상당히 밀접해 있음에도 불구하고 선형예측계수에 의한 각 프레임에서의 잡음량 인식율이높다는 것은 본 논문에서 제안한 방식이 상당히 유효하다는 것을 말할 수 있다.
나타낸다. 표 2의 선형예측계수에 의한 각 잡음에 대한 인식율의 평균값과 표 3의 켑스트럼계수에 의한 각 잡음에 대한 인식율의 평균값을 비교하면, 본 논문에서 제안하는 선형예측계수에 의한 잡음량 인식율이 켑스트럼계수에의한 잡음량 인식율보다 양호하다는 것을 알 수 있으며, 또한 여러 잡음에 대하여 평균적으로 약 98.4% 이상의 높은 인식결과를 확인할 수 있었다. 또한 본 논문에서 제안한 표 2의 선형예측계수에 의한 3 패턴의 학습 신호에 의한 학습결과로부터, SNRn=15dB(T2)의 인식율이 다른 입력(T1 및 T3)보다 약간 인식율이 떨어지는 반면에, SNRn=<x>(Tl)과 SNRm=5dB(T3)에서 상당히 좋은 인식결과를 볼 수 있었다.
표의 결과로부터, 1프레임 중의 선형예측계수의 거리 D의 값이 SNRm=15dB(T2)과 SNRn=58B(T3)의 경우( 腿 . 73), 다른 경우와 비교하면 거리가 극히 밀접하기 때문에, 신경회로망에 의한 인식이 쉽지 않을 거라고 추측되어진다. 또한 켑스트럼거리 방식이 본 논문에서 제안한 선형예측계수 방식보다 거리가 상당히 떨어져 있으므로, 각 데이터간의 중첩이 적고 신경회로망에 의한 인식이 본 방식보다 어느 정도 용이하게 가능하다는 것을 판단할 수 있다.

후속연구

이상과 같이 다양한 잡음이 중첩된 음성신호에 대한잡음량의 인식을 신경회로망을 통하여 실험적으로 확인하여 본 연구가 음성인식 및 음성신호처리에 효과적으로 응용될 것이라고 생각한다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

음성신호의 선형예측계수에 의한 잡음량의 인식
Recognition of Noise Quantity by Linear Predictive Coefficient of Speech Signal 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

성능/효과

후속연구

참고문헌 (13)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

연관된 기능

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

음성신호의 선형예측계수에 의한 잡음량의 인식 Recognition of Noise Quantity by Linear Predictive Coefficient of Speech Signal 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

성능/효과

후속연구

참고문헌 (13)

이 논문을 인용한 문헌

저자의 다른 논문 :

최재승 (24)

관련 콘텐츠

원문 보기

원문 URL 링크

연관된 기능

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

음성신호의 선형예측계수에 의한 잡음량의 인식
Recognition of Noise Quantity by Linear Predictive Coefficient of Speech Signal 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper