[논문]잡음환경하의 연속 음성인식을 위한 유사음소단위 분석

신광호; 임수호; 서준배; 김주곤; 정호열; 정현열

문제 정의

p>요 약 본 논문은 잡음환경 하에서의 효율적인 문맥의존 음향 모델 구성에 대한 기초연구로서 잡음환경 하에서의 유사 음소단위 수에 따른 연속 음성인식 성능을 비교, 평가한 결과에 대한 보고이다. 기존의 연구［1,2］로부터 연속음성 인식의 경우 문맥종속모델은 변이음을 고려한 39유사음 소를 이용한 경우가 48유사음소를 이용하는 것보다 더 좋은 인식성능을 나타냄을 알 수 있었다.
기존의 연구［1,2］로부터 연속음성 인식의 경우 문맥종속모델은 변이음을 고려한 39유사음 소를 이용한 경우가 48유사음소를 이용하는 것보다 더 좋은 인식성능을 나타냄을 알 수 있었다. 이 연구 결과를 바탕으로 본 연구에서는 잡음환경에서도 효율적인 문맥 의존 음향모델을 구성하기 위한 기초 연구를 수행하였다. 다양한 잡음환경을 고려하기 위해 White, Pink, LAB 잡음 을 신호 대 잡음비(Signal to Noise Ratio) 5dB, lOdB, 15dB 레벨로 음성에 부가한 후 각 유사음소단위 수에 따 른 연속음성인식 실험을 수행하였다.
따라서 학습 데이터에 잡음 환경요인을 고려하여, 3가지 잡음(White, Pink, LAB)을 신 호 대 잡음비 (Signal to Noise Ratio) 5dB, lOdB, 15dB 레 벨로 음성에 부가하여 연속음성 데이터베이스로 사용하 도록 했다. 이러한 다양한 환경을 고려한 데이터베이스를 사용하여 문맥의존 음향모델 작성 방법인 HM-Net으로 연 속음성인식에 적합한 음소 수에 대해 검토하고자 한다. 본 논문의 구성은 다음과 같다.
5.결론 본 논문은 잡음환경하에서의 한국어 연속음성인식에 효과적인 문맥의존 음향모델 수에 대한 연구로서 유사음 소단위 수에 따른 인식 성능을 비교, 평가 하였다. 연속 음성인식에 이용되는 문맥종속모델의 경우 변이음을 고 려하여 모델이 작성되므로 이를 고려하면 기본 음소를 48음소로부터 39음소로 줄일 수 있다.

제안 방법

이 연구 결과를 바탕으로 본 연구에서는 잡음환경에서도 효율적인 문맥 의존 음향모델을 구성하기 위한 기초 연구를 수행하였다. 다양한 잡음환경을 고려하기 위해 White, Pink, LAB 잡음 을 신호 대 잡음비(Signal to Noise Ratio) 5dB, lOdB, 15dB 레벨로 음성에 부가한 후 각 유사음소단위 수에 따 른 연속음성인식 실험을 수행하였다. 그 결과, 39유사음 소를 이용한 경우가 48유사음소를 이용한 경우보다 clear 환경인 경우에 약 7%와 17% 향상된 단어인식률과 문장 인식률을 얻을 수 있었으며, 각 잡음환경에서도 39유사음 소를 이용한 경우가 48유사음소를 이용한 경우보다 평균 적으로 17%와 28% 향상된 단어인식률과 문장인식률을 얻을 수 있어 39유사음소 단위가 한국어 연속음성인식에 더 적합하고 잡음환경에서도 유효함을 확인할 수 있었다.
HM-Net은 HMM의 상태를 정해진 상태 모델링 방식에서 연쇄상태분할(Successive State Split; SSS) 알고리즘을 적용하여 음향학적 정보에 따라 자동으 로 상태를 분할하는 음향 모델링 방법이다. 이러한 문맥 의존 음향모델링 방법을 연속음성인식에 적용하여, 연속 음성인식에서 고려해야할 점들을 검토한다. 실제 언어 환경은 매우 다양한 형태로 나타나는 잡음 환경의 영향을 받게 된다.
인식의 기본단 위로서 기존의 문맥독립모델에서 사용된 음소간의 변이 정보를 포함한 48유사음소단위와 변이정보를 제외시켜 음소단위에 가깝게 재 정의한 39유사음소단위를 기준으 로 각각 문맥의존 음향 모델을 작성하여 최적의 인식단 위를 고려할 필요가 있다[5]. 따라서 학습 데이터에 잡음 환경요인을 고려하여, 3가지 잡음(White, Pink, LAB)을 신 호 대 잡음비 (Signal to Noise Ratio) 5dB, lOdB, 15dB 레 벨로 음성에 부가하여 연속음성 데이터베이스로 사용하 도록 했다. 이러한 다양한 환경을 고려한 데이터베이스를 사용하여 문맥의존 음향모델 작성 방법인 HM-Net으로 연 속음성인식에 적합한 음소 수에 대해 검토하고자 한다.
입력 음성신호를 s(t), 선형 시불변 필터를 h⑴, 부 가잡음을 n(t)로 하면, 열화된 음성신호 弑t)는 시간영역 에서 식(2)과 같이 표현할 수 있다. a(t) = s(t) * h(t) +n(i) (2) 본 논문에서는 다양한 잡음환경을 고려하기 위해 White, Pink, LAB 잡음을 신호 대 잡음비 5dB, 10dB, 15dB 레벨로 음성에 부가한 후 각 유사음소단위 수에 따 른 연속음성인식 실험을 수행하였다. 4.
입력 음성신호를 s(t), 선형 시불변 필터를 h⑴, 부 가잡음을 n(t)로 하면, 열화된 음성신호 弑t)는 시간영역 에서 식(2)과 같이 표현할 수 있다. a(t) = s(t) * h(t) +n(i) (2) 본 논문에서는 다양한 잡음환경을 고려하기 위해 White, Pink, LAB 잡음을 신호 대 잡음비 5dB, 10dB, 15dB 레벨로 음성에 부가한 후 각 유사음소단위 수에 따 른 연속음성인식 실험을 수행하였다. 4.
잡음환경을 고려하기 위해 White, Pink, LAB잡음 을 깨끗한 음성 데이터에 부가하였으며, 발성화자 총100 명분에서 90명분을 학습데이터로 이용하였고. 나머지 10 명분으로 화자독립 인식실험을 수행하여 유효성을 비교 검토하였다. 인식을 위한 음향모델은 2000상태 8혼합수의 HMNet모델을 이용하였으며, 음성인식 알고리즘은 Word-pair 문법을 인식 문법으로 하는 One-Pass Viterbi 알 고리즘을 사용하였다.
2) 잡음환경하의 연속음성인식 실험 White, Pink, LAB 잡음을 신호 대 잡음비 5dB, 10dB, 15dB 레벨로 깨끗한 음성에 부가한 후 각 유사음소단 위 수에 따른 연속음성인식 실험을 수행 하였다. 인식 결과는 그림 1,2,3에 나타 내였다.
2) 잡음환경하의 연속음성인식 실험 White, Pink, LAB 잡음을 신호 대 잡음비 5dB, 10dB, 15dB 레벨로 깨끗한 음성에 부가한 후 각 유사음소단 위 수에 따른 연속음성인식 실험을 수행 하였다. 인식 결과는 그림 1,2,3에 나타 내였다.
이는 39유사음소 단위가 한국어 연속음성인식에 더 적합하고, 잡음환경하의 연속문장인식에서도 더 효과적임을 확인할 수 있다. 5.결론 본 논문은 잡음환경하에서의 한국어 연속음성인식에 효과적인 문맥의존 음향모델 수에 대한 연구로서 유사음 소단위 수에 따른 인식 성능을 비교, 평가 하였다. 연속 음성인식에 이용되는 문맥종속모델의 경우 변이음을 고 려하여 모델이 작성되므로 이를 고려하면 기본 음소를 48음소로부터 39음소로 줄일 수 있다.
연속 음성인식에 이용되는 문맥종속모델의 경우 변이음을 고 려하여 모델이 작성되므로 이를 고려하면 기본 음소를 48음소로부터 39음소로 줄일 수 있다. 39음소의 인식에 대한 유효성을 확인하기 위하여 48음소와의 인식성능 비 교 평가를 수행하였다. 또한, 실제 잡음환경에서도 유효 한 문맥의존 음향모델을 생성하기 위해서 잡음이 부가된 음성데이터베이스를 구성하였으며, 이 음성 데이터베이스 를 각 음소별 HM-Net음향모델에 학습시켜 연속음성인식 실험을 수행하였다.
39음소의 인식에 대한 유효성을 확인하기 위하여 48음소와의 인식성능 비 교 평가를 수행하였다. 또한, 실제 잡음환경에서도 유효 한 문맥의존 음향모델을 생성하기 위해서 잡음이 부가된 음성데이터베이스를 구성하였으며, 이 음성 데이터베이스 를 각 음소별 HM-Net음향모델에 학습시켜 연속음성인식 실험을 수행하였다. 실험결과, 무잡음 환경하의 연속음성인식에서 단어인식 률은 약 7%, 문장인식률은 약 17%의 인식성능향상을 보 였다.
39음소의 인식에 대한 유효성을 확인하기 위하여 48음소와의 인식성능 비 교 평가를 수행하였다. 또한, 실제 잡음환경에서도 유효 한 문맥의존 음향모델을 생성하기 위해서 잡음이 부가된 음성데이터베이스를 구성하였으며, 이 음성 데이터베이스 를 각 음소별 HM-Net음향모델에 학습시켜 연속음성인식 실험을 수행하였다. 실험결과, 무잡음 환경하의 연속음성인식에서 단어인식 률은 약 7%, 문장인식률은 약 17%의 인식성능향상을 보 였다.

대상 데이터

표 1은 기존의 48유사 음소에 대해 나타낸다. 48유사음소의 /d/, /g/, /z/, /h/, M 계 열은 표 2에서와 같은 경우로 취급하여 총 39유사음소로 재 정의된다. 39유사음소 단위는 음성데이터의 부족한 학 습데이터의 훈련효과를 분산시키는 것을 줄일 수 있다.
a(t) = s(t) * h(t) +n(i) (2) 본 논문에서는 다양한 잡음환경을 고려하기 위해 White, Pink, LAB 잡음을 신호 대 잡음비 5dB, 10dB, 15dB 레벨로 음성에 부가한 후 각 유사음소단위 수에 따 른 연속음성인식 실험을 수행하였다. 4. 인식 실험 및 고찰 본 논문에서 사용한 음성 데이터는 KAIST무역 상담용 DB이다. 잡음환경을 고려하기 위해 White, Pink, LAB잡음 을 깨끗한 음성 데이터에 부가하였으며, 발성화자 총100 명분에서 90명분을 학습데이터로 이용하였고.
4. 인식 실험 및 고찰 본 논문에서 사용한 음성 데이터는 KAIST무역 상담용 DB이다. 잡음환경을 고려하기 위해 White, Pink, LAB잡음 을 깨끗한 음성 데이터에 부가하였으며, 발성화자 총100 명분에서 90명분을 학습데이터로 이용하였고.
인식 실험 및 고찰 본 논문에서 사용한 음성 데이터는 KAIST무역 상담용 DB이다. 잡음환경을 고려하기 위해 White, Pink, LAB잡음 을 깨끗한 음성 데이터에 부가하였으며, 발성화자 총100 명분에서 90명분을 학습데이터로 이용하였고. 나머지 10 명분으로 화자독립 인식실험을 수행하여 유효성을 비교 검토하였다.

이론/모형

반면, 문맥의존 음소모델은 문맥 독립 모델에 비해 음향의 가지 수는 많지만 음소에 의한 변이음을 고려한 모델［기로서 강건한 음향모델을 생성하 는 방법으로 많은 연구가 진행되고 있다. 본 논문에서는 음향모델생성 방법 중에 강건한 음향모델을 생성하기 위 하여 은닉 마르코프 네트워크(Hidden Markov Network-; HM-Net)를 적용하였다. HM-Net은 HMM의 상태를 정해진 상태 모델링 방식에서 연쇄상태분할(Successive State Split; SSS) 알고리즘을 적용하여 음향학적 정보에 따라 자동으 로 상태를 분할하는 음향 모델링 방법이다.
나머지 10 명분으로 화자독립 인식실험을 수행하여 유효성을 비교 검토하였다. 인식을 위한 음향모델은 2000상태 8혼합수의 HMNet모델을 이용하였으며, 음성인식 알고리즘은 Word-pair 문법을 인식 문법으로 하는 One-Pass Viterbi 알 고리즘을 사용하였다. 사용한 음성 데이터의 분석조건은 표 3과 같다.
나머지 10 명분으로 화자독립 인식실험을 수행하여 유효성을 비교 검토하였다. 인식을 위한 음향모델은 2000상태 8혼합수의 HMNet모델을 이용하였으며, 음성인식 알고리즘은 Word-pair 문법을 인식 문법으로 하는 One-Pass Viterbi 알 고리즘을 사용하였다. 사용한 음성 데이터의 분석조건은 표 3과 같다.

성능/효과

다양한 잡음환경을 고려하기 위해 White, Pink, LAB 잡음 을 신호 대 잡음비(Signal to Noise Ratio) 5dB, lOdB, 15dB 레벨로 음성에 부가한 후 각 유사음소단위 수에 따 른 연속음성인식 실험을 수행하였다. 그 결과, 39유사음 소를 이용한 경우가 48유사음소를 이용한 경우보다 clear 환경인 경우에 약 7%와 17% 향상된 단어인식률과 문장 인식률을 얻을 수 있었으며, 각 잡음환경에서도 39유사음 소를 이용한 경우가 48유사음소를 이용한 경우보다 평균 적으로 17%와 28% 향상된 단어인식률과 문장인식률을 얻을 수 있어 39유사음소 단위가 한국어 연속음성인식에 더 적합하고 잡음환경에서도 유효함을 확인할 수 있었다. 1.
3. 잡음환경에서의 음성 표현 잡음은 보통 백색잡음(White noise)과 유색잡음(Colored noise)으로 구분된다. White 잡음은 스펙트럼이 모든 주파 수대역에서 균일하며, 시간영역에서 샘플값이 서로 상관 성이 없다.
단어인식률의 경우 약 7%의 성능차를 보였으며, 문장인식률의 경우 약 17%의 성능차를 보였다. 이 실험 결과로부터 39음소가 연음현상 및 변이음현상이 자주 발생하는 연속음성인식 환경에서 오인식을 유발하는 문제를 48음소보다 더 효율 적으로 처리할 수 있음을 알 수 있었다. 연속음성인식에 서 39음소가 48음소에 비해 더 적합한 음소 체계임을 인 식 성능을 통해 확인할 수 있었다.
잡음환경하의 연속음성인식에서도 평균적으로 39유 사음소단위를 기본음소로 사용하였을 경우, 단어 인식률 은 약 17%, 문장인식률은 약 28%의 성능향상을 보였다.
실험결과, 잡음환경에서 39유사음소를 이용한 경우가 48유사음소를 이용한 경우보다 평균적으로 17%와 28% 향상된 단어인식률과 문장인식률을 얻을 수 있었다. 이는 39유사음소 단위가 한국어 연속음성인식에 더 적합하고, 잡음환경하의 연속문장인식에서도 더 효과적임을 확인할 수 있다.
실험결과, 잡음환경에서 39유사음소를 이용한 경우가 48유사음소를 이용한 경우보다 평균적으로 17%와 28% 향상된 단어인식률과 문장인식률을 얻을 수 있었다. 이는 39유사음소 단위가 한국어 연속음성인식에 더 적합하고, 잡음환경하의 연속문장인식에서도 더 효과적임을 확인할 수 있다. 5.
또한, 실제 잡음환경에서도 유효 한 문맥의존 음향모델을 생성하기 위해서 잡음이 부가된 음성데이터베이스를 구성하였으며, 이 음성 데이터베이스 를 각 음소별 HM-Net음향모델에 학습시켜 연속음성인식 실험을 수행하였다. 실험결과, 무잡음 환경하의 연속음성인식에서 단어인식 률은 약 7%, 문장인식률은 약 17%의 인식성능향상을 보 였다. 잡음환경하의 연속음성인식에서도 평균적으로 39유 사음소단위를 기본음소로 사용하였을 경우, 단어 인식률 약 17%, 문장인식률은 약 28%의 성능향상을 보였다.
잡음환경하의 연속음성인식에서도 평균적으로 39유 사음소단위를 기본음소로 사용하였을 경우, 단어 인식률 약 17%, 문장인식률은 약 28%의 성능향상을 보였다. 따라서 39음소가 발음변이가 빈번히 일어나는 연속음성 인식 환경에서 48음소보다 효과적인 음소구성임을 알 수 있었으며, 잡음환경하의 연속음성인식에서도 효과적임을 확인할 수 있었다.
실험결과, 무잡음 환경하의 연속음성인식에서 단어인식 률은 약 7%, 문장인식률은 약 17%의 인식성능향상을 보 였다. 잡음환경하의 연속음성인식에서도 평균적으로 39유 사음소단위를 기본음소로 사용하였을 경우, 단어 인식률 약 17%, 문장인식률은 약 28%의 성능향상을 보였다. 따라서 39음소가 발음변이가 빈번히 일어나는 연속음성 인식 환경에서 48음소보다 효과적인 음소구성임을 알 수 있었으며, 잡음환경하의 연속음성인식에서도 효과적임을 확인할 수 있었다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

[국내논문] 잡음환경하의 연속 음성인식을 위한 유사음소단위 분석
An Analysis on Phone-Like Units for Korean Continuous Speech Recognition in Noisy Environments 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

[국내논문] 잡음환경하의 연속 음성인식을 위한 유사음소단위 분석 An Analysis on Phone-Like Units for Korean Continuous Speech Recognition in Noisy Environments 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

[국내논문] 잡음환경하의 연속 음성인식을 위한 유사음소단위 분석
An Analysis on Phone-Like Units for Korean Continuous Speech Recognition in Noisy Environments 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper