[논문]MFCC와 LPC 특징 추출 방법을 이용한 음성 인식 오류 보정

오상엽

doi:10.14400/jdpm.2013.11.6.137

MFCC와 LPC 특징 추출 방법을 이용한 음성 인식 오류 보정
Speech Recognition Error Compensation using MFCC and LPC Feature Extraction Method 원문보기

디지털정책연구 = The Journal of digital policy & management, v.11 no.6, 2013년, pp.137 - 142

초록
AI-Helper

음성 인식 시스템은 부정확한 음성 신호의 입력으로 특징을 추출하여 인식할 경우 오인식의 결과가 나타나거나 유사한 음소로 인식된다. 따라서 본 논문에서는 음소가 갖는 특징을 기반으로 음소 유사율과 신뢰도 측정을 이용한 음성 인식 오류 보정 방법을 제안하였다. 음소 유사율은 학습 모델의 음소에 MFCC와 LPC 특징 추출 방법을 이용하여 구하였으며 신뢰도로 측정하였다. 음소 유사율과 신뢰도를 측정하여 오인식되는 오류를 최소화하였으며 음성 인식 과정에서 오류로 판명된 음성에 대하여 오류 보정을 수행하였다. 본 논문에서 제안한 시스템을 적용한 결과 98.3%의 인식률과 95.5%의 오류 보정율을 나타내었다.

Abstract ▼ AI-Helper

Speech recognition system is input of inaccurate vocabulary by feature extraction case of recognition by appear result of unrecognized or similar phoneme recognized. Therefore, in this paper, we propose a speech recognition error correction method using phoneme similarity rate and reliability measures based on the characteristics of the phonemes. Phonemes similarity rate was phoneme of learning model obtained used MFCC and LPC feature extraction method, measured with reliability rate. Minimize the error to be unrecognized by measuring the rate of similar phonemes and reliability. Turned out to error speech in the process of speech recognition was error compensation performed. In this paper, the result of applying the proposed system showed a recognition rate of 98.3%, error compensation rate 95.5% in the speech recognition.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

따라서 본 논문에서는 음소 유사율과 신뢰도 측정을 이용한 음성 인식 오류 보정 방법을 제안하였다. 부정확한 어휘의 입력으로부터 특징을 추출하여 인식할 경우 유사한 음소로 인식하거나 오인식 오류로 나타나게 되므로 음소 유사율과 신뢰도를 측정하여 오류 보정을 수행하므로 인식률을 향상시켰다.
정보 검색 영역에서 사용되는 문장은 문장이 간결하고 사용자가 검색하고자 하는 핵심어로만 이루어진 경우가 많으므로 정보 검색 영역의 문장은 의미적으로 분석하기 힘들며 문장이 전체적으로 오인식 될 경우 적용이 불가능한 단점을 개선하기 위해 본 논문에서는 음소 유사율과 신뢰도 측정을 이용한 음성 인식 오류 보정 방법을 제안하여 성능을 평가하였다.

제안 방법

본 논문에서 제안한 음소 유사율과 신뢰도 측정을 이용한 음성 인식 오류 보정 방법의 성능 검증을 위하여 인식 실험을 수행하였다. 음성 인식 목록은 서울 시내의 지역명 50개, 지하철명 50개로 구성하였다.
따라서 본 논문에서는 음소 유사율과 신뢰도 측정을 이용한 음성 인식 오류 보정 방법을 제안하였다. 부정확한 어휘의 입력으로부터 특징을 추출하여 인식할 경우 유사한 음소로 인식하거나 오인식 오류로 나타나게 되므로 음소 유사율과 신뢰도를 측정하여 오류 보정을 수행하므로 인식률을 향상시켰다. 음소 유사율은 가우시안 분포를 이용하여 구하였으며 신뢰도 측정은 후보군을 확보하여 확률적 계산을 이용하여 구하였으며 후보군에서 오류 보정을 실시하였다.
제안한 시스템의 성능 평가를 위하여 기존 방식과 비교 실험을 하였다. 실험은 화자 종속형과 화자 독립형으로 구분하여 실험하였으며 화자 종속형은 음성 모델을 만들 때 참가하였던 화자가 직접 인식에 참여하여 실험한 것이며 화자 독립형은 음성 모델에 참가하지 않았던 화자가 인식을 한 실험을 나타낸다.
음소 유사율과 신뢰도를 이용하여 오류 보정률을 구하였으며, 어휘 인식 과정에서 오류로 판명된 어휘에 대하여 오류 보정을 수행하였다. 시스템 성능 평가 결과 98.
입력된 어휘 신호의 잡음 제거는 프레임 단위로 실행된다. 입력된 신호가 프레임 단위로 나뉜 후에는 각 프레임 별로 스펙트럼을 추정하고 스펙트럼 평활화를 수행한다. 특징 추출은 인식에 유용한 성분을 어휘 신호로부터 뽑아내는 과정이다.
조절을 위해서 클래스 i에 대한 HMM 가중치가 변화되는 비율을 설정한다. 클래스 i에 대한 HMM 가중치 조절을 위한 차분 계수는 오인식 척도와 훈련 음성의 클래스 i에 대한 분별 함수의 값을 이용한다.
오류 보정 처리는 신뢰도와 음소 유사율을 고루 사용한다. 후보 음절을 선정하여 우선순위 어절을 선정하여 오류 보정을 수행한다. 신뢰도가 높은 음절의 경우 다음 후보 음절과의 오류 보정율 차이는 작으며 신뢰도가 낮은 음절의 경우 다음 후보 음절과의 오류 보정율 차이가 크게 나타난다.

대상 데이터

본 논문에서 제안한 음소 유사율과 신뢰도 측정을 이용한 음성 인식 오류 보정 방법의 성능 검증을 위하여 인식 실험을 수행하였다. 음성 인식 목록은 서울 시내의 지역명 50개, 지하철명 50개로 구성하였다. 인식 실험은[13]을 참조하여 실험하였으며 실험에 참가한 3명의 화자가 어휘 목록을 3회 발음하여 총 900단어를 대상으로 실험을 수행하였다.
음성 인식 목록은 서울 시내의 지역명 50개, 지하철명 50개로 구성하였다. 인식 실험은[13]을 참조하여 실험하였으며 실험에 참가한 3명의 화자가 어휘 목록을 3회 발음하여 총 900단어를 대상으로 실험을 수행하였다.

데이터처리

부정확한 어휘의 입력으로부터 특징을 추출하여 인식할 경우 유사한 음소로 인식하거나 오인식 오류로 나타나게 되므로 음소 유사율과 신뢰도를 측정하여 오류 보정을 수행하므로 인식률을 향상시켰다. 음소 유사율은 가우시안 분포를 이용하여 구하였으며 신뢰도 측정은 후보군을 확보하여 확률적 계산을 이용하여 구하였으며 후보군에서 오류 보정을 실시하였다.
제안한 시스템의 성능 평가를 위하여 기존 방식과 비교 실험을 하였다. 실험은 화자 종속형과 화자 독립형으로 구분하여 실험하였으며 화자 종속형은 음성 모델을 만들 때 참가하였던 화자가 직접 인식에 참여하여 실험한 것이며 화자 독립형은 음성 모델에 참가하지 않았던 화자가 인식을 한 실험을 나타낸다.

이론/모형

음소와 음소 사이의 거리를 측정하기 위해 음소 유사율을 사용하며 각 음소의 분리도를 측정하는 통계적 수단으로 가우시안 분포를 사용한다. 계산이 간단하고 오류의 대한 경계값의 조절이 가능하여 많이 사용된다.

성능/효과

또한 에러 패턴 학습을 이용한 방법의 음성 인식 오류보정률 평균 92.7%로 나타났으며 의미 기반의 방법을 이용한 음성 인식 오류 보정률 평균 93.3%의 인식률 나타내었고 제안 방법의 음성 인식 오류 보정률 평균 95.5%를 나타내었다.
음소 유사율과 신뢰도를 이용하여 오류 보정률을 구하였으며, 어휘 인식 과정에서 오류로 판명된 어휘에 대하여 오류 보정을 수행하였다. 시스템 성능 평가 결과 98.3%의 인식률과 95.5%의 오류 보정율을 나타내었다.
음소 유사율과 신뢰도를 이용하여 오류 보정률을 구하였으며, 어휘 인식 과정에서 오류로 판명된 어휘에 대하여 오류 보정을 수행하였다. 시스템 성능 평가 결과 평균 98.3%의 인식률과 평균 95.5%의 오류 보정율을 나타내었다.
실험 결과 에러 패턴 학습을 이용한 방법의 음성 인식률 평균 97.2%로 나타났으며 의미 기반의 방법을 이용한 음성 인식률 평균 96.9%의 인식률 나타내었고 제안방법의 인식률 평균 98.3%를 나타내었다.

질의응답

핵심어	질문	논문에서 추출한 답변
	특징 추출이란?	특징 추출은 인식에 유용한 성분을 신호로부터 얻어내는 과정이며 일반적으로 정보의 압축, 차원의 감소 과정과 관련되어 추출된 특성에 의해 인식률이 좋고 나쁨으로 판단한다. 흔히 사용되는 방법으로는 특성 추출 과정에서 청각 특성을 반영하는 달팽이관의 주파수 응답을 필터 뱅크 분석으로 사용하며 주파수에 따른 대역폭의 증가, 프리엠퍼시스 필터 등이 사용된다[6].
	특징 추출은 어떤 특성에 의해 인식률을 판단하는가?	특징 추출은 인식에 유용한 성분을 신호로부터 얻어내는 과정이며 일반적으로 정보의 압축, 차원의 감소 과정과 관련되어 추출된 특성에 의해 인식률이 좋고 나쁨으로 판단한다. 흔히 사용되는 방법으로는 특성 추출 과정에서 청각 특성을 반영하는 달팽이관의 주파수 응답을 필터 뱅크 분석으로 사용하며 주파수에 따른 대역폭의 증가, 프리엠퍼시스 필터 등이 사용된다[6].
	잡음 채널 모델 기반의 오류 보정 방법이 지닌 단점은 무엇인가?	기존의 연구 방법에는 잡음 채널 모델 기반의 오류 보정 방법이 있으며 음성 인식기의 적용 환경과 실제 인식할 때의 조건상의 차이가 있다는 점을 전제로 오류 보정을 수행한다. 하지만 단순한 언어 모델이 가지는 한계점을 극복하지 못하는 단점을 가지고 있다[3]. 인식 과정에서의 오류는 일정한 패턴을 가지고 발생한다는 전제로 발화 문장과 인식 문장을 비교하여 오류 패턴을 학습하고 후처리 모듈에서 보정하는 방법으로 적은 비용과 시간으로 오류를 보정할 수 있지만, 오류 패턴 DB가 필요하다[4]. 정보 검색 영역에서 사용되는 문장은 문장이 간결하고 사용자가 검색하고자 하는 핵심어로만 이루어진 경우가 많으므로 정보 검색 영역의 문장은 의미적으로 분석하기 힘들며 문장이 전체적으로 오인식 될 경우 적용이 불가능한 단점이 있다[5].

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

MFCC와 LPC 특징 추출 방법을 이용한 음성 인식 오류 보정
Speech Recognition Error Compensation using MFCC and LPC Feature Extraction Method 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

질의응답

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

MFCC와 LPC 특징 추출 방법을 이용한 음성 인식 오류 보정 Speech Recognition Error Compensation using MFCC and LPC Feature Extraction Method 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

질의응답

이 논문을 인용한 문헌

저자의 다른 논문 :

오상엽 (32)

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

MFCC와 LPC 특징 추출 방법을 이용한 음성 인식 오류 보정
Speech Recognition Error Compensation using MFCC and LPC Feature Extraction Method 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper