[논문]음소 유사율 오류 보정을 이용한 어휘 인식 후처리 시스템

안찬식; 오상엽

doi:10.9708/jksci.2010.15.7.083

[국내논문] 음소 유사율 오류 보정을 이용한 어휘 인식 후처리 시스템
Vocabulary Recognition Post-Processing System using Phoneme Similarity Error Correction 원문보기

韓國컴퓨터情報學會論文誌 = Journal of the Korea Society of Computer and Information, v.15 no.7, 2010년, pp.83 - 90

안찬식 (광운대학교 컴퓨터공학과) , 오상엽 (경원대학교 IT대학 컴퓨터소프트웨어)

초록
AI-Helper

어휘 인식 시스템에서 인식률 저하의 요인으로는 유사한 음소 인식과 부정확한 어휘 제공으로 인해 오인식 오류가 존재한다. 부정확한 어휘의 입력으로 특징을 추출하여 인식할 경우 오인식의 결과가 나타나거나 유사한 음소로 인식되며 특징 추출이 제대로 이루어지지 않으면 음소 인식 시 유사한 음소로 인식하게 된다. 따라서 본 논문에서는 음소가 갖는 특징을 기반으로 음소 유사율을 이용한 어휘 인식 후처리에서의 오류 보정 후처리 시스템을 제안하였다. 음소 유사율은 모노폰으로 훈련시킨 훈련 데이터를 각각의 음소에 MFCC와 LPC 특징 추출 방법을 이용하여 구하였다. 유사한 음소는 정확한 음소로 인식할 수 있도록 유도하여 부정확한 어휘 제공으로 인하여 오인식되는 오류를 최소화하였다. 음소 유사율과 신뢰도를 이용하여 오류 보정율을 구하였으며, 어휘 인식 과정에서 오류로 판명된 어휘에 대하여 오류 보정을 수행하였다. 에러패턴 학습을 이용한 시스템과 의미기반을 이용한 시스템에 비해 시스템 성능 평가 결과 MFCC와 LPC는 각각 7.5%와 5.3%의 인식 향상률을 보였다.

Abstract ▼ AI-Helper

In vocabulary recognition system has reduce recognition rate unrecognized error cause of similar phoneme recognition and due to provided inaccurate vocabulary. Input of inaccurate vocabulary by feature extraction case of recognition by appear result of unrecognized or similar phoneme recognized. Also can't feature extraction properly when phoneme recognition is similar phoneme recognition. In this paper propose vocabulary recognition post-process error correction system using phoneme likelihood based on phoneme feature. Phoneme likelihood is monophone training phoneme data by find out using MFCC and LPC feature extraction method. Similar phoneme is induced able to recognition of accurate phoneme due to inaccurate vocabulary provided unrecognized reduced error rate. Find out error correction using phoneme likelihood and confidence when vocabulary recognition perform error correction for error proved vocabulary. System performance comparison as a result of recognition improve represent MFCC 7.5%, LPC 5.3% by system using error pattern and system using semantic.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

따라서 본 논문에서는 음소가 가지는 어휘 특성을 고려한 어휘 인식 후처리에서 오류 보정 시스템을 제안한다. 어휘 인식 후처리에서 오류 보정을 위한 본 논문의 접근 방법은 인식된 음소열을 형태소 분석 과정을 통해 음운 변동이 적용되기 이전의 문자열로 복원한다.
본 논문에서는 음소가 가지는 어휘 특성을 고려한 어휘 인식 후처리에서 오류 보정 시스템을 제안하였다.

제안 방법

HMM 기반 ECHOS는 각 단어별 데이터로 학습된 인식 모델을 이용하여 발화된 단어의 인식 가능한 단어들의 인식 가능도를 우도로 표현하고 최대값을 가지는 단어를 최종 결과로 선정한다.
그림 2는 어휘 오류 보정에 구성도를 나타내고 있으며, 인식된 음소열을 음절 복원을 통해 음운 변동이 적용되기 이전의 문자열로 복원시킨다. 복원된 어절의 형태소 분석을 통해 문법적 어절과 비문법적 어절의 필터링을 하고 비문법적 어절에 대해 오류보정을 수행 한다. 음절 복원기와 형태소 분석 단계를 다시 거치게 된다[8].
본 논문에서 제안한 음소가 가지는 어휘 특성을 고려한 어휘 인식 후처리에서 오류보정 시스템 모델을 구성하여 인식 실험을 수행하였다.
어휘 인식 후처리에서 오류 보정을 위한 방법은 인식된 음소열을 오인식된 음소열을 관리하여 형태소 분석 과정을 통해 음운변동이 적용되기 이전의 문자열로 복원한다. 부정확한 어휘의 입력으로부터 특징을 추출하여 인식된 유사한 음소와 오인식 오류로 나타난 어휘를 형태소 분석인 문법적 어절과 비문법적 어절의 필터링하여 문법적 어절은 인식시키고 비문법적 어절은 오류 보정을 수행하여 재인식하여 오류를 최소화하고 인식률을 향상시켰다. 의미적으로 분석하기 힘든 핵심어들은 문장을 복원하여 전체적으로 인식할 수 있도록 해결하였다.
어휘 인식 후처리에서 오류 보정을 위한 본 논문의 접근 방법은 인식된 음소열을 형태소 분석 과정을 통해 음운 변동이 적용되기 이전의 문자열로 복원한다. 부정확한 어휘의 입력으로부터 특징을 추출하여 인식할 경우 유사한 음소로 인식하거나 오인식 오류로 나타나게 되므로 입력되어진 어휘를 형태소 분석 과정을 통해 유사 음소 인식과 오인식 오류를 최소화하여 인식률을 향상시켰다. 형태소 분석은 문법적 어절과 비문법적 어절의 필터링하여 문법적 어절은 인식시키고 비문법적 어절은 오류 보정을 수행하여 재인식시킨다.
따라서 본 논문에서는 음소가 가지는 어휘 특성을 고려한 어휘 인식 후처리에서 오류 보정 시스템을 제안한다. 어휘 인식 후처리에서 오류 보정을 위한 본 논문의 접근 방법은 인식된 음소열을 형태소 분석 과정을 통해 음운 변동이 적용되기 이전의 문자열로 복원한다. 부정확한 어휘의 입력으로부터 특징을 추출하여 인식할 경우 유사한 음소로 인식하거나 오인식 오류로 나타나게 되므로 입력되어진 어휘를 형태소 분석 과정을 통해 유사 음소 인식과 오인식 오류를 최소화하여 인식률을 향상시켰다.
어휘는 실내 환경과 잡음 환경에서 이동기기 등에 내장되어 있는 내장형 마이크로폰을 사용하여 16kHz Mono로 녹음 하였고, 16bit PCM 양자화를 사용하였다. 실험 어휘는 실내 10명, 실외 5명 등 총 15명의 성인 남성이 참가하였다.
후보 음절을 선정한 후 우선 순위 어절을 선정한다. 우선순위 어절은 오류 보정율의 평균으로 구하며 음절 복원과 형태소 분석을 재 수행한다. 신뢰도가 높은 음절의 경우 다음 후보 음절과의 오류 보정율 차이는 작으며, 신뢰도가 낮은 음절의 경우 다음 후보 음절과의 오류 보정율 차이가 크게 나타나므로 우선순위 어절을 선정할 때 올바른 어절이 낮은 순위로 나타나게 된다.
음소 유사율 처리는 음소 사이의 거리를 측정하여 비슷한 음소를 찾아 관리하며 신뢰도 측정 및 처리에서는 음소의 신뢰도를 측정 및 처리한다. 오류 보정율 관리는 유사율과 신뢰도를 비교하여 오류 보정을 위한 음소와 음절을 관리하며 음절 복원 관리에서는 오류 보정된 음소와 음절을 복원하여 후보 음절을 생성한다.
음소 유사율의 구성에 따른 음소 유사율의 정확성을 확인하기 위하여 MFCC와 LPC의 특성 추출 방법을 사용하여 음소 유사율을 구성하고 어휘 인식 후처리에서 오류보정 시스템 모델에 적용하였다.
음절 복원을 수행하기 위하여 어절을 구성하고 있는 음소의 신뢰도와 음소에 대한 타 음소와의 유사율을 사용하여 각각의 음소에 대한 후보 음절을 생성한다. 생성된 후보 음절을 통하여 우선순위 어절을 선정한다.
입력되어진 음소를 음소 유사률 처리를 통해 음소 사이의 거리를 측정하여 수치로 나타내고 신뢰도 측정을 통하여 인식 되어진 결과를 확인한다. 인식 결과로부터 오류로 판명되어진 음소를 확인하여 오인식되어진 음소열은 형태소 분석을 통해 문법적 어절과 비문법적 어절의 필터링하여 문법적 어절은 인식시키고 비문법적 어절은 오류 보정을 수행하여 오류 복원률을 확인하여 관리하여 재인식을 수행한다.
입력되어진 음소를 음소 유사률 처리를 통해 음소 사이의 거리를 측정하여 수치로 나타내고 신뢰도 측정을 통하여 인식 되어진 결과를 확인한다. 인식 결과로부터 오류로 판명되어진 음소를 확인하여 오인식되어진 음소열은 형태소 분석을 통해 문법적 어절과 비문법적 어절의 필터링하여 문법적 어절은 인식시키고 비문법적 어절은 오류 보정을 수행하여 오류 복원률을 확인하여 관리하여 재인식을 수행한다.
입력된 어휘 신호의 잡음 제거는 프레임 단위로 실행된다. 입력된 신호가 프레임 단위로 나뉜 후에는 각 프레임 별로스펙트럼을 추정하고 스펙트럼 평활화를 수행한다. 특징 추출은 인식에 유용한 성분을 어휘 신호로부터 뽑아내는 과정이다.
어휘 인식에는 음향학적 지식을 이용하는 방법, 통계적 방법, 인공 지능을 이용한 방법, 신경 회로망을 이용한 방법 등이 널리 연구되었다. 통계적 어휘 인식에서는 다음 그림 1에서와 같이 학습 단계에서 추출된 특징 벡터를 이용하여 기준이 되는 시간적으로 변화하는 음성 신호의 특징을 모델링한 음향 모델 또는 기준 패턴을 구한 다음, 어휘 인식 단계에서 부분 최적인 각 상태를 통하여 최상의 단일한 상태열을 찾는 비터비 알고리즘 또는 상태열의 길이가 일정하지 않은 두 열의 유사도를 측정하는 DTW(Dynamic Time Warping)와 같은 패턴 정합 알고리즘을 이용하여 미리 학습된 패턴 중에서 가장 유사한 것을 찾아서 인식 결과로 출력한다. 일체형 인식 구조는 탐색 과정에서 모든 가능한 지식 정보들을 가져오므로 일체형 탐색 방법은 복잡한 단어간 문법을 고려한 언어 모델과 시간적으로 변화하는 음성 신호의 특징을 모델링한 음향 모델을 사용한다[6].

대상 데이터

본 실험에서는 단말기에서 사용되는 단어를 선정하여 총 20개를 표 1과 같이 선별하였고 후처리 실험을 위해 5명의 사용자가 100회의 데이터를 구축하였다.
어휘는 실내 환경과 잡음 환경에서 이동기기 등에 내장되어 있는 내장형 마이크로폰을 사용하여 16kHz Mono로 녹음 하였고, 16bit PCM 양자화를 사용하였다. 실험 어휘는 실내 10명, 실외 5명 등 총 15명의 성인 남성이 참가하였다.

이론/모형

녹음된 데이터는 인식기 학습을 위해 MFCC 특성 추출 방법을 사용하였고 인식기는 SITEC에서 개발한 ECHOS[16]를 이용하였다.

성능/효과

3%의 인식률 향상을 보였다. 또한 MFCC가 LPC보다 우수한 성능을 보였으며, 전체적으로 86.5%, 82.9%의 인식률을 보였다.
제안한 어휘 인식 후처리에서 오류 보정 시스템으로 인하여 인식률을 향상 시킬 수 있는 장점을 확인하였으며 검색 시속도와 인식률에서 기존 시스템인 에러 패턴 학습을 이용한 시스템과 의미기반을 이용한 시스템보다 나은 결과를 얻을 수 있었다. 시스템 성능 평가 결과 MFCC와 LPC는 각각 7.5% 와 5.3%의 인식 향상률을 보였다.
에러 패턴 학습을 이용한 오류 보정의 경우 3.1%, 의미 기반의 오류 보정의 경우 7.5%의 인식 향상률을 보였으며, 본 논문에서 제안한 MFCC, LPC를 이용한 음소 유사율을 사용할 경우 각각 7.5%, 5.3%의 인식률 향상을 보였다. 또한 MFCC가 LPC보다 우수한 성능을 보였으며, 전체적으로 86.
제안한 어휘 인식 후처리에서 오류 보정 시스템으로 인하여 인식률을 향상 시킬 수 있는 장점을 확인하였으며 검색 시속도와 인식률에서 기존 시스템인 에러 패턴 학습을 이용한 시스템과 의미기반을 이용한 시스템보다 나은 결과를 얻을 수 있었다. 시스템 성능 평가 결과 MFCC와 LPC는 각각 7.

질의응답

핵심어	질문	논문에서 추출한 답변
	어휘 인식 시스템에서 인식률 저하의 요인으로는 무엇이 있는가?	어휘 인식 시스템에서 인식률 저하의 요인으로는 유사한 음소 인식과 부정확한 어휘 제공으로 인해 오인식 오류가 존재한다. 부정확한 어휘의 입력으로 특징을 추출하여 인식할 경우 오인식의 결과가 나타나거나 유사한 음소로 인식되며 특징 추출이 제대로 이루어지지 않으면 음소 인식 시 유사한 음소로 인식하게 된다.
	잡음 채널 모델 기반의 오류 보정 방법의 단점은 무엇인가?	기존의 방법에서는 어휘 인식기의 적용 환경과 실제 인식할 때의 조건상의 차이가 있다는 점을 전제로 하여, 오류 보정을 수행하는 잡음 채널 모델 기반의 오류 보정 방법이 있다. 이 방법은 단순한 언어 모델이 가지는 한계점을 극복하지 못한다는 단점이 있다[3]. 이는 인식 과정에서의 오류는 일정한 패턴을 가지고 발생한다는 점을 전제로 하여 발화 문장과 인식 문장을 비교하여 오류 패턴을 학습하고 후처리 모듈에서 보정하는 방법으로 적은 비용과 시간으로 오류를 보정할 수 있지만, 오류 패턴 DB가 필요하다[4]. 정보 검색 영역에서 사용되는 문장은 문장이 간결하고 사용자가 검색하고자 하는 핵심어로만 이루어진 경우가 많으므로 정보 검색 영역의 문장은 의미적으로 분석하기 힘들며, 문장이 전체적으로 오인식될 경우 적용이 불가능한 단점이 있다[5].
	모바일 어휘 인식 기술이 발달함에 따라 어떤 시스템이 개발되고 있는가?	모바일 어휘 인식 기술이 발달함에 따라 어휘 기반 검색 시스템, 자동 응답 시스템 등 어휘 인식을 인터페이스로 하는 시스템들이 개발되고 있다. 운전 중인 차량 환경의 경우, 손의 사용이 제한되기 때문에 어휘를 입력으로 하는 텔레매틱스 단말기가 필요하지만 어휘 인식에는 여전히 유사한 음소와 부정확한 어휘 제공에서 오류가 존재한다.

참고문헌 (19)

E. K. Ringer and J. F. Allen, "A fertility channel model for post-correction of continuous speech recognition," Proc. ICSLP, pp.897-900, Oct, 1996.
Eiichi Tanaka and Tamotsu Kasai, "Synchronization and Substitution Error-correcting codes for the Levenshtein Metric," IEEE Trans. Information Theory, Vol. IT-22, No. 2, pp. 156-176, 1976.
조시원, 이동욱, "음성 인식 후처리를 위한 연속 음절 문장의 키워드 추출 알고리즘," 대한전기학회, 학술대회논문집, 심포지엄 논문집 정보 및 제어부문, 170-171쪽, 2008년 4월.
문광식, 김회린, 정재호, 이영직, "가변어휘 단어 인식에서의 미등록어 거절 알고리즘의 성능비교," 신호처리합동학술대회논문집, 제 12권, 제 1호, 305-308쪽, 1999년 10월.
박미성, 김미진, 김계성, 최재혁, 이상조, "연속 음성인식 후처리를 위한 음절 복원 rule-based 시스템과 형태소분석기법의 적용," 대한전자공학회논문지, 제 36권, 제 3호, 47-57쪽, 1999년 3월.
안찬식, 오상엽, "공유모델 인식 성능 향상을 위한 효율적인 연속 어휘 군집화 모델링," 한국컴퓨터정보학회지, 제15권, 제 1호, 177-183쪽, 2010년 1월.

원문보기 상세보기
T. Jitsuhiro, S. Takatoshi, and K. Aikawa, "Rejection of out-of-vocabulary works using phoneme confidence likelihood," Proc. ICSSP, pp.217-220, May 1998.
한동조, 최기호, "음성인식 후처리에서 음소 유사율을 이용한 오류보정에 관한 연구," 한국ITS학회논문지, 제 6권, 제 3호, 77-86쪽, 2007년 12월.

원문보기 상세보기
안찬식, 오상엽, "MLHF 모델을 적용한 어휘 인식 탐색 최적화 시스템," 한국컴퓨터정보학회지, 제 14권, 제 10호, 217-223쪽, 2009년 10월.
M. Ostendorf, "From HMM's to segment models: a unified view of stochastic modeling for speech recognition," Speech and Audio Processing, IEEE, Vol. 4, pp.360-378, 1996.

상세보기
S. Young, D. Kershaw, J. Odell, D. Ollason, Valtcher, P. Woodland, "The HTK Book," Cambridge University Engineering Department, 2002.
김동주, 김한우, "문맥가중치가 반영된 문장 유사도 척도," 대한전자공학회논문지, 제 43권, 제 6호, 496-504쪽, 2006년.
송원문, 김명원, "문맥 및 사용 패턴 정보를 이용한 음성 인식 후처리," 정보처리학회논문지, 제 13-B권, 제 5호, 553-560쪽, 2006년.
김영진, 김은주, 김명원, "모바일 기기를 위한 음성인식의 사용자 적응형 후처리," 한국정보과학회논문지, 컴퓨팅의 실제 및 레터, 제 13권, 제 5호, 338-342쪽, 2007년 10월.
김원구, "음성 인식을 위한 후처리에 관한 연구," 한국퍼지및지능시스템학회, 학술대회논문집, 421-424쪽, 2008년 4월.
음성정보기술산업지원센터, "한국어 음성인식 플랫폼 사용자 매뉴얼(ECHOS Manual)," 135-308쪽, 2006년.
S. Kaki, E. Sumita, and H. Iida, "A method for correction speech recognition using the statistical features of character co-occurrence," Proc. COLING-ACL, pp.653-657, Aug, 1998.
김용현, 정민화, "에러패턴 학습과 후처리 모듈을 이용한 연속 음성 인식의 성능향상," Proc. KISS Spring Semiannual Conf. 제 27권, 제 1호, 441-443쪽, 2000년 4월.
M. W. Jeong, B. C. Kim, and G. G. Lee, "Semantic-oriented error correction for spoken query processing," Proc. IEEE Workshop on ASRU, pp.156-161, Nov, 2003.

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증