[논문]자동 교환 시스템을 위한 실시간 음성 인식 구현

박익현; 이재성; 김현아; 함정표; 유승균; 강해익; 박성현

문제 정의

본 논문에서는 현재 운용되고 있는 음성 인식 구내 자동 교환 시스템을 전반적으로 살펴보았다.
본 논문에서는 현재 운용되고 있는 음성 인식 구내 자동 교환 시스템을 전반적으로 살펴보았다.
이에 따라 전화를 좀 더 편하게 사용하고자 하는 요구 역시 팽창하고 있는 실정이다. 이러한 측면에서 본 논문에서는 과거 오랜 기간 동안 많은 발전을 해온 음성 인식을 교환기에 적용하여 자동 교환 시스템을 구현하고 평가하였다.
이에 따라 전화를 좀 더 편하게 사용하고자 하는 요구 역시 팽창하고 있는 실정이다. 이러한 측면에서 본 논문에서는 과거 오랜 기간 동안 많은 발전을 해온 음성 인식을 교환기에 적용하여 자동 교환 시스템을 구현하고 평가하였다.

제안 방법

HMMe 상태의 관찰 확률을 산출하는방법에 따라, 이산 HMM, 반연속 HMM, 연속 HMM으로나누어 진다.
음성 인식 구내 자동 교환 시스템은 특정 부서나 사람의 전화 번호를 외우지 않고서도 부서명이나 인명을 발성함 으로써 해당 전화 번호로 연결하므로 사용자는 편리하지만 부서나 인원의 추가, 삭제, 변경에 따른 인식 대상 어휘의 변경 발생시 인식 대상 어휘의 변경이 뒤따라야 한다는 측면에서 운용자는 인식 모듈 자체를 교체하거나 인식 모델을 재생성하는 어려움이 있다. 그러나, 이러한 작업을 운용단말 GUI(graphic User Interface) 를 통해 이루어지게 함으로써 부서나 인원의 추가, 삭제, 변경 사항만 입력하면 자동으로 인식 모델을 생성할 뿐만 아니라 운용자의 실수로 인하여 생길 수 있는 오류를 최소화 하도록 하였다. 즉, VIPS-H瑜의 운용단말에서 부서나 인원의 리스트 및 전화번호 등 필요한 정보를 데이터 베이스로 구축하여 관리하고 변동 사항이 생길 시 운용자는 GUI를 통해 편집하고 적용 버튼을 누르면 자동으로 새로운 인식 모델이 생성된 후, 시스템으로 전송되어 각 인식 모듈의 해당 메모리의 위치로 전송되어 인식 대상 어휘의 변경이 실시간 적용된다.
인식 대상이 가변 독립 단어이므로 인식 대상 집합이 변할 수 있다. 따라서, 음성을 음소 단위로 모델링하여 인식 대상 집합을 새로 구성하였을 때 학습된 음소 모델을 조합하여 단어를 모델링한다. 음소 모델링의 성능을 높이기 위하여 전후 발성된 음소에 따라 다르게 모델링 하는 tri-phone과 독립된 음소를 모델링하는 mono-phone을 이용하였다.
인식 대상 어휘가 학습 시에 고정되는 것이 아니라 변경이 가능한 가변 어휘를 구현하기 위해서는 인식 단위를 음소 단위로 하여 인식 대상 어휘 목록에 따라 음소의 재배열로 인식 대상을 구성하는 기능이 필요하다. 본 논문에서 구현된 음성 인식 시스템은 mono-phone과 tri-phone을 사용하여 가변 어휘 구현 및 성능 향상을 꾀하였다.
본 논문에서 구현한 음성 인식 시스템은 화자가 전화를 걸어 교환기를 거치면 음성 인식 자동 교환 시스템에서 음성 인식을 하여 시스템에 등록된 전화 번호로 자동 교환을 수행한다. 본 시스템은 관공서, 기업, 혹은 임의의 교환 서비스가 필요한 곳에서 사설 교환기를 통하여 교환원이 문답을 통하여 교환을 하거나 자동 안내 서비스에 접속한 후 서비스 시나리오에 따른 교환 번호를 추가로 사용자가 눌러서 교환되는 경우를 음성 인식을 이용하여 자동으로 구현한다.
본 논문에서 구현한 음성 인식 시스템은 화자가 전화를 걸어 교환기를 거치면 음성 인식 자동 교환 시스템에서 음성 인식을 하여 시스템에 등록된 전화 번호로 자동 교환을 수행한다. 본 시스템은 관공서, 기업, 혹은 임의의 교환 서비스가 필요한 곳에서 사설 교환기를 통하여 교환원이 문답을 통하여 교환을 하거나 자동 안내 서비스에 접속한 후 서비스 시나리오에 따른 교환 번호를 추가로 사용자가 눌러서 교환되는 경우를 음성 인식을 이용하여 자동으로 구현한다.
HMM은 상태의 관찰 확률을 산출하는 방법에 따라, 이산 HMM, 반연속 HMM, 연속 HMM으로 나누어 진다. 본 논문에서는 코드북과 가우시안 확률 분포의 가중합을 함께 사용하는 반연속 HMM을 사용하여 구현하였다.
HMM은 상태의 관찰 확률을 산출하는 방법에 따라, 이산 HMM, 반연속 HMM, 연속 HMM으로 나누어 진다. 본 논문에서는 코드북과 가우시안 확률 분포의 가중합을 함께 사용하는 반연속 HMM을 사용하여 구현하였다.
본 논문에서 구현한 음성 인식 시스템은 화자가 전화를 걸어 교환기를 거치면 음성 인식 자동 교환 시스템에서 음성 인식을 하여 시스템에 등록된 전화 번호로 자동 교환을 수행한다. 본 시스템은 관공서, 기업, 혹은 임의의 교환 서비스가 필요한 곳에서 사설 교환기를 통하여 교환원이 문답을 통하여 교환을 하거나 자동 안내 서비스에 접속한 후 서비스 시나리오에 따른 교환 번호를 추가로 사용자가 눌러서 교환되는 경우를 음성 인식을 이용하여 자동으로 구현한다. 서비스를 위해서 구현한 음성 인식 시스템은 화자 독립 고립 단어 인식기로서, 임의의 사용자 모두가 사용할 수 있으며 사용자가 기억하기 용이한 사람 이름 혹은 부서명을 등록하여 이를 말하면 인식할수 있도록 하였다.
본 논문에서 구현한 음성 인식 시스템은 화자가 전화를 걸어 교환기를 거치면 음성 인식 자동 교환 시스템에서 음성 인식을 하여 시스템에 등록된 전화 번호로 자동 교환을 수행한다. 본 시스템은 관공서, 기업, 혹은 임의의 교환 서비스가 필요한 곳에서 사설 교환기를 통하여 교환원이 문답을 통하여 교환을 하거나 자동 안내 서비스에 접속한 후 서비스 시나리오에 따른 교환 번호를 추가로 사용자가 눌러서 교환되는 경우를 음성 인식을 이용하여 자동으로 구현한다. 서비스를 위해서 구현한 음성 인식 시스템은 화자 독립 고립 단어 인식기로서, 임의의 사용자 모두가 사용할 수 있으며 사용자가 기억하기 용이한 사람 이름 혹은 부서명을 등록하여 이를 말하면 인식할수 있도록 하였다.
본 시스템은 관공서, 기업, 혹은 임의의 교환 서비스가 필요한 곳에서 사설 교환기를 통하여 교환원이 문답을 통하여 교환을 하거나 자동 안내 서비스에 접속한 후 서비스 시나리오에 따른 교환 번호를 추가로 사용자가 눌러서 교환되는 경우를 음성 인식을 이용하여 자동으로 구현한다. 서비스를 위해서 구현한 음성 인식 시스템은 화자 독립 고립 단어 인식기로서, 임의의 사용자 모두가 사용할 수 있으며 사용자가 기억하기 용이한 사람 이름 혹은 부서명을 등록하여 이를 말하면 인식할수 있도록 하였다.
음성 인식 모듈의 실시간 구현을 위하여 25MIPS-(million instruction per second) 의 성능을 갖는 Texas Instrument 사의 TMS320C32-50 DSP를 사용하여 구현하 였으며, 메모리 사용의 최적화와 DSP 프로그램의 압축, 그리고 인식 알고리즘의 개선을 통하여 인식 속도 향상을 추구하였다.
음성 인식 모듈의 실시간 구현을 위하여 25MIPS-(million instruction per second) 의 성능을 갖는 Texas Instrument 사의 TMS320C32-50 DSP를 사용하여 구현하 였으며, 메모리 사용의 최적화와 DSP 프로그램의 압축, 그리고 인식 알고리즘의 개선을 통하여 인식 속도 향상을 추구하였다.
하나의 시스템이 원활히 역할을 수행하기 위해서는 여러 부분의 노력이 필요하다. 음성 인식 서비스이므로 인식률과 인식 시간이 중요한 요소이지만 그 외에도 사용자 습관을 고려한 약식 명칭, 민원 명칭의 추가 및 등록, 인식 대상 어휘 변경에 따른 용이한 적용, 진단 기능을 이용한 신뢰성 있는 서비스 제공 등 사용자 측면, 운용자 측면, 시스템 신뢰성 측면에서 많은 고려를 통해 구현하였다.
하나의 시스템이 원활히 역할을 수행하기 위해서는 여러 부분의 노력이 필요하다. 음성 인식 서비스이므로 인식률과 인식 시간이 중요한 요소이지만 그 외에도 사용자 습관을 고려한 약식 명칭, 민원 명칭의 추가 및 등록, 인식 대상 어휘 변경에 따른 용이한 적용, 진단 기능을 이용한 신뢰성 있는 서비스 제공 등 사용자 측면, 운용자 측면, 시스템 신뢰성 측면에서 많은 고려를 통해 구현하였다.
인식 과정에서는 인식 시간을 단축하기 위하여 비터비 빔 탐색과 목구조 탐색을 사용하였다. 비터비 빔 탐색은 비터비 탐색에서 최고 확률을 가지는 상태의 확률값보다 적당한 임계값만큼 작은 확률을 가지는 상태를 탐색 과정에서 제외시키는 방법이다.
인식 모델을 학습하는 방법은 수집된 데이터 베이스중 일부를 사람이 직접 표시하여 초기화 모델을 만든 후, mono-phone 학습과 tri-phone 학습을 순서대로 수행하였다. 학습은 최대 우도 방법인 Baum-Welch 재추정 알고 리듬을 이용하였다.
인식 실험은 사무실 환경에서 8명의 화자가 구내 자동 교환 서비스용 1311단어에 대해 유선 전화기를 이용, 직접 전화를 걸어 성공여부를 기록하는 방식의 on-line 시험을 수행하였으며 인식결과는 표3과 같다.
인식 실험은 사무실 환경에서 8명의 화자가 구내 자동 교환 서비스용 1311단어에 대해 유선 전화기를 이용, 직접 전화를 걸어 성공여부를 기록하는 방식의 on-line 시험을 수행하였으며 인식결과는 표3과 같다.
자동 교환 시스템을 위한 가변 어휘 화자 독립 음성 인식기 구현용 학습 음성 데이터 베이스 구축을 위하여 수집 대상 어휘의 단순한 발성의 나열이 아닌 인식 서비스를 실시간으로 수행하여 음성 데이터 베이스 구축 운용 시스템을 구현하였다. 음성 발성자가 실제 음성 인식 시스템 환경에서 수집 대상 어휘를 발성하므로 실제 서비스 상의 입력 음성과 학습용 음성 데이터 베이스의 차이를 극복하였다.
자동 교환 시스템을 위한 가변 어휘 화자 독립 음성 인식기 구현용 학습 음성 데이터 베이스 구축을 위하여 수집 대상 어휘의 단순한 발성의 나열이 아닌 인식 서비스를 실시간으로 수행하여 음성 데이터 베이스 구축 운용 시스템을 구현하였다. 음성 발성자가 실제 음성 인식 시스템 환경에서 수집 대상 어휘를 발성하므로 실제 서비스 상의 입력 음성과 학습용 음성 데이터 베이스의 차이를 극복하였다.
학습 환경과 인식 수행 환경에서의 채널 잡음을 제거하기 위하여 cepstral mean subtraction을 사용하였다. 채널 잡음은 캡스트럼 특징 벡터에 평균 이동의 영향을 끼치므로 입력 특징 벡터의 평균을 제거하는 cepstral mean subtraction 을 사용하여 전화망에서 강인한 음성 인식 시스템을 구현하였다.
학습 환경과 인식 수행 환경에서의 채널 잡음을 제거하기 위하여 cepstral mean subtraction을 사용하였다. 채널 잡음은 캡스트럼 특징 벡터에 평균 이동의 영향을 끼치므로 입력 특징 벡터의 평균을 제거하는 cepstral mean subtraction 을 사용하여 전화망에서 강인한 음성 인식 시스템을 구현하였다.
학습은 최대 우도 방법인 Baum-Welch 재추정 알고 리듬을 이용하였다. 학습 후 인식 모델의 신뢰성 및 속도 개선을 위해 상태 병합(state tying)을 수행해서 모두 1000 개의 상태를 구성하고 다시 학습하였다.
학습은 최대 우도 방법인 Baum-Welch 재추정 알고 리듬을 이용하였다. 학습 후 인식 모델의 신뢰성 및 속도 개선을 위해 상태 병합(state tying)을 수행해서 모두 1000 개의 상태를 구성하고 다시 학습하였다.
현재 하남 시청에서 시험 서비스 중인 음성 인식 자동 교환 시스템을 기반으로 아래의 성능 평가 및 결과를 산출하였다.

대상 데이터

따라서, 음성을 음소 단위로 모델링하여 인식 대상 집합을 새로 구성하였을 때 학습된 음소 모델을 조합하여 단어를 모델링한다. 음소 모델링의 성능을 높이기 위하여 전후 발성된 음소에 따라 다르게 모델링 하는 tri-phone과 독립된 음소를 모델링하는 mono-phone을 이용하였다.
따라서, 음성을 음소 단위로 모델링하여 인식 대상 집합을 새로 구성하였을 때 학습된 음소 모델을 조합하여 단어를 모델링한다. 음소 모델링의 성능을 높이기 위하여 전후 발성된 음소에 따라 다르게 모델링 하는 tri-phone과 독립된 음소를 모델링하는 mono-phone을 이용하였다.

이론/모형

특징 벡터는 자기상관 계수(autocorrelation) 방법을 사용하여 12차 LPC 켑스트럼 계수를 구하고 24차의 차분 켑트스럼(4어& 간격 12차 + 80ms 간격 12차), 12차의 이차 차분 켑스트럼, 그리고 에너지, 일차 차분 에너지, 이차 차분 에너지로 구성된다.학습 환경과 인식 수행 환경에서의 채널 잡음을 제거하기 위하여 cepstral mean subtraction을 사용하였다. 채널 잡음은 캡스트럼 특징 벡터에 평균 이동의 영향을 끼치므로 입력 특징 벡터의 평균을 제거하는 cepstral mean subtraction 을 사용하여 전화망에서 강인한 음성 인식 시스템을 구현하였다.
특징 벡터는 자기상관 계수(autocorrelation) 방법을 사용하여 12차 LPC 켑스트럼 계수를 구하고 24차의 차분 켑트스럼(4어& 간격 12차 + 80ms 간격 12차), 12차의 이차 차분 켑스트럼, 그리고 에너지, 일차 차분 에너지, 이차 차분 에너지로 구성된다.학습 환경과 인식 수행 환경에서의 채널 잡음을 제거하기 위하여 cepstral mean subtraction을 사용하였다. 채널 잡음은 캡스트럼 특징 벡터에 평균 이동의 영향을 끼치므로 입력 특징 벡터의 평균을 제거하는 cepstral mean subtraction 을 사용하여 전화망에서 강인한 음성 인식 시스템을 구현하였다.
인식 모델을 학습하는 방법은 수집된 데이터 베이스중 일부를 사람이 직접 표시하여 초기화 모델을 만든 후, mono-phone 학습과 tri-phone 학습을 순서대로 수행하였다. 학습은 최대 우도 방법인 Baum-Welch 재추정 알고 리듬을 이용하였다. 학습 후 인식 모델의 신뢰성 및 속도 개선을 위해 상태 병합(state tying)을 수행해서 모두 1000 개의 상태를 구성하고 다시 학습하였다.
인식 모델을 학습하는 방법은 수집된 데이터 베이스중 일부를 사람이 직접 표시하여 초기화 모델을 만든 후, mono-phone 학습과 tri-phone 학습을 순서대로 수행하였다. 학습은 최대 우도 방법인 Baum-Welch 재추정 알고 리듬을 이용하였다. 학습 후 인식 모델의 신뢰성 및 속도 개선을 위해 상태 병합(state tying)을 수행해서 모두 1000 개의 상태를 구성하고 다시 학습하였다.

성능/효과

인식 대상 어휘가 학습 시에 고정되는 것이 아니라 변경이 가능한 가변 어휘를 구현하기 위해서는 인식 단위를 음소 단위로 하여 인식 대상 어휘 목록에 따라 음소의 재배열로 인식 대상을 구성하는 기능이 필요하다. 본 논문에서 구현된 음성 인식 시스템은 mono-phone과 tri-phone을 사용하여 가변 어휘 구현 및 성능 향상을 꾀하였다.
자동 교환 시스템을 위한 가변 어휘 화자 독립 음성 인식기 구현용 학습 음성 데이터 베이스 구축을 위하여 수집 대상 어휘의 단순한 발성의 나열이 아닌 인식 서비스를 실시간으로 수행하여 음성 데이터 베이스 구축 운용 시스템을 구현하였다. 음성 발성자가 실제 음성 인식 시스템 환경에서 수집 대상 어휘를 발성하므로 실제 서비스 상의 입력 음성과 학습용 음성 데이터 베이스의 차이를 극복하였다.
자동 교환 시스템을 위한 가변 어휘 화자 독립 음성 인식기 구현용 학습 음성 데이터 베이스 구축을 위하여 수집 대상 어휘의 단순한 발성의 나열이 아닌 인식 서비스를 실시간으로 수행하여 음성 데이터 베이스 구축 운용 시스템을 구현하였다. 음성 발성자가 실제 음성 인식 시스템 환경에서 수집 대상 어휘를 발성하므로 실제 서비스 상의 입력 음성과 학습용 음성 데이터 베이스의 차이를 극복하였다.

후속연구

향후 다양한 환경과 화자 특성에 강인한 인식기의 구현, 거절 기능 및 핵심어 인식을 이용한 서비스 이용자의 편이성 수용에 관한 연구와 인식기의 성능과 적용 분야를 고려한 서비스 시나리오의 연구와 개선은 지속적으로 진행되어야 할 것이라 고려되며, 음성 인식 서비스의 대중화 및 효율성 향상을 위하여 고속의 DSP를 기반으로 실간 다 채널 음성 인식기의 구현이 필요하다.
향후 다양한 환경과 화자 특성에 강인한 인식기의 구현, 거절 기능 및 핵심어 인식을 이용한 서비스 이용자의 편이성 수용에 관한 연구와 인식기의 성능과 적용 분야를 고려한 서비스 시나리오의 연구와 개선은 지속적으로 진행되어야 할 것이라 고려되며, 음성 인식 서비스의 대중화 및 효율성 향상을 위하여 고속의 DSP를 기반으로 실간 다 채널 음성 인식기의 구현이 필요하다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

[국내논문] 자동 교환 시스템을 위한 실시간 음성 인식 구현
An Implementation of the Real Time Speech Recognition for the Automatic Switching System 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

[국내논문] 자동 교환 시스템을 위한 실시간 음성 인식 구현 An Implementation of the Real Time Speech Recognition for the Automatic Switching System 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

[국내논문] 자동 교환 시스템을 위한 실시간 음성 인식 구현
An Implementation of the Real Time Speech Recognition for the Automatic Switching System 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper