박익현
(LG정보통신 디지털 네트워크연구소, 미디어 기기실)
,
이재성
(LG정보통신 디지털 네트워크연구소, 미디어 기기실)
,
김현아
(LG정보통신 디지털 네트워크연구소, 미디어 기기실)
,
함정표
(LG정보통신 디지털 네트워크연구소, 미디어 기기실)
,
유승균
(LG정보통신 디지털 네트워크연구소, 미디어 기기실)
,
강해익
(LG정보통신 디지털 네트워크연구소, 미디어 기기실)
,
박성현
(LG정보통신 디지털 네트워크연구소, 미디어 기기실)
본 논문에서는 음성 인식을 이용한 자동 교환 시스템을 구현하고, 성능을 평가하였다. 이 시스템은 다수의 구성원과 조직 체계를 가지는 관공서나 일반 기업, 학교 등의 교환 서비스를 음성 인식을 통하여 자동으로 제공한다. 본 시스템에 사용된 음성 인식기는 SCHMM(Semi-Continuous Hidden Markov Model) 기반으로 한 전화망에서의 화자 독립 고립 단어 가변 어휘인식기(Speaker-Independent, Isolated-Word, Flexible-Vocabulary Recognizer)이며, 실시간 구현을 위해 사용한 DSP(Digital Signal Processor)는 Texas Instrument 사의 TMS320C32이다. 자동 교환 서비스를 위하여 음성 인식 기능 외에도 음성 인식 DSP 진단 기능과 인식 대상 어휘의 추가 및 변경을 위한 운용 단말을 구현하여 운용의 편의성을 추구하였다. 본 시스템의 인식 실험은 음성 인식 구내 자동 교환 시스템용 1300여 어휘(부서명, 인명 등)에 대해서 8명의 화자가 유선 전화망에서 수행하였으며 인식률은 91.5%이다.
본 논문에서는 음성 인식을 이용한 자동 교환 시스템을 구현하고, 성능을 평가하였다. 이 시스템은 다수의 구성원과 조직 체계를 가지는 관공서나 일반 기업, 학교 등의 교환 서비스를 음성 인식을 통하여 자동으로 제공한다. 본 시스템에 사용된 음성 인식기는 SCHMM(Semi-Continuous Hidden Markov Model) 기반으로 한 전화망에서의 화자 독립 고립 단어 가변 어휘인식기(Speaker-Independent, Isolated-Word, Flexible-Vocabulary Recognizer)이며, 실시간 구현을 위해 사용한 DSP(Digital Signal Processor)는 Texas Instrument 사의 TMS320C32이다. 자동 교환 서비스를 위하여 음성 인식 기능 외에도 음성 인식 DSP 진단 기능과 인식 대상 어휘의 추가 및 변경을 위한 운용 단말을 구현하여 운용의 편의성을 추구하였다. 본 시스템의 인식 실험은 음성 인식 구내 자동 교환 시스템용 1300여 어휘(부서명, 인명 등)에 대해서 8명의 화자가 유선 전화망에서 수행하였으며 인식률은 91.5%이다.
This paper describes the implementation and the evaluation of the speech recognition automatic exchange system. The system provides government or public offices, companies, educational institutions that are composed of large number of members and parts with exchange service using speech recognition ...
This paper describes the implementation and the evaluation of the speech recognition automatic exchange system. The system provides government or public offices, companies, educational institutions that are composed of large number of members and parts with exchange service using speech recognition technology. The recognizer of the system is a Speaker-Independent, Isolated-word, Flexible-Vocabulary recognizer based on SCHMM(Semi-Continuous Hidden Markov Model). For real-time implementation, DSP TMS320C32 made in Texas Instrument Inc. is used. The system operating terminal including the diagnosis of speech recognition DSP and the alternation of speech recognition candidates makes operation easy. In this experiment, 8 speakers pronounced words of 1,300 vocabulary related to automatic exchange system over wire telephone network and the recognition system achieved 91.5% of word accuracy.
This paper describes the implementation and the evaluation of the speech recognition automatic exchange system. The system provides government or public offices, companies, educational institutions that are composed of large number of members and parts with exchange service using speech recognition technology. The recognizer of the system is a Speaker-Independent, Isolated-word, Flexible-Vocabulary recognizer based on SCHMM(Semi-Continuous Hidden Markov Model). For real-time implementation, DSP TMS320C32 made in Texas Instrument Inc. is used. The system operating terminal including the diagnosis of speech recognition DSP and the alternation of speech recognition candidates makes operation easy. In this experiment, 8 speakers pronounced words of 1,300 vocabulary related to automatic exchange system over wire telephone network and the recognition system achieved 91.5% of word accuracy.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 논문에서는 현재 운용되고 있는 음성 인식 구내 자동 교환 시스템을 전반적으로 살펴보았다.
본 논문에서는 현재 운용되고 있는 음성 인식 구내 자동 교환 시스템을 전반적으로 살펴보았다.
이에 따라 전화를 좀 더 편하게 사용하고자 하는 요구 역시 팽창하고 있는 실정이다. 이러한 측면에서 본 논문에서는 과거 오랜 기간 동안 많은 발전을 해온 음성 인식을 교환기에 적용하여 자동 교환 시스템을 구현하고 평가하였다.
이에 따라 전화를 좀 더 편하게 사용하고자 하는 요구 역시 팽창하고 있는 실정이다. 이러한 측면에서 본 논문에서는 과거 오랜 기간 동안 많은 발전을 해온 음성 인식을 교환기에 적용하여 자동 교환 시스템을 구현하고 평가하였다.
제안 방법
HMMe 상태의 관찰 확률을 산출하는방법에 따라, 이산 HMM, 반연속 HMM, 연속 HMM으로나누어 진다.
음성 인식 구내 자동 교환 시스템은 특정 부서나 사람의 전화 번호를 외우지 않고서도 부서명이나 인명을 발성함 으로써 해당 전화 번호로 연결하므로 사용자는 편리하지만 부서나 인원의 추가, 삭제, 변경에 따른 인식 대상 어휘의 변경 발생시 인식 대상 어휘의 변경이 뒤따라야 한다는 측면에서 운용자는 인식 모듈 자체를 교체하거나 인식 모델을 재생성하는 어려움이 있다. 그러나, 이러한 작업을 운용단말 GUI(graphic User Interface) 를 통해 이루어지게 함으로써 부서나 인원의 추가, 삭제, 변경 사항만 입력하면 자동으로 인식 모델을 생성할 뿐만 아니라 운용자의 실수로 인하여 생길 수 있는 오류를 최소화 하도록 하였다. 즉, VIPS-H瑜의 운용단말에서 부서나 인원의 리스트 및 전화번호 등 필요한 정보를 데이터 베이스로 구축하여 관리하고 변동 사항이 생길 시 운용자는 GUI를 통해 편집하고 적용 버튼을 누르면 자동으로 새로운 인식 모델이 생성된 후, 시스템으로 전송되어 각 인식 모듈의 해당 메모리의 위치로 전송되어 인식 대상 어휘의 변경이 실시간 적용된다.
인식 대상이 가변 독립 단어이므로 인식 대상 집합이 변할 수 있다. 따라서, 음성을 음소 단위로 모델링하여 인식 대상 집합을 새로 구성하였을 때 학습된 음소 모델을 조합하여 단어를 모델링한다. 음소 모델링의 성능을 높이기 위하여 전후 발성된 음소에 따라 다르게 모델링 하는 tri-phone과 독립된 음소를 모델링하는 mono-phone을 이용하였다.
인식 대상 어휘가 학습 시에 고정되는 것이 아니라 변경이 가능한 가변 어휘를 구현하기 위해서는 인식 단위를 음소 단위로 하여 인식 대상 어휘 목록에 따라 음소의 재배열로 인식 대상을 구성하는 기능이 필요하다. 본 논문에서 구현된 음성 인식 시스템은 mono-phone과 tri-phone을 사용하여 가변 어휘 구현 및 성능 향상을 꾀하였다.
본 논문에서 구현한 음성 인식 시스템은 화자가 전화를 걸어 교환기를 거치면 음성 인식 자동 교환 시스템에서 음성 인식을 하여 시스템에 등록된 전화 번호로 자동 교환을 수행한다. 본 시스템은 관공서, 기업, 혹은 임의의 교환 서비스가 필요한 곳에서 사설 교환기를 통하여 교환원이 문답을 통하여 교환을 하거나 자동 안내 서비스에 접속한 후 서비스 시나리오에 따른 교환 번호를 추가로 사용자가 눌러서 교환되는 경우를 음성 인식을 이용하여 자동으로 구현한다.
본 논문에서 구현한 음성 인식 시스템은 화자가 전화를 걸어 교환기를 거치면 음성 인식 자동 교환 시스템에서 음성 인식을 하여 시스템에 등록된 전화 번호로 자동 교환을 수행한다. 본 시스템은 관공서, 기업, 혹은 임의의 교환 서비스가 필요한 곳에서 사설 교환기를 통하여 교환원이 문답을 통하여 교환을 하거나 자동 안내 서비스에 접속한 후 서비스 시나리오에 따른 교환 번호를 추가로 사용자가 눌러서 교환되는 경우를 음성 인식을 이용하여 자동으로 구현한다.
HMM은 상태의 관찰 확률을 산출하는 방법에 따라, 이산 HMM, 반연속 HMM, 연속 HMM으로 나누어 진다. 본 논문에서는 코드북과 가우시안 확률 분포의 가중합을 함께 사용하는 반연속 HMM을 사용하여 구현하였다.
HMM은 상태의 관찰 확률을 산출하는 방법에 따라, 이산 HMM, 반연속 HMM, 연속 HMM으로 나누어 진다. 본 논문에서는 코드북과 가우시안 확률 분포의 가중합을 함께 사용하는 반연속 HMM을 사용하여 구현하였다.
본 논문에서 구현한 음성 인식 시스템은 화자가 전화를 걸어 교환기를 거치면 음성 인식 자동 교환 시스템에서 음성 인식을 하여 시스템에 등록된 전화 번호로 자동 교환을 수행한다. 본 시스템은 관공서, 기업, 혹은 임의의 교환 서비스가 필요한 곳에서 사설 교환기를 통하여 교환원이 문답을 통하여 교환을 하거나 자동 안내 서비스에 접속한 후 서비스 시나리오에 따른 교환 번호를 추가로 사용자가 눌러서 교환되는 경우를 음성 인식을 이용하여 자동으로 구현한다. 서비스를 위해서 구현한 음성 인식 시스템은 화자 독립 고립 단어 인식기로서, 임의의 사용자 모두가 사용할 수 있으며 사용자가 기억하기 용이한 사람 이름 혹은 부서명을 등록하여 이를 말하면 인식할수 있도록 하였다.
본 논문에서 구현한 음성 인식 시스템은 화자가 전화를 걸어 교환기를 거치면 음성 인식 자동 교환 시스템에서 음성 인식을 하여 시스템에 등록된 전화 번호로 자동 교환을 수행한다. 본 시스템은 관공서, 기업, 혹은 임의의 교환 서비스가 필요한 곳에서 사설 교환기를 통하여 교환원이 문답을 통하여 교환을 하거나 자동 안내 서비스에 접속한 후 서비스 시나리오에 따른 교환 번호를 추가로 사용자가 눌러서 교환되는 경우를 음성 인식을 이용하여 자동으로 구현한다. 서비스를 위해서 구현한 음성 인식 시스템은 화자 독립 고립 단어 인식기로서, 임의의 사용자 모두가 사용할 수 있으며 사용자가 기억하기 용이한 사람 이름 혹은 부서명을 등록하여 이를 말하면 인식할수 있도록 하였다.
본 시스템은 관공서, 기업, 혹은 임의의 교환 서비스가 필요한 곳에서 사설 교환기를 통하여 교환원이 문답을 통하여 교환을 하거나 자동 안내 서비스에 접속한 후 서비스 시나리오에 따른 교환 번호를 추가로 사용자가 눌러서 교환되는 경우를 음성 인식을 이용하여 자동으로 구현한다. 서비스를 위해서 구현한 음성 인식 시스템은 화자 독립 고립 단어 인식기로서, 임의의 사용자 모두가 사용할 수 있으며 사용자가 기억하기 용이한 사람 이름 혹은 부서명을 등록하여 이를 말하면 인식할수 있도록 하였다.
음성 인식 모듈의 실시간 구현을 위하여 25MIPS-(million instruction per second) 의 성능을 갖는 Texas Instrument 사의 TMS320C32-50 DSP를 사용하여 구현하 였으며, 메모리 사용의 최적화와 DSP 프로그램의 압축, 그리고 인식 알고리즘의 개선을 통하여 인식 속도 향상을 추구하였다.
음성 인식 모듈의 실시간 구현을 위하여 25MIPS-(million instruction per second) 의 성능을 갖는 Texas Instrument 사의 TMS320C32-50 DSP를 사용하여 구현하 였으며, 메모리 사용의 최적화와 DSP 프로그램의 압축, 그리고 인식 알고리즘의 개선을 통하여 인식 속도 향상을 추구하였다.
하나의 시스템이 원활히 역할을 수행하기 위해서는 여러 부분의 노력이 필요하다. 음성 인식 서비스이므로 인식률과 인식 시간이 중요한 요소이지만 그 외에도 사용자 습관을 고려한 약식 명칭, 민원 명칭의 추가 및 등록, 인식 대상 어휘 변경에 따른 용이한 적용, 진단 기능을 이용한 신뢰성 있는 서비스 제공 등 사용자 측면, 운용자 측면, 시스템 신뢰성 측면에서 많은 고려를 통해 구현하였다.
하나의 시스템이 원활히 역할을 수행하기 위해서는 여러 부분의 노력이 필요하다. 음성 인식 서비스이므로 인식률과 인식 시간이 중요한 요소이지만 그 외에도 사용자 습관을 고려한 약식 명칭, 민원 명칭의 추가 및 등록, 인식 대상 어휘 변경에 따른 용이한 적용, 진단 기능을 이용한 신뢰성 있는 서비스 제공 등 사용자 측면, 운용자 측면, 시스템 신뢰성 측면에서 많은 고려를 통해 구현하였다.
인식 과정에서는 인식 시간을 단축하기 위하여 비터비 빔 탐색과 목구조 탐색을 사용하였다. 비터비 빔 탐색은 비터비 탐색에서 최고 확률을 가지는 상태의 확률값보다 적당한 임계값만큼 작은 확률을 가지는 상태를 탐색 과정에서 제외시키는 방법이다.
인식 모델을 학습하는 방법은 수집된 데이터 베이스중 일부를 사람이 직접 표시하여 초기화 모델을 만든 후, mono-phone 학습과 tri-phone 학습을 순서대로 수행하였다. 학습은 최대 우도 방법인 Baum-Welch 재추정 알고 리듬을 이용하였다.
인식 실험은 사무실 환경에서 8명의 화자가 구내 자동 교환 서비스용 1311단어에 대해 유선 전화기를 이용, 직접 전화를 걸어 성공여부를 기록하는 방식의 on-line 시험을 수행하였으며 인식결과는 표3과 같다.
인식 실험은 사무실 환경에서 8명의 화자가 구내 자동 교환 서비스용 1311단어에 대해 유선 전화기를 이용, 직접 전화를 걸어 성공여부를 기록하는 방식의 on-line 시험을 수행하였으며 인식결과는 표3과 같다.
자동 교환 시스템을 위한 가변 어휘 화자 독립 음성 인식기 구현용 학습 음성 데이터 베이스 구축을 위하여 수집 대상 어휘의 단순한 발성의 나열이 아닌 인식 서비스를 실시간으로 수행하여 음성 데이터 베이스 구축 운용 시스템을 구현하였다. 음성 발성자가 실제 음성 인식 시스템 환경에서 수집 대상 어휘를 발성하므로 실제 서비스 상의 입력 음성과 학습용 음성 데이터 베이스의 차이를 극복하였다.
자동 교환 시스템을 위한 가변 어휘 화자 독립 음성 인식기 구현용 학습 음성 데이터 베이스 구축을 위하여 수집 대상 어휘의 단순한 발성의 나열이 아닌 인식 서비스를 실시간으로 수행하여 음성 데이터 베이스 구축 운용 시스템을 구현하였다. 음성 발성자가 실제 음성 인식 시스템 환경에서 수집 대상 어휘를 발성하므로 실제 서비스 상의 입력 음성과 학습용 음성 데이터 베이스의 차이를 극복하였다.
학습 환경과 인식 수행 환경에서의 채널 잡음을 제거하기 위하여 cepstral mean subtraction을 사용하였다. 채널 잡음은 캡스트럼 특징 벡터에 평균 이동의 영향을 끼치므로 입력 특징 벡터의 평균을 제거하는 cepstral mean subtraction 을 사용하여 전화망에서 강인한 음성 인식 시스템을 구현하였다.
학습 환경과 인식 수행 환경에서의 채널 잡음을 제거하기 위하여 cepstral mean subtraction을 사용하였다. 채널 잡음은 캡스트럼 특징 벡터에 평균 이동의 영향을 끼치므로 입력 특징 벡터의 평균을 제거하는 cepstral mean subtraction 을 사용하여 전화망에서 강인한 음성 인식 시스템을 구현하였다.
학습은 최대 우도 방법인 Baum-Welch 재추정 알고 리듬을 이용하였다. 학습 후 인식 모델의 신뢰성 및 속도 개선을 위해 상태 병합(state tying)을 수행해서 모두 1000 개의 상태를 구성하고 다시 학습하였다.
학습은 최대 우도 방법인 Baum-Welch 재추정 알고 리듬을 이용하였다. 학습 후 인식 모델의 신뢰성 및 속도 개선을 위해 상태 병합(state tying)을 수행해서 모두 1000 개의 상태를 구성하고 다시 학습하였다.
현재 하남 시청에서 시험 서비스 중인 음성 인식 자동 교환 시스템을 기반으로 아래의 성능 평가 및 결과를 산출하였다.
대상 데이터
따라서, 음성을 음소 단위로 모델링하여 인식 대상 집합을 새로 구성하였을 때 학습된 음소 모델을 조합하여 단어를 모델링한다. 음소 모델링의 성능을 높이기 위하여 전후 발성된 음소에 따라 다르게 모델링 하는 tri-phone과 독립된 음소를 모델링하는 mono-phone을 이용하였다.
따라서, 음성을 음소 단위로 모델링하여 인식 대상 집합을 새로 구성하였을 때 학습된 음소 모델을 조합하여 단어를 모델링한다. 음소 모델링의 성능을 높이기 위하여 전후 발성된 음소에 따라 다르게 모델링 하는 tri-phone과 독립된 음소를 모델링하는 mono-phone을 이용하였다.
이론/모형
특징 벡터는 자기상관 계수(autocorrelation) 방법을 사용하여 12차 LPC 켑스트럼 계수를 구하고 24차의 차분 켑트스럼(4어& 간격 12차 + 80ms 간격 12차), 12차의 이차 차분 켑스트럼, 그리고 에너지, 일차 차분 에너지, 이차 차분 에너지로 구성된다.학습 환경과 인식 수행 환경에서의 채널 잡음을 제거하기 위하여 cepstral mean subtraction을 사용하였다. 채널 잡음은 캡스트럼 특징 벡터에 평균 이동의 영향을 끼치므로 입력 특징 벡터의 평균을 제거하는 cepstral mean subtraction 을 사용하여 전화망에서 강인한 음성 인식 시스템을 구현하였다.
특징 벡터는 자기상관 계수(autocorrelation) 방법을 사용하여 12차 LPC 켑스트럼 계수를 구하고 24차의 차분 켑트스럼(4어& 간격 12차 + 80ms 간격 12차), 12차의 이차 차분 켑스트럼, 그리고 에너지, 일차 차분 에너지, 이차 차분 에너지로 구성된다.학습 환경과 인식 수행 환경에서의 채널 잡음을 제거하기 위하여 cepstral mean subtraction을 사용하였다. 채널 잡음은 캡스트럼 특징 벡터에 평균 이동의 영향을 끼치므로 입력 특징 벡터의 평균을 제거하는 cepstral mean subtraction 을 사용하여 전화망에서 강인한 음성 인식 시스템을 구현하였다.
인식 모델을 학습하는 방법은 수집된 데이터 베이스중 일부를 사람이 직접 표시하여 초기화 모델을 만든 후, mono-phone 학습과 tri-phone 학습을 순서대로 수행하였다. 학습은 최대 우도 방법인 Baum-Welch 재추정 알고 리듬을 이용하였다. 학습 후 인식 모델의 신뢰성 및 속도 개선을 위해 상태 병합(state tying)을 수행해서 모두 1000 개의 상태를 구성하고 다시 학습하였다.
인식 모델을 학습하는 방법은 수집된 데이터 베이스중 일부를 사람이 직접 표시하여 초기화 모델을 만든 후, mono-phone 학습과 tri-phone 학습을 순서대로 수행하였다. 학습은 최대 우도 방법인 Baum-Welch 재추정 알고 리듬을 이용하였다. 학습 후 인식 모델의 신뢰성 및 속도 개선을 위해 상태 병합(state tying)을 수행해서 모두 1000 개의 상태를 구성하고 다시 학습하였다.
성능/효과
인식 대상 어휘가 학습 시에 고정되는 것이 아니라 변경이 가능한 가변 어휘를 구현하기 위해서는 인식 단위를 음소 단위로 하여 인식 대상 어휘 목록에 따라 음소의 재배열로 인식 대상을 구성하는 기능이 필요하다. 본 논문에서 구현된 음성 인식 시스템은 mono-phone과 tri-phone을 사용하여 가변 어휘 구현 및 성능 향상을 꾀하였다.
자동 교환 시스템을 위한 가변 어휘 화자 독립 음성 인식기 구현용 학습 음성 데이터 베이스 구축을 위하여 수집 대상 어휘의 단순한 발성의 나열이 아닌 인식 서비스를 실시간으로 수행하여 음성 데이터 베이스 구축 운용 시스템을 구현하였다. 음성 발성자가 실제 음성 인식 시스템 환경에서 수집 대상 어휘를 발성하므로 실제 서비스 상의 입력 음성과 학습용 음성 데이터 베이스의 차이를 극복하였다.
자동 교환 시스템을 위한 가변 어휘 화자 독립 음성 인식기 구현용 학습 음성 데이터 베이스 구축을 위하여 수집 대상 어휘의 단순한 발성의 나열이 아닌 인식 서비스를 실시간으로 수행하여 음성 데이터 베이스 구축 운용 시스템을 구현하였다. 음성 발성자가 실제 음성 인식 시스템 환경에서 수집 대상 어휘를 발성하므로 실제 서비스 상의 입력 음성과 학습용 음성 데이터 베이스의 차이를 극복하였다.
후속연구
향후 다양한 환경과 화자 특성에 강인한 인식기의 구현, 거절 기능 및 핵심어 인식을 이용한 서비스 이용자의 편이성 수용에 관한 연구와 인식기의 성능과 적용 분야를 고려한 서비스 시나리오의 연구와 개선은 지속적으로 진행되어야 할 것이라 고려되며, 음성 인식 서비스의 대중화 및 효율성 향상을 위하여 고속의 DSP를 기반으로 실간 다 채널 음성 인식기의 구현이 필요하다.
향후 다양한 환경과 화자 특성에 강인한 인식기의 구현, 거절 기능 및 핵심어 인식을 이용한 서비스 이용자의 편이성 수용에 관한 연구와 인식기의 성능과 적용 분야를 고려한 서비스 시나리오의 연구와 개선은 지속적으로 진행되어야 할 것이라 고려되며, 음성 인식 서비스의 대중화 및 효율성 향상을 위하여 고속의 DSP를 기반으로 실간 다 채널 음성 인식기의 구현이 필요하다.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.