음성 인식기의 오류는 음성기반 응용 시스템들의 성능에 크게 영향을 주기 때문에 오류를 줄이기 위한 효과적인 처리 방법이 필요하다. 기존의 후처리 기법들은 수동 작업을 통한 코퍼스나 규칙으로 후처리를 수행하는 것이 일반적이다. 본 논문에서는 문제나 인식기의 특성에 무관하게 자동으로 학습할 수 있는 후처리 모델을 제안한다. 후처리의 문제를 오류의 인식과 수정으로 구분하고 오류 검출 문제는 순차적인 분류 문제로 간주하여 conditional random fields(CRFs)를 사용하고 오류 수정 규칙은 transformation-based learning(TBL)을 이용하여 자동 생성하여 적용하였다. 제안한 방법을 여행 예약 영역의 음성 인식기에 적용한 결과 삽입, 삭제, 치환 오류를 각각 25.85%, 3.57%, 7.42%을 수정하였으며, 이로 인해 인식기의 어휘 오류율을 2% 감소시킬 수 있었다.
음성 인식기의 오류는 음성기반 응용 시스템들의 성능에 크게 영향을 주기 때문에 오류를 줄이기 위한 효과적인 처리 방법이 필요하다. 기존의 후처리 기법들은 수동 작업을 통한 코퍼스나 규칙으로 후처리를 수행하는 것이 일반적이다. 본 논문에서는 문제나 인식기의 특성에 무관하게 자동으로 학습할 수 있는 후처리 모델을 제안한다. 후처리의 문제를 오류의 인식과 수정으로 구분하고 오류 검출 문제는 순차적인 분류 문제로 간주하여 conditional random fields(CRFs)를 사용하고 오류 수정 규칙은 transformation-based learning(TBL)을 이용하여 자동 생성하여 적용하였다. 제안한 방법을 여행 예약 영역의 음성 인식기에 적용한 결과 삽입, 삭제, 치환 오류를 각각 25.85%, 3.57%, 7.42%을 수정하였으며, 이로 인해 인식기의 어휘 오류율을 2% 감소시킬 수 있었다.
In the applications of a human speech interface, reducing the error rate in recognition is the one of the main research issues. Many previous studies attempted to correct errors using post-processing, which is dependent on a manually constructed corpus and correction patterns. We propose an automati...
In the applications of a human speech interface, reducing the error rate in recognition is the one of the main research issues. Many previous studies attempted to correct errors using post-processing, which is dependent on a manually constructed corpus and correction patterns. We propose an automatically learnable post-processing method that is independent of the characteristics of both the domain and the speech recognizer. We divide the entire post-processing task into two steps: error detection and error correction. We consider the error detection step as a classification problem for which we apply the conditional random fields (CRFs) classifier. Furthermore, we apply transformation-based learning (TBL) to the error correction step. Our experimental results indicate that the proposed method corrects a speech recognizer's insertion, deletion, and substitution errors by 25.85%, 3.57%, and 7.42%, respectively.
In the applications of a human speech interface, reducing the error rate in recognition is the one of the main research issues. Many previous studies attempted to correct errors using post-processing, which is dependent on a manually constructed corpus and correction patterns. We propose an automatically learnable post-processing method that is independent of the characteristics of both the domain and the speech recognizer. We divide the entire post-processing task into two steps: error detection and error correction. We consider the error detection step as a classification problem for which we apply the conditional random fields (CRFs) classifier. Furthermore, we apply transformation-based learning (TBL) to the error correction step. Our experimental results indicate that the proposed method corrects a speech recognizer's insertion, deletion, and substitution errors by 25.85%, 3.57%, and 7.42%, respectively.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
수동 작업의 부담은 영역이나 인식기 변화 예 따라 비용을 요구하기 때문에 활용도가 낮아진다. 따라서 우리는 기계 학습 방법을 이용하여 수동 지식이나 외부 지식 없이 인식기의 성능을 높여줄 수 있는 후처리 방법을 제안한다. 제안 방법은 음성 인식기 학습을 위해 이용된 음성 전사 데이터와 인식기의 출력 만을 사용하고 추가적인 수동 작업을 요구하지 않는다.
제안 방법
본 논문은 CRFs와 ?BL을 이용하여 음성 인식기의 후처리 방법을 제안하였다. 제안방법은 전사된 문장 정보와 인식 결과만을 가지고 모든 과정이 자동으로 진행된다’ 따라서 코퍼스 개발에 수동 노력이 필요하지 않고, 영역전이나 인식기 변화에도 재학습 과정을 통해 쉽게 적용될 수 있다.
그러나 본 논문의 경우 어휘를 직접 수정하기 위한 용도로 사용되기 때문에 오류검출기에서 제공되는 편집 연산 열을 입력으로, 인식 열을 수정하여 정답에 맞게 변형한다. TBLe 규칙을 생성할 수 있는 템플릿을 작성하여 자동으로 규칙을 학습한다. 우리는 오류 발생 위치의 좌우 어휘를 고려하여 아래의 표 3과 같은 총 65개의 템플릿을 작성하여 TBL 규칙을 학습하였다.
TBLe 품사 태깅, 개체명 인식 등 다양한 분야에 이용되었는데 주로 입력 어휘에 대해 범주를 할당하는 용도로 이용되었다. 그러나 본 논문의 경우 어휘를 직접 수정하기 위한 용도로 사용되기 때문에 오류검출기에서 제공되는 편집 연산 열을 입력으로, 인식 열을 수정하여 정답에 맞게 변형한다. TBLe 규칙을 생성할 수 있는 템플릿을 작성하여 자동으로 규칙을 학습한다.
오류 수정 규칙을 수동으로 구축하는 것이 정확하고 직관적이지만 수동 구축된 규칙들은 인식기나 영역에 의존적이기 때문에 확장성이 부족하다. 따라서 이 문제를 해소하기 위해 규칙을 자동으로 학습하는 방법을 사용하였다. 코퍼스에서 자동으로 오류 수정 규칙을 학습하기 위해 우리는 변형 기반 학습(TBL: Transformation-based Learning⑻을 이용하였다.
TBLe 규칙을 생성할 수 있는 템플릿을 작성하여 자동으로 규칙을 학습한다. 우리는 오류 발생 위치의 좌우 어휘를 고려하여 아래의 표 3과 같은 총 65개의 템플릿을 작성하여 TBL 규칙을 학습하였다. 표 3에서 s 는 어휘를 의미하며, e 는 편집 연산을 의미한다.
중예서 오류 어휘를 찾는 역할을 한다. 이를 위해음성 인식기의 오류를 찾는 문제를 연속된 어휘 열에서 오류 어휘를 추출하는 문제로 대응하였다. 입력된 문장 s는 단어들의 열 W = 血], …, 이라고 할 때 오류 검출기는 오류를 판별할 수 있는 확장 편집 연산의 열인 T = / …, 0} 를 할당한다.
따라서 우리는 기계 학습 방법을 이용하여 수동 지식이나 외부 지식 없이 인식기의 성능을 높여줄 수 있는 후처리 방법을 제안한다. 제안 방법은 음성 인식기 학습을 위해 이용된 음성 전사 데이터와 인식기의 출력 만을 사용하고 추가적인 수동 작업을 요구하지 않는다. 또한, 영역이나 인식기의 특성을 사용하지 않기 때문에 다른 영역에도 재 학습을 통해 바로 이식할 수 있다는 장점이 있다.
제안하는 시스템의 오류 검출 및 보정의 성능 평가를 위해 이경님의 연속 음성 인식기[9]에 후처리를 적용하였다. 이경님의 연속음성 인식기는 형태소 단위 연속 음성을 인식하고 종래의 인식기에 비해 높은 성능을 보여준다.
입력된 문장 s는 단어들의 열 W = 血], …, 이라고 할 때 오류 검출기는 오류를 판별할 수 있는 확장 편집 연산의 열인 T = / …, 0} 를 할당한다. 학습 단계에서 코퍼스로 사용될 편집 연산이 부착된 인식 단어열은 인식 단어열과 전사 단어열을 이용하여 자동으로 구축하였다. 각각의 단어에 대해 범주를 결정하는 문제에서 오류 열은 주변 문맥에서 오류의 발생 여부와 그 종류에 영향을 받는다.
대상 데이터
이경님의 연속음성 인식기는 형태소 단위 연속 음성을 인식하고 종래의 인식기에 비해 높은 성능을 보여준다. 인식기에 적용한 데이터는 호텔 예약, 항공 예약, 여행 정보 분야에서 사람들 사이의 전화 대화를 전사한 것으로 총 1, 054 문장(14, 851어휘)을 수집하여 실험하였다. 실험은 5차 교차 비교 검증을 통해 학습과 실험 데이터로 나누어 진행하였으며 오류 수정 성능을 평가하기 위해 어휘 오류율(WER: Word Error Rate)를 사용하였다.
로의 전이 자질을 사용하여 코퍼스에서 출현한 편집 연산의 조합으로 결과를 제공할 수 있다. 자질은 슬라이딩 윈도우와 어휘 n-gram올 이용하여 구축하였다. 윈도우의 크기는 현재 위치를 기준으로 5를 사용하고 그 안에서 nnigram과 bigram 자질을 이용하였다.
데이터처리
인식기에 적용한 데이터는 호텔 예약, 항공 예약, 여행 정보 분야에서 사람들 사이의 전화 대화를 전사한 것으로 총 1, 054 문장(14, 851어휘)을 수집하여 실험하였다. 실험은 5차 교차 비교 검증을 통해 학습과 실험 데이터로 나누어 진행하였으며 오류 수정 성능을 평가하기 위해 어휘 오류율(WER: Word Error Rate)를 사용하였다. 어휘 오류율은 전사 데이터에 나타난 정답 어휘 수에 대한 인식 문장에 포함된 오류(삽입, 삭제, 치환) 의비율을 나타내는 값으로 식 (2) 와 같이 계산된다.
우리는 제안 모델의 효율성을 보이기 위해 기존 연구들의 결과와 비교하였다. 아래 표 6은 기존 오류에 대한 수정된 오류의 비율인 오류 수정률을 기준으로 기존 방법과 제안한 방법의 성능을 비교하고 있다.
이론/모형
특히 삭제 위치를 명확하게 찾기 위해서는 연속적인 편집 연산들이 접속 가능하게 나타나는 것이 중요하다. 따라서 우리는 기계 학습 방법 중에서 연속적인 범주 할당 문제에서 좋은 성능을 보여주고 있는 Conditional Random Fields(CRFs)[7] 모델을 이용하였다. CRFs는 기존의 연속적인 범주 할당 문제에서 사용되던 은닉 마르코프 모델이 가지고 있던 독립 가정을완화시키고 이전 범주에 의해 범주 결정이 크게 영향을 받는 레이블 편향 문제을 극복한 모델이다.
따라서 이 문제를 해소하기 위해 규칙을 자동으로 학습하는 방법을 사용하였다. 코퍼스에서 자동으로 오류 수정 규칙을 학습하기 위해 우리는 변형 기반 학습(TBL: Transformation-based Learning⑻을 이용하였다. TBLe 정답에 가까워질 때까지 오류를 줄인다는 아이디어를 이용한 규칙 학습 방법이다.
성능/효과
그러나 오류 수정률의 입장에서, 방법 온방법온 기반인식기 성능이 높고, 수동 작업을 최소화하였음에도 어휘 수준의 정보만을 사용하는 다론 방법론들과 비슷하거나 높은 효율성을 보여주고 있음을 볼 수 있다. 또한 높은 이식성을 가지고 있기 때문에 확장 정보를 사용한모뎰들과도 비교할 만한 성능이라고 판단된다.
김용현과 정민화는 오류 패턴의 확률을 계산하고, 문맥 정보를 이용하는 통계적인 방법의 오류 보정 시스템을 제안하였다[3]. 이 시스템은 무조건 적용되는 규칙 기반 방법의 문제점을 확률을 이용하여 위험성을 줄였으나 인식기의 결과가 N-best 형태로 제공될 때만 적용할 수 있는 단점이 있었다.
제안한 후처리 시스템은 전체적인 WR을 2.00% 낮추는 성능을 보였다. 제안 방법을 사용하였을 때 오류별 수정률은 아래의 표 5와 같다.
제안한 후처리 시스템은 코퍼스에서 자주 발생하는 오류에 대해 좋은 결과를 보여준다. 특히 아래의 예에서 보여주는 것처럼 축약이나 어미의 오인식 등 기능어에서의 다양한 오류를 효과적으로 처리하고 있다.
후속연구
실제로 실험에 사용한 학습 문장의 수는 평균 843 문장으로 매우 적었기 때문학습된돤 수정 규칙은 평균 2(既8개로제한적이었다* 제안 방법은 코퍼스 구축이 쉽기 때문에 학습 데이터를 충분히 확보함으로써 문제롤 쳐 소화될 수 있다. 또한 어휘보다 작은 단위인 옴소 발음열 등을 자질로 이용하는 방법에 대해 연구한다면 더 효과적인 해결이 가능할 것이다.
이 단점은 쉬운 코퍼스 구축 방법으로 일부 완화될 수 있다. 또한 향후 음절 및 발음 수준의 수정규칙 학습 방법에 대한 연구가 추가 적으로 진행된다면 보다 높은 성능을 기대할 수 있을 것이다.
참고문헌 (9)
E. K. Ringger and J. F. Allen, "A Fertility Channel Model for Post-Correction of Continuous Speech Recognition," Proceedings of the Fourth International Conference on Spoken Language Processing (ICSLP96), vol.2, pp.897-900, 1996.
S. Kaki et al., "A Method for Correcting Errors in Speech Recognition Using the Statistical Features of Character Co-occurrence," Proceedings of the 17th international conference on Computational linguistics, vol.1, pp.653-657, 1998.
Y. Kim, M. Jeong, "Improving Performance of Continuous Speech Recognition Using Error Pattern Training and Post Processing Module," Proceedings of the KIISE Korea Computer Congress 2000, vol.27, no.1, pp.441-358, 2000. (in Korean)
M. Jeong, B. Kim, G. G. Lee, "Semantic-Oriented Error Correction for Spoken Query Processing," Proceedings on IEEE Automatic speech recognition and understanding workshop (ASRU2003), pp.156- 161, 2003.
M. Jeong, S. Jung, G. G. Lee, "Speech recognition error correction using maximum entropy language model," Proceedings of Interspeech, pp.2137-2140, 2004.
R. Lopez-Cozar, Z. Callejas, "ASR post-correction for spoken dialogue systems based on semantic, syntactic, lexical and contextual information," Speech Communication, vol.50, Issue.8-9, pp.745-766, 2008.
J. Lafferty et al., "Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data," Proceedings of ICML, pp.282-289, 2001.
E. Brill, "A Simple Rule-based Part of Speech Tagger," Proceedings of the Third Conference on Applied Natural Language Processing, pp.152-155, 1992.
K. Lee, Morph-Phonological Modeling of Pronunciation Variation for Korean Large Vocabulary Continuous Speech Recognition, Ph.D Thesis, Sogang University, 2006.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.