[논문]GMM 지원을 위해 k-means 알고리즘을 이용한 어휘 인식 성능 개선

이종섭

doi:10.14400/jdc.2015.13.2.135

GMM 지원을 위해 k-means 알고리즘을 이용한 어휘 인식 성능 개선
Vocabulary Recognition Performance Improvement using k-means Algorithm for GMM Support 원문보기

디지털융복합연구 = Journal of digital convergence, v.13 no.2, 2015년, pp.135 - 140

초록
AI-Helper

일반적인 CHMM 어휘 인식 시스템은 어휘 인식에 대한 모델들의 관측 확률 인식률이 낮고, 일부 단위 음소 모델에만 적용되어 제한적으로 사용되는 문제점이 있다. 또한, 어휘 탐색에서 어휘의 의미가 다양하여 탐색된 어휘가 사용자의 요구에 부합되지 않는 문제점을 가진다. 이러한 문제를 개선하기 위해 GMM(Gaussian Mixture Model)을 이용한 음소인식을 수행하고, 개선된 k-means 알고리즘을 이용하여 어휘 특성에 따른 제한적인 탐색 문제점을 해결하였다. 성능 실험은 기존의 시스템과 비교하여 정확도와 재현율로 대변되는 효과성을 측정하였으며, 성능 실험 결과 정확도는 83%, 재현율은 67%로 나타났다.

Abstract ▼ AI-Helper

General CHMM vocabulary recognition system is model observation probability for vocabulary recognition of recognition rate's low. Used as the limiting unit is applied only to some problem in the phoneme model. Also, they have a problem that does not conform to the needs of the search range to meaning of the words in the vocabulary. Performs a phoneme recognition using GMM to improve these problems. We solve the problem according to the limited search words characterized by an improved k-means algorithm. Measure the effectiveness represented by the accuracy and reproducibility as compared to conventional system performance experiments. Performance test results accuracy is 83%p, and recall is 67%p.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

또한, GMM(Gaussian Mixture Model), CHMM(Continuous Hidden Markov Model) 어휘 인식 시스템에서도 어휘 인식에 대한 모델들의 관측 확률 인식률이 낮고, 일부 단위 음소 모델에만 적용되어 제한적으로 사용되는 문제점이 있으며, 어휘탐색에서 어휘의 의미가 다양하여 탐색된 어휘가 사용자의 요구에 부합되지 않는 문제점을 가진다. 본 연구에서는 이러한 문제를 개선하기 위해 GMM(Gaussian Mixture Model)을 이용한 음소인식을 수행하고, 개선된 k-means 알고리즘을 이용하여 어휘 특성에 따른 제한적인 탐색 문제점을 해결하였다. 성능 실험은 기존의 서비스 시스템들과 비교하여 정확도와 재현율로 대변되는 효과성을 측정하였다.
본 연구에서는 이러한 문제를 개선하기 위해 GMM을 이용한 음소인식을 수행하고, 개선된 k-means 알고리즘을 이용하여 어휘 특성에 따른 제한적인 탐색 문제점을 해결하였다. 성능 실험은 기존의 서비스 시스템들과 비교하여 정확도와 재현율로 대변되는 효과성을 측정하였다.

가설 설정

본 논문에서 제안하는 음소 인식을 위해 GMM 확률값을 이용하여 입력음성과 표준 음소로 제공되는 모델과의 유사도를 계산하였다. GMM에서 가우시안 분포를 사용하여 확률 값을 도출하므로 특정 파라미터의 기댓값을 가정하고, 평균과 표준편차만으로 음성 값들에 대한 특징을 표현할 수 있다. 또한, GMM 음소 인식을 위해 CHMM으로 구성된 음소 모델을 이용하여 자동 음소 분할 과정에서 처리된는 라벨 정보를 가지고 43개의 각 음소에 대해 데이터베이스를 구축하고 이를 이용한 43개의 음소별 GMM 파라미터를 추정하였다.

제안 방법

HMM 알고리즘에서 처리되는 음성은 Markov 프로세스로 표준화 되어 처리되며, 이를 위한 음성의 학습 과정에서 Markov 모델의 변수를 가지고 기준 Markov 모델을 작성한 다음 입력된 음성과 저장된 기준 Morkov 모델을 비교하여 유사도가 가장 높은 기준 Morkov 모델을 인식된 어휘로 결정한다[7].
개선된 k-means 알고리즘에서는 객체의 각 속성에 대한 선호도를 각기 다른 차원으로 구성하여 좌표 평면의 점으로 표현하고 기존 사용자들을 k개로 클러스터링 한다. 개선된 k-means 알고리즘 통하여 나누어진 k개의 각 군집의 대표 값들과 테스트 사용자의 각 속성의 선호도 값에 대한 거리를 계산하여 가장 최소의 값을 가지는 클러스터를 선택한다. 결정된 클러스터에 속하는 다른 사용자들은 테스트 사용자에 대한 새롭게 구성된 클러스터들이 된다.
그러나 개선된 k-means 알고리즘에서는 클러스터 k를 선택할시 모든 데이터를 2차원 배열에 저장한 후 퀵정렬을 통하여 데이터를 정렬하여 정렬된 상태에서 클러스터 k를 선택하여 클러스터링을 수행한다. 데이터로 구성되어진 클러스터들에 대해 객체 목록을 생성하기 위하여 클러스터링된 데이터들의 연관 관계를 구하고 이를 확률 밀도 함수로 구성하여 상관계수로 활용하였다. 최초의 순위를 구하여 1순위로 부터의 상관계수를 1과 -1로 나타내어 순위를 조절하였다.
또한 추천 리스트를 평가하기 위한 방법으로 precision, recall을 사용하여 precision은 추천 리스트 중 몇 개의 지하철 역명을 실제로 선택했는지를 평가하였으며 recall은 사용자가 선호한 지하철 역명 중 얼마나 많은 지하철 역명이 추천되었는지를 평가하였다. precision과 recall은 동등한 중요도로 하나의 평가방법으로 사용하는 방법이다.
GMM에서 가우시안 분포를 사용하여 확률 값을 도출하므로 특정 파라미터의 기댓값을 가정하고, 평균과 표준편차만으로 음성 값들에 대한 특징을 표현할 수 있다. 또한, GMM 음소 인식을 위해 CHMM으로 구성된 음소 모델을 이용하여 자동 음소 분할 과정에서 처리된는 라벨 정보를 가지고 43개의 각 음소에 대해 데이터베이스를 구축하고 이를 이용한 43개의 음소별 GMM 파라미터를 추정하였다. 이후 음소 인식과정에서 음소별 GMM의 평균, 공분산과 CHMM의 중간상태 천이 확률을 이용한 연속 음소 인식 네트워크를 구성하고 이를 통해 최대 사후확률을 갖는 음소열을 발생하여 처리한다.
최초의 순위를 구하여 1순위로 부터의 상관계수를 1과 -1로 나타내어 순위를 조절하였다. 또한, 특성 클러스터링 처리는 특성을 추출하여 특성 처리와 특성 클러스터링을 개선된 k-means 알고리즘을 이용하여 수행하는 특성 클러스터링 처리를 수행한 후 상관 계수를 이용하여 사용자의 특성을 예측한다. 예측하고자 하는 사용자와 유사한 사용자들을 선별하여 사용자들의 평가를 기반으로 객체에 대한 사용자의 특성을 예측하고 최종적으로 추천객체의 목록을 생성한다.
본 논문에서 제안하는 음소 인식을 위해 GMM 확률값을 이용하여 입력음성과 표준 음소로 제공되는 모델과의 유사도를 계산하였다. GMM에서 가우시안 분포를 사용하여 확률 값을 도출하므로 특정 파라미터의 기댓값을 가정하고, 평균과 표준편차만으로 음성 값들에 대한 특징을 표현할 수 있다.
본 연구에서는 이러한 문제를 개선하기 위해 GMM을 이용한 음소인식을 수행하고, 개선된 k-means 알고리즘을 이용하여 어휘 특성에 따른 제한적인 탐색 문제점을 해결하였다. 성능 실험은 기존의 서비스 시스템들과 비교하여 정확도와 재현율로 대변되는 효과성을 측정하였다. 성능 실험 결과 정확도는 83%, 재현율은 67%로 나타났다.
본 논문에서 인식을 위한 어휘 목록은 서울 시내의 지하철 역명 100개로 구성하였다. 어휘는 실내 환경과 잡음환경에서 이동기기 등에 내장되어 있는 내장형 마이크로폰을 사용하여 16kHz Mono로 녹음 하였고, 16bit PCM 양자화를 사용하였다. 실험 어휘는 실내 5명, 실외 5명 등 총 10명의 성인 남성이 참가하였다.
또한, 특성 클러스터링 처리는 특성을 추출하여 특성 처리와 특성 클러스터링을 개선된 k-means 알고리즘을 이용하여 수행하는 특성 클러스터링 처리를 수행한 후 상관 계수를 이용하여 사용자의 특성을 예측한다. 예측하고자 하는 사용자와 유사한 사용자들을 선별하여 사용자들의 평가를 기반으로 객체에 대한 사용자의 특성을 예측하고 최종적으로 추천객체의 목록을 생성한다.
또한, GMM 음소 인식을 위해 CHMM으로 구성된 음소 모델을 이용하여 자동 음소 분할 과정에서 처리된는 라벨 정보를 가지고 43개의 각 음소에 대해 데이터베이스를 구축하고 이를 이용한 43개의 음소별 GMM 파라미터를 추정하였다. 이후 음소 인식과정에서 음소별 GMM의 평균, 공분산과 CHMM의 중간상태 천이 확률을 이용한 연속 음소 인식 네트워크를 구성하고 이를 통해 최대 사후확률을 갖는 음소열을 발생하여 처리한다.
특성 클러스터링 처리를 위해 k-means 알고리즘을 변경하여 처리하였으며, 이를 위해 유사한 선호도를 가지는 사용자들을 각각 분류하여 클러스팅 방법으로 처리하기 위한 개선된 k-means 알고리즘을 사용한다. 개선된 k-means 알고리즘에서는 객체의 각 속성에 대한 선호도를 각기 다른 차원으로 구성하여 좌표 평면의 점으로 표현하고 기존 사용자들을 k개로 클러스터링 한다.

대상 데이터

본 논문에서 인식을 위한 어휘 목록은 서울 시내의 지하철 역명 100개로 구성하였다. 어휘는 실내 환경과 잡음환경에서 이동기기 등에 내장되어 있는 내장형 마이크로폰을 사용하여 16kHz Mono로 녹음 하였고, 16bit PCM 양자화를 사용하였다.
본 논문의 구성으로는 2장에서 HMM, GMM. CHMM과 K-means 알고리즘에 대해 살펴보고, 3장에서는 본 논문에서 제안한 GMM을 이용한 어휘 인식과 k-means 알고리즘을 적용한 어휘 특성 클러스터링 처리 시스템에 대하여 설명한다.
어휘는 실내 환경과 잡음환경에서 이동기기 등에 내장되어 있는 내장형 마이크로폰을 사용하여 16kHz Mono로 녹음 하였고, 16bit PCM 양자화를 사용하였다. 실험 어휘는 실내 5명, 실외 5명 등 총 10명의 성인 남성이 참가하였다. 기존 어휘 인식 시스템과 비교 실험을 위하여 캠브리지대학의 HTK(Hidden Markov Toolkit)를 사용하였다[11].

이론/모형

실험 어휘는 실내 5명, 실외 5명 등 총 10명의 성인 남성이 참가하였다. 기존 어휘 인식 시스템과 비교 실험을 위하여 캠브리지대학의 HTK(Hidden Markov Toolkit)를 사용하였다[11].
예측 값의 정확성을 평가하기 위해 MAE(Mean Absolute Error)를 사용하였고 다음과 같이 표현하였다[19].

성능/효과

[Table 2]의 비교 실험 결과를 보면 본 논문에서 제안한 사용자 정보 특성과 선호도를 이용한 협업 필터링 기반 방법이 기존 필터링 방법보다 정확도에서 우수한 성능을 보였다.
성능 실험은 기존의 서비스 시스템들과 비교하여 정확도와 재현율로 대변되는 효과성을 측정하였다. 성능 실험 결과 정확도는 81%, 재현율은 63%로 나타났다.
성능 실험은 기존의 서비스 시스템들과 비교하여 정확도와 재현율로 대변되는 효과성을 측정하였다. 성능 실험 결과 정확도는 83%, 재현율은 67%로 나타났다.
실험결과 기존 시스템과 비교하여 precision의 경우 10%p 향상되었고, recall의 경우 8%p 향상되었으며, 전체적으로 precision 83%, recall 67%의 성능을 보였다.
첫째, GMM은 음향학적 어느 공통 특성을 가진 집합을 모델링할 수 있다. 음성에 대한 발성에 대응되는 음향 공간은 모음이나 비음, 파찰음과 같은 음소를 표현하는 음향학적 클래스의 집합으로 잘 표현된다.

후속연구

향후 연구 과제로는 음성 데이터 사이즈를 일률적으로 구성하여 실험하는 방법과 지하철 역명의 데이터를 확대하여 실험하고 데이터가 확대되었을 경우 인식률에 미치는 영향을 확인하여 인식률을 향상시킬 수 있는 연구가 필요하다.

질의응답

핵심어	질문	논문에서 추출한 답변
	HMM을 이용하는 어휘 인식 시스템의 단점은 무엇인가?	기존의 HMM(Hidden Markov Model) 알고리즘은 이중 확률 처리 기법으로 인식 가능한 기준패턴을 음소 단위와 음절 단위로 설정하여 모델을 구성하고 인식 할 수 있다[4]. HMM을 이용하는 어휘 인식 시스템의 단점은 인식 어휘에 대한 인식률이 상대적으로 낮게 나타나며 모델 구성에 대한 이산적인 분포를 정교하게 처리해야 되는 단점을 가진다. 또한, GMM(Gaussian Mixture Model)[5], CHMM(Continuous Hidden Markov Model)[6] 어휘 인식 시스템에서도 어휘 인식에 대한 모델들의 관측 확률 인식률이 낮고, 일부 단위 음소 모델에만 적용되어 제한적으로 사용되는 문제점이 있으며, 어휘 탐색에서 어휘의 의미가 다양하여 탐색된 어휘가 사용자의 요구에 부합되지 않는 문제점을 가진다.
	GMM이란 무엇인가?	GMM은 출력 확률밀도함수가 가우시안 밀도 혼합인 1개의 상태만으로 구성된 CHMM의 한 형태로서, GMM은 다음과 같은 특징을 가지고 있다.
	k-means 알고리즘의 개념은 무엇인가?	k-means 알고리즘은 가장 일반적으로 사용되는 분할 클러스터링 알고리즘이다. 이 알고리즘의 개념은 패턴들과 그 패턴이 속하는 클러스터의 중심과의 평균 유클리디안(Euclidean)거리를 최소화하는 것이다[9].

참고문헌 (15)

Sang-Yeob Oh. Selective Speech Feature Extraction using Channel Similarity in CHMM Vocabulary Recognition. The Journal of digital policy and management. Vol. 11, No. 10, pp. 453-458, 2013.
Chan-Shik Ahn, Sang-Yeob Oh. Vocabulary Recognition Retrieval Optimized System using MLHF Model. Journal of the Korea Society of Computer and Information. Vol. 14, No. 10, pp. 217-223, 2009.
Chan-Shik Ahn, Sang-Yeob Oh. Echo Noise Robust HMM Learning Model using Average Estimator LMS Algorithm. The Journal of Digital Policy and Management. Vol. 10, No. 10, pp. 277-282, 2012.
A. Srinivasan, Speech Recognition Using Hidden Markov Model, Applied Mathematical Sciences, vol. 5, no. 79, pp. 3943-3948, 2011.
Campbell, W. M., Sturim, D. E., Reynolds, D. A., Solomonoff, A. SVM based speaker verification using a GMM supervector kernel and NAP variability compensation. Proc. ICASSP, No. 1, pp. 97-100, 2006.
Chan-Shik Ahn, Sang-Yeob Oh. CHMM Modeling using LMS Algorithm for Continuous Speech Recognition Improvement. The Journal of digital policy and management. Vol. 10, No. 11, pp. 377-382, 2012.
Zhang, Y., Xu, J., Yan, Z. J., & Huo, Q. An i-vector based approach to training data clustering for improved speech recognition. Proc. Interspeech, pp. 1247-1250. 2011.
Beaufays, F., Vanhoucke, V., & Strope, B. Unsupervised discovery and training of maximally dissimilar cluster models. Proc. Interspeech, pp. 66-69, 2010.
Sang-Yeob Oh. Improving Phoneme Recognition based on Gaussian Model using Bhattacharyya Distance Measurement Method. Journal of Korea Multimedia Society. Vol. 14, No. 1, pp. 85-93, 2011.

원문보기 상세보기
Chan-Shik Ahn, Sang-Yeob Oh. Gaussian Model Optimization using Configuration Thread Control In CHMM Vocabulary Recognition. The Journal of Digital Policy and Management. Vol. 10, No. 7, pp. 167-172, 2012.
Caban, A. Dolinska, B. Budzinski, G. Oczkowicz, G. Ostrozka-Cieslik, A. Cierpka, L. Ryszka, F. The Effect of HTK Solution Modification by Addition of Thyrotropin and Corticotropin on Biochemical Indices Reflecting Ischemic Damage to Porcine Kidney. Transplantation proceedings. Vol. 45, No. 5, pp. 1720-1722, 2013

상세보기
Chan-Shik Ahn, Sang-Yeob Oh. User's Individuality Preference Recommendation System using Improved k-means Algorithm. Journal of the Korea society of computer and information. Vol. 15 No. 8, pp. 141-148, 2010.

원문보기 상세보기
Myoung-hwan Ahn, Joon-hee Kwon. Ontology based Context-Aware Recommendation System using Concept Hierarchy. Journal of Korean Society for Internet Information. Vol. 8, No. 5, pp. 81-89, 2007.
Sung-Hwa Hong, Suk-Yong Jung.The Study for the Image Quality Measurement in IPTV. Journal of the Korea Convergence Society. Vol. 2, No. 3, pp. 39-43, 2011.
Nam-Hoon Kim, Tong-Queue Lee, Suk-Yong Jung, Hae-Yong Park. A Study on Integrated Billing System for Multi-language. Journal of the Korea Convergence Society. Vol. 3, No. 3, pp. 1-5, 2012.

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증