$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

음소 결정트리의 노드 분할을 위한 임계치 자동 결정 알고리즘
The Automated Threshold Decision Algorithm for Node Split of Phonetic Decision Tree 원문보기

한국음향학회지= The journal of the acoustical society of Korea, v.31 no.3, 2012년, pp.170 - 178  

김범승 (코레일 정보기술단) ,  김순협 (광운대학교 컴퓨터공학과)

초록
AI-Helper 아이콘AI-Helper

본 논문에서는 코레일에서 운영중인 640개 기차역명의 음소기반의 음성인식을 위하여 트라이폰 단위의 음소 결정트리 구축 시 노드 분할 과정에서 사용되는 임계치의 결정에 있어 통계적 기법인 상관관계 분석회귀분석을 활용하여 군집화율을 추정하고 이를 이용한 평균 군집화율에 따른 임계치의 값에 의해 자동으로 결정하는 방법을 제안하였다. 제안된 방법의 유효성 검증을 위한 실험에서 기존의 일괄 적용된 Baseline 보다 1.4~2.3 %의 인식률 향상을 보였다.

Abstract AI-Helper 아이콘AI-Helper

In the paper, phonetic decision tree of the triphone unit was built for the phoneme-based speech recognition of 640 stations which run by the Korail. The clustering rate was determined by Pearson and Regression analysis to decide threshold used in node splitting. Using the determined the clustering ...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • ΔLq가 최대가 되는 지점에서 질문과 분할 노드를 선택하며 여기에서 가장 적합한 질의를 사용했을 때 로그 유사도의 증가량이 기준 문턱치 보다 높은 경우에만 분할을 하며 그 이득이 특정 임계치가 될 때 까지 이러한 과정을 반복한다. 본 논문에서는 이러한 임계치의 결정을 위하여 통계적 기법인 상관관계 분석과 회귀분석을 활용하고자 하였다[11].
  • 이는 LogC_Rate가 증가할수록 거의 선형적으로 Th가 감소하고 있음을 의미한다. 본 논문에서는 임계치별 평균 군집화율에 따른 Th 결정을 최적이라고 가정하고 이를 음소의 상태별 임계치로 사용하고자 하였다. Th = -995.
  • 본 논문에서는 코레일에서 운영중인 640개 기차역명의 음소기반의 음성인식을 위한 트라이폰 단위의 음향 모델링 시 발생할 수 있는 훈련 데이터의 부족 문제를 해결하기 위하여 음소 결정트리를 이용한 상태공유 방법을 사용하였다. 이를 위한 음소 결정 트리 구축시 노드 분할을 위하여 사용되는 임계치의 결정에 있어 통계적 기법인 상관관계 분석과 회귀분석을 활용하여 군집화율을 추정하고 이를 이용하여 임계치를 자동으로 결정하는 방법을 제안하였다.
  • 본 논문에서는 표 1과 같이 기차역명에서의 음소의 빈도수 (P_Count), 훈련 데이터의 음소의 상태별 점유 빈도수 (S_Count), 음소 결정트리에서의 임계치 증가에 따른 음소별 군집화율의 평균치 (C_Rate)를 가지고 그 상관관계를 분석하고 각 빈도수에 따른 군집화율을 추정하고자 하였다. 그림 1에서 알 수 있듯이 640개의 기차역명에서 음소의 빈도수가 높을수록 군집화율이 감소하고 있는 것을 알 수 있다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
음성인식을 위한 모델링의 기본단위로 사용할 수 있는 것은 무엇인가? 현재 코레일에서 운영하는 광역지하철역을 포함한 640개의 기차역명은 최소 인식 어휘이다. 음성인식을 위한 모델링의 기본단위로 단어, 음절, 음소, PLU (유사음소 단위: Phoneme-Likely Unit) 등 을 사용할 수 있다[3]. 본 논문에서는 640개의 기차역명의 트라이폰 단위의 음소기반의 음성인식을 위하여 46 PLU (표 1의 State [2 ~ 4]의 각 열, sil 포함)를 사용하였다.
고객접점의 자동화서비스에 음성인식을 적용하기 위하여 가장 먼저 고려해야 할 대상은 무엇인가? 전화망을 통한 철도예약서비스 (IVR)[1], 자동티켓 발매기 (ATIM)[2], 역안내서비스 (KIOSK) 등 고객접점의 자동화서비스에 음성인식을 적용하기 위하여 가장 먼저 고려해야 할 대상은 「기차역에 대한 역명 인식」을 위한 음성인식 DB의 구축이다[3]. 현재 코레일에서 운영하는 광역지하철역을 포함한 640개의 기차역명은 최소 인식 어휘이다.
트라이폰 단위의 음소 결정트리를 이용한 상태공유 방법의 장점은 무엇인가? 이러한 문제를 효율적으로 해결하기 위하여 트라이폰 단위의 음소 결정트리 (Phonetic Decision Tree)를 이용한 상태공유 방법을 사용한다[4,8]. 이 방법은 결정트리의 분류와 예측으로 훈련 데이터에서 나타나지 않은 모델의 합성을 가능하게 하고 결정트리 기반의 상태공유를 위한 노드 분할 과정과 모델 선택 과정을 통해 모델의 복잡성을 완화 시키고 한정된 훈련 데이터로부터 강건한 모델 파라미터 추정을 가능하게 하여 필요한 파라미터 양과의 균형을 유지할 수 있는 장점을 가지고 있다[4-7]. 음소 결정트리에서는 중심음소를 기준으로 음성학적 질의에 의해 새롭게 생성된 음향모델은 군집화된 어느 하나의 덩어리에 포함되어 상태를 공유하며 미지의 음소에 대하여 군집화된 대표 상태를 공유하게 됨으로써 인식률의 향상을 가져올 수 있다.
질의응답 정보가 도움이 되었나요?

참고문헌 (14)

  1. B. S. Kim, S. H. Kim, "A Study on Realization of Speech Recognition System based on VoiceXML for Railroad Reservation Service," Jounal of the Korea Society for Railway, vol. 14, no. 2, pp. 130-136, 2011. 

  2. B. S. Kim, S. H. Kim, "A Study on the Speech Recognition for Commands of Ticketing Machine using CHMM," Jounal of the Korea Society for Railway, vol. 12, no. 2, pp. 285-290, 2009. 

  3. B. S. Kim, S. H. Kim, "A Study on Speech Recognition based on Phoneme for Korean Subway Station Names," Jounal of the Korea Society for Railway, vol. 14, no. 3, pp. 285-290, 2011. 

  4. A. Lazarides, Y. Normandin, and R. Kuhn, "Improving decision trees for acoustic modeling," in Proc. ICSLP, Philadelphia, October. 1996. 

  5. D. B. Paul, "Extensions to phone-state decision-tree clustering: single tree and tagged clustering," in Proc. ICASSP, vol. 2, pp. 1487-490, 1997. 

  6. L. Gu, K. Rose, "Sub-state tying in tied mixture hidden Markov models," Proc. IEEE, Acoustics, Speech, and Signal Processing, pp. 1062-1065, 2000. 

  7. R. D. R. Fagundes, J. S. Correa, P. Dumouchel, "A New Phonetic model for continuous speech recognition systems," Proc. ICSP, pp. 572-575, 2002. 

  8. S. J. Young, J. J. Odell, and P. C. Woodland, "Tree- Based State Tying for Hight Accuracy Accoustic Modelling," in Proceedings of the Workshop on Human Language Technology, Plainsboro, NJ, Mar. 1994. 

  9. J. J. Odell, "The Use of Context in Large Vocabulary Speech Recognition," PhD's Dissertation, University of Cambridge, 1995. 

  10. T. O. Ann, "A Study on the Optimization of State Tying Acoustic Models using Mixture Gaussian Clustering", Jounal of Electronics Engineers of Korea, vol. 42, no. 6, pp. 167-176, Nov. 2005. 

  11. 김성호, 최태성, 사회과학을 위한 통계자료분석 (SPSS 11.0활용), 다산출판사, 2004. 

  12. L. R. Rabiner, "A Tutorial on Hidden Markov Models and Selected Application in Speech Recognition," Proc. IEEE, vol. 77, no. 2, pp. 257-286, 1989. 

  13. D. Jurafsky and J. H. Martin, Speech and Language Processing, PrenticeHall (2nd), 2008. 

  14. S. Young, G. Evermmana, M. Gales, T. Hain, et al, "The HTK Book for HTK Version 3.4," 2006. 

저자의 다른 논문 :

섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로