음소 질의어 집합은 문맥 속에서 비슷한 조음 효과를 보이는 음소들을 분류해 놓은 것으로서, 음성 인식 시스템 학습 시 결정트리를 기반으로 HMM (hidden Markov model)의 상태들을 클러스터링할 때 사용된다. 현재까지의 음소 질의어 집합은 대부분 음성학자나 언어학자들에 의해 수작업으로 제시되어 왔는데, 이러한 지식 기반음소 질의어들은 언어 또는 유사음소 단위 (PLU: phone like unit)에 종속될 뿐 아니라 생성된 클러스터 내의 동질성을 저하시킬 수 있다는 단점이 있다. 본 논문에서는 이와 같은 문제점들을 해결하기 위해 음성 데이터를 사용하여 측정한 음소들 사이의 유사도를 기반으로 언어나 유사음소단위에 상관없이 자동으로 음소 질의어 집합을 생성하는 알고리즘을 제안한다. 실험결과, 제안한 방법으로 생성된 음소 질의어들을 사용한 인식기의 에러율이 약 14.3%감소하여 데이터 기반의 음소 질의어 집합이 상태 클러스터링에 효율적임을 관측하였다.
음소 질의어 집합은 문맥 속에서 비슷한 조음 효과를 보이는 음소들을 분류해 놓은 것으로서, 음성 인식 시스템 학습 시 결정트리를 기반으로 HMM (hidden Markov model)의 상태들을 클러스터링할 때 사용된다. 현재까지의 음소 질의어 집합은 대부분 음성학자나 언어학자들에 의해 수작업으로 제시되어 왔는데, 이러한 지식 기반음소 질의어들은 언어 또는 유사음소 단위 (PLU: phone like unit)에 종속될 뿐 아니라 생성된 클러스터 내의 동질성을 저하시킬 수 있다는 단점이 있다. 본 논문에서는 이와 같은 문제점들을 해결하기 위해 음성 데이터를 사용하여 측정한 음소들 사이의 유사도를 기반으로 언어나 유사음소단위에 상관없이 자동으로 음소 질의어 집합을 생성하는 알고리즘을 제안한다. 실험결과, 제안한 방법으로 생성된 음소 질의어들을 사용한 인식기의 에러율이 약 14.3%감소하여 데이터 기반의 음소 질의어 집합이 상태 클러스터링에 효율적임을 관측하였다.
Due to the insufficiency of training data in large vocabulary continuous speech recognition, similar context dependent phones can be clustered by decision trees to share the data. When the decision trees are built and used to predict unseen triphones, a phonetic question set is required. The phoneti...
Due to the insufficiency of training data in large vocabulary continuous speech recognition, similar context dependent phones can be clustered by decision trees to share the data. When the decision trees are built and used to predict unseen triphones, a phonetic question set is required. The phonetic question set, which contains categories of the phones with similar co-articulation effects, is usually generated by phonetic or linguistic experts. This knowledge-based approach for generating phonetic question set, however, may reduce the homogeneity of the clusters. Moreover, the experts must adjust the question sets whenever the language or the PLU (phone-like unit) of a recognition system is changed. Therefore, we propose a data-driven method to automatically generate phonetic question set. Since the proposed method generates the phone categories using speech data distribution, it is not dependent on the language or the PLU, and may enhance the homogeneity of the clusters. In large vocabulary speech recognition experiments, the proposed algorithm has been found to reduce the error rate by 14.3%.
Due to the insufficiency of training data in large vocabulary continuous speech recognition, similar context dependent phones can be clustered by decision trees to share the data. When the decision trees are built and used to predict unseen triphones, a phonetic question set is required. The phonetic question set, which contains categories of the phones with similar co-articulation effects, is usually generated by phonetic or linguistic experts. This knowledge-based approach for generating phonetic question set, however, may reduce the homogeneity of the clusters. Moreover, the experts must adjust the question sets whenever the language or the PLU (phone-like unit) of a recognition system is changed. Therefore, we propose a data-driven method to automatically generate phonetic question set. Since the proposed method generates the phone categories using speech data distribution, it is not dependent on the language or the PLU, and may enhance the homogeneity of the clusters. In large vocabulary speech recognition experiments, the proposed algorithm has been found to reduce the error rate by 14.3%.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
기존의 음소 질의어 집합은 전문가들에 의 해 제시되어 왔는데 이는 유사한 영향을 주는 음소들을 분류한 것이기 보다는 그 자체가 언어학적으로 같은 범주 에 속하는 음소들의 묶음이어서 생성된 클러스터의 동질 성을 보장하기 어렵다는 단점이 있었다. 따라서 본 논문 에서는 이러한 문제를 해결하기 위해 음소 모델 간의 거 리를 수치적으로 측정하고 유사한 것들을 묶어나감으로 써 음소 질의어 집합을 생성하는 방법을 제안하였다. 제 안한 방법은 데이터 기반으로 음소 문맥을 생성하기 때문 에 인식기가 사용하는 언어나 유사음소단위를 고려할 필 요가 없다는 장점이 있을 뿐 아니라, 자동으로 생성된 음 소 질의어 집합이 수작업으로 제공된 음소 질의어 집합에 비해 음성인식기의 에러율을 감소시킴을 실험으로 확인 하였다.
음성인식기 가 사용하는 유사음소단위가 변경되거나 인식하고자 하는 언어가 바뀌면 새로운 유사음소단위나 언어에 대한 음소 질의어 집합이 요구되는데 이 때마다 해당 언어 전 문가의 추가적 인 도움이 필요하다. 따라서 본 논문에서 는 기존의 지식 기반 음소 질의어 집합이 갖는 이와 같은 문제점들을 해결하기 위해 음소 질의어 집합을 데이터 기반으로 자동 생성하는 알고리즘을 제안한다.
음성인식기 가 사용하는 유사음소단위가 변경되거나 인식하고자 하는 언어가 바뀌면 새로운 유사음소단위나 언어에 대한 음소 질의어 집합이 요구되는데 이 때마다 해당 언어 전 문가의 추가적 인 도움이 필요하다. 따라서 본 논문에서 는 기존의 지식 기반 음소 질의어 집합이 갖는 이와 같은 문제점들을 해결하기 위해 음소 질의어 집합을 데이터 기반으로 자동 생성하는 알고리즘을 제안한다.
기존의 음소 질의어 집합은 전문가들에 의 해 제시되어 왔는데 이는 유사한 영향을 주는 음소들을 분류한 것이기 보다는 그 자체가 언어학적으로 같은 범주 에 속하는 음소들의 묶음이어서 생성된 클러스터의 동질 성을 보장하기 어렵다는 단점이 있었다. 따라서 본 논문 에서는 이러한 문제를 해결하기 위해 음소 모델 간의 거 리를 수치적으로 측정하고 유사한 것들을 묶어나감으로 써 음소 질의어 집합을 생성하는 방법을 제안하였다. 제 안한 방법은 데이터 기반으로 음소 문맥을 생성하기 때문 에 인식기가 사용하는 언어나 유사음소단위를 고려할 필 요가 없다는 장점이 있을 뿐 아니라, 자동으로 생성된 음 소 질의어 집합이 수작업으로 제공된 음소 질의어 집합에 비해 음성인식기의 에러율을 감소시킴을 실험으로 확인 하였다.
본 논문에서는 결정트리 기반의 HMM 상태 클러스터 링의 성능 향상을 위해, 결정트리의 각 노드에서 데이터 를 양분하는 규칙 (rules)으로 사용되는 음소 질의 어들을 데이터 기반으로 자동 생성하는 알고리즘을 제안한다. 제안한 방법으로 생성되는 음소 질의어 집합은 위에서 지적한 지식 기반 음소 질의어 집합이 가지는 단점들을 해결함으로써 결정트리가 보다 동질성 높은 클러스터들 을 생성할 수 있게 한다.
본 논문에서는 결정트리 기반의 HMM 상태 클러스터 링의 성능 향상을 위해, 결정트리의 각 노드에서 데이터 를 양분하는 규칙 (rules)으로 사용되는 음소 질의 어들을 데이터 기반으로 자동 생성하는 알고리즘을 제안한다. 제안한 방법으로 생성되는 음소 질의어 집합은 위에서 지적한 지식 기반 음소 질의어 집합이 가지는 단점들을 해결함으로써 결정트리가 보다 동질성 높은 클러스터들 을 생성할 수 있게 한다.
이와 같이 기존의 음소 질의어 집합은 수작업으로 제공 되 기 때문에 발생하는 언어 종속, 유사음소단위 종속 문 제 뿐 아니라 제시된 음소 분류 범주들의 타당성 면에서 도 문제점들을 갖는다. 본 논문에서는 언어나 유사음소 단위에 상관없이 자동으로 음소 질의어 집합을 생성하면 서, 기존의 음소 질의어 집합이 갖는 위의 단점들을 해결 할 수 있는 알고리즘을 제시한다.
이와 같이 기존의 음소 질의어 집합은 수작업으로 제공 되 기 때문에 발생하는 언어 종속, 유사음소단위 종속 문 제 뿐 아니라 제시된 음소 분류 범주들의 타당성 면에서 도 문제점들을 갖는다. 본 논문에서는 언어나 유사음소 단위에 상관없이 자동으로 음소 질의어 집합을 생성하면 서, 기존의 음소 질의어 집합이 갖는 위의 단점들을 해결 할 수 있는 알고리즘을 제시한다.
본 논문의 목적은 결정트리 기반 상태 클러스터링을 위한 음소 질의어 집합을 생성하는 것이므로, 일반적인 데이터 클러스터링과 달리 고려해 주어야 할 문제들이 있다. 첫째, 하나의 음소 질의 어 에 속한 음소들은 그 자체 가유사한 것들의 클러스터이기 보다는문맥 내에서 유사 한 영향을 주는 음소들을 분류해 놓은 것이어야 한다.
본 논문의 목적은 결정트리 기반 상태 클러스터링을 위한 음소 질의어 집합을 생성하는 것이므로, 일반적인 데이터 클러스터링과 달리 고려해 주어야 할 문제들이 있다. 첫째, 하나의 음소 질의 어 에 속한 음소들은 그 자체 가유사한 것들의 클러스터이기 보다는문맥 내에서 유사 한 영향을 주는 음소들을 분류해 놓은 것이어야 한다.
제안 방법
HMM은 세 개의 상태로 이루어진 left-to-right 구조 모델을 사용하였고 각 상태는 20개의 Gaussian들로 구성 된다. HMM 상태 클러스터 링을 위해서는 로그 우도확률 기반으로 결정트리를 구축하였다. 이와 같이 학습된 모델을 이용하여 SITEC에서 배포한PBW데이터에 대해 단 어 인식 실험을 수행한 결과, 자동으로 생성된 음소 질의 어 집합을 이용한 인식기는 표 4와같이 기존의 지식 기반 음소 질의어 집합을 이용한 인식기보다 상대적으로 약 14.
HMM은 세 개의 상태로 이루어진 left-to-right 구조 모델을 사용하였고 각 상태는 20개의 Gaussian들로 구성 된다. HMM 상태 클러스터 링을 위해서는 로그 우도확률 기반으로 결정트리를 구축하였다. 이와 같이 학습된 모델을 이용하여 SITEC에서 배포한PBW데이터에 대해 단 어 인식 실험을 수행한 결과, 자동으로 생성된 음소 질의 어 집합을 이용한 인식기는 표 4와같이 기존의 지식 기반 음소 질의어 집합을 이용한 인식기보다 상대적으로 약 14.
그러나 음소 질의어 집합을 단순히 전 체 음소에 대한 bottom-up 이나 top-down 방식과 같이 각 음소들을 리프 노드로 갖는 이진 트리의 형태로 생성 [7,8]한다면 위와 같은 두 개의 범주가 동시에 생성될 수 없다. 따라서 본 논문에서는 각 음소에 대해 타당한 문맥 정보들을 생성해 주기 위해서, 특정 음소에 대해 가까운 거 리를 갖는 음소들을 찾은 뒤 해당 음소와 찾아진 유사 음소들의 쌍을 각각 병합하여 하나의 클러스터로 초기화 하고 그것들을 기본 클러스터로 하여 계층적 인 음소들의 묶음을 생성하였다. 이렇게 함으로써 하나의 음소에 대 해 유사한 음소들이 만드는 범주에는 해당 음소가 항상 포함될 수 있다.
그러나 음소 질의어 집합을 단순히 전 체 음소에 대한 bottom-up 이나 top-down 방식과 같이 각 음소들을 리프 노드로 갖는 이진 트리의 형태로 생성 [7,8]한다면 위와 같은 두 개의 범주가 동시에 생성될 수 없다. 따라서 본 논문에서는 각 음소에 대해 타당한 문맥 정보들을 생성해 주기 위해서, 특정 음소에 대해 가까운 거 리를 갖는 음소들을 찾은 뒤 해당 음소와 찾아진 유사 음소들의 쌍을 각각 병합하여 하나의 클러스터로 초기화 하고 그것들을 기본 클러스터로 하여 계층적 인 음소들의 묶음을 생성하였다. 이렇게 함으로써 하나의 음소에 대 해 유사한 음소들이 만드는 범주에는 해당 음소가 항상 포함될 수 있다.
문맥 독립 음소 모델을 비교하면서도 음 소 간의 유사도가 아닌 문맥적 영향을 비교하기 위해서는 특정 음소 모델의 상태들 중 앞의 일부나 뒤의 일부만의 유사도를 고려할 수 있다[7]. 따라서 본 논문의 알고리즘 에서는 HMM 전체 상태의 평균거리를 비교하여 모델 전 체가 유사한 음소들을 하나의 범주로 생성할 뿐 아니라, 문맥적 특성이 유사한 음소들을 하나의 그룹으로 묶기 위해 HMM의 첫 번째 상태만을 비교하여 오른쪽 문맥에 대한 질의 어들을 생성하고 마지막 상태만을 비교하여 왼 쪽 음소 질의어들을 생성한다.
문맥 독립 음소 모델을 비교하면서도 음 소 간의 유사도가 아닌 문맥적 영향을 비교하기 위해서는 특정 음소 모델의 상태들 중 앞의 일부나 뒤의 일부만의 유사도를 고려할 수 있다[7]. 따라서 본 논문의 알고리즘 에서는 HMM 전체 상태의 평균거리를 비교하여 모델 전 체가 유사한 음소들을 하나의 범주로 생성할 뿐 아니라, 문맥적 특성이 유사한 음소들을 하나의 그룹으로 묶기 위해 HMM의 첫 번째 상태만을 비교하여 오른쪽 문맥에 대한 질의 어들을 생성하고 마지막 상태만을 비교하여 왼 쪽 음소 질의어들을 생성한다.
또한 단순히 음소의 유사도만을 고려하는 음소 질의어들 이 아니 라 문맥 속에서 유사한 영향을 주는 음소들의 범주를 생성하기 위해서는 음소 모델 전체보다는 하나의 음소가 다른 음소와 연결되는 부분의 정보가 중요하다. 따라서 본 논문의 알고리즘에서는 발음된 음소의 시작부 분 소리와 끝부분 소리만을 고려하기 위해 음소 모델간의 유사도 뿐 아니라 HMM의 첫 번째 상태 또는 마지막 상태 만이 유사한 음소들도 하나의 범주로 생성되도록 하였다.
또한 단순히 음소의 유사도만을 고려하는 음소 질의어들 이 아니 라 문맥 속에서 유사한 영향을 주는 음소들의 범주를 생성하기 위해서는 음소 모델 전체보다는 하나의 음소가 다른 음소와 연결되는 부분의 정보가 중요하다. 따라서 본 논문의 알고리즘에서는 발음된 음소의 시작부 분 소리와 끝부분 소리만을 고려하기 위해 음소 모델간의 유사도 뿐 아니라 HMM의 첫 번째 상태 또는 마지막 상태 만이 유사한 음소들도 하나의 범주로 생성되도록 하였다.
결정트리 기반 상태 클러스터링은 음소 질의어들을 바 탕으로 유사한 분포의 HMM 상태들을 클러스터 링 하기 위한 것이고, 따라서 각 노드의 질의어들은 현재 노드에 있는 상태 중에서 유사한 분포를 갖는 것들을 추출할 수 있어야 한다. 이에 본 논문에서는 음소 데이터간의 거리 를 수치적으로 측정한 뒤, 이를 바탕으로 유사한 음소들 을 묶어 질의어 집합을 생성한다. 음소 데이터 간의 거리 측정을위해서는두개의 정규(Gaussian) 분포사이의 거리 를 측정하는 방법 중 하나인 Bhattacharyya distance를 이용한다.
결정트리 기반 상태 클러스터링은 음소 질의어들을 바 탕으로 유사한 분포의 HMM 상태들을 클러스터 링 하기 위한 것이고, 따라서 각 노드의 질의어들은 현재 노드에 있는 상태 중에서 유사한 분포를 갖는 것들을 추출할 수 있어야 한다. 이에 본 논문에서는 음소 데이터간의 거리 를 수치적으로 측정한 뒤, 이를 바탕으로 유사한 음소들 을 묶어 질의어 집합을 생성한다. 음소 데이터 간의 거리 측정을위해서는두개의 정규(Gaussian) 분포사이의 거리 를 측정하는 방법 중 하나인 Bhattacharyya distance를 이용한다.
이와 같은 음소 질의어 집합 생성 알고리즘의 성능 평 가를 위해서 표 3과 같이 자동으로 생성된 음소 질의어 집합과표 1의 기존음소 질의어 집합을 각각 적용한음성 인식기의 고립 단어 인식 에러율을 측정하였다. 본 실험 에서 사용한 지식 기반 한국어 음소 질의어 집합은 언어 학자들에 의해 제공받은 것으로써 각 음소의 소리와 발음 시의 입 모양, 혀의 위치, 스펙트로그램 (spectrogram) 등을 참조하여 수작업으로 생성된 것이다.
이와 같은 음소 질의어 집합 생성 알고리즘의 성능 평 가를 위해서 표 3과 같이 자동으로 생성된 음소 질의어 집합과표 1의 기존음소 질의어 집합을 각각 적용한음성 인식기의 고립 단어 인식 에러율을 측정하였다. 본 실험 에서 사용한 지식 기반 한국어 음소 질의어 집합은 언어 학자들에 의해 제공받은 것으로써 각 음소의 소리와 발음 시의 입 모양, 혀의 위치, 스펙트로그램 (spectrogram) 등을 참조하여 수작업으로 생성된 것이다.
정규 분포로 모델링된 각 음소 HMM의 상태들 역시 수식 ⑴을 이용하 여 거 리를 즉정할 수 있고, Bhattacharyya distance값이 작은 데이터들을 묶으면 동질성이 큰 皿들의 집합을 생성할 수 있다⑹. 제안한 방법에서는 위의 척도를 이용 하여 음소 모델간의 유사도를 측정함으로써 그것이 어떤 언어의 어떤 종류의 음소인지에 상관없이 실제 소리의 특성이 비슷한 음소들을 찾아낸다.
정규 분포로 모델링된 각 음소 HMM의 상태들 역시 수식 ⑴을 이용하 여 거 리를 즉정할 수 있고, Bhattacharyya distance값이 작은 데이터들을 묶으면 동질성이 큰 皿들의 집합을 생성할 수 있다⑹. 제안한 방법에서는 위의 척도를 이용 하여 음소 모델간의 유사도를 측정함으로써 그것이 어떤 언어의 어떤 종류의 음소인지에 상관없이 실제 소리의 특성이 비슷한 음소들을 찾아낸다.
본 논문에서는 결정트리 기반의 HMM 상태 클러스터 링의 성능 향상을 위해, 결정트리의 각 노드에서 데이터 를 양분하는 규칙 (rules)으로 사용되는 음소 질의 어들을 데이터 기반으로 자동 생성하는 알고리즘을 제안한다. 제안한 방법으로 생성되는 음소 질의어 집합은 위에서 지적한 지식 기반 음소 질의어 집합이 가지는 단점들을 해결함으로써 결정트리가 보다 동질성 높은 클러스터들 을 생성할 수 있게 한다.
본 논문에서는 결정트리 기반의 HMM 상태 클러스터 링의 성능 향상을 위해, 결정트리의 각 노드에서 데이터 를 양분하는 규칙 (rules)으로 사용되는 음소 질의 어들을 데이터 기반으로 자동 생성하는 알고리즘을 제안한다. 제안한 방법으로 생성되는 음소 질의어 집합은 위에서 지적한 지식 기반 음소 질의어 집합이 가지는 단점들을 해결함으로써 결정트리가 보다 동질성 높은 클러스터들 을 생성할 수 있게 한다.
제안한 음소 질의어 집합 생성 알고리즘은 문맥 독립 음소 (context independent phone) 모델간의 거리를 Bhattacharyya distance를 이용하여 측정하고, 이를 바 탕으로 각 음소에 대해 유사한 음소 모델들을 찾아낸 뒤 이들을 계층적으로 묶어나간다. 이는 실제 데이터간의 거리를 측정하여 음소 질의어 집합을 생성하기 때문에 생성된 각 범주에 속하는 음소의 동질성을 높일 수 있다.
제안한 음소 질의어 집합 생성 알고리즘은 문맥 독립 음소 (context independent phone) 모델간의 거리를 Bhattacharyya distance를 이용하여 측정하고, 이를 바 탕으로 각 음소에 대해 유사한 음소 모델들을 찾아낸 뒤 이들을 계층적으로 묶어나간다. 이는 실제 데이터간의 거리를 측정하여 음소 질의어 집합을 생성하기 때문에 생성된 각 범주에 속하는 음소의 동질성을 높일 수 있다.
대상 데이터
이와 같은 음소 질의어 집합 생성 알고리즘의 성능 평 가를 위해서 표 3과 같이 자동으로 생성된 음소 질의어 집합과표 1의 기존음소 질의어 집합을 각각 적용한음성 인식기의 고립 단어 인식 에러율을 측정하였다. 본 실험 에서 사용한 지식 기반 한국어 음소 질의어 집합은 언어 학자들에 의해 제공받은 것으로써 각 음소의 소리와 발음 시의 입 모양, 혀의 위치, 스펙트로그램 (spectrogram) 등을 참조하여 수작업으로 생성된 것이다.
자동 생성된 음소 질의어 집합을 이용하여 생성된 결정 트리는 총 5207개의 질의어 노드수를 가지고 5331개의 상태 클러스터들을 생성하였으며 , 기존의 지식기반 음소 질의어 집합은 총 질의어 노드수 5451개, 생성된 클러스 터수 5575개로 유사한 크기의 결정트리를 생성하였다. 또한, 자동 음소 질의어 집합으로 구축된 결정트리에는 1400개의 고유한 질의어들이 사용되었는데 이 중에서 1031개가 모노폰의 첫 번째 상태 또는 마지막 상태의 유 사도만을 바탕으로 생성된 것으로서, 소리의 앞부분과 뒷부분의 유사도를 바탕으로 생성된 질의어들이 실제로 많은 노드에서 선택됨을 알 수 있었다.
자동 생성된 음소 질의어 집합을 이용하여 생성된 결정 트리는 총 5207개의 질의어 노드수를 가지고 5331개의 상태 클러스터들을 생성하였으며 , 기존의 지식기반 음소 질의어 집합은 총 질의어 노드수 5451개, 생성된 클러스 터수 5575개로 유사한 크기의 결정트리를 생성하였다. 또한, 자동 음소 질의어 집합으로 구축된 결정트리에는 1400개의 고유한 질의어들이 사용되었는데 이 중에서 1031개가 모노폰의 첫 번째 상태 또는 마지막 상태의 유 사도만을 바탕으로 생성된 것으로서, 소리의 앞부분과 뒷부분의 유사도를 바탕으로 생성된 질의어들이 실제로 많은 노드에서 선택됨을 알 수 있었다.
0은 음향 모델 학습 도구와 오프라인 및 온라인 적응 도구[9,10], 그리고 음성 인식 엔진 등으 로 구성되어 있으며 병렬 처리가 가능하도록 설계된 음성 인식 연구용 소프트웨어이다. 학습에 사용된 데이터는 현대 오토넷 CNS (car navigation system) 데이터베이스 이며, 음성 특징 벡터로는 매 10ms마다 멜 스케일 켑스트 럼 계수에 에너지 값을 추가한 13차원 벡터와 그 1,2차 미분값이 더해진 총 39차원의 벡터를 추출하여 사용하였 다. HMM은 세 개의 상태로 이루어진 left-to-right 구조 모델을 사용하였고 각 상태는 20개의 Gaussian들로 구성 된다.
0은 음향 모델 학습 도구와 오프라인 및 온라인 적응 도구[9,10], 그리고 음성 인식 엔진 등으 로 구성되어 있으며 병렬 처리가 가능하도록 설계된 음성 인식 연구용 소프트웨어이다. 학습에 사용된 데이터는 현대 오토넷 CNS (car navigation system) 데이터베이스 이며, 음성 특징 벡터로는 매 10ms마다 멜 스케일 켑스트 럼 계수에 에너지 값을 추가한 13차원 벡터와 그 1,2차 미분값이 더해진 총 39차원의 벡터를 추출하여 사용하였 다. HMM은 세 개의 상태로 이루어진 left-to-right 구조 모델을 사용하였고 각 상태는 20개의 Gaussian들로 구성 된다.
이론/모형
HMMe 세 개의 상태로 이루어진 left-to-right 구조 모델을 사용하였고 각 상태는 20개의 Gaussian들로 구성된다.
학습에 사용된 데이터는 현대 오토넷 CNS (car navigation system) 데이터베이스 이며, 음성 특징 벡터로는 매 10ms마다 멜 스케일 켑스트 럼 계수에 에너지 값을 추가한 13차원 벡터와 그 1,2차 미분값이 더해진 총 39차원의 벡터를 추출하여 사용하였 다. HMM은 세 개의 상태로 이루어진 left-to-right 구조 모델을 사용하였고 각 상태는 20개의 Gaussian들로 구성 된다. HMM 상태 클러스터 링을 위해서는 로그 우도확률 기반으로 결정트리를 구축하였다.
이에 본 논문에서는 음소 데이터간의 거리 를 수치적으로 측정한 뒤, 이를 바탕으로 유사한 음소들 을 묶어 질의어 집합을 생성한다. 음소 데이터 간의 거리 측정을위해서는두개의 정규(Gaussian) 분포사이의 거리 를 측정하는 방법 중 하나인 Bhattacharyya distance를 이용한다. 두 개의 정규 분포 g와 간의 Bhattacharyya distance는 다음과 같이 정의된다[5].
이에 본 논문에서는 음소 데이터간의 거리 를 수치적으로 측정한 뒤, 이를 바탕으로 유사한 음소들 을 묶어 질의어 집합을 생성한다. 음소 데이터 간의 거리 측정을위해서는두개의 정규(Gaussian) 분포사이의 거리 를 측정하는 방법 중 하나인 Bhattacharyya distance를 이용한다. 두 개의 정규 분포 g와 간의 Bhattacharyya distance는 다음과 같이 정의된다[5].
음향 모델의 학습과 인식 실험에는 본 연구실에서 자체 개발한 SLT (spoken language toolkit) version 1.0을 사 용하였다. SLT 1.
음향 모델의 학습과 인식 실험에는 본 연구실에서 자체 개발한 SLT (spoken language toolkit) version 1.0을 사 용하였다. SLT 1.
결국 충분한 학습 데이터를 갖지 못하거 나 혹은 전혀 학습되지 못하는 모델들이 발생하게 되고,이러한 문제를 해결하기 위해 유사한 모델들끼리 클러스터를 구축하여 정보를 공유하는 방법들이 제시되어 왔다 [2,3]. 클러스터들은 대개 문맥 종속음소 의 상태들 로 구성되며, 이를 위해서 결정트리 기반의 top-down 방 식이 사용된다. Top-down 클러스터링은 음소 질의어에 따라 데이터를 양분하였을 때 우도확률 (likelihood)이 높 아지거나⑵ 엔트로피 (entropy)가 낮아지는[3] 범주를 채택하는 과정을 반복하며 결정트리를 구축하고, 트리의 각 리프 노드에 속해 있는 HMM 상태들이 하나의 클러스 터를 이룬다.
결국 충분한 학습 데이터를 갖지 못하거 나 혹은 전혀 학습되지 못하는 모델들이 발생하게 되고,이러한 문제를 해결하기 위해 유사한 모델들끼리 클러스터를 구축하여 정보를 공유하는 방법들이 제시되어 왔다 [2,3]. 클러스터들은 대개 문맥 종속음소 의 상태들 로 구성되며, 이를 위해서 결정트리 기반의 top-down 방 식이 사용된다. Top-down 클러스터링은 음소 질의어에 따라 데이터를 양분하였을 때 우도확률 (likelihood)이 높 아지거나⑵ 엔트로피 (entropy)가 낮아지는[3] 범주를 채택하는 과정을 반복하며 결정트리를 구축하고, 트리의 각 리프 노드에 속해 있는 HMM 상태들이 하나의 클러스 터를 이룬다.
성능/효과
자동 음소 질의어 집합은 문맥 독립 음소의 HMM을 이 용하여 위에서 설명한 알고리즘으로 생성되었으며 표 3 이 만들어진 범주들 중 초성 자음 '日(bl)'과 이중모음 '나(wa)'를 포함하는 것의 일부이다. 기본 bottom-up 알 고리즘은 하나의 음소가 포함되는 범주가 한 집합의 진부 분집합들로서만 생성되는 것에 비해 제안한 방법으로 생 성된 음소 질의어 집합은 유사한 분포를 갖는 보다 다양 한 범주들로 구성됨을 표에서 확인할수 있다. 예를들면, 2.
자동 음소 질의어 집합은 문맥 독립 음소의 HMM을 이 용하여 위에서 설명한 알고리즘으로 생성되었으며 표 3 이 만들어진 범주들 중 초성 자음 '日(bl)'과 이중모음 '나(wa)'를 포함하는 것의 일부이다. 기본 bottom-up 알 고리즘은 하나의 음소가 포함되는 범주가 한 집합의 진부 분집합들로서만 생성되는 것에 비해 제안한 방법으로 생 성된 음소 질의어 집합은 유사한 분포를 갖는 보다 다양 한 범주들로 구성됨을 표에서 확인할수 있다. 예를들면, 2.
제 안한 방법은 데이터 기반으로 음소 문맥을 생성하기 때문 에 인식기가 사용하는 언어나 유사음소단위를 고려할 필 요가 없다는 장점이 있을 뿐 아니라, 자동으로 생성된 음 소 질의어 집합이 수작업으로 제공된 음소 질의어 집합에 비해 음성인식기의 에러율을 감소시킴을 실험으로 확인 하였다. 이는 실제 음소 데이터들의 분포가 반드시 언어 학적 범주를 따르지는 않는다는 것을 의미하며, 이로 인 해 언어학적 구분에 따른 음소 질의어 집합을 사용하는 것 보다는 데이터 기반의 음소 질의어 집합을 이용하여 클러스터 링을 하는 것이 보다 효율적임을 알 수 있었다.
아니라 '버(bl)'과 '교(phi)'의 집합도 생성할수 있었다. 또한 마지막 상태의 유사도만을 비교함으로써 '나(wa)', ' 卜(a)', ' ¥(ya)'와 같이 소리의 끝 부분이 유사한 음소 들의 범주들 역시 생성함을 확인하였다.
자동 생성된 음소 질의어 집합을 이용하여 생성된 결정 트리는 총 5207개의 질의어 노드수를 가지고 5331개의 상태 클러스터들을 생성하였으며 , 기존의 지식기반 음소 질의어 집합은 총 질의어 노드수 5451개, 생성된 클러스 터수 5575개로 유사한 크기의 결정트리를 생성하였다. 또한, 자동 음소 질의어 집합으로 구축된 결정트리에는 1400개의 고유한 질의어들이 사용되었는데 이 중에서 1031개가 모노폰의 첫 번째 상태 또는 마지막 상태의 유 사도만을 바탕으로 생성된 것으로서, 소리의 앞부분과 뒷부분의 유사도를 바탕으로 생성된 질의어들이 실제로 많은 노드에서 선택됨을 알 수 있었다.
자동 생성된 음소 질의어 집합을 이용하여 생성된 결정 트리는 총 5207개의 질의어 노드수를 가지고 5331개의 상태 클러스터들을 생성하였으며 , 기존의 지식기반 음소 질의어 집합은 총 질의어 노드수 5451개, 생성된 클러스 터수 5575개로 유사한 크기의 결정트리를 생성하였다. 또한, 자동 음소 질의어 집합으로 구축된 결정트리에는 1400개의 고유한 질의어들이 사용되었는데 이 중에서 1031개가 모노폰의 첫 번째 상태 또는 마지막 상태의 유 사도만을 바탕으로 생성된 것으로서, 소리의 앞부분과 뒷부분의 유사도를 바탕으로 생성된 질의어들이 실제로 많은 노드에서 선택됨을 알 수 있었다.
3%의 에러율 감소를 보였다. 또한, 제안한 방식의 클 러스터링이 아닌 단순히 모든 음소들을 리프노드에 두고 묶어 나가는 bottom-up 방식으로 질의어들을 생성하여 결정트리에 사용한 경우는 에러율이 2.6%로 본 논문에서 제안한 알고리즘보다는 성능이 약 8% 정도 떨어지지만 여전히 지식 기반 음소 질의어 집합에 비해서는 음성 인 식기의 성능을 높임을 확인할 수 있었다.
3%의 에러율 감소를 보였다. 또한, 제안한 방식의 클 러스터링이 아닌 단순히 모든 음소들을 리프노드에 두고 묶어 나가는 bottom-up 방식으로 질의어들을 생성하여 결정트리에 사용한 경우는 에러율이 2.6%로 본 논문에서 제안한 알고리즘보다는 성능이 약 8% 정도 떨어지지만 여전히 지식 기반 음소 질의어 집합에 비해서는 음성 인 식기의 성능을 높임을 확인할 수 있었다.
제 안한 방법은 데이터 기반으로 음소 문맥을 생성하기 때문 에 인식기가 사용하는 언어나 유사음소단위를 고려할 필 요가 없다는 장점이 있을 뿐 아니라, 자동으로 생성된 음 소 질의어 집합이 수작업으로 제공된 음소 질의어 집합에 비해 음성인식기의 에러율을 감소시킴을 실험으로 확인 하였다. 이는 실제 음소 데이터들의 분포가 반드시 언어 학적 범주를 따르지는 않는다는 것을 의미하며, 이로 인 해 언어학적 구분에 따른 음소 질의어 집합을 사용하는 것 보다는 데이터 기반의 음소 질의어 집합을 이용하여 클러스터 링을 하는 것이 보다 효율적임을 알 수 있었다.
HMM 상태 클러스터 링을 위해서는 로그 우도확률 기반으로 결정트리를 구축하였다. 이와 같이 학습된 모델을 이용하여 SITEC에서 배포한PBW데이터에 대해 단 어 인식 실험을 수행한 결과, 자동으로 생성된 음소 질의 어 집합을 이용한 인식기는 표 4와같이 기존의 지식 기반 음소 질의어 집합을 이용한 인식기보다 상대적으로 약 14.3%의 에러율 감소를 보였다. 또한, 제안한 방식의 클 러스터링이 아닌 단순히 모든 음소들을 리프노드에 두고 묶어 나가는 bottom-up 방식으로 질의어들을 생성하여 결정트리에 사용한 경우는 에러율이 2.
HMM 상태 클러스터 링을 위해서는 로그 우도확률 기반으로 결정트리를 구축하였다. 이와 같이 학습된 모델을 이용하여 SITEC에서 배포한PBW데이터에 대해 단 어 인식 실험을 수행한 결과, 자동으로 생성된 음소 질의 어 집합을 이용한 인식기는 표 4와같이 기존의 지식 기반 음소 질의어 집합을 이용한 인식기보다 상대적으로 약 14.3%의 에러율 감소를 보였다. 또한, 제안한 방식의 클 러스터링이 아닌 단순히 모든 음소들을 리프노드에 두고 묶어 나가는 bottom-up 방식으로 질의어들을 생성하여 결정트리에 사용한 경우는 에러율이 2.
따라서 본 논문 에서는 이러한 문제를 해결하기 위해 음소 모델 간의 거 리를 수치적으로 측정하고 유사한 것들을 묶어나감으로 써 음소 질의어 집합을 생성하는 방법을 제안하였다. 제 안한 방법은 데이터 기반으로 음소 문맥을 생성하기 때문 에 인식기가 사용하는 언어나 유사음소단위를 고려할 필 요가 없다는 장점이 있을 뿐 아니라, 자동으로 생성된 음 소 질의어 집합이 수작업으로 제공된 음소 질의어 집합에 비해 음성인식기의 에러율을 감소시킴을 실험으로 확인 하였다. 이는 실제 음소 데이터들의 분포가 반드시 언어 학적 범주를 따르지는 않는다는 것을 의미하며, 이로 인 해 언어학적 구분에 따른 음소 질의어 집합을 사용하는 것 보다는 데이터 기반의 음소 질의어 집합을 이용하여 클러스터 링을 하는 것이 보다 효율적임을 알 수 있었다.
따라서 본 논문 에서는 이러한 문제를 해결하기 위해 음소 모델 간의 거 리를 수치적으로 측정하고 유사한 것들을 묶어나감으로 써 음소 질의어 집합을 생성하는 방법을 제안하였다. 제 안한 방법은 데이터 기반으로 음소 문맥을 생성하기 때문 에 인식기가 사용하는 언어나 유사음소단위를 고려할 필 요가 없다는 장점이 있을 뿐 아니라, 자동으로 생성된 음 소 질의어 집합이 수작업으로 제공된 음소 질의어 집합에 비해 음성인식기의 에러율을 감소시킴을 실험으로 확인 하였다. 이는 실제 음소 데이터들의 분포가 반드시 언어 학적 범주를 따르지는 않는다는 것을 의미하며, 이로 인 해 언어학적 구분에 따른 음소 질의어 집합을 사용하는 것 보다는 데이터 기반의 음소 질의어 집합을 이용하여 클러스터 링을 하는 것이 보다 효율적임을 알 수 있었다.
본 논문의 목적은 결정트리 기반 상태 클러스터링을 위한 음소 질의어 집합을 생성하는 것이므로, 일반적인 데이터 클러스터링과 달리 고려해 주어야 할 문제들이 있다. 첫째, 하나의 음소 질의 어 에 속한 음소들은 그 자체 가유사한 것들의 클러스터이기 보다는문맥 내에서 유사 한 영향을 주는 음소들을 분류해 놓은 것이어야 한다. 2.
본 논문의 목적은 결정트리 기반 상태 클러스터링을 위한 음소 질의어 집합을 생성하는 것이므로, 일반적인 데이터 클러스터링과 달리 고려해 주어야 할 문제들이 있다. 첫째, 하나의 음소 질의 어 에 속한 음소들은 그 자체 가유사한 것들의 클러스터이기 보다는문맥 내에서 유사 한 영향을 주는 음소들을 분류해 놓은 것이어야 한다. 2.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.