[논문]언어 모델 네트워크에 기반한 대어휘 연속 음성 인식

안동훈; 정민화

문제 정의

이 논문에서는 대어휘 연속음성 인식을 위한 효과적인 탐색 공간의 구성 방법에 대해서 알아보았다. 이 논문에서는 토큰 전파 방식의 1 패스 비터비 디코더를 설계하였으며 효율적인 탐색 공간의 운영 방법에 대해 다루었다.
반면, 디코더 입장에서는다양한형태의 모델 로부터 만들어지는 탐색 공간을 효율적으로 구성하고, 결정 과정에서 가능한 한 탐색 오류 (search error)를 줄일 수 있어야한다. 이 논문에서는 이 가운데 탐색 공간을 효율적으로 구성하는 방법에 대해 논하고자 한다. 실험에 사용한 20,000 단어급 연속 음성 인식 시스템은 수십만 개에 이르는 HMM상태를 포함한다.
반면, 디코더 입장에서는다양한형태의 모델 로부터 만들어지는 탐색 공간을 효율적으로 구성하고, 결정 과정에서 가능한 한 탐색 오류 (search error)를 줄일 수 있어야한다. 이 논문에서는 이 가운데 탐색 공간을 효율적으로 구성하는 방법에 대해 논하고자 한다. 실험에 사용한 20,000 단어급 연속 음성 인식 시스템은 수십만 개에 이르는 HMM상태를 포함한다.
이 논문에서는 대어휘 연속음성 인식을 위한 효과적인 탐색 공간의 구성 방법에 대해서 알아보았다. 이 논문에서는 토큰 전파 방식의 1 패스 비터비 디코더를 설계하였으며 효율적인 탐색 공간의 운영 방법에 대해 다루었다. 언어 모델 네트워크와 체계적 인 인식 네트워크 생성 방법을 제안하여 여러 레벨의 모델들을 하나의 통합된 탐색 공간을 구성할 수 있었다.

가설 설정

2. 언어 모델 네트워크의 각 아크에는 단어에 대한 정보가 포함된다. 따라서 이 아크를 해당 단어의 발음열로 대치하고 다시 발음열을 HMM으로 대치하면, 인식 네트워크를 얻을 수 있다.

제안 방법

백-오프 방법은 먼저 학습 데이터로부터 각 언어 모델 이벤트의 확률 값들을 계산한다. 그리고 각 이벤트 확률 값을 조금씩 "에누리 (discount)”한 다음, 이렇게 에누리된 양을 학습 데이터에 나타나지 않은 언어 모델 이벤트의 확률 값을 추정하는데 사용한다. 다음은 백-오프 방법을 사용한 언어 모델을 설명하는 수식이다[7].
1. 언어 모델 네트워크 (language model network)를 도입하여 컴파일된 탐색 공간을 구성하도록 하였다. 언어 모델 네트워크를 사용함으로써 디코더 의 동작이 언어 모델에 투명하도록 하였으며, 이 위에서 구성된 탐색 공간은 언어 모델 어휘 모델 등을 컴파일 과정을 통해 동질화함으로써 탐색 함수를 단순화할 수 있다.
언어 모델 네트워크와 체계적 인 인식 네트워크 생성 방법을 제안하여 여러 레벨의 모델들을 하나의 통합된 탐색 공간을 구성할 수 있었다. 또한 DP 알고리듬과 프루닝의 특성을 고려한 토큰 리스트를 사용함으로써 DP 과정 중 불필요한 반복 과정을 제거하였다. 트리 구조의 인식 네트워크를 사용하여 상태 출력 계산 및 토큰 연산 횟수를 줄였다.
언어 모델 네트워크와 체계적 인 인식 네트워크 생성 방법을 제안하여 여러 레벨의 모델들을 하나의 통합된 탐색 공간을 구성할 수 있었다. 또한 DP 알고리듬과 프루닝의 특성을 고려한 토큰 리스트를 사용함으로써 DP 과정 중 불필요한 반복 과정을 제거하였다. 트리 구조의 인식 네트워크를 사용하여 상태 출력 계산 및 토큰 연산 횟수를 줄였다.
세번째는 후처리를 위한 워드 그래프와 N개의 최적 문장 탐색에 대한 실험을 수행하였다. 바이그램의 언어 모델과 빔 크기 100, 125, 150에 대해 상태당 토큰의 수를 3, 5, 7,10개로 설정한 후 워드 그래프를 생성하도록 했으며, 여기서 최대 100개의 최적 문장을 선택하도록 하였다. 그림 9는 인식률 및 인식 시간을 보여주고 있다.
세번째는 후처리를 위한 워드 그래프와 N개의 최적 문장 탐색에 대한 실험을 수행하였다. 바이그램의 언어 모델과 빔 크기 100, 125, 150에 대해 상태당 토큰의 수를 3, 5, 7,10개로 설정한 후 워드 그래프를 생성하도록 했으며, 여기서 최대 100개의 최적 문장을 선택하도록 하였다. 그림 9는 인식률 및 인식 시간을 보여주고 있다.
세번째는 후처리를 위한 워드 그래프와 N개의 최적 문장 탐색에 대한 실험을 수행하였다. 바이그램의 언어 모델과 빔 크기 100, 125, 150에 대해 상태당 토큰의 수를 3, 5, 7,10개로 설정한 후 워드 그래프를 생성하도록 했으며, 여기서 최대 100개의 최적 문장을 선택하도록 하였다.
언어 모델 네트워크 (language model network)를 도입하여 컴파일된 탐색 공간을 구성하도록 하였다. 언어 모델 네트워크를 사용함으로써 디코더 의 동작이 언어 모델에 투명하도록 하였으며, 이 위에서 구성된 탐색 공간은 언어 모델 어휘 모델 등을 컴파일 과정을 통해 동질화함으로써 탐색 함수를 단순화할 수 있다.
언어 모델 네트워크 (language model network)를 도입하여 컴파일된 탐색 공간을 구성하도록 하였다. 언어 모델 네트워크를 사용함으로써 디코더 의 동작이 언어 모델에 투명하도록 하였으며, 이 위에서 구성된 탐색 공간은 언어 모델 어휘 모델 등을 컴파일 과정을 통해 동질화함으로써 탐색 함수를 단순화할 수 있다.
이 논문에서는 토큰 전파 방식의 1 패스 비터비 디코더를 설계하였으며 효율적인 탐색 공간의 운영 방법에 대해 다루었다. 언어 모델 네트워크와 체계적 인 인식 네트워크 생성 방법을 제안하여 여러 레벨의 모델들을 하나의 통합된 탐색 공간을 구성할 수 있었다. 또한 DP 알고리듬과 프루닝의 특성을 고려한 토큰 리스트를 사용함으로써 DP 과정 중 불필요한 반복 과정을 제거하였다.
이 논문에서는 토큰 전파 방식의 1 패스 비터비 디코더를 설계하였으며 효율적인 탐색 공간의 운영 방법에 대해 다루었다. 언어 모델 네트워크와 체계적 인 인식 네트워크 생성 방법을 제안하여 여러 레벨의 모델들을 하나의 통합된 탐색 공간을 구성할 수 있었다. 또한 DP 알고리듬과 프루닝의 특성을 고려한 토큰 리스트를 사용함으로써 DP 과정 중 불필요한 반복 과정을 제거하였다.
따라서 이들을 비터비 알고리듬이 사용할수 있는 하나의 탐색 공간안에서 해석할 수 있는방법이 필요하다. 이 논문에서는 각모델을 통합하는 컴파일 과정을 통해 탐색 공간을 동질의 형태로 구성한후, 이 위에서 탐색 함수를 실행하도록 하였다. 이러한 방법은 통합된 탐색 공간을 구성하기 위한 전처리 과정이 불가피하지만, 여러 형태의 지식들을 명시적으로 개별 탐색하는 과정을 은닉할 수 있을 뿐 아니라, 추후 다른 지식을 더 사용해야 하는 경우에도 별다른 탐색 함수의 수정이 필요없게 된다.
따라서 이들을 비터비 알고리듬이 사용할수 있는 하나의 탐색 공간안에서 해석할 수 있는방법이 필요하다. 이 논문에서는 각모델을 통합하는 컴파일 과정을 통해 탐색 공간을 동질의 형태로 구성한후, 이 위에서 탐색 함수를 실행하도록 하였다. 이러한 방법은 통합된 탐색 공간을 구성하기 위한 전처리 과정이 불가피하지만, 여러 형태의 지식들을 명시적으로 개별 탐색하는 과정을 은닉할 수 있을 뿐 아니라, 추후 다른 지식을 더 사용해야 하는 경우에도 별다른 탐색 함수의 수정이 필요없게 된다.
따라서 기본 디코딩 방법인 비터비 (Viterbi) 알고리듬을수식 그대로 적용하기에는 무리가 있다. 이 논문에서는 효율적인 탐색이 가능하도록 탐색 공간을 유한 상태 네트워크 (finite state network)로 구성한 후, 토큰 전파 방식의 1 패스 디코딩 과정을 통해 최적의 단어 열들을 도출하는 방법을 사용하도록 한다. 이러한 탐색 공간은 다음 두 가지 방법을 통해 효과적으로 운용된다.
따라서 기본 디코딩 방법인 비터비 (Viterbi) 알고리듬을수식 그대로 적용하기에는 무리가 있다. 이 논문에서는 효율적인 탐색이 가능하도록 탐색 공간을 유한 상태 네트워크 (finite state network)로 구성한 후, 토큰 전파 방식의 1 패스 디코딩 과정을 통해 최적의 단어 열들을 도출하는 방법을 사용하도록 한다. 이러한 탐색 공간은 다음 두 가지 방법을 통해 효과적으로 운용된다.
이때 디코딩 과정은 토큰 전파 방식으로 구현되었으몌 12], 실질적인 탐색 공간은 프루닝에서 살아남은 활성화된 HMM 상태들, 즉 토큰들을 1차원의 리스트로 표현하였다 [5, 6], 활성화된 HMM의 수를줄이기 위해 빔 프루닝 (beam pruning)과 더불어 언어 모델 미리 참조 (look-ahead) 기법을 사용하였으몌9], 추가 단계로 생성된 워드 그래프로부터 N개의 최적 문장을 추출하도록 하였다[1 이.
계산에 참여하지 말았어야 할 부분이 그대로 참여하기 때문이다. 이러한 문제를 해결하기 위해 토큰들을 리스트로 구성하였으며 그 결과 실질적인 탐색 공간은 살아남은 상태들로부터 동적으로 구성된다. 그리고 메모리와 계산량은 오로지 토큰의 개수에 비례하게 된다[5].
특히 언어 모델 미리참조 기법은 트리 구조의 단점이었던 언어 모델의 지연 적용 문제를 해결하는데에도 도움이 되었음을 알 수 있 다. 첫번째 실험 결과를 토대로 이하 모든 실험은 언어 모델 미리 참조 기법을 적용한 트리 구조의 인식 네트워 크에서 진행하였다.
특히 언어 모델 미리참조 기법은 트리 구조의 단점이었던 언어 모델의 지연 적용 문제를 해결하는데에도 도움이 되었음을 알 수 있 다. 첫번째 실험 결과를 토대로 이하 모든 실험은 언어 모델 미리 참조 기법을 적용한 트리 구조의 인식 네트워 크에서 진행하였다.
첫번째 실험은 인식 네트워크의 효율성에 대한실험이다. 빔 크기를 150 (자연로그 도메인)으로 고정시키고 플랫 구조, 트리 구조, 언어 모델 미리 참조 기법을 적용한 트리 구조 (트리/LMLA)에 대해서 테스트한 결과, 그림 6와 같은 결과를 얻었다.
또한 DP 알고리듬과 프루닝의 특성을 고려한 토큰 리스트를 사용함으로써 DP 과정 중 불필요한 반복 과정을 제거하였다. 트리 구조의 인식 네트워크를 사용하여 상태 출력 계산 및 토큰 연산 횟수를 줄였다. 여기에 언어 모델 미리 참조 기법을 적용하여 보다 정밀한 빔을 사용함으로써 많은 수의 토큰들을 탐색 오류의 증가없이 이른 시간에 탈락시킬 수 있었다.

대상 데이터

5이고, 2회 미만의 출현 빈도를 가진 이벤트는 제외하였다. 마지막으로 테스트 문장으로는 학습에 참여하지 않은 화자의 발화 가운데 미등록 어휘 (OOV： out-of-vocabulany)가 없는 문장 154개를 선택하였다.
이 논문에서는 이 가운데 탐색 공간을 효율적으로 구성하는 방법에 대해 논하고자 한다. 실험에 사용한 20,000 단어급 연속 음성 인식 시스템은 수십만 개에 이르는 HMM상태를 포함한다. 따라서 기본 디코딩 방법인 비터비 (Viterbi) 알고리듬을수식 그대로 적용하기에는 무리가 있다.
이 논문에서는 이 가운데 탐색 공간을 효율적으로 구성하는 방법에 대해 논하고자 한다. 실험에 사용한 20,000 단어급 연속 음성 인식 시스템은 수십만 개에 이르는 HMM상태를 포함한다. 따라서 기본 디코딩 방법인 비터비 (Viterbi) 알고리듬을수식 그대로 적용하기에는 무리가 있다.
으로 테스트 문징-으로는 학습에 참여하지 않은 화자의 발화 가운데 미등록 어휘 (OOV: out-of-vocabulany)가 없는 문장 154개를 선택하였다.
발음사전 은 총 22622개의 단어로 이루어졌으며, 다중 발음열을 허용하여 총 28243개의 엔트리를 포함한다. 음성으로부터 추출한 특징 벡터는 13차의 MFCC와 그 델타 및 델타一델타계수를 포함한 39차의 벡터를 이용하였다.
발음사전 은 총 22622개의 단어로 이루어졌으며, 다중 발음열을 허용하여 총 28243개의 엔트리를 포함한다. 음성으로부터 추출한 특징 벡터는 13차의 MFCC와 그 델타 및 델타一델타계수를 포함한 39차의 벡터를 이용하였다.
학습 데이터는 신문, 서적 등으로부터 추출한 낭독체 15,000 문장을 사용하였다. 평균 20개의 형태소, 10개의 어절로 이루어졌으며 전체 약 25시간분량에 해당한다.
학습 데이터는 신문, 서적 등으로부터 추출한 낭독체 15,000 문장을 사용하였다. 평균 20개의 형태소, 10개의 어절로 이루어졌으며 전체 약 25시간분량에 해당한다.
평균 20개의 형태소, 10개의 어절로 이루어졌으며 전체 약 25시간분량에 해당한다. 학습 데이터에 대해 48개의 SGU (서강대) PLU로부터 11421 개의 트라이폰과 4855개의 상태-공유 HMM을 생성하였다. 발음사전 은 총 22622개의 단어로 이루어졌으며, 다중 발음열을 허용하여 총 28243개의 엔트리를 포함한다.

이론/모형

2. 토큰 전파 (token propagation) 방식의 비터비 디코더를 사용하였다[12]. 토큰은 프루닝 (pruning) 등의 과정에서 살아남은 활성화된 HMM 상태들을 가리킨다.
언어 모델은 바이그램 및 트라이그램 모두 절대치 감가 (absolute discounting) 방법[7]을 사용하였으며, 이때 사용 한파라미터는 0.5이고, 2회 미만의 출현 빈도를 가진 이벤트는 제외하였다. 마지막으로 테스트 문장으로는 학습에 참여하지 않은 화자의 발화 가운데 미등록 어휘 (OOV： out-of-vocabulany)가 없는 문장 154개를 선택하였다.
각 단어마다 하나 또는 그 이상의 발음열을 포함할 수 있으며, 발음 확률을 선택적으로 사용할 수 있다. 언어 모델은 백-오프 (back-off) 기반의 임의의 N-gram을 사용한다. 한편, 시 스템의 디코더는 그림 1과 같이 구성된다.
[10]의 변형된 비터비 디코딩 방법을도입하여, 결과로 최적의 문장과 워드 그래프 (word graph)를 생성한다. 이 때 디코딩 과정은 토큰 전파 방식으로 구현되었으며[12], 실질적인 탐색 공간은 프루닝에서 살아남은 활성화된 HMM 상태들, 즉 토큰들을 1차원의 리스트로 표현하였다 [5,6], 활성화된 HMM의 수를줄이기 위해 빔 프루닝 (beam pruning)과 더불어 언어 모델 미리 참조 (look-ahead) 기법을 사용하였으며[9], 추가 단계로 생성된 워드 그래프로부터 N개의 최적 문장을 추출하도록 하였다[0]
기본 인식 시스템은화자독립형이며, 음소 기반의 유사 음소단위 (PLU： phoneme-like-unit)를 인식 단위로 사용한다. 인식 단위는묵음을 포함하여 48개의 PLU로 구성된 서강대 (SGU) PLU 세트를 이용하였으며, 음향 모델은 상태-공유 (tied-state)의 연속 HMM을 사용하였다. 모든 HMM은 각각 세개의 상태를 가지고, 각 상태의 출력 확률 값은 다수의 가우시안 혼합분포로부터 계산된다.
기본 인식 시스템은화자독립형이며, 음소 기반의 유사 음소단위 (PLU： phoneme-like-unit)를 인식 단위로 사용한다. 인식 단위는묵음을 포함하여 48개의 PLU로 구성된 서강대 (SGU) PLU 세트를 이용하였으며, 음향 모델은 상태-공유 (tied-state)의 연속 HMM을 사용하였다. 모든 HMM은 각각 세개의 상태를 가지고, 각 상태의 출력 확률 값은 다수의 가우시안 혼합분포로부터 계산된다.

성능/효과

0 으로 컴파일하였다. Microsoft Visual C++ 6.0에 비해 약 10%정도의 디코딩 시간을 줄일 수 있었다.
45%이었다. 거의 정확한 실시간 디코딩 (1.02RIF) 결과는 빔 크기 100에서 75.06%의 인식률을 얻을 수 있었다. 이 경우 눈에 띄는 탐색 오류가 발생하였음을 알 수 있다.
또한 1 패스에서 생성된 워드 그래프와 N개의 최적 문장은 인식 결과 를 효과적으로 재탐색할수 있는수단으로 사용될 수 있다. 결과적으로 논문에서 제안한 디코더는 20 k의 단어를 대상으로 실시간 디코딩이 가능함을 보여주었다. 그러나 실험 결과가 보여주듯이 , 언어 및 음향 모델에 내재된 모델 오류는 개선의 여지가 있다.
둘째, 토큰 재결합시 경쟁에서 이긴 토큰뿐 아니라 상위 M개의 토큰을 유지하면, 워드 그래프를 생성하는데 필요한 각 단어의 시작 시간과 단어의 확률 값을 백트래킹의 정보와 함께 저장할 수 있다. 워드 그래프는 이러한 정보로부터 쉽게 구할 수 있다.
상위 10개를 선택한 경우 평균 5.8%의 단어 인식률이 향상되었으며 30개의 경우 +1.16% (+는 그만큼 향상했음을 의미), 50개의 경우 +0.28%, 70개의 경우+0.13%, 100개의 경우+0.09%의 인식률 향상이 있었다.
98%를 얻은 경우이다. 상위 10개를 선택한 경우 평균 5.8%의 단어 인식률이 향상되었으며 30개의 경우 +1.16% （+는 그만큼 향상했음을 의미）, 50개의 경우 +0.28%, 70개의 경우+0.13%, 100개의 경우 +0.09%의 인식률 향상이 있었다. 반면 인식 시간에 대해서는, 빔 크기 100을 사용한 경우 1.
여기에 언어 모델 미리 참조 기법을 적용하여 보다 정밀한 빔을 사용함으로써 많은 수의 토큰들을 탐색 오류의 증가없이 이른 시간에 탈락시킬 수 있었다. 실험을 통해 언어 모델 미리 참조 기법은 시간 비용을 매우 효과적으로 감소시킬 수 있음을 보여주었다. 또한 1 패스에서 생성된 워드 그래프와 N개의 최적 문장은 인식 결과 를 효과적으로 재탐색할수 있는수단으로 사용될 수 있다.
그림 7과 그림 8은 빔 사이즈 및 바이그램/트라이그램 사용에 따른 인식률 및 최대 HMM의 개수와 RIF로 대변하는 디코딩 비용의 변화 양상을 보여준다. 언어 모델에 상관 없이 빔 크기를 300에서 150까지 줄이더라도 인식률에는 거의 변화가 없는 반면, 인식 시간은 매우 효과적으로 감소하고 있음을 볼 수 있다. 바이그램의 경우 가장 높은 인식률은 빔 크기 150, 3.
첫째, 비터비 디코딩의 팀색 공간은 원칙적으로 2차원 그리드 안에 정의된 모든 상태들이지만, 실제 탐색 과정 이는 프루닝 에서 살아남은 상태들만이 참여한다. 토큰은 이렇게 해서 살아남은상태마다 유지되므로 토큰들로 구 성된 동적인 탐색 공간을 구성할 수 있다.
트라이그램의 경우에도 동일하다. 트라이그램 사용에 따른 HMM의 개수가 조금씩 증가하였지만 인식 시간에는 큰 차이가 없었으며 최대 인식률은 빔 크기 175에서 5.02RIF, 82.57%, 125에서는 1.88RTF, 81.61%, 100에서는 0.96RTF, 76.78%이었다. 이는 트라이그램이 바이그램보다 변별력이 있음을 보여준다.

후속연구

그러나 실험 결과가 보여주듯이 , 언어 및 음향 모델에 내재된 모델 오류는 개선의 여지가 있다. 이들에 대해서는 추가적인 데이터 수집과 더불어 변별력 있는 학습 방법을 통해 개선해야 할 것이다. 또한 디코딩 과정은 실시간으로 수행할 수 있지만, 음성 인식 시스템은 디코더 이외에도 마이크로부터 음성을 입력받는 부분과 인식 결과를 응용 목적에 맞도록 가공하는 과정이 포함된다.
따라서 시스템의 시작 단계에서부터 최종 결과를 사용자에게 보여주는 과정은 다소 지연될 수 밖에 없다. 이러한 지연을 최소화하도록 전반부에서부터 출력 결과에 이르는 단계를 효과적으로 연결화하는 방법도 제안되어야 할 것이다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

언어 모델 네트워크에 기반한 대어휘 연속 음성 인식
Large Vocabulary Continuous Speech Recognition Based on Language Model Network 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

언어 모델 네트워크에 기반한 대어휘 연속 음성 인식 Large Vocabulary Continuous Speech Recognition Based on Language Model Network 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

저자의 다른 논문 :

안동훈 (1) 정민화 (10)

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

언어 모델 네트워크에 기반한 대어휘 연속 음성 인식
Large Vocabulary Continuous Speech Recognition Based on Language Model Network 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper