[논문]언어모델 군집화와 동적 언어모델 보간을 통한 음성인식 성능 향상

정의석; 전형배; 정호영; 박전규

문제 정의

최근 활발히 연구되고 있는 심층 신경망 (deep neural network) 기술은 n-gram 희소성 문제에 대한 대안이 될 수 있으나, 일반 영역 어휘수를 학습하기에는 아직 미흡하다는 판단이다. 따라서 본 논문은 전통적인 n-gram 언어모델에 기반을 둔 분산 언어모델링 기술로 일반영역 음성인식 성능 향상에 접근한다.
본 논문은 대용량 언어모델링 기술을 이용한 음성인식 성능향상에 대하여 기술하고 있다. 텍스트 클러스터링을 통한 주제별 언어모델을 생성하고, 사용자 입력을 고려한 동적 언어모델 보간 기술을 제시하였다.
본 논문은 일반 영역 대상 동적 언어모델 보간 기술을 제안한다. 여기서 언어모델의 주제별 구성은 텍스트 군집화 기술을 이용하고, 동적 언어모델 보간 가중치 계산은 주제별 언어모델의 입력 음성인식 결과에 대한 언어 모델 값을 그대로 이용하는 접근 방법을 취한다.
텍스트 군집화의 결과는 주제별 언어모델 생성에 이용된다. 본 논문의 목적 중 하나는 사용자의 입력에 동적으로 통합되는 언어모델을 제시하는데 있다. 텍스트 군집화를 통해 T개의 주제별 언어모델이 생성되었을 때(T=|LM|), 사용자 입력 w에 대한 언어모델의 보간 가중치는 식 (5)와 같이 계산되고 식 (4)는 주제별 통합된 언어모델의 결과를 보여 준다.
실시간 사용자 입력에 대응하여 동적으로 언어모델들의 보간 가중치를 결정하여 사용자 입력에 적응하는 연구는 [4]에 기술되어 있다. 여기서는 미리 정의된 보간 가중치가 모바일 사용자 입력의 주제 영역에 따라 적용되는 접근 방법을 제안하였다. 문제점은 사용자 입력의 주제 영역이 고정되어 있어야 한다는 점이다.

가설 설정

가) 텍스트 코퍼스 D는 일정 수의 어휘를 갖는 서브텍스트 {d}로 분할된다.

제안 방법

(2) 기준 문장에 대하여 주제별 언어모델에 대한 보간 가중치 값을 구한다. (3) 구해진 보간 가중치 값을 이용하여 N-best 목록의 LM값을 다시 계산하고, AM 값과 결합 후 재정렬 한다.
언어모델 군집화는 58개의 주제별 언어모델에 대하여 군집화가 진행되었다. 140만 문장을 인터넷 게시판으로부터 추출하여 알고리즘1을 적용하여 주제별 언어모델의 벡터 모델 값을 구했다. 제약 조건 무작위 문장 선택의 제약 조건으로는 6개 이상의 중복되지 않은 어휘수를 포함 조건과 단어 수 14 이상의 문장 조건을 이용했다.
즉, 매 군집화 단계에서 4,000문장을 샘플링 했다. 58개의 주제별 언어모델 각각에 대하여 벡터 공간 값이 생성되면 이후 언어모델 군집화를 진행했다.
주제별 언어모델을 생성하기 위해 이등분 K-means 알고리즘을 통해 모두 58개의 언어모델을 생성했다. 그리고, 고속의 언어모델 보간연산을 위해 해당 언어모델은 LM Trie DB 형태로 구축했다. 이는 ARPA 포맷의 언어모델을 Trie구조로 생성하는 방법이다[3].
입력 히스토리에 기반을 둔 캐쉬 기반의 언어모델 적응의 경우는 사용자의 입력이 일정하게 진행되어야 하는 영역적 한계가 있다. 따라서 본 논문은 보간 가중치 연산에 있어 사용자 입력 자체만을 대상으로 하였고, 연산에 참여하는 언어모델 수를 한정하여 연산 효율성을 추구하는 접근방법을 선택하였다.
[5]는 이등분 K-means 알고리즘(bisecting k-means algorithm)을 제시하여 좋은 결과를 보였다. 따라서 본 논문은 해당 접근방법을 이용하여 주제별 코퍼스를 구축하였다. 다음은 해당 단계를 기술한다.
텍스트 클러스터링을 통한 주제별 언어모델을 생성하고, 사용자 입력을 고려한 동적 언어모델 보간 기술을 제시하였다. 또한, 동적 언어모델 보간 가중치 연산을 개선하기 위해 언어모델군집화 기술을 통해 연산에 불필요한 주제별 언어모델을 배제하는 기술을 시도하였고, 연산 속도 개선을 위한 언어모델 군집 축소 기능에 대한 실험을 보여줬다. 최적의 성능은 주제별 언어모델과 언어모델 군집화 기술을 모두 접목 했을 때 모든 평가셋에 대하여 6.
여기서 언어모델의 주제별 구성은 텍스트 군집화 기술을 이용하고, 동적 언어모델 보간 가중치 계산은 주제별 언어모델의 입력 음성인식 결과에 대한 언어 모델 값을 그대로 이용하는 접근 방법을 취한다. 또한, 주제별 언어모델들을 군집화 하여 연산량 개선을 시도한다.
여기서 d는 해당 집합 S의 문장 개수를 의미하게 된다. 본 논문은 제약조건으로 단어의 빈도수와 종결어휘를 규칙으로 사용하였고, 다양한 토픽의 문장 추출을 위해 다중 샘플링 셋을 도출하고, 주제별 LM에 대하여 최소 엔트로피 값을 갖는 샘플링 결과를 선택하였다. 7번 줄은 LM을 구성하는 특정 lm_i의 j번째 차원값이 샘플링된 문장 sj에 의해 갱신되는 것을 보여준다.
수집된 텍스트 코퍼스가 주제별로 분리될 수 있다면 주제별 언어모델 생성이 가능하게 된다. 본 논문은 텍스트 군집화 기술을 이용하여 주제별 언어모델을 구축한다. 텍스트 군집화 기술은 주제별 언어 모델 생성 뿐 아니라, 다수 구축되는 주제별 언어모델들을 군집화 하는 단계에서도 활용된다.
분산 언어모델은 분산된 서버에서 서비스 되는 분산 n-gram 빈도수 서버형태로 처음 제시되었다[1]. 여기서 학습 코퍼스를 서픽스 배열(suffix array) 기술을 이용하여 분리하고, 클라이언트/서버 프레임워크로 접근하였다. 다른 접근 방법으로 MapReduce 프로그래밍 기술을 이용하여 대용량 언어 리소스를 구축하고, 필요에 따라 1-pass 언어모델을 생성하고, 후처리 방식으로 분산 언어 모델을 따로 구축하여 음성인식 성능을 향상 시킨 결과도 보고 되었다[2].
140만 문장을 인터넷 게시판으로부터 추출하여 알고리즘1을 적용하여 주제별 언어모델의 벡터 모델 값을 구했다. 제약 조건 무작위 문장 선택의 제약 조건으로는 6개 이상의 중복되지 않은 어휘수를 포함 조건과 단어 수 14 이상의 문장 조건을 이용했다. 언어모델 벡터 공간의 차원 수는 4,000으로 했다.
추가적으로 텍스트 군집화 접근방법의 타당성 검토를 위해 122GB의 텍스트를 일관되게 분할하여 비주제별 언어모델(non-topic LM)을 생성했다. 그러나, 무작위 셔플링은 진행하지 않아 텍스트 자체의 영역성은 유지된다고 볼 수 있다.
평가셋은 클린과 잡음으로 구성되어 있고, 베이스라인은 음성인식 1-best 결과이다. 텍스트 군집화 기술의 적용 여부에 따라 topic과 non-topic LM으로 실험을 구분하였고, 동적 언어 모델 보간 기술의 적용 여부에 따라 동일 가중치/동적 보간 실험으로 구성했다.
본 논문은 대용량 언어모델링 기술을 이용한 음성인식 성능향상에 대하여 기술하고 있다. 텍스트 클러스터링을 통한 주제별 언어모델을 생성하고, 사용자 입력을 고려한 동적 언어모델 보간 기술을 제시하였다. 또한, 동적 언어모델 보간 가중치 연산을 개선하기 위해 언어모델군집화 기술을 통해 연산에 불필요한 주제별 언어모델을 배제하는 기술을 시도하였고, 연산 속도 개선을 위한 언어모델 군집 축소 기능에 대한 실험을 보여줬다.

대상 데이터

기반 적응 기술을 특징으로 하고 있다. 음성모델(AM)은 1,200시간의 한국어 발성 녹음 자료로 학습되었다. 기본 언어모델(LM)은 17기가바이트의 텍스트로부터 구축되었다.
언어모델 벡터 공간의 차원 수는 4,000으로 했다. 즉, 매 군집화 단계에서 4,000문장을 샘플링 했다. 58개의 주제별 언어모델 각각에 대하여 벡터 공간 값이 생성되면 이후 언어모델 군집화를 진행했다.
평가셋은 40%의 뉴스, 30%의 SNS, 30%의 게시판 문장으로 구성된 10,000개의 발화를 대상으로 한다. 녹음 환경은 클린 환경과 잡음 환경으로 구성된다.

이론/모형

동적 언어모델 보간 기술의 평가는 음성인식 결과에 대한 N-best 리스코링 접근 방법을 이용한다. N-best는 사용자 입력에 대한 음성인식 결과인 래티스로부터 추출되고, AM/LM 값과 인식 문장의 목록으로 구성된다.
텍스트 군집화 기반 언어모델 적응 기술은 기존 연구[8]과 [9]에서 진행되었다. 모두 K-means와 유사한 군집화 알고리즘을 이용하여 학습 코퍼스를 분할하여 주제별 언어모델을 생성하는데 사용하였다. [9]의 경우는 tfidf 기반 전통적인 군집화 기술을 이용했고, 반면 [8]은 분할된 텍스트 군집에서 생성된 언어모델의 복잡도 값을 군집화 거리 계산에 사용하였다.
언어모델 보간 기술의 경우 기존 연구들은 보간 가중치 값 계산 방식에서 차이점을 보인다. 주로 실행 시간에 사용자 입력 히스토리의 우도를 최대화시키기 위해 EM알고리즘을 사용하였다. [3]의 경우는 퍼셉트론 형식의 알고리즘을 도입하여 미리 특정 학습 셋의 음성인식 정확도에 최적화된 보간 가중치 계산 방법을 제시하였으나 미리 연산되어야 되는 문제점이 있었고, 성능 개선 여부도 크지 않았다.

성능/효과

04초의 수행 시간을 보여 준다. 실험결과는 언어모델 군집 축소가 LM군집 감소율 20%에서 0.09%의 ACC저하를 보이고, 17.6%의 실행 시간 단축을 보여주고 있다. 30%의 군집 축소의 경우 0.
사용자 입력에 적응하고 대용량 주제별 언어모델을 이용한 리스코링을 적용한 실험 결과는 음성인식의 성능개선을 크게 향상 시켰다고 볼 수는 없다. 음성인식기의 N-best 의 스코어에 의존적인 면이 있으며, AM 스코어와 통합하여야만 성능 개선을 볼 수가 있었다. 해당 스코어의 경우 LM과 고정 비율로 실험할 수밖에 없었는데, 다른 접근 방법을 도출하기는 쉽지 않았다.
그러나 클린 평가셋은 큰 차이를 보이지 못했다. 전체 평가셋 실험의 경우 topic LM의 성능이 좋았으나 큰 성능 개선 차이가 없었고, 동적 보간 실험이 동일 가중치 실험과 차별화를 보이지 못했다.
또한, 동적 언어모델 보간 가중치 연산을 개선하기 위해 언어모델군집화 기술을 통해 연산에 불필요한 주제별 언어모델을 배제하는 기술을 시도하였고, 연산 속도 개선을 위한 언어모델 군집 축소 기능에 대한 실험을 보여줬다. 최적의 성능은 주제별 언어모델과 언어모델 군집화 기술을 모두 접목 했을 때 모든 평가셋에 대하여 6.89%의 오류 감소율을 달성하였고, 언어모델 군집 축소 기술을 통해 0.09%의 ACC감소를 통해 17.6%의 실행시간 단축을 달성하였다.
텍스트 군집화 기술 기반 주제별 언어모델 구성은 잡음환경에서 좋은 성능을 보였고, 동적 보간 기술은 non-topic LM에서도 어느 정도 효과를 보였다. 그러나 클린 평가셋은 큰 차이를 보이지 못했다.
클린환경 실험에서는 non-topic LM 동일 가중치 실험이 가장 좋은 반면, 잡음 환경에서는 해당 실험의 ERR이 가장 낮다. 통합 환경 실험의 경우 topic LM을 이용한 LM 군집화 동적 보간 실험 결과가 ERR 6.89%로 가장 좋은 성능을 보였다.
실험에서는 표1 실험과 비교를 위해 모든 언어모델 군집들을 사용하였다. 표3의 topic LM결과는 표1과 비교했을 때 가장 높은 결과를 보여주고, non-topic LM은 가장 낮은 결과를 보여 주었다. 이는 언어모델 군집화는 텍스트 군집화를 통한 주제별 언어모델 생성을 필요로 한다는 점을 말한다.

후속연구

단계에서 사용되는 언어모델을 생성하는 기술에 대한 연구 보고가 있다[10]. 향후 고려해 볼만한 연구 방향이라 판단된다.

핵심어	질문	논문에서 추출한 답변
	분산 언어모델은 어떤 형태로 처음 제시되었나?	분산 언어모델은 분산된 서버에서 서비스 되는 분산 n-gram 빈도수 서버형태로 처음 제시되었다[1]. 여기서 학습 코퍼스를 서픽스 배열(suffix array) 기술을 이용하여 분리하고, 클라이언트/서버 프레임워크로 접근하였다.
	일반영역 음성인식 기술의 한계는 무엇인가?	일반영역 음성인식 기술은 이미 상용화에 성공한 기술이라 볼 수 있다. 그러나 모든 영역의 어휘들을 인식할 수 있어야 하고, 해당 어휘 수는 문장 형태의 음성인식을 위해 필요한 n-gram의 수를 가중시킨다. 최근 활발히 연구되고 있는 심층 신경망 (deep neural network) 기술은 n-gram 희소성 문제에 대한 대안이 될 수 있으나, 일반 영역 어휘수를 학습하기에는 아직 미흡하다는 판단이다.
	일반영역 음성인식에서 대용량의 언어모델이 필요한 이유는 무엇인가?	일반영역 음성인식은 n-gram 희소성 문제로 인해 대용량의 언어모델이 필요하다. 대용량 언어모델은 분산형 모델로 구현될 수 있고, 사용자 입력에 대한 동적 언어모델 보간 기술을 통해 음성인식 성능을 개선할 수 있다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

언어모델 군집화와 동적 언어모델 보간을 통한 음성인식 성능 향상
LM Clustering based Dynamic LM Interpolation for ASR N-best Rescoring 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

언어모델 군집화와 동적 언어모델 보간을 통한 음성인식 성능 향상 LM Clustering based Dynamic LM Interpolation for ASR N-best Rescoring 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

언어모델 군집화와 동적 언어모델 보간을 통한 음성인식 성능 향상
LM Clustering based Dynamic LM Interpolation for ASR N-best Rescoring 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper