[논문]음성 인식 오류 수정을 위한 Trie 기반 사전을 이용한 Guided Sequence Generation

최준휘; 류성한; 유환조; 이근배

음성 인식 오류 수정을 위한 Trie 기반 사전을 이용한 Guided Sequence Generation
Guided Sequence Generation using Trie-based Dictionary for ASR Error Correction 원문보기

한국어정보학회 2016년도 제28회 한글및한국어정보처리학술대회, 2016 Oct. 07, 2016년, pp.211 - 216

최준휘 (포항공과대학교) , 류성한 (포항공과대학교) , 유환조 (포항공과대학교) , 이근배 (포항공과대학교)

초록
AI-Helper

현재 나오는 많은 음성 인식기가 대체로 높은 정확도를 가지고 있더라도, 음성 인식 오류는 여전히 빈번하게 발생한다. 음성 인식 오류는 관련 어플리케이션에 있어 많은 오동작의 원인이 되므로, 음성 인식 오류는 고쳐져야 한다. 본 논문에서는 Trie 기반 사전을 이용한 Guided Sequence Generation을 제안한다. 제안하는 모델은 목표 단어와 그 단어의 문맥을 Encoding하고, 그로부터 단어를 Character 단위로 Decoding하며 단어를 Generation한다. 올바른 단어를 생성하기 위하여, Generation 시에 Trie 기반 사전을 통해 유도한다. 실험을 위해 모델은 영어 TV 가이드 도메인의 말뭉치의 음성 인식 오류를 단순히 Simulation하여 만들어진 말뭉치로부터 훈련되고, 같은 도메인의 음성 인식 문장과 결과로 이루어진 병렬 말뭉치에서 성능을 평가하였다. Guided Generation은 Unguided Generation에 비해 14.9% 정도의 오류를 줄였다.

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

그러므로 새로운 음성 인식기를 이용할 때모델을 다시 훈련해야 하나, 다시 훈련하기 위해 말뭉치를 재생성할 때 음성 말뭉치가 아니면, 그 또한 어렵다. 따라서 본 방법론은 병렬 말뭉치 필요 없이, 간단한 simulation된 말뭉치로도 효과적인 방법론을 제안코자 한다.
본 논문에서 우리는 음성 인식 오류 수정을 위한 trie 기반 사전을 이용한 guided sequence generation을 제안하였다. 이는 목표 오류와 그 주위의 문맥을 하나의 vector로 embedding하여 해당 embedding vector로부터 단어를 character 단위로 generation하는 방법론이다.
따라서 최근에는 word level이 아닌 character level의 접근이 늘어나는 추세이다. 본 논문은 word level의 접근이 아닌 character level로 접근하여 RNN 기반의 방법론을 적용한 sequence generation framework를 적용하여 word를 character 단위로 생성하여 음성 인식 문제를 해결하고자 제안한다. 그러나 마지막 문제가 남아 있는데, 이는 invalid sequence의 생성이다.
따라서 음성 인식기 응용프로그램에 따라서는 도리어 음성 인식 오류 수정 전보다 못한 결과를 내기도 한다. 이러한 문제를 해결하기 위해 본 논문에서는 RNN 기반의 방법론을 적용한 sequence generation을 이용하면서도 invalid sequence를 생성하지 않게 하기 위한 guide를 두는 방법론을 제안한다.

제안 방법

훈련 말뭉치로 정제된 영어 TV 가이드 대화 말뭉치를 이용하였다. Encoding 단계의 입력 layer의 dimension을 줄이기 위하여, 모든 단어는 소문자로 normalize되었으며, 숫자는 모든 숫자가 0으로 치환되었고, 알파벳과 숫자가 아닌 모든 기호는 공백 문자로 치환되었다. 결과적으로 해당 dimension은 알파벳 문자 26개, 숫자 1개, 공백 1개, none symbol, start symbol, end symbol으로 이루어진 31 dimension으로 구성되었다.
제안된 알고리즘에 따르면, guided generation 시에 rejection threshold가 필요하며 이는 성능에 영향을 미친다. 따라서 threshold factor에 따른 성능 변화를 측정하였다. (표 1)
그러나 해당 방법론들은 여전히 invalid sequence가 generation되는 것을 막을 수 없기 때문에 좀 더 명확한 guide가 필요하다. 따라서 trie 기반 사전을 이용한 guided generation을 제안한다.
음성 인식 오류의 특성을 고려하면 오류는 해당 오류의 정답과 phonetically 유사하다. 따라서 좀 더 음성 인식 오류에 가까운 simulation을 위해 CMUDICT[10]를 이용하여, 발음열 유사도가 0.7 이상인 단어로 랜덤하게 치환하도록 하였다. 이러한 방법으로 약 29,000 문장에서 약 155,000 개의 데이터를 생성하였다.
올바른 훈련 말뭉치 생성을 위해, 해당 말뭉치에서 음성 인식 오류를 simulation하였다. 각각의 문장의 첫 단어에서부터 끝 단어까지 숫자를 포함한 단어가 아닌 단어에 한해 해당 단어는 다른 임의의 단어로 랜덤하게 치환시켜 구성했다.
위 실험을 통해 threshold factor를 0.8로 정하고, 수정을 하지 않은 상태 (음성 인식기의 WER), guide를 하지 않은 generation, guided generation의 세 가지 결과를 비교하였다. (표 2)
제안하는 방법의 trie 기반 사전은 단어를 character level로 저장한다. 해당 사전은 character node가 연결된 방식으로 구성되어 있고, 각각의 character node는 ‘hasChild’변수와 ‘isWord’변수로 구성되어 있다.
제안한 방법론은 encoding 단계와 decoding 단계의 두 단계로 이루어져 있다. encoding 단계에서 모델은 목표(음성 인식 오류) 단어와 그 단어의 왼쪽 문맥과 오른쪽 문맥이 하나의 vector로 encoding 된다.
최적의 파라메터를 찾기 위해 grid search를 이용하였다. 그에 따라 input embedding의 dimension은 128이며, output embedding과 hidden layer의 dimension들 또한 같다.

대상 데이터

실험을 위해서는 음성 인식 결과 문장과 그 문장의 정답 문장으로 이루어진 쌍으로 구성된 병렬 말뭉치가 필요하다. 훈련 말뭉치와 같은 영어 TV 가이드 대화 말뭉치를 준비했으며, 약 4,700 문장 쌍으로 구성되었다. 음성 인식 문장은 30만 단어급 언어 모델을 가진 음성 인식기로부터 생성되었으며, Word Error Rate (WER)은 약 8.

이론/모형

내부 활성 함수 σ는 hard sigmoid 함수를 사용하였고, 활성 함수 τ는 hyperbolic tangent 함수를 사용하였다.
모든 구조는 Python 기반 딥러닝 라이브러리인 KERAS [11]를 통해 구현되었으며, 해당 라이브러리는 Google Tensorflow [12]와 Theano [13] 기반으로 작동된다. (어떤 라이브러리를 back-end로 사용할지는 옵션으로 선택 가능하다.
훈련 말뭉치로 정제된 영어 TV 가이드 대화 말뭉치를 이용하였다. Encoding 단계의 입력 layer의 dimension을 줄이기 위하여, 모든 단어는 소문자로 normalize되었으며, 숫자는 모든 숫자가 0으로 치환되었고, 알파벳과 숫자가 아닌 모든 기호는 공백 문자로 치환되었다.

성능/효과

결과에 따르면 guided generation이 가장 높은 성능을 기록하며 guide 하지 않았을 때의 결과보다 전체 오류의 14.9%를 줄이며 우수한 성능을 보였다. 이는 epoch가 150 일 때 guide 하지 않은 것의 출력 중의 74.
결과적으로 threshold factor가 0.8 일 때 전체 오류의 14.9%를 줄이며 가장 좋은 성능을 확보했다. Threshold factor가 0.
Encoding 단계의 입력 layer의 dimension을 줄이기 위하여, 모든 단어는 소문자로 normalize되었으며, 숫자는 모든 숫자가 0으로 치환되었고, 알파벳과 숫자가 아닌 모든 기호는 공백 문자로 치환되었다. 결과적으로 해당 dimension은 알파벳 문자 26개, 숫자 1개, 공백 1개, none symbol, start symbol, end symbol으로 이루어진 31 dimension으로 구성되었다. Decoding 단계의 출력 dimension 또한 이와 같다.
음성 인식 오류 수정이기 때문에 적어도 non-word가 발생치 않도록 하기 위하여 generation 시 guide하는 방법이 적용되었다. 본 방법론에 따라 단순하게 simulation된 훈련 말뭉치로 실제 발생한 오류 전체의 14.9%를 줄이는 성능을 확인할 수 있었다. 이 방법론을 바탕으로 전체 이는 단순히 음성 인식 오류뿐만 아니라, RNN을 응용한 generation의 고질적인 문제인 invalid sequence generation 문제를 해결하는 방법론을 제안하였고 등록된 sequence를 generation하는 많은 분야에서 응용될 수 있을 것이라 기대된다.
훈련 말뭉치와 같은 영어 TV 가이드 대화 말뭉치를 준비했으며, 약 4,700 문장 쌍으로 구성되었다. 음성 인식 문장은 30만 단어급 언어 모델을 가진 음성 인식기로부터 생성되었으며, Word Error Rate (WER)은 약 8.29%로 전체 오류의 89.3%는 대체 오류, 7.7%는 삭제 오류, 4.0%는 삽입 오류이다.
제안된 알고리즘에 따르면, guided generation 시에 rejection threshold가 필요하며 이는 성능에 영향을 미친다. 따라서 threshold factor에 따른 성능 변화를 측정하였다.
한 가지 한계점은 guided generation 방법론이 guide 하지 않았을 때의 방법론과 비교했을 때 character level의 정확도는 더 떨어진다. 제안한 방법론은 정방향으로 진행하여 최적의 path를 찾는 것과 유사한 방법론이지만 이는 사실 sequence 전체로 보았을 때의 최적의 path는 아니라고 할 수 있다. 따라서 추후 연구로 먼저 decoding의 출력으로 character의 network를 구성하고 Viterbi search를 통해 단어를 구성할 때 단어 사전을 이용하여 non-word가 생성되지 않도록 하는 방법을 고려할 수 있을 것이다.

후속연구

제안한 방법론은 정방향으로 진행하여 최적의 path를 찾는 것과 유사한 방법론이지만 이는 사실 sequence 전체로 보았을 때의 최적의 path는 아니라고 할 수 있다. 따라서 추후 연구로 먼저 decoding의 출력으로 character의 network를 구성하고 Viterbi search를 통해 단어를 구성할 때 단어 사전을 이용하여 non-word가 생성되지 않도록 하는 방법을 고려할 수 있을 것이다.
9%를 줄이는 성능을 확인할 수 있었다. 이 방법론을 바탕으로 전체 이는 단순히 음성 인식 오류뿐만 아니라, RNN을 응용한 generation의 고질적인 문제인 invalid sequence generation 문제를 해결하는 방법론을 제안하였고 등록된 sequence를 generation하는 많은 분야에서 응용될 수 있을 것이라 기대된다.

질의응답

핵심어	질문	논문에서 추출한 답변
	음성 인식 오류 수정을 위한 trie 기반 사전을 이용한 guided sequence generation을 제안한 본 연구의 방법론을 적용한 결과, 오류를 얼마나 줄이는 성능을 확인할 수 있었는가?	음성 인식 오류 수정이기 때문에 적어도 non-word가 발생치 않도록 하기 위하여 generation 시 guide하는 방법이 적용되었다. 본 방법론에 따라 단순하게 simulation된 훈련 말뭉치로 실제 발생한 오류 전체의 14.9%를 줄이는 성능을 확인할 수 있었다. 이 방법론을 바탕으로 전체 이는 단순히 음성 인식 오류뿐만 아니라, RNN을 응용한 generation의 고질적인 문제인 invalid sequence generation 문제를 해결하는 방법론을 제안하였고 등록된 sequence를 generation하는 많은 분야에서 응용될 수 있을 것이라 기대된다.
	기존 음성인식 방법론들에서 해당 병렬 말뭉치가 필요한 것의 문제점은?	[1][2] 해당 병렬 말뭉치가 필요한 것은 기존 방법론들의 큰 단점 중의 하나인데 여러 문제점을 가지고 있다. 우선적으로 병렬 말뭉치는 얻기 힘들며, 해당 말뭉치는 그 음성 인식기가 사용된 환경과 그 음성 인식기에 종속되어 있다. 따라서 해당 말뭉치로 훈련된 모델은 환경이 다르거나 음성 인식기가 바뀌었을 때 적용하기 힘들다는 단점이 있다. 그러므로 새로운 음성 인식기를 이용할 때모델을 다시 훈련해야 하나, 다시 훈련하기 위해 말뭉치를 재생성할 때 음성 말뭉치가 아니면, 그 또한 어렵다. 따라서 본 방법론은 병렬 말뭉치 필요 없이, 간단한 simulation된 말뭉치로도 효과적인 방법론을 제안코자 한다.
	본 논문에서 제안한 Guided Sequence Generation는 무엇 기반 사전을 이용하였는가?	음성 인식 오류는 관련 어플리케이션에 있어 많은 오동작의 원인이 되므로, 음성 인식 오류는 고쳐져야 한다. 본 논문에서는 Trie 기반 사전을 이용한 Guided Sequence Generation을 제안한다. 제안하는 모델은 목표 단어와 그 단어의 문맥을 Encoding하고, 그로부터 단어를 Character 단위로 Decoding하며 단어를 Generation한다.

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

음성 인식 오류 수정을 위한 Trie 기반 사전을 이용한 Guided Sequence Generation
Guided Sequence Generation using Trie-based Dictionary for ASR Error Correction 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

음성 인식 오류 수정을 위한 Trie 기반 사전을 이용한 Guided Sequence Generation Guided Sequence Generation using Trie-based Dictionary for ASR Error Correction 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

음성 인식 오류 수정을 위한 Trie 기반 사전을 이용한 Guided Sequence Generation
Guided Sequence Generation using Trie-based Dictionary for ASR Error Correction 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper