음성채팅시스템에서 사용자의 음성 질의는 자동음성인식기를 통하여 텍스트 질의로 변환된다. 만약 자동음성인식기의 1순위 결과가 틀린다면 이 오류는 그대로 음성채팅시스템에 전파된다. 자동음성인식기의 1순위 정밀도를 향상시키기 위하여 본 논문에서는 RankSVM을 이용하여 자동음성인식기의 n개 결과를 재순위화하는 후처리 모델을 제안한다. 채팅시스템을 학습하기 위해서는 대용량의 채팅 문장들이 필요하다. 만약 새로운 채팅 문장들이 학습데이터에 자주 추가되지 않는다면 채팅시스템의 응답은 금방 진부해질 것이다. 이러한 문제를 해결하기 위하여 본 논문에서는 SVM을 이용하여 TV와 영화 시나리오로부터 채팅 문장들을 자동으로 선택하는 데이터 수집 모델을 제안한다. 실험에서 제안된 후처리 모델은 후처리를 하지 않은 모델보다 정확률에서 4.4%, 재현율에서 6.4% 더 좋은 결과를 보였다. 그리고 제안된 데이터 수집 모델은 98.95%의 높은 정확률과 57.14%의 재현율을 보였다.
음성채팅시스템에서 사용자의 음성 질의는 자동음성인식기를 통하여 텍스트 질의로 변환된다. 만약 자동음성인식기의 1순위 결과가 틀린다면 이 오류는 그대로 음성채팅시스템에 전파된다. 자동음성인식기의 1순위 정밀도를 향상시키기 위하여 본 논문에서는 RankSVM을 이용하여 자동음성인식기의 n개 결과를 재순위화하는 후처리 모델을 제안한다. 채팅시스템을 학습하기 위해서는 대용량의 채팅 문장들이 필요하다. 만약 새로운 채팅 문장들이 학습데이터에 자주 추가되지 않는다면 채팅시스템의 응답은 금방 진부해질 것이다. 이러한 문제를 해결하기 위하여 본 논문에서는 SVM을 이용하여 TV와 영화 시나리오로부터 채팅 문장들을 자동으로 선택하는 데이터 수집 모델을 제안한다. 실험에서 제안된 후처리 모델은 후처리를 하지 않은 모델보다 정확률에서 4.4%, 재현율에서 6.4% 더 좋은 결과를 보였다. 그리고 제안된 데이터 수집 모델은 98.95%의 높은 정확률과 57.14%의 재현율을 보였다.
In spoken chatting systems, users'spoken queries are converted to text queries using automatic speech recognition (ASR) engines. If the top-1 results of the ASR engines are incorrect, these errors are propagated to the spoken chatting systems. To improve the top-1 accuracies of ASR engines, we propo...
In spoken chatting systems, users'spoken queries are converted to text queries using automatic speech recognition (ASR) engines. If the top-1 results of the ASR engines are incorrect, these errors are propagated to the spoken chatting systems. To improve the top-1 accuracies of ASR engines, we propose a post-processing model to rearrange the top-n outputs of ASR engines using a ranking support vector machine (RankSVM). On the other hand, a number of chatting sentences are needed to train chatting systems. If new chatting sentences are not frequently added to training data, responses of the chatting systems will be old-fashioned soon. To resolve this problem, we propose a data collection model to automatically select chatting sentences from TV and movie scenarios using a support vector machine (SVM). In the experiments, the post-processing model showed a higher precision of 4.4% and a higher recall rate of 6.4% compared to the baseline model (without post-processing). Then, the data collection model showed the high precision of 98.95% and the recall rate of 57.14%.
In spoken chatting systems, users'spoken queries are converted to text queries using automatic speech recognition (ASR) engines. If the top-1 results of the ASR engines are incorrect, these errors are propagated to the spoken chatting systems. To improve the top-1 accuracies of ASR engines, we propose a post-processing model to rearrange the top-n outputs of ASR engines using a ranking support vector machine (RankSVM). On the other hand, a number of chatting sentences are needed to train chatting systems. If new chatting sentences are not frequently added to training data, responses of the chatting systems will be old-fashioned soon. To resolve this problem, we propose a data collection model to automatically select chatting sentences from TV and movie scenarios using a support vector machine (SVM). In the experiments, the post-processing model showed a higher precision of 4.4% and a higher recall rate of 6.4% compared to the baseline model (without post-processing). Then, the data collection model showed the high precision of 98.95% and the recall rate of 57.14%.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
그러나 대부분의 개발자들은 공개되어 쉽게 사용할 수 있는 구글음성인식기를 이용하기 때문에 위 연구들을 쉽게 적용할 수 없다. 그래서 본 논문에서는 RankSVM(Support Vector Machine for Ranking)[12]을 이용한 후보문장 재순위화에 대한 연구를 제안한다. 제안 방법은 음성인식 결과가 단일문장이 아닌 후보문장이 존재할 것이라는 생각에 착안하였고 기존의 SVM(Support Vector Machine)[13]을 응용한 RankSVM 기계학습기법을 이용하여 후보문장을 재순위화한다.
따라서 화자의 말을 인식하여 매칭할 수 있는 다양한 문장들이 채팅시스템 내에 존재해야 한다. 그래서 본 논문에서는 음성채팅기술의 성능 향상을 위해 음성인식 성능을 높이는 방법과 다양한 채팅 표현들을 수집할 수 있는 방법을 제안한다.
Kim(2009)이 제안하는 연구는 발화/응답 쌍을 빠르게 생성할 수 있으나 응답에 대한 표현이 다양하지 않다는 단점이 있다. 따라서 본 논문에서는 다양한 채팅표현을 비교적 적은 시간을 들여 가져올 수 있는 대본 말뭉치를 이용한 채팅 말뭉치 구축에 대한 연구를 제안한다. 제안 방법은 질문과 그에 대한 답변이 명백히 존재하고 표현이 다양한 대본 말뭉치를 이용하여 SVM 기계학습기법을 이용하여 발화/응답 쌍이 될 수 있는 문장을 판별하여 음성채팅시스템 말뭉치에 추가한다.
본 논문에서는 채팅시스템의 성능 향상을 위해 입력에 대한 재현율을 높이기 위한 두 가지 방법을 제안한다. 첫 번째는 음성인식 성능 향상을 위한 방법이고, 두 번째는 채팅 말뭉치에 다양한 표현을 수집하기 위한 방법이다.
제안 방법
그 결과 구글 ASR 순위와 정답 순위가 모두 1위인 개수가 두드러지는 0.5 이상의 점수를 기준으로 하여 자질값을 분류하였다. 후보문장 점수에서 0.
그 외에 Kim(2009)[15]은 핵심어에 대한 리스트를 마련, 핵심어를 포함한 어절을 말뭉치에서 선택하고, 해당 어절 주위에 있는 어절의 출현 정보와 구문 정보를 이용하여 후보문장들을 생성했다. 그리고 복합적인 자질 정보를 이용하여 후보문장에 대한 응답문장을 선택하였다. 심심이(2002)에서 제공하는 방식은 다양한 표현을 구축할 수 있으나 유저가 직접 발화/응답 쌍을 생성한다는 점에서 많은 시간을 소요한다.
데이터에 있는 문장 외의 다른 문장들까지 측정하기 위해 5배교차검증법(5-fold cross validation)으로 실험하였다. 그리고 실험의 비교를 위해 구글 ASR순위와 제안연구방법을 정답과 비교하여 성능의 차이를 측정하였다.
8까지의 점수를 측정하였다. 문장의 특징을 추출하기 위해 형태소 분석 결과를 이용하였다. 문장을 형태소 분석한 결과로부터 추출할 수 있는 다양한 자질들(띄어쓰기, n-Gram, 후보문장 간의 단어 포함관계 등)을 실험한 결과 Table 2의 3~8번에 기술된 자질이 성능에 큰 영향을 미침을 확인하였다.
실제 정답과 ASR순위, RankSVM을 이용해 출력된 순위를 비교하기 위해 후보문장들에 정답을 직접 부착한다. 본 논문에서는 6명의 사용자가 구글 ASR을 통해 주어진 1,000개의 문장을 각자 발화하여 나온 6,000개의 결과를 기준에 맞게 부착하였다. Table 1은 후보문장들에 정답을 부착한 예를 보여준다.
최종 말뭉치 추출을 위해 SVM에서 쓰이는 발화/응답 쌍에 대한 자질정보를 추출한다. 본 논문에서는 각 문장의 형태소 분석 결과를 이용하여 자질정보를 추출하였다. 형태소 분석 결과를 이용한 자질들의 종류는 Table 6과 같다.
본 논문에서는 음성채팅시스템의 성능 향상을 위해 발화 결과로 출력된 후보문장에 RankSVM을 이용하여 재순위화 한 뒤 구글 ASR의 성능을 향상시키는 방법과 채팅 말뭉치의 다양성을 위해 드라마/연극 대본을 정제하여 채팅 말뭉치를 추가하는 방법을 제안한다. 그 결과, 기존의 시스템보다 제안한 방법에서 성능이 향상됨을 보이고, 높은 정확률을 가진 채팅 말뭉치를 추가할 수 있었다.
본 논문은 음성인식 후보문장의 순위 변화와, 그에 대한 정확성을 측정하므로 구글 ASR과 제안연구의 성능 차이를 비교하였다. 성능 평가 방법으로는 Equation (1)과 Equation (2)의 정확률과 재현율을 사용하였다.
구글 음성인식 결과는 음성인식기(ASR : Automatic Speech Recognizer) 1위 문장의 점수, 그리고 사용자가 발화한 문장에 대한 결과로 출력되는 문장 후보들로 구성되어있다. 실제 정답과 ASR순위, RankSVM을 이용해 출력된 순위를 비교하기 위해 후보문장들에 정답을 직접 부착한다. 본 논문에서는 6명의 사용자가 구글 ASR을 통해 주어진 1,000개의 문장을 각자 발화하여 나온 6,000개의 결과를 기준에 맞게 부착하였다.
음성채팅기술은 기존의 채팅 기술에 음성인식기술을 더한 것으로 기존의 키보드를 이용한 대화방법에서 한 단계 성장한 대화방법을 제시하였다. 기업에서는 음성채팅기술을 통한 다양한 기기를 사용자들에게 선보여왔는데 대표적으로 네비게이션과 애플의 시리(Siri)[1], 삼성의 S보이스[2], LG의 Q보이스[3]와 같은 스마트폰 음성채팅기술이 주를 이루고 있다.
그래서 본 논문에서는 RankSVM(Support Vector Machine for Ranking)[12]을 이용한 후보문장 재순위화에 대한 연구를 제안한다. 제안 방법은 음성인식 결과가 단일문장이 아닌 후보문장이 존재할 것이라는 생각에 착안하였고 기존의 SVM(Support Vector Machine)[13]을 응용한 RankSVM 기계학습기법을 이용하여 후보문장을 재순위화한다.
따라서 본 논문에서는 다양한 채팅표현을 비교적 적은 시간을 들여 가져올 수 있는 대본 말뭉치를 이용한 채팅 말뭉치 구축에 대한 연구를 제안한다. 제안 방법은 질문과 그에 대한 답변이 명백히 존재하고 표현이 다양한 대본 말뭉치를 이용하여 SVM 기계학습기법을 이용하여 발화/응답 쌍이 될 수 있는 문장을 판별하여 음성채팅시스템 말뭉치에 추가한다.
제안 방법은 학습 단계와 재순위화 단계로 구성된다. 학습 단계는 후보문장 재순위화 모델을 생성하기 위한 단계이다.
최종 말뭉치 추출을 위해 SVM에서 쓰이는 발화/응답 쌍에 대한 자질정보를 추출한다. 본 논문에서는 각 문장의 형태소 분석 결과를 이용하여 자질정보를 추출하였다.
시스템은 학습 단계와 적용 단계로 구성된다. 학습 단계는 드라마/대본 말뭉치에서 화자, 대사를 추출한 뒤, 시스템 입력 데이터 형식에 맞게 정제한다. 최종적으로 정제된 데이터는 발화/응답의 문장 쌍으로 구성된다.
도메인사전 미등록어 개수에 대한 자질은 본 논문에서 실험데이터로 추출한 1,000개의 문장을 제외한 13,000문장의 채팅말뭉치를 기준으로 체언, 용언, 미등록어를 추출하여 구현한 사전을 이용한 자질이다. 해당 도메인사전을 이용하여 형태소 분석한 후보문장의 체언, 용언, 미등록어 중 사전에 없는 형태소의 형태소/품사 정보와 개수를 자질로 사용하였다. 일반 사전은 세종말뭉치[16]와 트위터 데이터를 이용하여 구축한 사전으로 좀 더 포괄적인 단어들을 가지고 있다.
대상 데이터
RankSVM을 이용한 재순위화에 대한 실험을 위해 총 6명의 인원이 구글 ASR을 이용하여 1,000개의 문장을 발화한 뒤 나오는 후보문장들에 정답 순위를 부착하여 사용하였다. 데이터에 있는 문장 외의 다른 문장들까지 측정하기 위해 5배교차검증법(5-fold cross validation)으로 실험하였다.
Table 6의 자질은 형태소 분석 결과를 이용한 여러 자질 중 가장 성능 향상이 뚜렷한 4개의 자질을 실험을 통해 선정하였다. 발화/응답 공통 어휘 존재 여부는 발화/응답 쌍에 공통된 주제가 있는지를 판단하는 자질로, 발화와 응답에 공통으로 존재하는 체언이 존재하는지를 판단하여 자질을 생성한다.
대화가 성립되는 문답은 채팅 코퍼스의 목적에 따라 달라질 수 있다. 그래서 본 논문에서는 어느 영역에 속하지 않는 일상대화에 해당하는 것을 대상으로 하였다. 이에 따라 일정 또는 예약과 같이 특정 상황에 관련된 대화는 ‘x’를 부착하였다.
대본 말뭉치로부터 채팅 말뭉치 구축에 대한 실험은 웹상에 공개되어있는 197개의 대본을 이용했고, 실험에 필요한 데이터를 위해 지문을 제거한 약 13만 개의 문장을 얻었다. 그중 임의로 9,164개의 문장을 선택하고 정제하여 얻은 5,560문장을 ox레이블링을 하여 실험을 진행하였다. ox레이블링 결과 5,560문장 중 280문장이 ‘o’로 레이블링 되었다.
대본 말뭉치로부터 채팅 말뭉치 구축에 대한 실험은 웹상에 공개되어있는 197개의 대본을 이용했고, 실험에 필요한 데이터를 위해 지문을 제거한 약 13만 개의 문장을 얻었다. 그중 임의로 9,164개의 문장을 선택하고 정제하여 얻은 5,560문장을 ox레이블링을 하여 실험을 진행하였다.
데이터처리
RankSVM을 이용한 재순위화에 대한 실험을 위해 총 6명의 인원이 구글 ASR을 이용하여 1,000개의 문장을 발화한 뒤 나오는 후보문장들에 정답 순위를 부착하여 사용하였다. 데이터에 있는 문장 외의 다른 문장들까지 측정하기 위해 5배교차검증법(5-fold cross validation)으로 실험하였다. 그리고 실험의 비교를 위해 구글 ASR순위와 제안연구방법을 정답과 비교하여 성능의 차이를 측정하였다.
ox레이블링 결과 5,560문장 중 280문장이 ‘o’로 레이블링 되었다. 실험은 SVM을 이용하여 5배교차검증법으로 진행하였다. 성능 평가 방법으로는 Equation (3)과 Equation (4)의 정확률과 재현율을 사용하였다.
이론/모형
본 논문에서는 음성인식 결과 후보문장 재순위화를 위해 RankSVM(Support Vector Machine for Ranking)[10]을 사용하였다. RankSVM은 일반적으로 초평면을 생성하여 데이터를 분류하는 SVM과 달리 초평면과의 거리를 계산하여 각각의 데이터에 점수를 부여하는 방식으로 데이터의 순위를 측정할 수 있는 기계학습기법이다.
본 논문은 음성인식 후보문장의 순위 변화와, 그에 대한 정확성을 측정하므로 구글 ASR과 제안연구의 성능 차이를 비교하였다. 성능 평가 방법으로는 Equation (1)과 Equation (2)의 정확률과 재현율을 사용하였다.
실험은 SVM을 이용하여 5배교차검증법으로 진행하였다. 성능 평가 방법으로는 Equation (3)과 Equation (4)의 정확률과 재현율을 사용하였다.
성능/효과
[Table 8]에서 보는 것과 같이 제안 방법은 구글 ASR 보다 평균적으로 4.4% 높은 정확률을 보였고, 6.4% 높은 재현율을 보였다. 또한 모든 실험참가자의 데이터에서 성능 향상이 있는 것을 확인할 수 있었다.
본 논문에서는 음성채팅시스템의 성능 향상을 위해 발화 결과로 출력된 후보문장에 RankSVM을 이용하여 재순위화 한 뒤 구글 ASR의 성능을 향상시키는 방법과 채팅 말뭉치의 다양성을 위해 드라마/연극 대본을 정제하여 채팅 말뭉치를 추가하는 방법을 제안한다. 그 결과, 기존의 시스템보다 제안한 방법에서 성능이 향상됨을 보이고, 높은 정확률을 가진 채팅 말뭉치를 추가할 수 있었다. 본 논문에서 두 가지 방법에 대해 사용한 자질 외에도 많은 자질을 연구 중에 사용했지만, 그중 가장 성능이 높은 자질들을 간추려 결과를 반영하였다.
4% 높은 재현율을 보였다. 또한 모든 실험참가자의 데이터에서 성능 향상이 있는 것을 확인할 수 있었다.
문장의 특징을 추출하기 위해 형태소 분석 결과를 이용하였다. 문장을 형태소 분석한 결과로부터 추출할 수 있는 다양한 자질들(띄어쓰기, n-Gram, 후보문장 간의 단어 포함관계 등)을 실험한 결과 Table 2의 3~8번에 기술된 자질이 성능에 큰 영향을 미침을 확인하였다. 형태소 바이그램과 품사 바이그램은 후보문장을 형태소 분석하여 추출된 결과물에서 띄어쓰기를 포함하여 형태소 바이그램과 품사 바이그램 자질을 생성한다.
실험 결과 ‘o’로 레이블링 된 문장과 시스템 출력 결과가 높은 정확률로 일치하는 것을 확인할 수 있다.
후속연구
본 논문에서 두 가지 방법에 대해 사용한 자질 외에도 많은 자질을 연구 중에 사용했지만, 그중 가장 성능이 높은 자질들을 간추려 결과를 반영하였다. 그리고 채팅 말뭉치를 추가함에 있어 정제한 대본 말뭉치에 대해 일일이 발화/응답 쌍이 되는지 확인할 수 없고, 대본의 특성상 사투리, 은어가 많이 포함되어있기 때문에 이를 선별하는 기계적 작업이 필요할 것이다. 따라서 추후에는 문장 후보들의 구조를 분석하여 성능을 향상 시킬 수 있는 새로운 자질들을 찾는 방법과 수많은 대본을 기계적으로 정제할 수 있는 방법을 모색할 예정이다.
그리고 채팅 말뭉치를 추가함에 있어 정제한 대본 말뭉치에 대해 일일이 발화/응답 쌍이 되는지 확인할 수 없고, 대본의 특성상 사투리, 은어가 많이 포함되어있기 때문에 이를 선별하는 기계적 작업이 필요할 것이다. 따라서 추후에는 문장 후보들의 구조를 분석하여 성능을 향상 시킬 수 있는 새로운 자질들을 찾는 방법과 수많은 대본을 기계적으로 정제할 수 있는 방법을 모색할 예정이다.
Song(2005)[11]은 사용자가 직접 발화한 문장들로 구성된 순차패턴을 비교하여, 순차규칙상 얻을 수 있는 단어를 결정하여 음성인식기 단어 후보들의 확률 값을 보정하는 방법을 제안하였다. 이상의 연구들 중 음성 주파수를 이용하는 연구는 음성인식 모델을 수정하는 방법이므로 자체 음성인식기를 보유하지 않았다면 연구를 진행할 수가 없다. 후처리 방법 역시 단순히 띄어쓰기에 의한 오류를 수정하는 방법이거나, 음성인식기의 어휘별 확률과 같은 정보를 사용하는 방법이기 때문에, 이와 같은 정보를 제공하는 음성인식기를 사용해야 한다.
첫 번째는 음성인식 성능 향상을 위한 방법이고, 두 번째는 채팅 말뭉치에 다양한 표현을 수집하기 위한 방법이다. 제안 방법은 각각의 기능을 하는 모듈로 음성채팅시스템에 사용될수 있다. Fig.
질의응답
핵심어
질문
논문에서 추출한 답변
자동음성인식기의 1순위 결과가 틀린다면 어떤 현상이 일어나는가?
음성채팅시스템에서 사용자의 음성 질의는 자동음성인식기를 통하여 텍스트 질의로 변환된다. 만약 자동음성인식기의 1순위 결과가 틀린다면 이 오류는 그대로 음성채팅시스템에 전파된다. 자동음성인식기의 1순위 정밀도를 향상시키기 위하여 본 논문에서는 RankSVM을 이용하여 자동음성인식기의 n개 결과를 재순위화하는 후처리 모델을 제안한다.
본 논문에서 새로운 채팅 문장들이 학습데이터에 자주 추가되지 않는 문제를 어떻게 해결하였는가?
만약 새로운 채팅 문장들이 학습데이터에 자주 추가되지 않는다면 채팅시스템의 응답은 금방 진부해질 것이다. 이러한 문제를 해결하기 위하여 본 논문에서는 SVM을 이용하여 TV와 영화 시나리오로부터 채팅 문장들을 자동으로 선택하는 데이터 수집 모델을 제안한다. 실험에서 제안된 후처리 모델은 후처리를 하지 않은 모델보다 정확률에서 4.
음성채팅시스템에서 사용자의 음성 질의는 무엇으로 변환되는가?
음성채팅시스템에서 사용자의 음성 질의는 자동음성인식기를 통하여 텍스트 질의로 변환된다. 만약 자동음성인식기의 1순위 결과가 틀린다면 이 오류는 그대로 음성채팅시스템에 전파된다.
LG OptimusUI [Internet], http://ko.wikipedia.org/wiki/LG_옵티머스_UI (2014. 11. 26).
Ki-Seung Lee, "Study on the Improvement of Speech Recognizer by Using Time Scale Modification," The Journal of the Acoustical Society of Korea, Vol.23 No.6, pp.462-472, 2004.
Chang-young Lee, "Comparison of Male/Female Speech Features and Improvement of Recognition Performance by Gender-Specific Speech Recognition," Journal of The Korea Institute of Information and Communication Engineering, Vol.5, No.6, pp.568-574, 2010.
Jungho Cho, "A Spectral Compensation Method for Noise Robust Speech Recognition," Journal of the Institute of Electronics Engineers of Korea, Vol.49-IE, No.2, pp.9-17, 2012.
Sook-Nam Choi, Hyun-Yeol Chung, "Noise Robust Speech Recognition Based on Parallel Model Combination Adaptation Using Frequency-Variant," The Journal of the Acoustical Society of Korea, Vol.32, No.3, pp.252-261, 2013.
Tae-woong Choi, Soon-hyob Kim, "Gamma-tone Feature Extraction Acoustic Modeling for Improving Speech Recotnition Performance," The Korean Institute of Information Technology, Vol.10, No.11, pp.155-160, 2012.
Md. Afzal Hossan, Sheeraz Memon, and Mark A Gragory, "A Novel Approch for MFCC Feature Extraction," ICSPCS, pp.1-5, 2010.
DongHee Lim, SeungShik Kang, and DuSeong Chang, "Word Spacing Error Correction for the Postprocessing of Speech Recognition," Korea Computer Congress, Vol.33, No.1, pp.25-27, 2006.
WonMoon Song, EunJu Kim, and MyungWon Kim, "Post-Processing of Speech Recognition Using User Utterance Sequential Pattern," Korea Computer Congress, pp.709-711, 2005.
Thorsten Joachims, Support Vector Machine for Ranking, Cornell University, 2009, [Internet] http://www.cs.cornell.edu/people/tj/svm_light/svm_rank.html (2014.11.26).
Jonghwan Kim, Duseong Chang, and Harksoo Kim, "Statistical Generation of Korean Chatting Sentences Using Multiple Feature Information," Korean Journal of Cognitive Science, Vol.20, No.4, pp.421-437, 2009.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.