음성인식 기술은 단순한 단어 인식을 넘어 자연스럽게 발성한 연속 음성도 인식할 수 있는 수준으로 발전해 왔다. 아이폰에 탑재된 자연어 음성인식 처리 소프트웨어인 시리(Siri)가 2010년에 발표되면서, 음성인식에 대한 연구가 관심을 받고 있다. 한국어 음성 인식 소프트웨어들은 대부분 단어 위주의 인식 서비스로 구성 되어 있으며, 잡음처리 및 음성 에너지 조절 기능들이 부족해 만족할 만한 인식률을 보이지 못하고 있다. 또한 요구된 발성 규칙을 따르지 못한 음성 질의들은 아예 처리하지 못하고 있는 실정이다. 본 논문에서는 이러한 현실적 어려움을 개선할 수 있도록 다목적 전처리 프로세서를 제안하였다. 이 처리기는 음성인식 엔진에 독립적이며, 잡음 제거 기능, 규칙에 따르지 않은 음성 질의도 처리 할 수 있는 핵심어 추출 기능, 그 핵심어를 수식하는 전술부 및 그 해당 음성 질의로부터 수행하기를 원하는 후술부 까지도 추출할 수 있는 기능을 갖추도록 하였다. 실험을 통해, 잡음 제거 효과 평가, 핵심어 인식 성공률, 연속음 인식 성공률을 측정하여 제안한 방법의 타당성을 확인하였다.
음성인식 기술은 단순한 단어 인식을 넘어 자연스럽게 발성한 연속 음성도 인식할 수 있는 수준으로 발전해 왔다. 아이폰에 탑재된 자연어 음성인식 처리 소프트웨어인 시리(Siri)가 2010년에 발표되면서, 음성인식에 대한 연구가 관심을 받고 있다. 한국어 음성 인식 소프트웨어들은 대부분 단어 위주의 인식 서비스로 구성 되어 있으며, 잡음처리 및 음성 에너지 조절 기능들이 부족해 만족할 만한 인식률을 보이지 못하고 있다. 또한 요구된 발성 규칙을 따르지 못한 음성 질의들은 아예 처리하지 못하고 있는 실정이다. 본 논문에서는 이러한 현실적 어려움을 개선할 수 있도록 다목적 전처리 프로세서를 제안하였다. 이 처리기는 음성인식 엔진에 독립적이며, 잡음 제거 기능, 규칙에 따르지 않은 음성 질의도 처리 할 수 있는 핵심어 추출 기능, 그 핵심어를 수식하는 전술부 및 그 해당 음성 질의로부터 수행하기를 원하는 후술부 까지도 추출할 수 있는 기능을 갖추도록 하였다. 실험을 통해, 잡음 제거 효과 평가, 핵심어 인식 성공률, 연속음 인식 성공률을 측정하여 제안한 방법의 타당성을 확인하였다.
The voice recognition has been made continuously. Now, this technology could support even natural language beyond recognition of isolated words. Interests for the voice recognition was boosting after the Siri, I-phone based voice recognition software, was presented in 2010. There are some occasions ...
The voice recognition has been made continuously. Now, this technology could support even natural language beyond recognition of isolated words. Interests for the voice recognition was boosting after the Siri, I-phone based voice recognition software, was presented in 2010. There are some occasions implemented voice enabled services using Korean voice recognition softwares, but their accuracy isn't accurate enough, because of background noise and lack of control on voice related features. In this paper, we propose a sort of multi-purpose preprocessor to improve this situation. This supports Keyword spotting in the continuous speech in addition to noise filtering function. This should be independent of any voice recognition software and it can extend its functionality to support continuous speech by additionally identifying the pre-predicate and the post-predicate in relative to the spotted keyword. We get validation about noise filter effectiveness, keyword recognition rate, continuous speech recognition rate by experiments.
The voice recognition has been made continuously. Now, this technology could support even natural language beyond recognition of isolated words. Interests for the voice recognition was boosting after the Siri, I-phone based voice recognition software, was presented in 2010. There are some occasions implemented voice enabled services using Korean voice recognition softwares, but their accuracy isn't accurate enough, because of background noise and lack of control on voice related features. In this paper, we propose a sort of multi-purpose preprocessor to improve this situation. This supports Keyword spotting in the continuous speech in addition to noise filtering function. This should be independent of any voice recognition software and it can extend its functionality to support continuous speech by additionally identifying the pre-predicate and the post-predicate in relative to the spotted keyword. We get validation about noise filter effectiveness, keyword recognition rate, continuous speech recognition rate by experiments.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
동적 소음 제거 기술을 제시함으로써 현재 음성인식 기술이 환경적 제약에 의한 인식률 저하에 대한 개선안을 제시 하였다.
본 논문에서는 음성 구간 추출, 잡음 제거 등이 음성 인식 소프트웨어와 밀 결합 되어 있는 종래의 설계방법에 대해 그 음성인식에 필요로 되는 핵심 요소들을 논리적으로 구분 설계하였다. 이러한 논리적인 구분으로부터 각 요소 기술들이 개선되어 지면 그 개선 효과를 기존 음성인식 시스템의 환경의 변화를 최소화 하며 수용할 수 있는 설계상 이점을 제공 할 수 있다.
본 논문에서는 음성인식에 전처리 부분에서 처리 할 수 없는 인식 결과를 보정하기 위한 보정 데이터베이스를 제시 함으로써 음절 분할 에러 혹은 잡음에 의한 오인식을 최소화 할 수 있는 실용적인 방법을 제안하였다. 특히 음성 인식 소프트웨어와 별도로 설계되었다는 점으로 부터, 이미 음성인식 서비스를 하고 있는 경우에도 기존 음성 인식 소프트웨어를 그대로 활용하면서 전처리기만을 추가로 설치하는 것으로 핵심어 인식 기능의 보강 및 더 나아가 자연스럽게 발성된 연속음도 처리할 수 있는 기능을 추가 할 수 있다.
본 논문에서는 이러한 문제를 해결하기 위해 상태 크기 차이(RMD, Relative Magnitude Difference)를 기반으로 하는 비선형(nonlinear) 구조의 과중이득 함수를 가진 개선된 SS를 이용하여, 잔재소음의 유발을 효율적으로 억제할 수 있을 뿐만 아니라 음성명도를 신뢰적으로 제시함으로써 소음제거를 할 수 있다.
본 논문은 이처럼 앞으로 광범위하게 사용되어 질 것으로 기대 되는 음성인식 서비스 시장에 보다 적은 비용으로 해당서비스를 구현 할 수 있도록 도와주는 지원 도구를 제안하였다. 제안하는 도구는 다음과 같은 기대효과를 얻을 수 있도록 설계되었다.
추출된 핵심어가 잘못된 음절 분할로 인해 또는 어절 내에 인식 후보가 2개 이상 존재하여 오 인식 될 수 있는 위험이 있다. 이러한 오인식을 사후에 보정하고자 발음 보정 데이터베이스를 구축한다.
제안 방법
③ 각 프레임의 특징벡터들을 이용하여 인접한 3개 프레임의 평균 특징벡터를 구하여 프레임 특징벡터 평활화 과정을 수행한다.
각 프레임이 가지고 있는 L개 서브밴드별 평활화 특징벡터의 크기를 비교하여, 내림차순으로 크기 순서 정보를 구한다. 이전 프레임과 현재 프레임의 서브밴드별 평활화 특징벡터 크기 순서를 비교하여 순서가 바뀐 서브밴드의 개수가 문턱값_9보다 크면 음절이 변경되는 후보 구분점으로 설정한다.
넷째, 연속 음성인식 서비스를 제공할 수 있도록 한다. 다섯째, 발음 보정 데이터베이스를 구축하고 이를 이용하여 인식률을 제고시킬 수 있는 후처리를 제공한다. 여섯째, 음성인식 성공률 최소 85% 이상을 지원한다.
본 연구 결과물인 전처리기의 성능을 측정코자, 샘플데이터 와 미국 뉴앙스 사의 단어 인식 소프트웨어를 사용하여 그 인식 성능을 평가하고, 본 전처리기 이용으로 인한 잡음 제거 향상정도, 그리고 요구된 규칙에 따르지 않고 자연스럽게 발성한 질의어의 경우들에 대한 처리 결과들을 제시한다.
본 연구를 통해 설계 제안 하고자 하는 전처리기는 크게 세 가지로, 소음제거 기술 및 음절 분리에 의한 핵심어 추출 기술, 인식된 핵심어를 기반으로 전술부와 후술부의 의미 구를 다시 추출하는 기능, 음절 구분을 통한 세그멘테이션이 그 경계 구분이 잘못 되었을 시 발생할 수 있는 오인식의 위험으로부터 핵심어를 보정하기 위한 발음 보정 데이터베이스 구축으로 되어 있다.
발화자의 특성에 따라 다른 어절로 분할될 것으로 예상되는 구간들이 하나의 어절이 되거나 하나의 어절이어야 할 구간이 두 개의 어절 형태로 나타나는 경우가 발생한다. 유성음과 무성음의 특성, 포만트(formant), 프레임 및 서브밴드 에너지 등을 이용하여 음절단위 분할을 수행한다.
이런 경우를 해결하고자 AGC와 소음제거 모듈을 통해 처리된 음성구간에 전체에 대하여 어절단위 분할 과정을 수행한다. 일련의 음성데이터를 대상으로 발화자에 의한 음성이 일시적으로 발화되지 않는 순간들을 1차 어절단위 분할 대상으로 설정한다.
이를 해결하기 위해 음향심리를 응용하여 계산된 SNR기반의 적응적 망각요소를 도입하여, 잔재소음과 음성왜곡을 거의 발생시키지 않고 정확한 소음추정을 수행한다.
이를 해결하기 위해 과거 프레임으로부터 갱신된 식별자(indicator)를 지닌 효과적인 전방향 탐색 기술을 이용한다. 제안하는 식별자는 소음의 변화에 따라 적응 속도를 차등적으로 수행하기에 다양하고 높은 비정적인 소음환경에서 조차 소음의 정보를 1초 이내로 빠르고 정확하게 판독한다.
대상 데이터
이런 경우를 해결하고자 AGC와 소음제거 모듈을 통해 처리된 음성구간에 전체에 대하여 어절단위 분할 과정을 수행한다. 일련의 음성데이터를 대상으로 발화자에 의한 음성이 일시적으로 발화되지 않는 순간들을 1차 어절단위 분할 대상으로 설정한다.
이론/모형
발화자의 주변 환경에서 발생하는 소음이 음성신호에 섞여 마이크로 유입되는 경우, 오 인식을 유발하는 원인이 된다. 본 논문에서는 기존의 잡음 제거 기술이 가진 음성 왜곡과 추정 시간 지연 문제를 극복하기 위해 [그림 7]와 같은 방식을 사용했다.
본 논문에서는 측정된 잡음 제거 평가 항목을 ITU-T G.160에규정되어 있는 SNRI(Signal-to-Noise Ratio Improvement)를 사용하여 개선 정도를 측정하였다. <표 2>의 Input SNR은 잡음 제거 효과를 평가하기 위해 사용되는 입력신호의 신호 대 잡음비를 나타낸 것으로 5dB, 10dB, 15dB에 대하여 본 노이즈 제거 필터를 사용한 결과 SNRI 개선 정도가 Pink noise 에서는 평균 24, Public noise 에서는 평균 21, Outside traffic road 에서는 평균 22로 개선 되었음을 나타낸다.
성능/효과
둘째, 소음 제거 기술 및 음질개선 효과를 제공한다. 셋째, 음절 구분을 기반으로 핵심어를 추출할 수 있는 기능을 지원한다. 넷째, 연속 음성인식 서비스를 제공할 수 있도록 한다.
다섯째, 발음 보정 데이터베이스를 구축하고 이를 이용하여 인식률을 제고시킬 수 있는 후처리를 제공한다. 여섯째, 음성인식 성공률 최소 85% 이상을 지원한다.
160에규정되어 있는 SNRI(Signal-to-Noise Ratio Improvement)를 사용하여 개선 정도를 측정하였다. <표 2>의 Input SNR은 잡음 제거 효과를 평가하기 위해 사용되는 입력신호의 신호 대 잡음비를 나타낸 것으로 5dB, 10dB, 15dB에 대하여 본 노이즈 제거 필터를 사용한 결과 SNRI 개선 정도가 Pink noise 에서는 평균 24, Public noise 에서는 평균 21, Outside traffic road 에서는 평균 22로 개선 되었음을 나타낸다.
후속연구
본 논문의 결과는 전출부 및 후출부 추출 기술을 통해 대화형 질의 응답 시스템을 가능케 함으로써 로봇, 텔레매틱스, 홈오토메이션 등의 많은 응용분야에서 기존 제품들의 부가가치를 높이고 새로운 시장을 창출할 수 있을 것으로 기대된다. 또한, 발음 보정 데이터베이스를 통한 후처리기 기술은 현재 무상으로 제공되고 있는 딕테이션 엔진들과 함께 활용됨으로써 세멘틱 의미를 획득할 수 있는 기술로도 발전 될 수 있을 것으로 기대된다.
본 논문의 결과는 전출부 및 후출부 추출 기술을 통해 대화형 질의 응답 시스템을 가능케 함으로써 로봇, 텔레매틱스, 홈오토메이션 등의 많은 응용분야에서 기존 제품들의 부가가치를 높이고 새로운 시장을 창출할 수 있을 것으로 기대된다. 또한, 발음 보정 데이터베이스를 통한 후처리기 기술은 현재 무상으로 제공되고 있는 딕테이션 엔진들과 함께 활용됨으로써 세멘틱 의미를 획득할 수 있는 기술로도 발전 될 수 있을 것으로 기대된다.
질의응답
핵심어
질문
논문에서 추출한 답변
음성인식 기술의 발전 현황은?
음성인식 기술을 사용하여 기계와 사람간의 인터페이스를 보다 편리하고 자연스럽게 만들고자 하는 노력이 국내외에서 꾸준히 진행 되어 오고 있으며, 그 결과 단순한 단어 인식 수준을 넘어 자연스럽게 발성한 음성 도 처리 할 수 있는 수준으로 발전 되어 왔다[3][14[16]. 음성인식 기술은 지난 20세기 후반의 지속적인 기술개발에 힘입어 다양한 분야에서 실생활에 이용될 수 있는 수준으로 발전되어 왔지만, 아직 우리가 상상하는 수많은 음용 분야에 적극적으로 이용되기에는 아직 해결해야 할 기술적 과제가 산적해 있는 실정이다[1].
음성인식 기술을 활용하여 어떠한 분야에서 사용자들에게 보다 편리한 서비스를 제공하려는 노력들이 일어나고 있는가?
최근에 이러한 자연어 음성 인식 처리 기술을 활용하여 사용자들에게 보다 편리한 서비스를 제공하려는 노력들이 국내에서도 통신사 및 금융기관을 중심으로 일어나고 있다[7]. 스마트 폰에서도, 제한된 키보드를 통한 입력의 어려움을 개선하기 위해 음성인식 지원기능이 무선 모바일 기기 등에서 필수 기능이 되고 있다[8].
음성 인식의 특징은?
구글에서는 아직까지 비영어의 인식에는 크게 영향을 못 미치고 있어서, 각 언어별로 연구되고 있다[13]. 음성 인식은 일반적인 비즈니스 영역 뿐만 아나라, 시각 장애인들을 위한 여러 서비스들에서도 매우 유용하게 사용 될 수 있는 기술이다.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.