스마트 디바이스를 이용한 다양한 게임들이 증가하고 있는데, 음소인식은 스마트 디바이스를 사용한 효율적인 입력 방법은 음성이 될 수 있다. 게임에서 음성인식은 매우 빠르게 인식되면서 구동 되어야하는데, 본 연구에서는 게임 분야에서 유용하게 활용할 수 있는 최적화된 음소 인식 방법을 개발하였다. 본 논문에서 제안하는 음소 인식 방법은 음성 파장을 FFT로 전환하고, 해당 값을 Z평면에 도시한 후, 영역 데이터를 추출한 후 데이터베이스에 저장한다. 그리고 해당 값을 가중치 있는 두 갈래 그래프 최대 흐름 정합을 사용하여 음소 인식을 한다. 제안된 방법은 게임 또는 로봇과 같은 분야에서 빠른 음소 인식을 하고자 할 때 매우 유용한 방법이다.
스마트 디바이스를 이용한 다양한 게임들이 증가하고 있는데, 음소인식은 스마트 디바이스를 사용한 효율적인 입력 방법은 음성이 될 수 있다. 게임에서 음성인식은 매우 빠르게 인식되면서 구동 되어야하는데, 본 연구에서는 게임 분야에서 유용하게 활용할 수 있는 최적화된 음소 인식 방법을 개발하였다. 본 논문에서 제안하는 음소 인식 방법은 음성 파장을 FFT로 전환하고, 해당 값을 Z평면에 도시한 후, 영역 데이터를 추출한 후 데이터베이스에 저장한다. 그리고 해당 값을 가중치 있는 두 갈래 그래프 최대 흐름 정합을 사용하여 음소 인식을 한다. 제안된 방법은 게임 또는 로봇과 같은 분야에서 빠른 음소 인식을 하고자 할 때 매우 유용한 방법이다.
There are many of games using smart devices. Voice recognition is can be useful way for input. In the game, voice have to be quickly recognized, at the same time it have to be manipulated promptly as well. In this study, we developed the optimized real-time phoneme recognition using max flow matchin...
There are many of games using smart devices. Voice recognition is can be useful way for input. In the game, voice have to be quickly recognized, at the same time it have to be manipulated promptly as well. In this study, we developed the optimized real-time phoneme recognition using max flow matching that it can be efficiently used in the game field. Firstly, voice wavelength is transformed to FFT, secondly, transformed value is made by a graph in Z plane, thirdly, data is extracted in specific area, and then data is saved in database. After all the value is recognized using weighted bipartite max flow matching. This way would be useful method in game or robot field when researchers hope to recognize the fast voice recognition.
There are many of games using smart devices. Voice recognition is can be useful way for input. In the game, voice have to be quickly recognized, at the same time it have to be manipulated promptly as well. In this study, we developed the optimized real-time phoneme recognition using max flow matching that it can be efficiently used in the game field. Firstly, voice wavelength is transformed to FFT, secondly, transformed value is made by a graph in Z plane, thirdly, data is extracted in specific area, and then data is saved in database. After all the value is recognized using weighted bipartite max flow matching. This way would be useful method in game or robot field when researchers hope to recognize the fast voice recognition.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 논문에서 목적으로 하는 음소 인식은 시작 설정 없이 일련의 음성 주파수에서 음소를 정확하게 인식하는가가 중요하다. 표1은 HMM과 제안하는 방법과의 성능 평가 비교표이다.
본 논문에서는 음소 인식 분야에 새로운 알고리즘 개발을 제안한다. 본 연구에서 제안 방법은 음소 판단 방법으로 자음 기반 최대 흐름 정합(Max Flow Matching)를 이용한다.
음소인식이 빠르게 이루어질 수 있는 방법은 크게 하드웨어가 발전하는 방법과 음소를 빠르게 인식하는 방법의 개발이 있다. 본 논문은 기존의 방법과 다르게 빠르게 음소 인식을 하는 새로운 방법으로서, 충분한시간이 주어졌을 때의 인식은 기존의 알고리즘보다 떨어지는 단점이 있으나, 빠른 시간에서의 인식은 타 어느 알고리즘 보다 우수하다.
본 연구에서는 게임과 로봇 분야에서 유용하게 사용될 수 있는 음소 인식 방법을 개발 하였다. 본 논문에서 제안하는 음소 인식 방법은 주파수 정보를 두 갈래 그래프(Bipartite Graph)로 도시하여 최대 흐름 정합 (Max Flow Matching)을 얻어 음소 인식을 하는 방법이다.
음소 인식에서 본 항목이 예외 적용 부분에 해당 한다. 제안된 알고리즘의 목적은 정확도가 다소 떨어져도, 빠르게 음소인식을 할 수 있게 하는 것이다. 따라서 실시간으로 시스템이 알고리즘을 수행할 수 있어야 한다.
제안 방법
WBM을 이용하여 최적화 된 완전 그래프를 찾아 비교하여 차이 값을 얻어내는 방법으로 음소를 찾아낸다. [그림 10]은 제안하는 알고리즘의 간단한 예를 보여준다.
따라서 예외 적용을 하지 않는 경우가 많다. 그러나 교육을 결합한 게임을 제작할 경우와 같이 음소인식의 정확도가 필요할 경우 예외 적용 사전을 이용한 본 방법을 적용 한다.
그러므로 본 연구에서의 시스템은 빠르게 비교 판단을 하기위해서 데이터베이스에 있는 자음 주파수 영역과의 비교 판단을 가중치 두갈래 그래프의 최대 흐름 정합을 사용하였다.
본 논문에서 제안하는 음소 인식 방법은 주파수 정보를 두 갈래 그래프(Bipartite Graph)로 도시하여 최대 흐름 정합 (Max Flow Matching)을 얻어 음소 인식을 하는 방법이다. 본 연구에서 개발한 방법은 음성의 시작점과 끝점이 존재 하지 않아도 음성을 인식 할 수 있다. 뿐만 아니라 음소 인식의 수행 시간이 매우 빨라 실시간 명령 인식에 매우 유용하다.
본 연구에서는 이 문제를 해결하기 위해서 우선 단어 리스트를 설정하고 해당 단어를 비교한 후에 비교 에러가 발생 하였을 때 전체 데이터베이스에서 음소를 검색 하는 방법을 사용 한다. 본 방법을 사용하기 위해서 모음에 기여되는 영역 정보, 자음에 기여되는 영역 정보 값을 데이터베이스에 저장한다.
여러 개의 주파수 대역으로 흩어져 있다는 것은 여러 개의 중점을 기반으로 모여 있다고 볼 수 있다. 본 연구의 시스템은 Z평면을 여러 개의 중점 블록으로 나누고 해당 중점블록에 결합 되어 있는 주파수 값을 사용하여 어떤 자음이 있는 가를 분석한다. 제안된 시스템은 64개의 블록중점으로 데이터를 분석 하였다.
[표 1]의 결과는 총 300회의 음성 명령을 주고 인식 한 결과의 평균이다. 실험 시 분석 유효 시간을 30초로 설정 하였고 30초 를 넘으면 분석을 종료 하는 방법을 사용 하였다. 1분 미만일 경우 HMM이 정확도가 높았다.
두 개의 정보를 비교 판단 할 경우 오차가 발생된다. 이때 유효한 자음 주파수를 한 개 이상 선정하고 해당 자음 주파수의 장축과 단축 계수를 이용하여 상세 비교를 한다. 상세 비교 이후 정확한 자음을 추출 할 수 있다.
입력된 데이터를 FFT한 후 Z평면으로 전환하는 것은 이전 장에서 소개한 방법과 같다. 이후 데이터를 정방형 원형 블록으로 나누고 해당 블록의 중점과 계수를 추출 하여 데이터베이스에 있는 계수와 비교 판단을 한다.
노이즈에도 음소가 결합 되어 있기 때문에 단순한 주파수 제거로 노이즈를 제거하기가 매우 힘들다. 제안 대상 기술 과제에서 사용할 노이즈 제거 알고리즘은 화이트 노이즈를 제거하는 방법을 응용한 것이다. 일반적으로 노이즈는 주파수 전역에 고루 펴져 있어서 음소를 인식하기 힘든 것을 의미 한다.
제안된 방법으로 음소 인식을 하기 위해서는 두 개의 시스템이 구현되어야 한다. 첫 번째 시스템은 음소 값을 정의하고 정의된 음소 값을 추출하는 시스템이다.
[그림 7]은 유효 음소 주파수 대역을 추출하는 시스템의 전체 구조 이다. 제안하는 시스템에서 추출하고자 하는 계수는 타원의 방정식의 중점 좌표와 장축과 단축의 반경 값과 해당 영역에 분포되어 있는 주파수 가중치이다. 이 값을 추출하기 위해서 많은 음성 데이터를 분석해야 하는데, [그림 7]은 ‘ㄱ’ 의 자음 주파수 공통 영역의 계수를 추출하기 위한 예를 보여준다.
제안하는 시스템은 실시간으로 빠르게 음소를 인식하는데 목적이 있기 때문에, 음소를 실시간 블록으로 나누어 인식해야 한다. 즉, 이전 연구들의 문제점을 해결하기 위해서 제안하는 시스템을 자음 기반을 둔 시스템으로 구성하였다. 자음 주파수 대역은 매우 짧은 영역에 분포되어 있기 때문에 특정 시간 분할에 짤리는 위험성이 매우 적다.
대상 데이터
[그림 10]은 제안하는 알고리즘의 간단한 예를 보여준다. 데이터베이스에 있는 정보는 음소에 기여되는 Z평면의 중점 좌표, 장축과 단축 계수 및 주파수 값이다. 갈래 그래프의 요소 값으로 중점 좌표와 장축, 단축 계수, 그리고 주파수 가중치가 된다.
제안된 방법으로 최적화 된 음소 주파수 대역을 얻기 위해서는 서로 다른 음성에 많은 음소 샘플을 이용해야 한다. 우리는 본 실험의 샘플을 추출하기 위해 20명의 서로 다른 사람에 공통 자음이 있는 음소 정보를 각각 100개씩 사용하여 유효 음소 영역을 추출 하였다.
본 연구의 시스템은 Z평면을 여러 개의 중점 블록으로 나누고 해당 중점블록에 결합 되어 있는 주파수 값을 사용하여 어떤 자음이 있는 가를 분석한다. 제안된 시스템은 64개의 블록중점으로 데이터를 분석 하였다. 각 블록의 정보와 데이터베이스에 있는 자음 정보들과 비교 판단을 할 경우 탬플레이트 매칭 방법을 사용하게 되면 수행 시간과 복잡도가 커진다.
이론/모형
본 논문에서 사용하는 Z 평면의 기반 함수를 FT(Fourier Transform) 하였다. (식 2)는 Z Transform 의 기본형이다.
단점으로는 자음의 순서가 보장 되지 못한다. 본 문제를 해결하기 위해서 자음을 유추하여 유효 명령어에 비교할 경우에도 WBM을 사용하면 된다. WBM의 특징은 순서가 독립적인 비교 판단이 가능하다[8, 9, 10].
본 논문에서는 음소 인식 분야에 새로운 알고리즘 개발을 제안한다. 본 연구에서 제안 방법은 음소 판단 방법으로 자음 기반 최대 흐름 정합(Max Flow Matching)를 이용한다.
[그림 1]은 본 논문에서 제안하는 시스템의 전체 구조를 보여 준다. 우선 입력되는 음성 주파수를 FFT(Fast Fourier Transform)를 한다. 그 다음 전환된 주파수 데이터를 Z 평면에 도시를 한다.
성능/효과
실험 시 분석 유효 시간을 30초로 설정 하였고 30초 를 넘으면 분석을 종료 하는 방법을 사용 하였다. 1분 미만일 경우 HMM이 정확도가 높았다. HMM은 짧은 영역에서 세부 검사를 할 경우 정확도가 높기 때문이다.
자음 주파수를 이용하여 유효한 단어의 자음을 유추한다. 실시간 게임에서 본 연구에서 개발한 알고리즘을 이용하면 명령을 빠르게 인식 할 수 있다. 예를 들어 “전투준비” 라는 인식을 “ㅈㅌㅈㅂ”로만으로도 판단이 가능하다.
HMM은 음성이 지속적으로 입력 하는 경우에는 인식을 제대로 할 수가 없다는 것으로 판단되었다. 제안된 방법도 5분 동안에 명령에서 12개의 명령을 인식 하지 못하는 단점은 있으나, 빠른 명령을 인식하는 방법에서는 최적화 된 방법이라 판단된다.
제안하는 방법은 주파수 도메인에서의 값을 추출하는데, 시간 영역에서는 순차적이나 주파수 영역에서는 순차적이지 않다. 따라서 자음의 위치가 바뀔 수 있다.
후속연구
우리가 개발한 시스템은 게임과 로봇 분야에서 실시간으로 명령을 주고받을 수 있도록 해준다. 게임과 로봇 가전 분야의 경우는 음소 인식률이 약간 떨어지더라도 빠르게 음소를 인식하여 전달하는 것이 보다 우선적이기 때문에, 제안된 방법을 사용하게 되면 게임분야와 로봇 분야에 효과적으로 적용 될 것으로 판단된다.
그러나 본 논문에서 사용하는 방법은 주파수 영역 값의 매칭이기 때문에 주파수 블록의 비교가 필요하지 않다. 따라서 HMM 보다 매우 빠르게 비교가 가능하다.
그러므로 게임 시 게이머의 흥미를 높이기 위해서는 조이스틱 그리고 마우스와 같은 전통적인 입력 장치 뿐만이 아니라 빠른 음성 명령이 전달 가능한 향상된 입력 시스템이 개발되는 것은 의미가 있다. 본 연구에서 개발한 알고리즘은 음성 명령을 결합한 게임을 개발하고자 할 때 매우 효과적으로 사용될 수 있을 것이다.
본 연구에서의 알고리즘은 다양한 부분에 적용 가능한데, 특히 빠른 음성 명령이 필요한 분야에서와 실시간으로 다양한 음성 명령이 필요한 분야에서 유용하게 적용할 수 있다. 우선 음성 명령의 빠른 전달이 가장 필요한 분야는 게임 분야와 로봇 분야로 판단이 되는데, 게이머들이 게임을 하는 모습을 관찰해보면, “빨리 빨리” 또는 “받아라~”와 같은 말을 하는 것을 알 수 있다.
제안된 방법으로 최적화 된 음소 주파수 대역을 얻기 위해서는 서로 다른 음성에 많은 음소 샘플을 이용해야 한다. 우리는 본 실험의 샘플을 추출하기 위해 20명의 서로 다른 사람에 공통 자음이 있는 음소 정보를 각각 100개씩 사용하여 유효 음소 영역을 추출 하였다.
질의응답
핵심어
질문
논문에서 추출한 답변
HMM의 장점은?
특히 히든 마르코프 모델(Hidden Markov Model: HMM)을 이용한 음소 인식은 많은 시스템에 탑재되어 운용되고 있다[3]. HMM은 음소인식의 정확도가 매우 높아서 정확한 음소 인식에는 현재 나와 있는 알고리듬 중에서 최고의 성능을 가지고 있다 판단된다. HMM은 음성의 시작점을 정확하게 인식하고 그 이후부터 음소로 분석하는 단점이 있다.
HMM이 게임에 적용될 때 연산 시간이 길어지는 이유는?
그러나 HMM은 음성의 시작 점을 잡아서 분석 하는 방법이기 때문에 게임에 사용하기 힘들다. 또한 음성을 분석하기 위하여 그래프 체인을 따라 가기 때문에 연산 시간이 길어 바로 게임에 적용하기 힘들다[5].
HMM의 단점은?
HMM은 음소인식의 정확도가 매우 높아서 정확한 음소 인식에는 현재 나와 있는 알고리듬 중에서 최고의 성능을 가지고 있다 판단된다. HMM은 음성의 시작점을 정확하게 인식하고 그 이후부터 음소로 분석하는 단점이 있다. 음성의 시작을 정확하게 인지하지 못했을 경우 에러율이 매우 크다.
참고문헌 (11)
최원석, 이동우, 김문식, 나종화, "음성인식 및 영상처리 기반 멀티모달 입력장치의 설계", 제어.로봇.시스템학회 논문지, Vol. 13, No. 8, pp.743-748, 2007
정보통신산업진흥원, "모바일과 클라우드로 재조명받는 '음성인식'", 주간기술동향, 1520호, 2011년 11월
한국콘텐츠진흥원, "음성인식기술의 동향과 전망", 문화기술(CT) 심층리포트, 2011년 11월
안종영, 김상범, 김수훈, 허강인, "모델적응 HMM을 이용한 모바일 환경에서의 음성인식에 관한 연구", 한국인터넷방송통신학회 논문지, Vol. 11, No. 3, 2011
L. R. Rabiner, "A tutorial on hidden Markov models and selected applications in speech recognition", Proceedings of the IEEE, Vol. 77, No. 2, pp. 257-286, 1989
Sangyeob Lee, Whoiyul Kim, "Robust Character Image Retrieval Method Using Bipartite Matching and Pseudo-bipartite Matching", Proceedings of the First International Workshop on Advanced Internet Services and Applications (AISA), London, UK, 2002
S. Sclaroff and A. P. Pentland, "Search by Shape Examples: Modeling Nonrigid Deformation", Proceedings of 28th Asilomar Conference on Signals, Systems, and Computers, pp.1341-1344, October 1994
SangYeob Lee, Whoi-Yul Kim, "Robust Character Image Retrieval Method Using Bipartite Matching," LNCS 2402, pp. 295-306, 2002
이상엽, 김회율, "Bipartite Matching 을 이용한 강인한 캐릭터 영상 검색 방법," 방송공학회 논문지 Vol.7, No.2, pp. 136-143 June 2002.
Whoi-Yul Kim and C. Kak, "3-D Object Recotnition Using Bipartite Matching Embedded in Discrete Relaxation," IEEE Trans. Pattern Anal. Machine Intell., vol. 13, no.3, pp. 224-251
J. Canny, "A computational approach to edge detection," IEEE Trans. Pattern Anal. Machine Intell., vol. PAMI-8, pp. 679-698, Nov. 1986
※ AI-Helper는 부적절한 답변을 할 수 있습니다.