컴퓨터 게임에서 대부분의 사용자 인터페이스 방법은 키보드, 마우스, 터치스크린이다. 사운드 형태 명령어의 전체 처리 시간은 크게 명령어 입력 시간과 인식 시간으로 구성된다. 본 논문은 명령어 신호 전체를 입력받지 않고 일부 앞부분 신호만을 받음으로써, 입력 시간을 줄여 전체 처리 시간을 단축하는 방법을 제안한다. 우리의 방법에서는 HMM(Hidden Markov Process)를 이용해 명령어 신호를 인식하는데, 전체 신호 및 부분 신호들에 대해 별도의 HMM을 구성한다. 플랫홈 게임의 대표 명령어들을 음성과 손바닥 소리로 표현해, 본 논문의 방법을 실험했다. 실험 결과, 인식률의 큰 저하 없이 명령어 처리 시간을 줄임을 알 수 있었다. 본 연구는 게임의 사용자 인터페이스 방법을 다양화하는데 기여할 것이다.
컴퓨터 게임에서 대부분의 사용자 인터페이스 방법은 키보드, 마우스, 터치스크린이다. 사운드 형태 명령어의 전체 처리 시간은 크게 명령어 입력 시간과 인식 시간으로 구성된다. 본 논문은 명령어 신호 전체를 입력받지 않고 일부 앞부분 신호만을 받음으로써, 입력 시간을 줄여 전체 처리 시간을 단축하는 방법을 제안한다. 우리의 방법에서는 HMM(Hidden Markov Process)를 이용해 명령어 신호를 인식하는데, 전체 신호 및 부분 신호들에 대해 별도의 HMM을 구성한다. 플랫홈 게임의 대표 명령어들을 음성과 손바닥 소리로 표현해, 본 논문의 방법을 실험했다. 실험 결과, 인식률의 큰 저하 없이 명령어 처리 시간을 줄임을 알 수 있었다. 본 연구는 게임의 사용자 인터페이스 방법을 다양화하는데 기여할 것이다.
In computer games, most of GUI methods are keyboards, mouses and touch screens. The total time of processing the sound commands for games is the sum of input time and recognition time. In this paper, we propose a method for taking only the prefixes of the input signals for sound commands, resulting ...
In computer games, most of GUI methods are keyboards, mouses and touch screens. The total time of processing the sound commands for games is the sum of input time and recognition time. In this paper, we propose a method for taking only the prefixes of the input signals for sound commands, resulting in the reduced the total processing time, instead of taking the whole input signals. In our method, command sounds are recognized using HMM(Hidden Markov Model), where separate HMM's are built for the whole input signals and their prefix signals. We experiment our proposed method with representative commands of platform games. The experiment shows that the total processing time of input command signals reduces without decreasing recognition rate significantly. The study will contribute to enhance the versatility of GUI for computer games.
In computer games, most of GUI methods are keyboards, mouses and touch screens. The total time of processing the sound commands for games is the sum of input time and recognition time. In this paper, we propose a method for taking only the prefixes of the input signals for sound commands, resulting in the reduced the total processing time, instead of taking the whole input signals. In our method, command sounds are recognized using HMM(Hidden Markov Model), where separate HMM's are built for the whole input signals and their prefix signals. We experiment our proposed method with representative commands of platform games. The experiment shows that the total processing time of input command signals reduces without decreasing recognition rate significantly. The study will contribute to enhance the versatility of GUI for computer games.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
대부분 컴퓨터 게임에서는 키보드, 마우스, 터치 스크린 등을 이용해 게임 진행을 위한 명령을 입력한다. 본 논문에서는 우리는 게임 명령어를 사운드 형태로 입력할 때, 명령어 신호의 일부만을 사용해 입력 시간을 단축하는 방법을 제안했다. 우리의 방법을 사용하면 명령어 처리 시간을 줄여 보다 빠른 사용자 반응을 가능하게 한다.
또한, 명령어 수를 줄면 인식률도 높아지고 인식 시간도 현저히 줄어들음을 알 수 있었다. 향후에는 우리의 방법이 보다 큰 명령어 집합을 필요로 하는 게임에도 적용가능한 지를 실험해 보고자 한다.
가설 설정
RRnormal이 100%에 미치지 못하는 이유는 명령어 신호의 다양성으로 인한 것이다. 훈련 단계에 사용한 사운드 신호와 인식 단계에서 사용하는 신호가 음색과 템포 면에서 얼마나 유사한 지에 때라 인식률과 인식시간은 차이가 날 것이다. 참고로 실험에서는 이들을 일치하고자 했다.
제안 방법
04sec, S=6, F=9로 정했고, 사용한 명령어 신호의 최대 길이에 따라 최대세그먼트 수는 12로 정했다. 그리고 각 J에 대해, Ts * J 만큼 길이의 명령어 부분 신호들을 대상으로 성능을 분석했다. 우리는 본 장에 기술된 모든 실험에서 Ts=0.
본 논문에서 제안하는 방법의 핵심은 명령어 신호의 전체가 아닌 전반부 일부만을 입력받아 인식 직업을 수행하는 것이다. 따라서 명령어 신호 신호의 일부를 인식하기 위해 별도의 HMM들을 구축한다. 또한, 명령어의 부분 신호를 이용할 때, 부분 신호의 길이에 따라 인식률을 가장 높일 수 있는 HMM들을 파악하는 방법을 제안한다.
따라서 명령어 신호 신호의 일부를 인식하기 위해 별도의 HMM들을 구축한다. 또한, 명령어의 부분 신호를 이용할 때, 부분 신호의 길이에 따라 인식률을 가장 높일 수 있는 HMM들을 파악하는 방법을 제안한다. 우리는 11개의 명령어 신호를 대상으로 제안된 우리의 방법의 특성을 분석하였다.
먼저 우리는 그림 4와 5에서 기술한 방법을 적용해, 여러 신호 길이에 대해, 인식에 사용할 HMM들을 구했다. Ts=0.
본 논문에서는 HMM(Hidden Markov Model)[2] 기반의 사운드 인식 엔진을 이용해. 명령어 신호의 처리 시간을 감소시키는 방법을 제안한다.
본 논문에서 제안하는 방법의 핵심은 명령어 신호의 전체가 아닌 전반부 일부만을 입력받아 인식 직업을 수행하는 것이다. 따라서 명령어 신호 신호의 일부를 인식하기 위해 별도의 HMM들을 구축한다.
실제 응용에서는, 여러 J에 대해 BestHmms 프로시저를 수행하여, 명령어 타입별 가장 적합한 HMM과 인식률을 구한다. 그리고 인식률에 따라서 응용에 맞는 수준의 J를 선택해 사용하면 될 것이다.
앞 실험들에서 사용한 명령어 집합, "앞으로, 뒤로, 아래로, 위로, 점프, 시작, 그만" 명령어들로 구성된 집합, "앞으로, 뒤로, 점프, 아래로" 명령어들로 구성한 집합에 대해 실험했다.
또한, 명령어의 부분 신호를 이용할 때, 부분 신호의 길이에 따라 인식률을 가장 높일 수 있는 HMM들을 파악하는 방법을 제안한다. 우리는 11개의 명령어 신호를 대상으로 제안된 우리의 방법의 특성을 분석하였다. 실험 결과, 전체 신호를 사용 시의 인식률과 비교해 거의 차이가 없이, 명령어 처리 시간을 크게 줄임을 알 수 있었다.
특징 벡터의 길이를 결정하는 F와 상태의 수인 S는 HMM 기반 인식의 주요 파라미터이다. 우리는 이들에 대해 다양한 값을 설정한 후 제안된 방법에 미치는 영향을 분석했다.
우리는 제안된 명령어 신호의 입력 시간 단축 방법을 실험을 통해 그 유용성을 분석했다. 플랫홈게임에서 자주 사용될 수 있는 명령어 11개를 선정했다: 왼쪽, 오른쪽, 위로, 아래로, 앞으로, 뒤로, 점프, 시작, 그만, 짝, 짝짝.
따라서 입력 벡터의 길이는 3*F + 3이 된다. 특징 벡터에 대해 벡터 양자화(Vector Quantization)를 이용했고, 벡터 테이블의 인덱스를 HMM에서의 심볼로 표현한다 심볼의 개수를 512로 정했다. HMM의 훈련과 인식에는 Baum-Welch 방식과 Viterbi 방식을 채택했다[2].
대상 데이터
먼저 실험자 5명을 대상으로 명령어별 수십회의 음성 신호와 박수 신호를 확보했다. 신호의 각 샘플은 16비트로 표현했다.
플랫홈 게임에서 많이 사용하는 11개 명령어를 대상으로 우리의 방법을 실험했다. 우리는 실험에서 명령어 인식은 HMM을 기반으로 동작한다.
우리는 제안된 명령어 신호의 입력 시간 단축 방법을 실험을 통해 그 유용성을 분석했다. 플랫홈게임에서 자주 사용될 수 있는 명령어 11개를 선정했다: 왼쪽, 오른쪽, 위로, 아래로, 앞으로, 뒤로, 점프, 시작, 그만, 짝, 짝짝.
이론/모형
특징 벡터에 대해 벡터 양자화(Vector Quantization)를 이용했고, 벡터 테이블의 인덱스를 HMM에서의 심볼로 표현한다 심볼의 개수를 512로 정했다. HMM의 훈련과 인식에는 Baum-Welch 방식과 Viterbi 방식을 채택했다[2].
본 논문에서는 HMM(Hidden Markov Model)[2] 기반의 사운드 인식 엔진을 이용해. 명령어 신호의 처리 시간을 감소시키는 방법을 제안한다.
HMM을 이용한 사운드 인식에서는 특징 벡터 생성은 윈도우윙(windowing) 및 스펙트럼 계수 추출을 진행된다. 본 논문에서는 윈도우잉은 해밍 윈도우(hamming window)를, 스펙트럼 계수는 MFCC (Mel-frequency cepstral coefficients)를 사용한다.
04sec로 설정했다. 성능 평가지표로 인식률인 RR, 명령어 신호의 입력 시간 감소률인 ITR(Input Time Reduction) 및 명령어 신호의 처리 시간 감소율인 TTR(Total Time Reduction)을 사용했다. ITR과 TTR은 다음과 같이 정의했다.
성능/효과
ITR은 정의에 따라 입력 신호의 길이에 크게 좌우되므로, 실험 결과에서 입력 신호의 길이가 짧아지면 그 만큼 ITR도 증가함을 확인할 수 있다. TTR은 ITR보다 조금 큰 값을 가진다.
실험 결과에 따르면, 명령어 신호가 일정한 길이 이상일 때 명령어 신호 전체를 사용한 경우에 비해 인식률은 거의 감소가 없고, 명령어 입력 시간과 처리 시간을 단축시킬 수 있었다. 또한 HMM의 주요 특징 변수인 상태 수와 특징 벡터의 길이는 인식률에 크게 영향을 미치지 않음을 알 수 있었다. 하지만 상태 수는 인식 시간에 미침을 알 수 있었다.
하지만 상태 수는 인식 시간에 미침을 알 수 있었다. 또한, 명령어 수를 줄면 인식률도 높아지고 인식 시간도 현저히 줄어들음을 알 수 있었다. 향후에는 우리의 방법이 보다 큰 명령어 집합을 필요로 하는 게임에도 적용가능한 지를 실험해 보고자 한다.
7] 은 F=9로 설정한 후, 다양한 J에 대해 S 값이 우리의 방법에 미치는 영향을 정리한 것이다. 실험 결과, S가 변화해도 인식률, ITR 및 TTR 은 큰 변화를 보이지 않는다. ITR과 TTR은 J에 영향을 주로 받기에 당연한 결과로 보인다.
실험 결과, 명령어 개수가 줄면 인식률은 증가했다. 특히 그림 9에서처럼, J=6인 경우 C3는 인식률이 C1에 비해 크게 높았다.
우리는 11개의 명령어 신호를 대상으로 제안된 우리의 방법의 특성을 분석하였다. 실험 결과, 전체 신호를 사용 시의 인식률과 비교해 거의 차이가 없이, 명령어 처리 시간을 크게 줄임을 알 수 있었다.
실험 결과에 따르면, 각 J에 대해, F가 일정한 값 이상이 되면 F가 변화해도 인식률, ITR 및 TTR은 크게 변화하지 않았다. 하지만 F가 3이하가 되면 인식률은 크게 낮아진다.
우리는 실험에서 명령어 인식은 HMM을 기반으로 동작한다. 실험 결과에 따르면, 명령어 신호가 일정한 길이 이상일 때 명령어 신호 전체를 사용한 경우에 비해 인식률은 거의 감소가 없고, 명령어 입력 시간과 처리 시간을 단축시킬 수 있었다. 또한 HMM의 주요 특징 변수인 상태 수와 특징 벡터의 길이는 인식률에 크게 영향을 미치지 않음을 알 수 있었다.
이들 대표적인 명령어들만 게임 플레이에서 사용한다면, 명령어 입력의 시간은 현저히 줄일 수면서도 높은 인식률을 달성할 수 있을 것이다. 실험에서 명령어 수가 줄면 그 만큼 인식 시간도 감소함을 확인할 수 있었다.
후속연구
인간은 음성이나 기타 신체 일부를 이용한 사운드로 의사 및 감정을 편리하게 표현한다. 이런 점을 감안하면, 본 연구는 멀티 모달의 게임 사용자인터페이스를 지원함으로써 게임 플레이의 흥미를 크게 높일 수 있을 것이다.
질의응답
핵심어
질문
논문에서 추출한 답변
게임을 음성으로 진행할 때의 한계점은 무엇인가?
대부분의 앞선 연구들이 음성 사용의 장점을 주장하고 있는 반면에, [10]에서는 한계점을 지적하기도 했다. [10]에 따르면, 테트리스 게임에서 게임 진행 템포가 빨라지면 키보드입력보다 게임 조작을 하는데 어려움이 있다고 보고했다. [11]에서는 퀴즈 로봇이 음성으로 퀴즈 문제를 내고 답을 이해하는데 어려움이 없음을 보여준다.
HMM의 핵심은 무엇인가?
신경망 기술은 HMM과 결합해서 많이 사용한다. HMM의 핵심은 스토캐스틱 프로세스를 이용해 주어진 입력에 대한 발생 확률을 구하는 것이다. HMM은 개별 단어뿐만이 아니라 문장인식에 적용되고 있다.
사운드 형태 명령어의 전체 처리 시간은 어떻게 구성되는가?
컴퓨터 게임에서 대부분의 사용자 인터페이스 방법은 키보드, 마우스, 터치스크린이다. 사운드 형태 명령어의 전체 처리 시간은 크게 명령어 입력 시간과 인식 시간으로 구성된다. 본 논문은 명령어 신호 전체를 입력받지 않고 일부 앞부분 신호만을 받음으로써, 입력 시간을 줄여 전체 처리 시간을 단축하는 방법을 제안한다.
참고문헌 (16)
Zhang Jie, Zhao Ji, Bai Shuanhu, and Huang Zhiyong, "Applying Speech Interface to Mahjong Game", Proceedings of 10th International Conference on Multimedia Modelling, 2004, pp.86-92.
http: //en.wikipedia.org/wiki/Hidden_Markov_model
Alexander Franz, Brian Milch, Searching the Web by voice, Proceeding of Proceedings of the 19th International Conference on Computational Linguistics, Vol. 2, 2002, pp.1-5.
R. Rogoff, "Voice Activated GUI-the Next User Interface", Proceedings of Professional Communication Conference, 2001, pp.117-120.
H Sakoe, R Isotani, K Yoshida, KI Iso, and T Watanabe, "Speaker-Independent Word Recognition Using Dynamic, Programming Neural Networks", Proceeding of International Conference on Acoustics, Speech, and Signal Processing, 1989, pp.29-32.
J. -C. Bolot, S. Fosse-Parisis, "Adding Voice to Distributed Games on the Internet", Proceedings of Seventeenth Annual Joint Conference of the IEEE Computer and Communications Societies, 1998, Vol. 2, pp.480-487.
Chi-Wen Fann, Jehn-Ruey Jiang, and Jih-Wei Wu, "Peer-to-Peer Immersive Voice Communication for Massively Multiplayer Online Games", International Conference on Parallel and Distributed Systems, 2011, pp.759-764.
Jehn-Ruey Jiang, Hung-Shiang Chen, "Peer-to-Peer AOI voice chatting for massively multiplayer online games", International Conference on Parallel and Distributed Systems, 2007, Vol. 2, pp.1-8.
Kiyhoshi Nosu, et. al, "Real Time Emotion-Diagnosis of Video Game Players from their Facial Expressions and its Applications to Voice Feed-Backing to Game Players", International Conference on Machine Learning and Cybernetics, 2007, Vol. 4, pp.2208-2212.
XiaoJie Yuan, Jing Fan, "Design and implementation of voice controlled Tetris game based on Microsoft SDK", Proceedings of International Conference on Multimedia Technology, 2011, pp.275-278.
Izaya Nishimuta, et. al, "A Robot Qquizmaster That Can Localize, Separate, and Recognize Simultaneous Utterances for a Fastest-voice-first Quiz Game", International Conference on Humanoid Robots (Humanoids), 2014, pp.967-972.
Hiroaki Nanjo, et. al, "A Fundamental Study of Novel Speech Interface for Computer Games", Proceedings of 13th International Symposium on Consumer Electronics, 2009. pp.558-560.
Y. Sriboonruang, P. Kumhom, and K. Chamnongthai, "Visual Hand Gesture Interface for Computer Board Game Control", IEEE Tenth International Symposium on Consumer Electronics, 2006, pp.1-5.
J Payne, et. al, "Gameplay Issues in the Design of Spatial 3D Gestures for Video Ggames", Extended Abstracts on Human Factors in Computing Systems. 2006, pp.1217-1222.
Simon Gunter, Horst Bunke, "Optimizing the Number of States, Training Iterations and Gaussians in an HMM-based Handwritten Word Recognizer", Proceedings of the Seventh International Conference on Document Analysis and Recognition, Vol. 1, pp.472-496.
Nilu Singh, R.A Khan, and Raj Shree, "MFCC and Prosodic Feature Extraction Techniques: A Comparative Study", International Journal of Computer Applications, 54(1), 2012, pp.9-13.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.