[논문]컴퓨터 게임에서 HMM 기반의 명령어 신호 처리 시간 단축을 위한 방법

박도생; 김상철

doi:10.7583/jkgs.2016.16.2.119

컴퓨터 게임에서 HMM 기반의 명령어 신호 처리 시간 단축을 위한 방법
A HMM-based Method of Reducing the Time for Processing Sound Commands in Computer Games 원문보기

한국게임학회 논문지 = Journal of Korea Game Society, v.16 no.2, 2016년, pp.119 - 128

박도생 (한국외국어대학교 컴퓨터 및 전자시스템 공학부) , 김상철 (한국외국어대학교 컴퓨터 및 전자시스템 공학부)

초록
AI-Helper

컴퓨터 게임에서 대부분의 사용자 인터페이스 방법은 키보드, 마우스, 터치스크린이다. 사운드 형태 명령어의 전체 처리 시간은 크게 명령어 입력 시간과 인식 시간으로 구성된다. 본 논문은 명령어 신호 전체를 입력받지 않고 일부 앞부분 신호만을 받음으로써, 입력 시간을 줄여 전체 처리 시간을 단축하는 방법을 제안한다. 우리의 방법에서는 HMM(Hidden Markov Process)를 이용해 명령어 신호를 인식하는데, 전체 신호 및 부분 신호들에 대해 별도의 HMM을 구성한다. 플랫홈 게임의 대표 명령어들을 음성과 손바닥 소리로 표현해, 본 논문의 방법을 실험했다. 실험 결과, 인식률의 큰 저하 없이 명령어 처리 시간을 줄임을 알 수 있었다. 본 연구는 게임의 사용자 인터페이스 방법을 다양화하는데 기여할 것이다.

Abstract ▼ AI-Helper

In computer games, most of GUI methods are keyboards, mouses and touch screens. The total time of processing the sound commands for games is the sum of input time and recognition time. In this paper, we propose a method for taking only the prefixes of the input signals for sound commands, resulting in the reduced the total processing time, instead of taking the whole input signals. In our method, command sounds are recognized using HMM(Hidden Markov Model), where separate HMM's are built for the whole input signals and their prefix signals. We experiment our proposed method with representative commands of platform games. The experiment shows that the total processing time of input command signals reduces without decreasing recognition rate significantly. The study will contribute to enhance the versatility of GUI for computer games.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

대부분 컴퓨터 게임에서는 키보드, 마우스, 터치 스크린 등을 이용해 게임 진행을 위한 명령을 입력한다. 본 논문에서는 우리는 게임 명령어를 사운드 형태로 입력할 때, 명령어 신호의 일부만을 사용해 입력 시간을 단축하는 방법을 제안했다. 우리의 방법을 사용하면 명령어 처리 시간을 줄여 보다 빠른 사용자 반응을 가능하게 한다.
또한, 명령어 수를 줄면 인식률도 높아지고 인식 시간도 현저히 줄어들음을 알 수 있었다. 향후에는 우리의 방법이 보다 큰 명령어 집합을 필요로 하는 게임에도 적용가능한 지를 실험해 보고자 한다.

가설 설정

RR_normal이 100%에 미치지 못하는 이유는 명령어 신호의 다양성으로 인한 것이다. 훈련 단계에 사용한 사운드 신호와 인식 단계에서 사용하는 신호가 음색과 템포 면에서 얼마나 유사한 지에 때라 인식률과 인식시간은 차이가 날 것이다. 참고로 실험에서는 이들을 일치하고자 했다.

제안 방법

04sec, S=6, F=9로 정했고, 사용한 명령어 신호의 최대 길이에 따라 최대세그먼트 수는 12로 정했다. 그리고 각 J에 대해, T_s * J 만큼 길이의 명령어 부분 신호들을 대상으로 성능을 분석했다. 우리는 본 장에 기술된 모든 실험에서 T_s=0.
본 논문에서 제안하는 방법의 핵심은 명령어 신호의 전체가 아닌 전반부 일부만을 입력받아 인식 직업을 수행하는 것이다. 따라서 명령어 신호 신호의 일부를 인식하기 위해 별도의 HMM들을 구축한다. 또한, 명령어의 부분 신호를 이용할 때, 부분 신호의 길이에 따라 인식률을 가장 높일 수 있는 HMM들을 파악하는 방법을 제안한다.
따라서 명령어 신호 신호의 일부를 인식하기 위해 별도의 HMM들을 구축한다. 또한, 명령어의 부분 신호를 이용할 때, 부분 신호의 길이에 따라 인식률을 가장 높일 수 있는 HMM들을 파악하는 방법을 제안한다. 우리는 11개의 명령어 신호를 대상으로 제안된 우리의 방법의 특성을 분석하였다.
먼저 우리는 그림 4와 5에서 기술한 방법을 적용해, 여러 신호 길이에 대해, 인식에 사용할 HMM들을 구했다. T_s=0.
본 논문에서는 HMM(Hidden Markov Model)[2] 기반의 사운드 인식 엔진을 이용해. 명령어 신호의 처리 시간을 감소시키는 방법을 제안한다.
본 논문에서 제안하는 방법의 핵심은 명령어 신호의 전체가 아닌 전반부 일부만을 입력받아 인식 직업을 수행하는 것이다. 따라서 명령어 신호 신호의 일부를 인식하기 위해 별도의 HMM들을 구축한다.
실제 응용에서는, 여러 J에 대해 BestHmms 프로시저를 수행하여, 명령어 타입별 가장 적합한 HMM과 인식률을 구한다. 그리고 인식률에 따라서 응용에 맞는 수준의 J를 선택해 사용하면 될 것이다.
앞 실험들에서 사용한 명령어 집합, "앞으로, 뒤로, 아래로, 위로, 점프, 시작, 그만" 명령어들로 구성된 집합, "앞으로, 뒤로, 점프, 아래로" 명령어들로 구성한 집합에 대해 실험했다.
또한, 명령어의 부분 신호를 이용할 때, 부분 신호의 길이에 따라 인식률을 가장 높일 수 있는 HMM들을 파악하는 방법을 제안한다. 우리는 11개의 명령어 신호를 대상으로 제안된 우리의 방법의 특성을 분석하였다. 실험 결과, 전체 신호를 사용 시의 인식률과 비교해 거의 차이가 없이, 명령어 처리 시간을 크게 줄임을 알 수 있었다.
특징 벡터의 길이를 결정하는 F와 상태의 수인 S는 HMM 기반 인식의 주요 파라미터이다. 우리는 이들에 대해 다양한 값을 설정한 후 제안된 방법에 미치는 영향을 분석했다.
우리는 제안된 명령어 신호의 입력 시간 단축 방법을 실험을 통해 그 유용성을 분석했다. 플랫홈게임에서 자주 사용될 수 있는 명령어 11개를 선정했다: 왼쪽, 오른쪽, 위로, 아래로, 앞으로, 뒤로, 점프, 시작, 그만, 짝, 짝짝.
따라서 입력 벡터의 길이는 3*F + 3이 된다. 특징 벡터에 대해 벡터 양자화(Vector Quantization)를 이용했고, 벡터 테이블의 인덱스를 HMM에서의 심볼로 표현한다 심볼의 개수를 512로 정했다. HMM의 훈련과 인식에는 Baum-Welch 방식과 Viterbi 방식을 채택했다[2].

대상 데이터

먼저 실험자 5명을 대상으로 명령어별 수십회의 음성 신호와 박수 신호를 확보했다. 신호의 각 샘플은 16비트로 표현했다.
플랫홈 게임에서 많이 사용하는 11개 명령어를 대상으로 우리의 방법을 실험했다. 우리는 실험에서 명령어 인식은 HMM을 기반으로 동작한다.
우리는 제안된 명령어 신호의 입력 시간 단축 방법을 실험을 통해 그 유용성을 분석했다. 플랫홈게임에서 자주 사용될 수 있는 명령어 11개를 선정했다: 왼쪽, 오른쪽, 위로, 아래로, 앞으로, 뒤로, 점프, 시작, 그만, 짝, 짝짝.

이론/모형

특징 벡터에 대해 벡터 양자화(Vector Quantization)를 이용했고, 벡터 테이블의 인덱스를 HMM에서의 심볼로 표현한다 심볼의 개수를 512로 정했다. HMM의 훈련과 인식에는 Baum-Welch 방식과 Viterbi 방식을 채택했다[2].
본 논문에서는 HMM(Hidden Markov Model)[2] 기반의 사운드 인식 엔진을 이용해. 명령어 신호의 처리 시간을 감소시키는 방법을 제안한다.
HMM을 이용한 사운드 인식에서는 특징 벡터 생성은 윈도우윙(windowing) 및 스펙트럼 계수 추출을 진행된다. 본 논문에서는 윈도우잉은 해밍 윈도우(hamming window)를, 스펙트럼 계수는 MFCC (Mel-frequency cepstral coefficients)를 사용한다.
04sec로 설정했다. 성능 평가지표로 인식률인 RR, 명령어 신호의 입력 시간 감소률인 ITR(Input Time Reduction) 및 명령어 신호의 처리 시간 감소율인 TTR(Total Time Reduction)을 사용했다. ITR과 TTR은 다음과 같이 정의했다.

성능/효과

ITR은 정의에 따라 입력 신호의 길이에 크게 좌우되므로, 실험 결과에서 입력 신호의 길이가 짧아지면 그 만큼 ITR도 증가함을 확인할 수 있다. TTR은 ITR보다 조금 큰 값을 가진다.
실험 결과에 따르면, 명령어 신호가 일정한 길이 이상일 때 명령어 신호 전체를 사용한 경우에 비해 인식률은 거의 감소가 없고, 명령어 입력 시간과 처리 시간을 단축시킬 수 있었다. 또한 HMM의 주요 특징 변수인 상태 수와 특징 벡터의 길이는 인식률에 크게 영향을 미치지 않음을 알 수 있었다. 하지만 상태 수는 인식 시간에 미침을 알 수 있었다.
하지만 상태 수는 인식 시간에 미침을 알 수 있었다. 또한, 명령어 수를 줄면 인식률도 높아지고 인식 시간도 현저히 줄어들음을 알 수 있었다. 향후에는 우리의 방법이 보다 큰 명령어 집합을 필요로 하는 게임에도 적용가능한 지를 실험해 보고자 한다.
7] 은 F=9로 설정한 후, 다양한 J에 대해 S 값이 우리의 방법에 미치는 영향을 정리한 것이다. 실험 결과, S가 변화해도 인식률, ITR 및 TTR 은 큰 변화를 보이지 않는다. ITR과 TTR은 J에 영향을 주로 받기에 당연한 결과로 보인다.
실험 결과, 명령어 개수가 줄면 인식률은 증가했다. 특히 그림 9에서처럼, J=6인 경우 C3는 인식률이 C1에 비해 크게 높았다.
우리는 11개의 명령어 신호를 대상으로 제안된 우리의 방법의 특성을 분석하였다. 실험 결과, 전체 신호를 사용 시의 인식률과 비교해 거의 차이가 없이, 명령어 처리 시간을 크게 줄임을 알 수 있었다.
실험 결과에 따르면, 각 J에 대해, F가 일정한 값 이상이 되면 F가 변화해도 인식률, ITR 및 TTR은 크게 변화하지 않았다. 하지만 F가 3이하가 되면 인식률은 크게 낮아진다.
우리는 실험에서 명령어 인식은 HMM을 기반으로 동작한다. 실험 결과에 따르면, 명령어 신호가 일정한 길이 이상일 때 명령어 신호 전체를 사용한 경우에 비해 인식률은 거의 감소가 없고, 명령어 입력 시간과 처리 시간을 단축시킬 수 있었다. 또한 HMM의 주요 특징 변수인 상태 수와 특징 벡터의 길이는 인식률에 크게 영향을 미치지 않음을 알 수 있었다.
이들 대표적인 명령어들만 게임 플레이에서 사용한다면, 명령어 입력의 시간은 현저히 줄일 수면서도 높은 인식률을 달성할 수 있을 것이다. 실험에서 명령어 수가 줄면 그 만큼 인식 시간도 감소함을 확인할 수 있었다.

후속연구

인간은 음성이나 기타 신체 일부를 이용한 사운드로 의사 및 감정을 편리하게 표현한다. 이런 점을 감안하면, 본 연구는 멀티 모달의 게임 사용자인터페이스를 지원함으로써 게임 플레이의 흥미를 크게 높일 수 있을 것이다.

질의응답

핵심어	질문	논문에서 추출한 답변
	게임을 음성으로 진행할 때의 한계점은 무엇인가?	대부분의 앞선 연구들이 음성 사용의 장점을 주장하고 있는 반면에, [10]에서는 한계점을 지적하기도 했다. [10]에 따르면, 테트리스 게임에서 게임 진행 템포가 빨라지면 키보드입력보다 게임 조작을 하는데 어려움이 있다고 보고했다. [11]에서는 퀴즈 로봇이 음성으로 퀴즈 문제를 내고 답을 이해하는데 어려움이 없음을 보여준다.
	HMM의 핵심은 무엇인가?	신경망 기술은 HMM과 결합해서 많이 사용한다. HMM의 핵심은 스토캐스틱 프로세스를 이용해 주어진 입력에 대한 발생 확률을 구하는 것이다. HMM은 개별 단어뿐만이 아니라 문장인식에 적용되고 있다.
	사운드 형태 명령어의 전체 처리 시간은 어떻게 구성되는가?	컴퓨터 게임에서 대부분의 사용자 인터페이스 방법은 키보드, 마우스, 터치스크린이다. 사운드 형태 명령어의 전체 처리 시간은 크게 명령어 입력 시간과 인식 시간으로 구성된다. 본 논문은 명령어 신호 전체를 입력받지 않고 일부 앞부분 신호만을 받음으로써, 입력 시간을 줄여 전체 처리 시간을 단축하는 방법을 제안한다.

참고문헌 (16)

Zhang Jie, Zhao Ji, Bai Shuanhu, and Huang Zhiyong, "Applying Speech Interface to Mahjong Game", Proceedings of 10th International Conference on Multimedia Modelling, 2004, pp.86-92.
http: //en.wikipedia.org/wiki/Hidden_Markov_model
Alexander Franz, Brian Milch, Searching the Web by voice, Proceeding of Proceedings of the 19th International Conference on Computational Linguistics, Vol. 2, 2002, pp.1-5.
R. Rogoff, "Voice Activated GUI-the Next User Interface", Proceedings of Professional Communication Conference, 2001, pp.117-120.
H Sakoe, R Isotani, K Yoshida, KI Iso, and T Watanabe, "Speaker-Independent Word Recognition Using Dynamic, Programming Neural Networks", Proceeding of International Conference on Acoustics, Speech, and Signal Processing, 1989, pp.29-32.
J. -C. Bolot, S. Fosse-Parisis, "Adding Voice to Distributed Games on the Internet", Proceedings of Seventeenth Annual Joint Conference of the IEEE Computer and Communications Societies, 1998, Vol. 2, pp.480-487.
Chi-Wen Fann, Jehn-Ruey Jiang, and Jih-Wei Wu, "Peer-to-Peer Immersive Voice Communication for Massively Multiplayer Online Games", International Conference on Parallel and Distributed Systems, 2011, pp.759-764.
Jehn-Ruey Jiang, Hung-Shiang Chen, "Peer-to-Peer AOI voice chatting for massively multiplayer online games", International Conference on Parallel and Distributed Systems, 2007, Vol. 2, pp.1-8.
Kiyhoshi Nosu, et. al, "Real Time Emotion-Diagnosis of Video Game Players from their Facial Expressions and its Applications to Voice Feed-Backing to Game Players", International Conference on Machine Learning and Cybernetics, 2007, Vol. 4, pp.2208-2212.
XiaoJie Yuan, Jing Fan, "Design and implementation of voice controlled Tetris game based on Microsoft SDK", Proceedings of International Conference on Multimedia Technology, 2011, pp.275-278.
Izaya Nishimuta, et. al, "A Robot Qquizmaster That Can Localize, Separate, and Recognize Simultaneous Utterances for a Fastest-voice-first Quiz Game", International Conference on Humanoid Robots (Humanoids), 2014, pp.967-972.
Hiroaki Nanjo, et. al, "A Fundamental Study of Novel Speech Interface for Computer Games", Proceedings of 13th International Symposium on Consumer Electronics, 2009. pp.558-560.
Y. Sriboonruang, P. Kumhom, and K. Chamnongthai, "Visual Hand Gesture Interface for Computer Board Game Control", IEEE Tenth International Symposium on Consumer Electronics, 2006, pp.1-5.
J Payne, et. al, "Gameplay Issues in the Design of Spatial 3D Gestures for Video Ggames", Extended Abstracts on Human Factors in Computing Systems. 2006, pp.1217-1222.
Simon Gunter, Horst Bunke, "Optimizing the Number of States, Training Iterations and Gaussians in an HMM-based Handwritten Word Recognizer", Proceedings of the Seventh International Conference on Document Analysis and Recognition, Vol. 1, pp.472-496.
Nilu Singh, R.A Khan, and Raj Shree, "MFCC and Prosodic Feature Extraction Techniques: A Comparative Study", International Journal of Computer Applications, 54(1), 2012, pp.9-13.

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증