최근 콜센터 등에서는 고객을 음성 미디어를 통하여 서비스하고 있다. 이런 콜 센터에서 제공하는 다양한 서비스의 품질 측정 방법 중 음성 대화 속 화자의 감정에 따른 측정 방법이 있다. 본 연구에서는 화자의 음성을 이용하여 그 사람의 감정을 알아내고자 하였다. 이를 위하여 음성 신호로부터 여러 가지 파라미터를 추출하고 분석함으로써 인간의 감정을 분류하였다. 사람의 감정은 크게 기쁨, 슬픔, 흥분, 보통 등 4가지 상태로 나눌 수 있다. 대부분의 음성 서비스 품질은 흥분 또는 분노의 상태가 중요하다. 본 논문에서는 이와 같은 감정을 Pitch와 Amplitude를 기초로 한 5가지 요소를 통하여 효율적으로 대화자간의 문제가 되는 대화를 선별해 내는 방법을 연구 하였다.
최근 콜센터 등에서는 고객을 음성 미디어를 통하여 서비스하고 있다. 이런 콜 센터에서 제공하는 다양한 서비스의 품질 측정 방법 중 음성 대화 속 화자의 감정에 따른 측정 방법이 있다. 본 연구에서는 화자의 음성을 이용하여 그 사람의 감정을 알아내고자 하였다. 이를 위하여 음성 신호로부터 여러 가지 파라미터를 추출하고 분석함으로써 인간의 감정을 분류하였다. 사람의 감정은 크게 기쁨, 슬픔, 흥분, 보통 등 4가지 상태로 나눌 수 있다. 대부분의 음성 서비스 품질은 흥분 또는 분노의 상태가 중요하다. 본 논문에서는 이와 같은 감정을 Pitch와 Amplitude를 기초로 한 5가지 요소를 통하여 효율적으로 대화자간의 문제가 되는 대화를 선별해 내는 방법을 연구 하였다.
Tele-marketing service has been provided through voice media in a several places such as modern call centers. In modern call centers, they are trying to measure their service quality, and one of the measuring method is a extracting speaker's feeling information in their voice. In this study, it is p...
Tele-marketing service has been provided through voice media in a several places such as modern call centers. In modern call centers, they are trying to measure their service quality, and one of the measuring method is a extracting speaker's feeling information in their voice. In this study, it is proposed to analyze speaker's voice in order to extract their feeling information. For this purpose, a person's feeling is categorized by analyzing several types of signal parameters in the voice signal. A person's feeling can be categorized in four different states: joy, sorrow, excitement, and normality. In a normal condition, excited or angry state can be major factor of service quality. In this paper, it is proposed to select a conversation with problems by extracting the speaker's feeling information based on pitches and amplitudes of voice.
Tele-marketing service has been provided through voice media in a several places such as modern call centers. In modern call centers, they are trying to measure their service quality, and one of the measuring method is a extracting speaker's feeling information in their voice. In this study, it is proposed to analyze speaker's voice in order to extract their feeling information. For this purpose, a person's feeling is categorized by analyzing several types of signal parameters in the voice signal. A person's feeling can be categorized in four different states: joy, sorrow, excitement, and normality. In a normal condition, excited or angry state can be major factor of service quality. In this paper, it is proposed to select a conversation with problems by extracting the speaker's feeling information based on pitches and amplitudes of voice.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 연구는 콜센터의 고객과 상담원의 대화 중 문제가 되는 대화를 선별하고자 녹음된 대화를 이용하여 실험하였다. 대부분의 콜센터와 같은 상업적 환경에서는 정확한 감정인식보다 최소한의 비용으로 포괄적인 선별이 더욱 중요한 요인이 된다.
대부분의 콜센터와 같은 상업적 환경에서는 정확한 감정인식보다 최소한의 비용으로 포괄적인 선별이 더욱 중요한 요인이 된다. 따라서 본 연구에서는 어느 정도의 감정인식이 이루어지는 상황에서 최소 비용으로 시스템을 구성할 수 있도록 최소 비용으로 검출 가능한 음성 분석 요소만으로 감정 변화를 인지하고자 하였다.
화자의 음성을 분석하여 감정변화를 인지하고 이를 기반으로 대화를 분석하여 문제 대화를 추출하는 방법에 관하여 연구하여 보았다. 언어적 정보와 비언어적 정보 모두 이용이 가능하지만 아직 한국어 음성인식이 완전하게 이루어지지 않는 상황에서 그 내용적 의미를 파악하여 감정 변화를 인지하는 것은 매우 어려운 문제이며 많은 컴퓨팅 파워를 요구하기 때문에 상업적 응용도 쉽지 않은 상황이다.
본 연구에서는 적은 컴퓨팅 파워를 사용하여 받아들일만한 수준의 인식 율을 보이는 방법을 찾아보았다. 물론 한국어 음성을 기준으로 한 연구이지만 언어 종속적인 부분이 적어 다른 언어에도 쉽게 적용이 가능할 것으로 보인다.
제안 방법
하지만 DFT를 이용하거나 자기상관계수를 이용하는 방법은 계산 량이 많아 콜센터와 같이 컴퓨팅 파워를 여러 응용프로그램과 나누어 써야 하는 환경에서는 사용이 어렵다. 본 연구에서는 유성음의 신호적 특성이 무성음에 비해 상대적으로 저주파 영역에 놓이고 높은 에너지를 가짐에 착안하여 계산량이 적은 Zero-crossing을 이용하였다. Zero-crossing은 식 4와 같이 구할 수 있다.
전화 음성은 8KHz sampling rate, 16bit, Stereo(상담원-좌측, 고객-우측) 형태로 녹음되었다. 이 음성 자료를 처리하기 위하여 그림 2에서처럼 두 채널을 나누고 각 채널을 음성 특질이 유지되는 시간 세그먼트(Segment)로 분할하여 처리하였다. 각 시간 세그먼트 별로 신호처리를 한 결과 유사 특질이 유지되는 세그먼트들을 묶어 하나의 음성 블록(Speech Block)으로 합쳐 음성 블록 단위로 사용하였다.
이 음성 자료를 처리하기 위하여 그림 2에서처럼 두 채널을 나누고 각 채널을 음성 특질이 유지되는 시간 세그먼트(Segment)로 분할하여 처리하였다. 각 시간 세그먼트 별로 신호처리를 한 결과 유사 특질이 유지되는 세그먼트들을 묶어 하나의 음성 블록(Speech Block)으로 합쳐 음성 블록 단위로 사용하였다.
그림 3에서처럼 음성 블록 중 안정적인 주기성을 보이며 음성 에너지가 높은 음성 블록을 유성음 음성 블록으로 간주하였고 이를 기반으로 발성 속도를 측정 하였다. 발성속도는 시간당 유성음 음성 블록 수로 정의 된다.
여기서 N은 이동 윈도우 크기이다. 이 이동 평균의 크기를 이용하여 화자의 발성 소리 크기의 변화, 대화 중 무음 구간의 길이, 대화자 간의 중복 발성 구간의 길이를 구하였다.
앞에서 논의한 방식으로 음성 감정을 추출하였고 추출을 위하여 일반적으로 많이 사용되는 DFT와 식 4와 식 5에 제시한 Zero-crossing과 소리 진폭 측정 방식을 이용하여 컴퓨팅 파워를 적게 사용하는 제안 방식을 비교 실험하였다. 그림 4는 구현된 실험 도구이다.
대상 데이터
본 연구에서 사용된 음성 자료는 실제 콜센터에서 녹음된 H사와 N사의 고객과 상담원 사이에서 녹음한 전화 음성을 사용 하였다. 전화 음성은 8KHz sampling rate, 16bit, Stereo(상담원-좌측, 고객-우측) 형태로 녹음되었다.
데이터처리
를 이용하는 방식과 식 5와 같이 음성 세그먼트 내 최대값과 최소값을 찾아 그 차이를 이용하였다. 각 화자별 평균 소리크기를 알기 위해 대화 초기의 발성이 이루어지는 30개 음성 세그먼트의 평균을 구하고 식 6의 이동 평균이용 하였다.
성능/효과
실험 결과 DFT와 제안된 방식으로 음성 감정 정보를 추출한 인식 율이 거의 유사하여 콜센터와 같은 저 컴퓨팅 사양에서는 제안된 방식을 이용하여도 큰 인식 율의 손실 없이 문제 대화를 추출 할 수 있었다.
후속연구
현실적인 영업상 보안 문제로 많은 대화 샘플 데이터를 구할 수 없어 충분한 실험을 하는데 제한이 있었다. 앞으로 조금 더 많은 컴퓨팅 자원을 이용할 수 있다면 인식을 위한 단순한 어댑티브 알고리즘을 적용해 상황 정보를 추가해 보는 것이 다음 연구가 될 것이다.
질의응답
핵심어
질문
논문에서 추출한 답변
사람의 감정은 크게 어떤 상태로 나눌 수 있는가?
이를 위하여 음성 신호로부터 여러 가지 파라미터를 추출하고 분석함으로써 인간의 감정을 분류하였다. 사람의 감정은 크게 기쁨, 슬픔, 흥분, 보통 등 4가지 상태로 나눌 수 있다. 대부분의 음성 서비스 품질은 흥분 또는 분노의 상태가 중요하다.
화자의 음성을 분석하여 감정의 변화를 인지하는 연구가 증가하고 있는 이유는?
최근에 화자의 음성을 분석하여 감정의 변화를 인지하는 연구가 증가 하고 있다. 이와 같은 연구가 증가하는 이유는 감정 이라는 부분이 여러 곳에서 사용 될 수 있는 중요한 요소이기 때문이다.[4][1] 일반적으로 감정의 변화를 인지하는 감정인지 시스템은 대화 중 감정 변화가 발생하면 이를 인지하는 방식으로 작동 하여야 한다.
피치란 무엇인가?
피치는 기본 주파수(Fundamental Frequency)를 의미하며 음성의 주기적 특성을 나타낸다. 하지만 음성은 부분적으로 완전하지 않은 주기성 (Quasi- periodic)을 나타내기 때문에 근사치만을 구할 수 있다.
참고문헌 (10)
Cowie, R., Douglas-Cowie, E., Tsapatsoulis, N., Votsis, G., Kollias, S., Fellenz, and Taylor, J., "Emotion recognition in human-computer interactioins", IEEE Sig. Proc. Mag., vol.18(1), pp. 32-80, Jan 2001
Davis, C., Kim, J., Grauwinkel, K. and Mixdorff, H., "Lombard speech: Auditory(A), Visual(V) and AV effects", Proceedings of Speech prosody, pp.361-365, Dresden, Germany, 2006.
G. Zhou, J. H. L. Hansen, and J. F. Kaiser, "Classification of Speech under Stress based on Features derived from the Nonlinear Teager Energy Operator," Proc. of ICASSP, pp. 549-552, 1998.
Lee, C. M., and Narayanan, S., "Towards detecting emotion in spoken dialogs," IEEE Trans. on Speech and Audio Processing, Vol. 13(2), pp.293-303, 2005
L. Rabiner and B. H. Juang, Fundamentals of Speech Recognition, Prentice Hall, 1993
Patil, V. and Rao. P., "Acoustic cues to manner of articulation of obstruents in Marathi", Proc. of frontiers of research on Speech & Music, Kolkata, India, February 2008.
S. Fukuda and V. Kostov, "Extracting Emotion from Voice," Proc. of IEEE, pp. IV-299-304, 1999.
S. Yildirim, M. Bulut, C. Lee, A. Kazemzadeh, C. Busso, Z. Deng, S. Lee, and S. Narayanan, "An acoustic study of emotions expressed in speech," Proc. of Internet Conf. on Spoken Lang. Processing. (ICSLP 04), Vol. 1, pp. 2193-2196, Jeju Island, Korea, 2004,
Cahn, J.E., "Generating Expressions in Synthesized Speech",Master's Thesis MIT, 1989.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.