$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

자기 조직화 신경망을 이용한 음성 신호의 감정 특징 패턴 분류 알고리즘
Emotion Feature Pattern Classification Algorithm of Speech Signal using Self Organizing Map 원문보기

한국퍼지및지능시스템학회 2006년도 추계학술대회 학술발표 논문집 제16권 제2호, 2006 Nov. 17, 2006년, pp.179 - 182  

주종태 (중앙대학교 전자전기공학부) ,  박창현 (한국전자통신연구원 전파방송연구단 전파기술연구그룹) ,  심귀보 (중앙대학교 전자전기공학부)

초록
AI-Helper 아이콘AI-Helper

현재 감정을 인식할 수 있는 방법으로는 음성, 뇌파, 심박, 표정 등 많은 방법들이 존재한다. 본 논문은 이러한 방법 중 음성 신호를 이용한 방법으로써 특징들은 크게 피치, 에너지, 포만트 3가지 특징 점을 고려하였으며 이렇게 다양한 특징들을 사용하는 이유는 아직 획기적인 특징점이 정립되지 않았기 때문이며 이러한 선택의 문제를 해결하기 위해 본 논문에서는 특징 선택 방법 중 Multi Feature Selection(MFS) 방법을 사용하였으며 학습 알고리즘은 Self Organizing Map 알고리즘을 이용하여 음성 신호의 감정 특징 패턴을 분류하는 방법을 제안한다.

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

제안 방법

  • 방법, HMM등을 이용한다. 기계 학습을 이용한 방법은 뇌의 학습 방법이나 생명체의 진화, 발생 등의 메커니즘을 모방한 것으로써 통계적 방법으로 풀기 어려운 비선형 문제 등을 푸는데 좋은 성능을 보여주며 Artificial Neural Network(ANN), Self Organizing Map(SOM), Genetic Algorithm(GA)z Reinforcement Leaming(RL) 등의 방법[5到이 있으며, 본 논문에서는 다른 알고리즘에 비해 인식 수행 속도가 빠르며 연속적인 학습이 가능한 SOM 알고리즘을 사용하여 감정 인식을 수행 하였다. 본 논문의 구성은 다음과 같다.
  • 그들은 보통 한국 남성이며 여러 지역의 출신으로 이루어져 있다. 녹음된 형태는 UKHz, 16bit, mono이고 마이크와 피험자와의 거리를 10Cm로 고정 하였다. 녹음된 문장들은 30개의 일상적이고 단순한 것들이었고 문장의 길이는 2~20음절로 제한해 놓았다.
  • 본 논문에서 특징점이 많은 패턴 인식의 경우 차원의 저주 문제의 해결책으로 제시될 수 있고, 성능향상에 도움을 줄 수 있는 MFS 알고리즘을 제안하였으며, 본 연구에서 구현한 MFS을 통해 Best Features를 찾아내어 SOM으로 감정 인식을 한 결과 감정별 인식이 잘 되었지만 남성과 여성의 차이는 구별하지 못하였다. 차후에는 더욱 다양한 경우에 대한 결과를 보여 알고리즘의 우수성을 확인하도록 할 것이다.
  • 본 논문에서는 2개의 여자 음성과 8개의 남성음성을 가지고 음성별 감정을 분류하였다. 각각 10개의 음성에 대해 앞 2장에서 설명한 방법으로 음성 특징 벡터 열을 추출하게 된다.
  • 음성 신호에서 특징을 주출하기 위해 음성신호를, 10ms씩 이동하면서 20ms 길이의 프레임으로 분할한다. 각 프레임의 음성신호에 해밍윈도우(Hamming Window)를 씌워 음성 신호의 특징을 추출하는데 사용되어 진다.
  • 이렇게 추출되어진 최적의 특징 계수들을 신경망의 한 종류인 SOM에 적용시켜 감정별 패턴을 분류하였으며, 그 결과는 그림 5와 같다. 실험 결과 평상시, 감탄, 화, 슬픔, 놀람, 울분 순으로 감정이 분류됨을 알 수 있었으며, 감정을 분류하는데 문장의 길이는 크게 좌우되지 않는다는 것도 알 수 있었다.
  • 먼저 추출된 26차 파라미터들을 비어있는 집합에 순차적으로 Feature를 추가해본 뒤 최적의 적합도를 보여주는 Feature를 선택하고, 반복하면서 한 개씩 Feature를 추가하게 된다. 이렇게 하여 추출된 결과로 얻어진 벡터 열들을 k-means 와 이진 분리를 결합한 LBG(Linde Buzo Gray) 알고리즘에 적용시켜 2개, 3개, 4 개, 5개의 특징 벡터열로 분류한다. 다음 그림1 은 MFS 알고리즘의 전체 개요를 나타내고 있다 .
  • 각 프레임의 음성신호에 해밍윈도우(Hamming Window)를 씌워 음성 신호의 특징을 추출하는데 사용되어 진다. 이를 기반으로 각 프레임별로 고속 푸리에 변환(FFT) 분석을 거쳐 12차의 MFCC(Mel Frequency Cepstral Cofficients) 를 추출하여, 전후 2개씩의 프레임을 참조하여 12차의 차분 MFCC, 에너지, 차분에너지 등 총 26차의 특징 파라미터를 추출했다[7].

대상 데이터

  • 녹음된 문장들은 30개의 일상적이고 단순한 것들이었고 문장의 길이는 2~20음절로 제한해 놓았다. 30개의 미리 준비된 문장들은 그것들을 감정 데이터로 채택해도 될지 확인을 받아야 하기 때문에 녹음한 사람들 이외의 다른 30명에게 “녹음된 소리가 어떤 감정을 포함하고 있는 것 같은가?" 라는 질문을 해서 90%의 동의를 얻은 10개의 문장에 대해서 녹음을 하였다.
  • 15명의 남성과 여성 대학원생들(나이:23~30) 에게 6가지 감정으로 총 300개의 음성 샘플을 얻었다. 그들은 보통 한국 남성이며 여러 지역의 출신으로 이루어져 있다.

이론/모형

  • 본 논문에서는 이러한 문제점을 해결하기 위해서 MFS 알고리즘[4]을 적용하였는데, MFS 알고리즘의 기본 동작은 다음과 같다. 먼저 추출된 26차 파라미터들을 비어있는 집합에 순차적으로 Feature를 추가해본 뒤 최적의 적합도를 보여주는 Feature를 선택하고, 반복하면서 한 개씩 Feature를 추가하게 된다.
  • Yi-Lin과 Gang 또한 Sequential forward selection을 사용하여 39개의 후보 특징 집합에서 최적의 하위 특징 집합을 선택하였다[3]. 이러한 특징 선택 방법들은 '차원의 저주'에 대한 좋은 해결책이 되었고, 본 논문에서는 SFS방법에 LBG 알고리즘을 접목시킨 Multi Feature Selection(MFS)[4] 을 적용시킨다.
본문요약 정보가 도움이 되었나요?
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로