본 논문에서 우리는 음향신호에서 음성과 음악을 분류하는 음성/음악 분류실험에 사용되는 특징들간의 상호조합을 비교하였다. 음향신호는 3가지 (음성, 음악, 음성+음악)와 2가지 (음성, 음악)로 분류하였다. 실험은 멜캡스트럼, 에너지, 영교차를 특징으로 사용하였고, 음성/음악 분류성능이 가장 좋은 특징간 상호조합을 모색하였다. 분류 알고리즘으로는 Gaussian Mixture Model (GMM)을 이용하였으며, GMM에 의한 데이터 모델링 전에 각기 다른 특징들을 하나의 특징공간에서 결합하였다. 실험결과 3가지 분류기준 적용시에는 멜캡스트럼, 영교차 조합이 가장 좋은 결과 (음성: 95.1%, 음악: 61.9%, 음성+음악: 55.5%)를 보였고, 2가지 분류기준 적용시에는 멜캡스트럼, 에너지 조합과 멜캡스트럼, 에너지, 영교차 조합이 가장 좋은 결과 (음성: 98.9%, 음악: 100%)를 보였다.
본 논문에서 우리는 음향신호에서 음성과 음악을 분류하는 음성/음악 분류실험에 사용되는 특징들간의 상호조합을 비교하였다. 음향신호는 3가지 (음성, 음악, 음성+음악)와 2가지 (음성, 음악)로 분류하였다. 실험은 멜캡스트럼, 에너지, 영교차를 특징으로 사용하였고, 음성/음악 분류성능이 가장 좋은 특징간 상호조합을 모색하였다. 분류 알고리즘으로는 Gaussian Mixture Model (GMM)을 이용하였으며, GMM에 의한 데이터 모델링 전에 각기 다른 특징들을 하나의 특징공간에서 결합하였다. 실험결과 3가지 분류기준 적용시에는 멜캡스트럼, 영교차 조합이 가장 좋은 결과 (음성: 95.1%, 음악: 61.9%, 음성+음악: 55.5%)를 보였고, 2가지 분류기준 적용시에는 멜캡스트럼, 에너지 조합과 멜캡스트럼, 에너지, 영교차 조합이 가장 좋은 결과 (음성: 98.9%, 음악: 100%)를 보였다.
In this paper, we describe the comparison between the combination of features using a speech and music discrimination, which is classifying between speech and music on audio signals. Audio signals are classified into 3classes (speech, music, speech and music) and 2classes (speech, music). Experiment...
In this paper, we describe the comparison between the combination of features using a speech and music discrimination, which is classifying between speech and music on audio signals. Audio signals are classified into 3classes (speech, music, speech and music) and 2classes (speech, music). Experiments carried out on three types of feature, Mel-cepstrum, energy, zero-crossings, and try to find a best combination between features to speech and music discrimination. We using a Gaussian Mixture Model (GMM) for discrimination algorithm and combine different features into a single vector prior to modeling the data with a GMM. In 3classes, the best result is achieved using Mel-cepstrum, energy and zero-crossings in a single feature vector (speech: 95.1%, music: 61.9%, speech & music: 55.5%). In 2classes, the best result is achieved using Mel-cepstrum, energy and Mel-cepstrum, energy, zero-crossings in a single feature vector (speech: 98.9%, music: 100%).
In this paper, we describe the comparison between the combination of features using a speech and music discrimination, which is classifying between speech and music on audio signals. Audio signals are classified into 3classes (speech, music, speech and music) and 2classes (speech, music). Experiments carried out on three types of feature, Mel-cepstrum, energy, zero-crossings, and try to find a best combination between features to speech and music discrimination. We using a Gaussian Mixture Model (GMM) for discrimination algorithm and combine different features into a single vector prior to modeling the data with a GMM. In 3classes, the best result is achieved using Mel-cepstrum, energy and zero-crossings in a single feature vector (speech: 95.1%, music: 61.9%, speech & music: 55.5%). In 2classes, the best result is achieved using Mel-cepstrum, energy and Mel-cepstrum, energy, zero-crossings in a single feature vector (speech: 98.9%, music: 100%).
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 논문에서는 음성/음악 분류기에 대해 다루었다.
본 논문에서는 차후 음성인식을 통한 내용 분석에 필 요한 음성부분만을 추출하는 오디오 인덱싱의 전처리부격인 음성/음악 분류기에 사용되는 특징들의 상호조합에 대하여 실험하였다.
본 논문에서는 차후 음성인식을 통한 내용 분석에 필 요한 음성부분만을 추출하는 오디오 인덱싱의 전처리부격인 음성/음악 분류기에 사용되는 특징들의 상호조합에 대하여 실험하였다.
특징들간의 상호조합은 다음와 같이 실시하였다. 에너지+영교차 조합은 음악 분류능력이 좋지 않은 에너지와 음성+음악 분류능력이 좋지 않은 영교차를 상호 보완함으로써 전체적인 분류능력의 향상을 도모하는데 목적이 있다.
특징들간의 상호조합은 다음와 같이 실시하였다. 에너지+영교차 조합은 음악 분류능력이 좋지 않은 에너지와 음성+음악 분류능력이 좋지 않은 영교차를 상호 보완함으로써 전체적인 분류능력의 향상을 도모하는데 목적이 있다.
제안 방법
실험은 우선 각 특징들을 독립적으로 실험한 결과를 분석하여 상호조합에 반영 함으로써 분류능력 향상을 도모하였다. 3가지 분류항목 적용시에는 음향 신호를 음성, 음악, 음성+음악으로 분류하였으며, 2가지 분류항목 적용 시에는 음성, 음악으로 분류하였다.
GMM의 mixture 수는 16, 32, 64mixture를 적용하여 실시하였다.
공중파 방송의 50분 분량의 뉴스 3회분, 대중가요, 기 타 음악파일들로 데이터베이스를 구성하고 음성, 음악, 음성+음악의 3가지로 분류하였다.
공중파 방송의 50분 분량의 뉴스 3회분, 대중가요, 기 타 음악파일들로 데이터베이스를 구성하고 음성, 음악, 음성+음악의 3가지로 분류하였다.
로그 에너지는 음성/음악 분류기가 크기 정보에 의존하여 분류하지 않도록 정규화를 실시하였다.
멜캡스트럼+영교차 조합은 모든 분류항목에 대해 양호한 결과를 나타내고 있는 멜캡스트럼에 음악 분류에서 좋은 결과를 나타내고 있는 영교차를 조합하였다.
음성/음악 분류기에서 사용된 특징들은 멜캡스트럼, 에너지, 영교차간의 상호조합이다. 분류 알고리즘은 GMM을 사용하였으며, 3가지의 mixture (16, 32, 64)를 일률적으로 적용하였다.
음성/음악 분류기에 사용되는 특징으로서는 멜캡스트럼, 피치, 에너지, 영교차가 가장 널리 사용되고 있다. 실험에 서는 이들 중 3가지 특징 (멜캡스트럼, 에너지, 영교차)들을 선정하고, 특징들간의 상호조합을 통해 가장 양호한 결과를 생성하는 조합을 찾아내는데 중점을 두었다.
음성/음악 분류기에 사용되는 특징으로서는 멜캡스트럼, 피치, 에너지, 영교차가 가장 널리 사용되고 있다. 실험에 서는 이들 중 3가지 특징 (멜캡스트럼, 에너지, 영교차)들을 선정하고, 특징들간의 상호조합을 통해 가장 양호한 결과를 생성하는 조합을 찾아내는데 중점을 두었다.
영교차 특징들은 음성/음악 분류기가 크기 정보에 의존하여 분류하는 것을 방지하기 위해서 영교차율을 제외한 나머지 3가지 특징들에 대해서 정규화를 실시하였다.
음성 데이터베이스는 방송 뉴스를 대상으로 3가지 분류기준 (무소음시, 배경소음존재시, 다른 화자의 음성 혼재시)을 적용하였다.
각각의 데이터베이스는 적용한 분류기준별로 균등한 비율로 구성되어 있다. 음성 데이터베이스는 방송 뉴스를 대상으로 3가지 분류기준 (무소음시, 배경소음존재시, 다 른 화자의 음성 혼재시)을 적용하였다. 음악 데이터베이스는 방송뉴스와 대중가요를 대상으로 3가지 분류기준 (발라드, 락, 클래식)을 적용하였다.
음악 데이터베이스는 방송뉴스와 대중가요를 대상으로 3가지 분류기준 (발라드, 락, 클래식)을 적용하였다. 음성+음악 데이터베 이스는 방송뉴스와 대중가요를 대상으로 3가지 분류 기준 (발라드+음성, 락+음성, 클래식+음성)을 적용하였다.
음성+음악 데이터베이스는 방송뉴스와 대중가요를 대상으로 3가지 분류 기준 (발라드+음성, 락+음성, 클래식+음성)을 적용하였다.
음성/음악 분류기에서는 입력 음향 신호를 3가지 (음성, 음악, 음성+음악)와 2가지 (음성, 음악)로 분류하였다.
음악 데이터베이스는 방송뉴스와 대중가요를 대상으로 3가지 분류기준 (발라드, 락, 클래식)을 적용하였다.
음성 데이터베이스는 방송 뉴스를 대상으로 3가지 분류기준 (무소음시, 배경소음존재시, 다 른 화자의 음성 혼재시)을 적용하였다. 음악 데이터베이스는 방송뉴스와 대중가요를 대상으로 3가지 분류기준 (발라드, 락, 클래식)을 적용하였다. 음성+음악 데이터베 이스는 방송뉴스와 대중가요를 대상으로 3가지 분류 기준 (발라드+음성, 락+음성, 클래식+음성)을 적용하였다.
캡스트럼 파라미터는 멜 스케일 특성을 가진 26개의 필터로 구성된 필터뱅크로 필터링을 실시하였다.
타 논문에서는 2가지 분류항목 (음성, 음악')이 많이 적용되고 있으나, 오디오 인덱싱에서 배경음악 속에서의 음성신호 인식의 필요성 (광고방송, 방송뉴스의 시작부분 등) 이 제기됨에 따라 3가지 분류항목 (음성, 음악, 음성+음악) 을 도입하였다[1-3].
테스트는 각각의 특징에 대해 동일한 3가지 mixture (16, 32, 64)를 적용하여 상호비교 하였다.
음향 신호의 분류 결정은 각 트레인 데이터베이스에 대해 학습시킨 분류항목별 GMM의 모델을 입력 음향 신호에 대응시켜 그 중 최대의 확률을 가지는 것을 선택하였다. 테스트는 각각의 특징에 대해 동일한 3가지 mixture (16, 32, 64)를 적용하여 상호비교 하였다
음향 신호는 8kHz로 표본추출되었다. 한 프레임의 크기는 25ms이며 10ms씩 이동시켜가면서 특징 파라미터를 추출하였다. 델타 파라미터는 연속적인 5개 이상의 프레임 구간에서 추출하였다.
현재 실험 중인 오디오 인덱싱은 방송뉴스를 대상으로하여 입력 음향 신호에서 음성부분만을 추출하고, 화자별로 분류한 다음, 특정화자 (앵커, 아나운서 등)의 발성부분에 대하여 음성인식기술을 적용하여 내용을 분석하고자 한다.
현재 실험 중인 오디오 인덱싱은 방송뉴스를 대상으로하여 입력 음향 신호에서 음성부분만을 추출하고, 화자별로 분류한 다음, 특정화자 (앵커, 아나운서 등)의 발성부분에 대하여 음성인식기술을 적용하여 내용을 분석하고자 한다.
대상 데이터
에너지의 특징 파라미터로는 정규화 로그 에너지와 델타 정규화 로그 에너지를 사용하였다.
음성 트레인 데이터베이스는 3개 뉴스에서 각각 평균 1분 정도의 30개 신호씩 총 90개 신호, 음악 트레인 데이터베이스는 평균 45초 정도의 36개 신호 음성+음악 트레인 데이터베이스는 평균 30초 정도의 37개 신호로 구성되어 있다. 테스트 데이터베이스는 3개 뉴스에서 평균 1분 정도의 음성신호 82개, 평균 45초 정도의 음악신호 21개, 평균 45초 정도의 음성+음악신호 18개로 구성되었다.
테스트 데이터베이스는 3개 뉴스에서 평균 1분 정도의 음성신호 82개, 평균 45초 정도의 음악신호 21개, 평균 45초 정도의 음성+음악신호 18개로 구성되었다. 이 중 음성+음악신호 데이터베이스는 총 18개 중 9개는 대중가요에서 나머지 9개는 실제 뉴스에서 추출하였다.
음성 트레인 데이터베이스는 3개 뉴스에서 각각 평균 1분 정도의 30개 신호씩 총 90개 신호, 음악 트레인 데이터베이스는 평균 45초 정도의 36개 신호 음성+음악 트레인 데이터베이스는 평균 30초 정도의 37개 신호로 구성되어 있다. 테스트 데이터베이스는 3개 뉴스에서 평균 1분 정도의 음성신호 82개, 평균 45초 정도의 음악신호 21개, 평균 45초 정도의 음성+음악신호 18개로 구성되었다. 이 중 음성+음악신호 데이터베이스는 총 18개 중 9개는 대중가요에서 나머지 9개는 실제 뉴스에서 추출하였다.
음성 트레인 데이터베이스는 3개 뉴스에서 각각 평균 1분 정도의 30개 신호씩 총 90개 신호, 음악 트레인 데이터베이스는 평균 45초 정도의 36개 신호 음성+음악 트레인 데이터베이스는 평균 30초 정도의 37개 신호로 구성되어 있다. 테스트 데이터베이스는 3개 뉴스에서 평균 1분 정도의 음성신호 82개, 평균 45초 정도의 음악신호 21개, 평균 45초 정도의 음성+음악신호 18개로 구성되었다. 이 중 음성+음악신호 데이터베이스는 총 18개 중 9개는 대중가요에서 나머지 9개는 실제 뉴스에서 추출하였다.
특징 파라미터로는 12개의 멜캡스트럼 계수들과 12개의 델타 멜캡스트럼 계수들을 사용하였다.
이론/모형
음성/음악 분류기에서 사용되는 분류 알고리즘으로는 Gaussian mixture model, k-nearest-neighbors classification, 벡터 양자화, 결정 트리 등이 있으나 본 논문에서는 GMM을 사용하였다[1-3].
음성/음악 분류기에서 사용되는 분류 알고리즘으로는 Gaussian mixture model, k-nearest-neighbors classification, 벡터 양자화, 결정 트리 등이 있으나 본 논문에서는 GMN1을 사용하였다[1-3].
음성/음악을 분류하기 위한 알고리즘은 GMM을 이용하였다.
성능/효과
2가지 분류기준 적용시에는 음성 분류능력에서는 양호한 결과를 나타내고 있으나, 음악 분류능력은 타 특징들에 비해 현저히 낮았다.
3가지 분류항목 적용시에는 음악 구분에 있어서 영교차 특징에 비해 좋지 않았다. 2가지 분류항목 적용시에는 음성에 대해서는 모든 테스트 파일을 정확히 분류하였고, 음악에 대해서는 타 특징에 비해 가장 좋은 결과를 나타내었다
2가지 분류항목 적용시에는 맬캡스트럼 단독 적용시에 비해 음악을 100% 분류하였으며, 에너지 단독 적용시에 비해 전 분류항목의 분류성능이 향상되었다.
2가지 분류항목 적용시에는 맬캡스트럼 단독 적용시에 비해 음악을 100% 분류하였으며, 에너지 단독 적용시에 비해 전 분류항목의 분류성능이 향상되었다.
2가지 분류항목 적용시에는 멜갭스트럼 단독 적용시에 비해서 음성 분류능력이 약간 저하되었으며, 영교차 단독 적용시에 비해서 모든 분류항목의 분류능력이 향상되었다.
2가지 분류항목 적용시에는 멜갭스트럼 단독 적용시에 비해서 음성 분류능력이 약간 저하되었으며, 영교차 단독 적용시에 비해서 모든 분류항목의 분류능력이 향상되었다.
2가지 분류항목 적용시에는 에너지 단독 적용시에비해서 음악의 분류능력이 향상되었으며, 영교차 단독 적용시에 비해서 모든 분류항목의 분류능력이 향상되었다.
2가지 분류항목 적용시에는 에너지 단독 적용시에비해서 음악의 분류능력이 향상되었으며, 영교차 단독 적용시에 비해서 모든 분류항목의 분류능력이 향상되었다.
2가지 분류항목 적용시에는 음성과 음악 모두에서 양호한 분류결과를 얻을 수 있었다. 또한 mixture의 변화에 영향을 받지 않았다.
3가지 분류항목 적용시에는 음악 구분에 있어서 영교차 특징에 비해 좋지 않았다. 2가지 분류항목 적용시에는 음성에 대해서는 모든 테스트 파일을 정확히 분류하였고, 음악에 대해서는 타 특징에 비해 가장 좋은 결과를 나타내었다
3가지 분류항목 적용시에는 음악에서의 분류 능력의 향상된 반면, 음성과 음성+음악의 분류 결과가 나빠졌다. 2가지 분류항목 적용시에는 중첩 적용 전과 후의 성능변화가 없었다. 이는 상호조합을 지원하기 위해서 허용할 수 있는 범위내의 것이다.
3가지 분류항목 적용시에는 맬캡스트럼 단독 적용시에 비해 음악, 음성+음악 분류능력이 저하되었으며, 에너지 단독 적용시에 비해서는 음성, 음악 분류능력이 향상되었다.
3가지 분류항목 적용시에는 맬캡스트럼 단독 적용시에 비해 음악, 음성+음악 분류능력이 저하되었으며, 에너지 단독 적용시에 비해서는 음성, 음악 분류능력이 향상되었다.
3가지 분류항목 적용시에는 멜캡스트럼 단독 적용시에 비해서 음성, 음악 분류능력의 향상이 관찰되었으며, 영교차 단독 적용시에 비해서 음성, 음성+음악 분류능력이 향상되었다.
3가지 분류항목 적용시에는 멜캡스트럼 단독 적용시에 비해서 음성, 음악 분류능력의 향상이 관찰되었으며, 영교차 단독 적용시에 비해서 음성, 음성+음악 분류능력이 향상되었다.
실험결과 각 특징들을 단독으로 적용한 분류결과에 비해 특징간 상호조합을 적용한 분류결과가 보다 양호하였다. 3가지 분류항목 적용시에는 멜캡스트럼+영교차 조합이 가장 양호한 결과를 보여주었고, 2가지 분류항목 적용시 에는 멜캡스트럼+에너지 조합, 멜캡스트럼+에너지+영교차 조합이 가장 양호한 결과를 나타내었다.
실험결과 각 특징들을 단독으로 적용한 분류결과에 비해 특징간 상호조합을 적용한 분류결과가 보다 양호하였다. 3가지 분류항목 적용시에는 멜캡스트럼+영교차 조합이 가장 양호한 결과를 보여주었고, 2가지 분류항목 적용시 에는 멜캡스트럼+에너지 조합, 멜캡스트럼+에너지+영교차 조합이 가장 양호한 결과를 나타내었다.
3가지 분류항목 적용시에는 에너지 단독적용시에 비해서 음성과 음성+음악 분류에서는 성능저하가 관찰되었고, 음악 분류에서는 큰 성능향상이 관찰되었다. 영교차 단독 적용시에 비해서는 음성과 음성+음악 분류 결과는 향상 되었지만, 음악 분류 결과가 크게 저하되었다.
중첩 적용 전과 후의 분류능력의 변화를 살펴보면 표 1과 같다. 3가지 분류항목 적용시에는 음악에서의 분류 능력의 향상된 반면, 음성과 음성+음악의 분류 결과가 나빠졌다. 2가지 분류항목 적용시에는 중첩 적용 전과 후의 성능변화가 없었다.
중첩 적용 전과 후의 분류능력의 변화를 살펴보면 표 1과 같다. 3가지 분류항목 적용시에는 음악에서의 분류 능력의 향상된 반면, 음성과 음성+음악의 분류 결과가 나빠졌다. 2가지 분류항목 적용시에는 중첩 적용 전과 후의 성능변화가 없었다.
Result of GMM (Mel-cepstrum and energy, unit:%),S : speech, M : music, S+M : speech&music.
GMM 분류걸과 (멜캡스트럼+영교차, 백분율) S : 음성 M : 음악 S+M : 음성+음악 Taable 3. Result of GMM (Mel-cepstrum and zero-crossings, unit:%), S : speech, M : music, S&M : speech&music.
GMM 분류걸과 (멜캡스트럼+영교차, 백분율) S : 음성 M : 음악 S+M : 음성+음악 Taable 3. Result of GMM (Mel-cepstrum and zero-crossings, unit:%), S : speech, M : music, S&M : speech&music.
Table 5. Result of GMM (Mel-cepstrum, energy and zerocrossings, unit:%), S : speech, M : music, S+M : speech+music.
Table 4. Result of GMM (Mel-cepstrum and energy, unit:%), S : speech, M : music, S+M : speech&music.
에너지는 3가지 분류항목을 적용하였을 경우 64mixture 에서, 2가지 분류항목을 적용하였을 경우 32mixture에서 가장 좋은 결과를 나타내었다. 분류 결과에 의하면 타 특 징에 비해 음악에 대한 분류능력이 낮았다.
실험결과 3가지 분류항목 적용시 16mixture에서, 2가지 분류항목 적용시 모든 mixture에서 결과가 양호하였다. 이 결과로 볼 때 멜캡스트럼은 2가지 분류항목 적용시 mixture 변화에 큰 영향을 받지 않는다고 볼 수 있다.
실험결과 3가지 분류항목 적용시에는 음성+음악 분류능력은 타 특징들에 비해 양호하였으나 음악의 분류능력은 가장 낮았다. 또한 음악 분류에서 다른 특징들과 달리 음 성으로 오분류되는 현상이 나타났다.
실험결과 각 특징들을 단독으로 적용한 분류결과에 비해 특징간 상호조합을 적용한 분류결과가 보다 양호하였다. 3가지 분류항목 적용시에는 멜캡스트럼+영교차 조합이 가장 양호한 결과를 보여주었고, 2가지 분류항목 적용시 에는 멜캡스트럼+에너지 조합, 멜캡스트럼+에너지+영교차 조합이 가장 양호한 결과를 나타내었다.
실험결과 각 특징들을 단독으로 적용한 분류결과에 비해 특징간 상호조합을 적용한 분류결과가 보다 양호하였다. 3가지 분류항목 적용시에는 멜캡스트럼+영교차 조합이 가장 양호한 결과를 보여주었고, 2가지 분류항목 적용시 에는 멜캡스트럼+에너지 조합, 멜캡스트럼+에너지+영교차 조합이 가장 양호한 결과를 나타내었다.
실험에 의하면 특징 상호간 조합은 특징 단독으로 사용하였을 때보다 더 좋은 결과를 나타내고 있다.
실험은 우선 각 특징들을 독립적으로 실험한 결과를 분석하여 상호조합에 반영 함으로써 분류능력 향상을 도모하였다. 3가지 분류항목 적용시에는 음향 신호를 음성, 음악, 음성+음악으로 분류하였으며, 2가지 분류항목 적용 시에는 음성, 음악으로 분류하였다.
실험은 우선 각 특징들을 독립적으로 실험한 결과를 분석하여 상호조합에 반영 함으로써 분류능력 향상을 도모하였다. 3가지 분류항목 적용시에는 음향 신호를 음성, 음악, 음성+음악으로 분류하였으며, 2가지 분류항목 적용 시에는 음성, 음악으로 분류하였다.
에너지는 3가지 분류항목을 적용하였을 경우 64mixture 에서, 2가지 분류항목을 적용하였을 경우 32mixture에서 가장 좋은 결과를 나타내었다. 분류 결과에 의하면 타 특 징에 비해 음악에 대한 분류능력이 낮았다.
연산시간면에서는 에너지 (2초), 영교차 (3.4초), 멜캡스트럼 (7.4초)순으로 연산시간이 소요되었고, GMM의 mixture수의 증가에 비례하여 연산시간도 비례적으로 증가하였다.
연산시간면에서는 에너지 (2초),영교차 (3.4초), 멜캡 스트럼 (7.4초)순으로 연산시간이 소요되었고, GMM의 mixture수의 증가에 비례하여 연산시간도 비례적으로 증가하였다. 이는 실험이 실시간성을 요구하지 않으므로 문제되지 않는다.
3가지 분류항목 적용시에는 에너지 단독적용시에 비해서 음성과 음성+음악 분류에서는 성능저하가 관찰되었고, 음악 분류에서는 큰 성능향상이 관찰되었다. 영교차 단독 적용시에 비해서는 음성과 음성+음악 분류 결과는 향상 되었지만, 음악 분류 결과가 크게 저하되었다.
3가지 분류항목 적용시에는 에너지 단독적용시에 비해서 음성과 음성+음악 분류에서는 성능저하가 관찰되었고, 음악 분류에서는 큰 성능향상이 관찰되었다. 영교차 단독 적용시에 비해서는 음성과 음성+음악 분류 결과는 향상 되었지만, 음악 분류 결과가 크게 저하되었다.
음성과 음성+음악의 영교차율이 음악의 영교차율보다 격렬하게 변화하는 것을 알 수 있으며, 특히 음성의 영교차율은 음성+음악의 영교차율보다 큰 차이로 변화하는 것을 볼 수 있다.
음향 신호의 분류 결정은 각 트레인 데이터베이스에 대해 학습시킨 분류항목별 GMM의 모델을 입력 음향 신호에 대응시켜 그 중 최대의 확률을 가지는 것을 선택하였다. 테스트는 각각의 특징에 대해 동일한 3가지 mixture (16, 32, 64)를 적용하여 상호비교 하였다
표 2를 보면 3가지 분류항목 적용시에는 64mixture에 서 좋은 결과를 나타내었고, 2가지 분류항목 적용시에는 16mixture에서 좋은 결과를 나타내었다.
표 2를 보면 3가지 분류항목 적용시에는 64mixture에 서 좋은 결과를 나타내었고, 2가지 분류항목 적용시에는 16mixture에서 좋은 결과를 나타내었다.
표 3을 보면 3가지 분류항목 적용시에는 64 mixture에서 가장 좋은 결과를 나타내었고, 2가지 분류항목 적용 시에는 32, 64mixture에서 가장 좋은 결과를 나타내었다.
표 3을 보면 3가지 분류항목 적용시에는 64mixture서 가장 좋은 결과를 나타내었고, 2가지 분류항목 적용시에는 32, 64mixture에서 가장 좋은 결과를 나타내었다.
표 4를 보면 3가지 분류항목 적용시에는 16mixture에서 좋은 결과를 나타내었고, 2가지 분류항목 적용시에는 16mixture에서 좋은 결과를 나타내었다.
표 4를 보면 3가지 분류항목 적용시에는 16mixture에서 좋은 결과를 나타내었고, 2가지 분류항목 적용시에는 16mixture에서 좋은 결과를 나타내었다.
표 4를 보면, 3가지 분류항목 적용시에는 타 특징에 비해 음악의 분류능력이 가장 우수한 것으로 나타났다. 이에 반해 음성+음악 분류능력은 타 특징에 비해 가장 떨어지는 것으로 나타났다.
표 5를 보면 3가지 분류항목 적용시에는 32mixture에서 가장 좋은 결과를 나타내고 있으며, 2가지 분류항목적용 시에는 16mixture에서 가장 좋은 결과를 나타내고 있다.
후속연구
본 논문에서는 특징조합의 구성요소에 대해 하나의 특징공간에서 GMM을 적용하였으나, 차후에는 특징조합의 구성요소 각각에 대해 특징공간을 부여한음성/음악 분류 에 대해 연구할 계획이다.
본 논문에서는 특징조합의 구성요소에 대해 하나의 특징공간에서 GMM을 적용하였으나, 차후에는 특징조합의 구성요소 각각에 대해 특징공간을 부여한음성/음악 분류 에 대해 연구할 계획이다.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.