[논문]잡음 환경에 강인한 기동어 검출을 위한 삼중항 손실 기반 도메인 적대적 훈련

임형준; 정명훈; 김회린

doi:10.7776/ask.2020.39.5.468

[국내논문] 잡음 환경에 강인한 기동어 검출을 위한 삼중항 손실 기반 도메인 적대적 훈련
Triplet loss based domain adversarial training for robust wake-up word detection in noisy environments 원문보기

한국음향학회지= The journal of the acoustical society of Korea, v.39 no.5, 2020년, pp.468 - 475

임형준 (한국과학기술원 전기및전자공학부) , 정명훈 (한국과학기술원 전기및전자공학부) , 김회린 (한국과학기술원 전기및전자공학부)

초록
AI-Helper

단어의 특성을 잘 표현하는 음성 단어 임베딩은 기동어 인식에서 중요한 역할을 한다. 하지만 기동어 인식이 수행되는 환경에서 필연적으로 발생하는 다양한 종류의 잡음으로 인해 음성 단어 임베딩의 표현 능력이 손상될 수 있으며, 인식 성능의 저하를 초래할 수 있다. 본 논문에서는 음성 단어 임베딩에 영향을 줄 수 있는 환경적인 요인을 완화시키는 삼중항 손실 기반의 도메인 적대적 훈련 방식을 제안한다. 잡음 환경에서의 기동어 검출 실험을 통해 제안하는 방식이 기존의 도메인 적대적 훈련 방식을 효과적으로 개선하는 모습을 확인할 수 있었고, 잡음 환경에서의 기동어 검출을 위해 기존에 제안된 다른 방법과의 결합을 통해 제안하는 방식의 확장성을 확인할 수 있었다.

Abstract ▼ AI-Helper

A good acoustic word embedding that can well express the characteristics of word plays an important role in wake-up word detection (WWD). However, the representation ability of acoustic word embedding may be weakened due to various types of environmental noise occurred in the place where WWD works, causing performance degradation. In this paper, we proposed triplet loss based Domain Adversarial Training (tDAT) mitigating environmental factors that can affect acoustic word embedding. Through experiments in noisy environments, we verified that the proposed method effectively improves the conventional DAT approach, and checked its scalability by combining with other method proposed for robust WWD.

주제어

표/그림 (8)

그림 Fig. 1. (Color available online) Overall architecture of triplet loss based domain adversarial training (tDAT).
표 Table 1. Configuration of input quadruplet X.
그림 Fig. 2. (Color available online) An example of calculating the distance of wake-up word.
그림 Fig. 3. (Color available online) ROC curve comparing the performance of the baslines (black lines) and the proposed tDAT (blue line) on the Aurora4 corpus.
표 Table 2. Selected wake-up words for Aurora4 cor-pus (in alphabetical order, #total = 24).
그림 Fig. 4. (Color available online) ROC curve comparing the performance of ISAN trained in various ways on the Aurora4 corpus.
표 Table 3. Performance comparison for each type of noise from the Aurora4 corpus. R@ [x] denotes recall at x false alarm rate.
표 Table 4. Performance comparison of ISAN trained in various ways for each type of noise from the Aurora4 corpus. R@ [x] denotes recall at x false alarm rate.

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서는 잡음 환경에서의 기동어 검출을 위한 방법으로 삼중항 손실 기반의 도메인 적대적 학습 방식을 제안하였다. 기존의 도메인 적대적 학습 방식에서 도메인 네트워크를 훈련하는 교차 엔트로피 손실을 도메인 사이의 상대적인 관계를 학습하기 위해 삼중항 손실로 대체시킴으로써 훈련-평가 사이의 환경적인 불일치 문제를 완화시켰다.
^[3-4] 또한 실제 발생되는 잡음이나 잔향과 같은 요인들을 훈련 과정에 모두 포함시키는 것은 불가능하며, 훈련 및 평가 환경 사이의 불일치를 피할 수 없다. 이와 같은 어려움을 해결하기 위해 본 논문에서는 최근 도메인 적응 분야에서 뛰어난 성능을 보이는 도메인 적대적 훈련(Domain Adversarial Training, DAT)^[8-14]을 통해 환경적인 요인에 대한 영향을 최소화하는 음성 단어 임베딩을 생성하는 방법을 제안한다. 제안하는 방법에서는 도메인 사이의 상대적인 관계를 학습하도록 도메인 삼중항 손실을 기존 DAT의 도메인 네트워크에 도입함으로써 훈련-평가 사이의 환경 불일치 문제를 완화시켰다.

제안 방법

마찬가지로 도메인 삼중항의 경우 기준이 되는 도메인(x_A)에 대해 같은 도메인(x_S, same domain label)과 다른 도메인(x_A′, different domain label)로 구성하였으며, 도메인의 상대적인 관계만을 나타내기 위해 모두 같은 단어를 사용하였다. 기존 DAT^[8]의 경우 도메인을 분류하는 목적으로 교차 엔트로피 함수를 최소화하도록 도메인 네트워크가 훈련되는 것이 일반적이지만, 제안하는 방법에서는 도메인 임베딩 사이의 상대적인 관계를 나타내는 삼중항 손실 함수를 최소화하도록 도메인 네트워크를 훈련하여 도메인 임베딩이 훈련 데이터에 나타나지 않은 미지의 도메인에 대해서도 일반화될 수 있도록 하여 훈련-평가 불일치 문제를 해결하고자 했다.
제안하는 방법에 대한 효과성을 입증하기 위해 Aurora4 코퍼스를 이용한 잡음 환경에서의 기동어 검출 실험을 수행하였다. 더불어 제안하는 방법의 확장성을 확인하기 위해 훈련 과정에서 환경적인 요인에 대한 고려 없이 오직 단어 표현만을 강화시켜 환경적인 요인에 대한 문제를 해결하는 Lim et al.^[6]의 방법과의 통합 실험을 수행하였다.
본 논문에서 제안하는 방법의 성능 평가를 위해 등록 및 검증 단계로 구성된 기동어 검출 실험을 수행하였다. 등록 단계에서 사용자는 자신이 원하는 기동어를 선정 및 발성하게 되고, 발성된 발화에 대해 Eq.
일반적으로 기동어 인식은 사용자가 임의의 시간에 발성하는 기동어를 검출해내야 하므로 매 순간 기동어의 존재 여부를 판단해야 한다. 이를 위해 특정 길이(≈1 s)의 윈도우를 이동시키면서(≈0.1 s) 연속적으로 검증을 수행했으며, 등록된 기동어에 대한 음성 단어 임베딩들과 윈도우에 대한 음성 단어 임베딩 사이의 코사인 거리의 평균값을 정해진 threshold와 비교하여 기동어 여부를 판단하였다. 일단 기동어가 감지되어 장치가 활성화되면 기동어 검출이 종료되는 실제 상황을 고려하여 기동어를 포함하는 연속적인 윈도우들 중에서 한 번의 검증만을 수행하도록 했다.
제안하는 방법의 확장성을 확인하기 위해 이전에 제안된 Interlayer Selective Attention Network(ISAN)^[6]을 제안하는 tDAT 및 앞에서와 같은 모든 기준 방법들을 통해 훈련시키는 추가 실험을 진행하였다. ISAN은 잡음 환경에서의 기동어 검출을 위해 제안된 방법으로, 인간이 자극에 반응할 때 자극의 중요한 특징에 초점을 맞추고 관련 없는 것을 억제한다는 내용의 선택적 주의 이론을 음향 단어 임베딩에 적용한 방식이다.

대상 데이터

SI-284셋으로부터 무작위로 선택한 50만 개의 삼중항(12538 개의 고유 단어)으로 깨끗한 환경의 훈련 데이터를 구성하였다. 본 논문에서는 도메인을 잡음 환경으로 한정했으며, 이를 위해 QUT 잡음 데이터베이스^[17]를 5 dB ~ 15 dB의 Signal to Noise Ratio(SNR)로 섞어 50만 개의 사중항을 갖는 다중 조건 훈련 데이터를 생성하였다. 먼저 clean 환경의 삼중항{x_A , x_S, x_D}에 대해 랜덤하게 선택된 잡음을 1종을 동일하게 섞은 다음, 다른 종류의 잡음 1종을 추가로 선택하여 x_A에 섞어 x_A′를 생성하였다.
음성 인식 분야에서 폭넓게 활용되고 있는 WSJ 코퍼스^[16] SI-284셋으로부터 무작위로 선택한 50만 개의 삼중항(12538 개의 고유 단어)으로 깨끗한 환경의 훈련 데이터를 구성하였다. 본 논문에서는 도메인을 잡음 환경으로 한정했으며, 이를 위해 QUT 잡음 데이터베이스^[17]를 5 dB ~ 15 dB의 Signal to Noise Ratio(SNR)로 섞어 50만 개의 사중항을 갖는 다중 조건 훈련 데이터를 생성하였다.
여기서 multi-condition 훈련 데이터에는 ‘HOME’ 잡음을, 개발 데이터에는 ‘CAFE’, ‘STREET’, ‘CAR’, ‘REVERB’ 잡음을 각각 활용하여 훈련 데이터와 개발 및 시험 데이터 사이에 잡음의 종류가 겹치지 않도록 하였다. 특히 시험 데이터로는 WSJ에 여섯 가지 종류(car, babble, restaurant, street, airport, train)의 잡음 환경이 10 dB ~ 20 dB의 SNR로 섞인 Aurora4 코퍼스^[18] dev1206 셋을 사용하였다. 기동어의 경우 Reference [6]에서와 같이 시험 데이터에서 최소 4회의 빈도수를 보이는 단어들 중에서 무작위로 선정하였으며, Table 2에 사용된 기동어를 나열하였다.

데이터처리

제안하는 방법에 대한 효과성을 입증하기 위해 Aurora4 코퍼스를 이용한 잡음 환경에서의 기동어 검출 실험을 수행하였다. 더불어 제안하는 방법의 확장성을 확인하기 위해 훈련 과정에서 환경적인 요인에 대한 고려 없이 오직 단어 표현만을 강화시켜 환경적인 요인에 대한 문제를 해결하는 Lim et al.

이론/모형

즉, 공유 인코더는 단어는 잘 구분하는 동시에 도메인은 잘 구분하지 못하도록 적대적으로 훈련된다. 기존 DAT^[8]에서와 마찬가지로 공유 인코더의 모수 θ_s를 확률적 경사하강법으로 최적화하기 위해 역전파시에만 gradient의 부호를 바꿔주는 GRL(Gradient Reversal Layer)^[15]을 활용하였다(Fig. 1).

성능/효과

그림에서 보는 바와 같이, 제안하는 tDAT 방식은 전반적으로 다른 기준 방법들을 능가하는 모습을 확인할 수 있었다. MT에 비해 DAT의 성능이 우수한 것을 확인할 수 있었으며, 도메인에 대해 적대적인 학습 방식이 환경적인 요인을 보다 효과적으로 대처할 수 있다는 것을 확인할 수 있었다. MT와 DAT 모두 도메인 삼중항 손실 함수를 사용했을 때 성능 향상을 관찰할 수 있었다.
MT에 비해 DAT의 성능이 우수한 것을 확인할 수 있었으며, 도메인에 대해 적대적인 학습 방식이 환경적인 요인을 보다 효과적으로 대처할 수 있다는 것을 확인할 수 있었다. MT와 DAT 모두 도메인 삼중항 손실 함수를 사용했을 때 성능 향상을 관찰할 수 있었다. 이를 통해 학습-평가 사이의 환경 불일치가 있을 경우 도메인의 상대적인 관계를 통한 학습이 효과가 있음을 확인할 수 있었다.
이를 통해 학습-평가 사이의 환경 불일치가 있을 경우 도메인의 상대적인 관계를 통한 학습이 효과가 있음을 확인할 수 있었다. tMT의 경우 제안하는 tDAT에 비해 AUC 측면에서 좋은 성능을 보이기도 했지만, 낮은 FAR 영역에 초점을 맞추었을 때에는 그렇지 못한 모습을 보였으며, 이를 통해 제안하는 tDAT 방식이 기동어 검출에 보다 적합한 방식임을 확인할 수 있었다. Aurora4의 각 잡음에 대해 성능을 정리한 Table 3에서도 이와 같은 경향성을 확인할 수 있었다.
본 논문에서는 잡음 환경에서의 기동어 검출을 위한 방법으로 삼중항 손실 기반의 도메인 적대적 학습 방식을 제안하였다. 기존의 도메인 적대적 학습 방식에서 도메인 네트워크를 훈련하는 교차 엔트로피 손실을 도메인 사이의 상대적인 관계를 학습하기 위해 삼중항 손실로 대체시킴으로써 훈련-평가 사이의 환경적인 불일치 문제를 완화시켰다. 제안하는 방법에 대한 성능 평가를 위해 잡음 환경에서의 기동어 검출 실험을 수행하였으며, 잡음 데이터를 훈련에 활용하는 다른 기준 방법들에 비해 높은 성능을 확인하였다.
제안하는 방법에 대한 성능 평가를 위해 잡음 환경에서의 기동어 검출 실험을 수행하였으며, 잡음 데이터를 훈련에 활용하는 다른 기준 방법들에 비해 높은 성능을 확인하였다. 더불어 단어 표현 능력을 향상시키는 ISAN 방식과의 통합 실험을 수행하여 제안하는 방법의 확장성을 확인하였다.
그림에서 보는바와 같이 제안하는 tDAT 방식은 ISAN의 성능을 가장 효과적으로 향상시켰다. 앞의 결과에서와 마찬가지로 도메인 인코더를 삼중항 손실로 최적화했을 때 좋은 성능을 나타냈다. 흥미로운 점은 tMT가 DAT에 비해 성능 향상의 폭이 컸다는 것인데, 이를 통해 삼중항 손실이 학습-평가 환경 불일치 상황에서 기존의 교차 엔트로피 손실에 비해 효과적이라는 사실을 다시 한번 확인할 수 있었다.
기존의 도메인 적대적 학습 방식에서 도메인 네트워크를 훈련하는 교차 엔트로피 손실을 도메인 사이의 상대적인 관계를 학습하기 위해 삼중항 손실로 대체시킴으로써 훈련-평가 사이의 환경적인 불일치 문제를 완화시켰다. 제안하는 방법에 대한 성능 평가를 위해 잡음 환경에서의 기동어 검출 실험을 수행하였으며, 잡음 데이터를 훈련에 활용하는 다른 기준 방법들에 비해 높은 성능을 확인하였다. 더불어 단어 표현 능력을 향상시키는 ISAN 방식과의 통합 실험을 수행하여 제안하는 방법의 확장성을 확인하였다.
이와 같은 어려움을 해결하기 위해 본 논문에서는 최근 도메인 적응 분야에서 뛰어난 성능을 보이는 도메인 적대적 훈련(Domain Adversarial Training, DAT)^[8-14]을 통해 환경적인 요인에 대한 영향을 최소화하는 음성 단어 임베딩을 생성하는 방법을 제안한다. 제안하는 방법에서는 도메인 사이의 상대적인 관계를 학습하도록 도메인 삼중항 손실을 기존 DAT의 도메인 네트워크에 도입함으로써 훈련-평가 사이의 환경 불일치 문제를 완화시켰다.
앞의 결과에서와 마찬가지로 도메인 인코더를 삼중항 손실로 최적화했을 때 좋은 성능을 나타냈다. 흥미로운 점은 tMT가 DAT에 비해 성능 향상의 폭이 컸다는 것인데, 이를 통해 삼중항 손실이 학습-평가 환경 불일치 상황에서 기존의 교차 엔트로피 손실에 비해 효과적이라는 사실을 다시 한번 확인할 수 있었다. Aurora4의 각 잡음에 대해 을 Table 4에 정리하였으며, 앞에서와 마찬가지로 특정 잡음 환경에서 제안하는 방법이 다소 낮은 성능을 보이기도 했지만, 전체적으로는 우수한 성능을 보이는 것을 확인할 수 있었다.

질의응답

핵심어	질문	논문에서 추출한 답변
	기동어 검출이란?	기동어 검출(Wake-up Word Detection, WWD)은 장치를 필요할 때 활성화시켜 자원을 효과적으로 관리하는 기술로써, 최근 음성 관련 분야에서 많은 각광을 받고 있다. 애플의 “시리”와 아마존의 “에코”는 기동어 검출의 대표적인 예로, 입력되는 음향 신호로부터 “시리야”, “알렉사”와 같은 특정 기동어 발화를 감지하여 장치를 활성화시킨다.
	기동어 검출의 대표 예는?	기동어 검출(Wake-up Word Detection, WWD)은 장치를 필요할 때 활성화시켜 자원을 효과적으로 관리하는 기술로써, 최근 음성 관련 분야에서 많은 각광을 받고 있다. 애플의 “시리”와 아마존의 “에코”는 기동어 검출의 대표적인 예로, 입력되는 음향 신호로부터 “시리야”, “알렉사”와 같은 특정 기동어 발화를 감지하여 장치를 활성화시킨다. 따라서 이와 같은 기동어 검출에서는 기동어 발화와 기동어가 포함되지 않은 일반적인 음성 발화를 잘 구별할 수 있는 능력이 필수적이다.
	단어의 특성을 잘 표현해주는 방법 중 고전적 방법은 무엇이 있나?	이와 관련하여 단어의 특성을 잘 표현해주는 방법에 대한 많은 연구들이 있었다. 고전적인 방식에서는 음성 단어 발성을 행렬 형태로 표현하는 방법이 많이 활용되었다.[1-3] 음성의 길이에 따라 행렬의 크기가 가변적이기 때문에 이와 같은 방법에서는 기동어 및 입력 음향 신호에 대한 행렬 사이의 거리를 동적 시간 워핑(Dynamic Time Warping, DTW)을 통해 계산하며, 이를 미리 정해둔 threshold와 비교하여 기동어 여부를 판단하게 된다.

참고문헌 (21)

Y. Zhang and J. R. Glass "Unsupervised spoken keyword spotting via segmental DTW on Gaussian posteriorgrams," Proc. ASRU. 398-403 (2009).
G. Mantena a nd K . Prahallad, " Use of articulatory bottle-neck features for query-by-example spoken term detection in low resource scenarios," Proc. ICASSP. 7128-7132 (2014).
H. Lim, Y. Kim, Y. Kim, and H. Kim, "CNN-based bottleneck feature for noise robust query-by-example spoken term detection," Proc. APSIPA. 1278-1281 (2017).
G. Chen, C. Parada, and T. N. Sainath, "Query-byexample keyword spotting using long short-term memory networks," Proc. ICASSP. 5236-5240 (2015).
S. Settle and K. Livescu, "Discriminative acoustic word embeddings: Recurrent neural network-based approaches," Proc. SLT. 503-510 (2016).
M. Jung, H. Lim, J. Goo, Y. Jung, and H. Kim, "Additional shared decoder on Siamese multi-view encoders for learning acoustic word embeddings," Proc. ASRU. 629-636 (2019).
H. Lim, Y. Kim, J. Goo, and H. Kim, "Interlayer selective attention network for robust personalized wake-up word detection," IEEE Signal Process. Lett. 27, 126-130 (2020).

상세보기
Y. Ganin, H. Ajakan, H. Larochelle, F. Laviolette, and V. Lempitsky, "Domain-adversarial training of neural networks," J. Mach. Learn. Res. 17, 2096-2030 (2016).
E. Tzeng, J. Hoffman, K. Saenko, and T. Darrell, "Adversarial discriminative domain adaptation," Proc. CVPR. 7167-7176 (2017).
Z. Pei, Z. Cao, M. Long, and J. Wang, "Multi-adversarial domain adaptation," Proc. AAAI. 3934-3941 (2018).
R. Wang, M. Utiyama, A. Finch, L. Liu, K. Chen, and E. Sumita, "Sentence selection and weighting for neural machine translation domain adaptation," IEEE/ ACM Trans. Audio, Speech, Lang. Process. 26, 1727-1741 (2018).
A. Tripathi, A. Mohan, S. Anand, and M. Singh, "Adversarial learning of raw speech features for domain invariant speech recognition," Proc. ICASSP. 5959-5963 (2018).
S. Sun, C. F. Yeh, M. Y. Hwang, M. Ostendorf, and L. Xie, "Domain adversarial training for accented speech recognition," Proc. ICASSP. 4854-4858 (2018).
S. Mirsamadi and J. H. Hansen, "Multi-domain adversarial training of neural network acoustic models for distant speech recognition," Speech Commun. 106, 21-30 (2019).

상세보기
Y. Ganin and V. Lempitsky, "Unsupervised domain adaptation by backpropagation," Proc. ICML. 1180-1189 (2015).
D. B. Paul and J. M. Baker, "The design for the Wall Street Journal-based CSR corpus," Proc. Workshop Speech and Natural Lang. 357-362 (1992).
D. Dean, S. Sridharan, R. Vogt, and M. Mason, "The QUT-NOISE-TIMIT corpus for the evaluation of voice activity detection algorithms," Proc. Interspeech, 3110-3113 (2010).
H. G. Hirsch and D. Pearce, "The Aurora experimental framework for the performance evaluation of speech recognition systems under noisy conditions," Proc. ISCA ITRW ASR. 181-188 (2000).
M. Abadi, P. Barham, J. Chen, Z. Chen, A. Davis, J. Dean, M. Devin, S. Ghemawat, G. Irving, M. Isard, M. Kudlur, J. Lenvnberg, R. Monga, S. Moore, D. G. Murray, B. Steiner, P. Tucker, V. Vasudevan, P. Warden, M. Wiche, Y. Yu, and X. Zheng, "Tensor Flow: Large-scale machine learning on heterogeneous systems," Proc. USENIX OSDI. 265-283 (2016).
D. Kingma and J. Ba, "Adam: A method for stochastic optimization," Proc. ICLR. 1-15 (2015).
K. Hajian-Tilaki, "Receiver operating characteristic (ROC) curve analysis for medical diagnostic test evaluation," Caspian J. Intern. Med. 4, 627-635 (2013).

상세보기

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증