최소 단어 이상 선택하여야 합니다.
최대 10 단어까지만 선택 가능합니다.
다음과 같은 기능을 한번의 로그인으로 사용 할 수 있습니다.
NTIS 바로가기한국음향학회지= The journal of the acoustical society of Korea, v.39 no.5, 2020년, pp.454 - 460
김상홍 (인하대학교 전자공학과) , 이보원 (인하대학교 전자공학과)
Artificial intelligence assistants that provide speech recognition operate through cloud-based voice recognition with high accuracy. In cloud-based speech recognition, Wake-Up-Word (WUW) detection plays an important role in activating devices on standby. In this paper, we compare the performance of ...
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
핵심어 | 질문 | 논문에서 추출한 답변 |
---|---|---|
VGGNet은 무엇인가? | VGGNet[8]은 CNN을 깊게 쌓은 구조로 2014년 ImageNet Challenge에서 준우승을 차지한 모델이다. Table 1은 VGG16과 VGG19의 네트워크 구조를 보여준다. | |
구글에서 시작 단어 검출을 위해 만든 데이터셋인 Speech Commands[10] 데이터셋은 무엇으로 구성되어 있는가? | 본 논문에서는 구글에서 시작 단어 검출을 위해 만든 데이터셋인 Speech Commands[10] 데이터셋을 사용하였다. 해당 데이터셋은 배경 소음과 총 35개의 단어의 발화로 구성되어 있다. 각 데이터의 파일 포맷은 PCM wav, 16 bit, 16 kHz 로 구성되어 있다. | |
기존의 시작 단어 검출을 위한 알고리즘으로 무엇을 사용했는가? | 기존의 시작 단어 검출을 위한 알고리즘으로 통계학적 모델인 은닉 마르코프 모델(Hidden Markov Model, HMM),[1] 기계학습 알고리즘인 서포트 벡터 머신(Support Vector Machine, SVM)[2]을 이용하였다. 최근에는 다층 퍼셉트론(Multi Layer Perceptron, MLP), 합성곱 신경망(Convolutional Neural Network, CNN),[3] 및 순환 신경망(Recurrent Neural Network, RNN) 등의 딥러닝 네트워크를 이용하여 시작 단어 검출을 진행하는 추세이다. |
B. H. Juang and L. R. Rabiner, "Hidden Markov models for speech recognition," Technometrics, 33, 251-272 (1991).
C. Cortes and V. Vladimir, "Support-vector networks," Machine learning, 20, 273-297 (1995).
Y. Lecun, L. Bottou, Y. Bengio, and P. Haffner, "Gradient-based learning applied to document recognition," Proc. the IEEE. 86, 2278-2324 (1998).
C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke, and A. Rabinovich, "Going deeper with convolutions," Proc. the IEEE CVPR. 1-9 (2015).
A. G. Howard, M. Zhu, B. Chen, D. Kalenichenko, W. Wang, T. Weyand, M. Andreetto, and H. Adam, "Mobilenets: Efficient convolutional neural networks for mobile vision applications," arXiv preprint arXiv: 1704.04861 (2017).
M. Sandler, A. Howard, M. Zhu, A. Zhmoginov, and L.-C. Chen, "Mobilenetv2: Inverted residuals and linear bottlenecks," Proc. the IEEE CVF. Conf. computer vision and pattern recognition, 4510-4520 (2018).
B. Logan, "Mel frequency cepstral coefficients for music modeling," Ismir. 270, 1-11 (2000).
K. Simonyan and A. Zisserman, "Very deep convolutional networks for large-scale image recognition," arXiv preprint arXiv:1409.1556 (2014).
K. He, X. Zhang, S. Ren, and J. Sun, "Deep residual learning for image recognition," Proc. the IEEE Conf. CVPR. 770-778 (2016).
P. Warden, "Speech commands: A dataset for limitedvocabulary speech recognition," arXiv preprint arXiv: 1804.03209 (2018).
M. Abadi, P. Barham, J. Chen, Z. Chen, A. Davis, J. Dean, M. Devin, S. Ghemawat, G. Irving, M. Isard, M. Kudlur, J. Levenberg, R. Monga, S. Moore, D. G. Murray, B. Steiner, P. Tucker, V. Vasudevan, P. Warden, M. Wicke, Y. Yu, and X. Zheng, "Tensorflow: A system for large-scale machine learning," Proc. the 12th USENIX symposium on OSDI. 265-283 (2016).
F. Provost and R. Kohavi. "Guest editors' introduction: On applied research in machine learning," Machine learning, 30, 127-132 (1998).
*원문 PDF 파일 및 링크정보가 존재하지 않을 경우 KISTI DDS 시스템에서 제공하는 원문복사서비스를 사용할 수 있습니다.
오픈액세스 학술지에 출판된 논문
※ AI-Helper는 부적절한 답변을 할 수 있습니다.