최소 단어 이상 선택하여야 합니다.
최대 10 단어까지만 선택 가능합니다.
다음과 같은 기능을 한번의 로그인으로 사용 할 수 있습니다.
NTIS 바로가기말소리와 음성과학 = Phonetics and speech sciences, v.8 no.3, 2016년, pp.31 - 38
유희조 (고려대학교 심리학과) , 양형원 (고려대학교 영어영문학과) , 강재구 (고려대학교 영어영문학과) , 조영선 (고려대학교 영어영문학과) , 황성하 (고려대학교 영어영문학과) , 홍연정 (고려대학교 영어영문학과) , 조예진 (고려대학교 영어영문학과) , 김서현 (고려대학교 영어영문학과) , 남호성 (고려대학교)
Speech inversion (acoustic-to-articulatory mapping) is not a trivial problem, despite the importance, due to the highly non-linear and non-unique nature. This study aimed to investigate the performance of Deep Neural Network (DNN) compared to that of traditional Artificial Neural Network (ANN) to ad...
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
핵심어 | 질문 | 논문에서 추출한 답변 |
---|---|---|
음성은 무엇을 통해 만들어지는가? | 말소리, 즉 음성(speech)은 혀를 비롯한 여러 조음 기관(articulators)의 체계적이고 물리적인 움직임, 즉 ‘조음’(articulation)을 통해 만들어진다. 최근 공학, 교육, 의료 등 다양한 분야에서 조음 연구의 성과가 활용됨에 따라, 조음 연구의 중요성과 조음 정보의 유용성은 더욱 강조되고 있다. | |
speech inversion의 문제 중, 다양한 조음 형태에 대응되어서 생기는 예는? | 첫째, 하나의 음향 매개변수 셋은 특정 조음 형태에만 대응되지 않고, 다양한 조음 형태에 대응될 수 있다(one-to-many problem). 예를 들어, 인간의 발화 중에는 휴지 구간(pause)이 존재할 수 있는데, 이 휴지 구간에도 조음기관들은 계속적으로 다양한 변이형을 형성할 수 있다. 이는 무음이라는 음향 파라미터셋에 다양한 조음 형태가 대응될 수 있음을 보여주고 있다. 또 다른 예로, ‘perfect memory’란 단어를 발화할 때 /t/라는 음소는, 음향적으로 실현되지는 않지만, 실제 조음상에서는 /t/ 음소를 발화하기 위한 혀의 움직임이 관찰 된다. | |
Speech inversion은 어떤 기술인가? | 이와 같은 조음 정보에 대한 연구의 한 축이 음향과 조음 간 매핑(acoustic-to-articulatory mapping) 내지는 speech inversion에 대한 분야이다. Speech inversion은 말소리의 음향 정보(acoustic information)를 바탕으로 그 소리를 생성해 낸 조음 형태(articulatory configuration)를 역으로 재구성하는 기술로, 최근 음성과 관련된 다양한 연구 분야에서 활용되고 있다. 특히 자동 음성 인식(automatic speech recognition 이하 ASR) 분야와 음성 합성(speech synthesis)분야에서는 널리 적용되고 있으며, 이 외에도 아직은 미비하지만 제2언어 학습자를 위한 효율적인 발음 교육, 의료적 차원으로는 청력이나 뇌 기능, 그리고 발음 기관상의 문제를 겪는 환자들의 조음 치료에도 유용하게 이용될 수 있다 [1][2][3][4]. |
Ghosh, P. K. & Narayanan, S. (2011). Automatic speech recognition using articulatory features from subject-independent acoustic-to-articulatory inversion. The Journal of the Acoustical Society of America, 130(4), EL251-EL257.
Sondhi, M. M. & Resnick, J. R. (1983). The inverse problem for the vocal tract: Numerical methods, acoustical experiments, and speech synthesis. The Journal of the Acoustical Society of America, 73(3), 985-1002.
Wilson, I., Gick, B., O'Brien, M. G., Shea, C., & Archibald, J. (2006). Ultrasound technology and second language acquisition research. Proceedings of the 8th Generative Approaches to Second Language Acquisition Conference (GASLA 2006) (pp. 148-152).
Wrench, A. A., Gibbon, F., McNeill, A. M., & Wood, S. (2002). An EPG therapy protocol for remediation and assessment of articulation disorders. ICSLP.
Dusan, S. (2001). Methods for integrating phonetic and phonological knowledge in speech inversion. Proceedings of the International Conference on Speech, Signal and Image Processing. Malta.
Engwall, O. (2006). Evaluation of speech inversion using an articulatory classifier. Proceedings of the 7th International Seminar on Speech Production (pp. 469-476).
Papcun, G., Hochberg, J., Thomas, T. R., Laroche, F., Zacks, J., & Levy, S. (1992). Inferring articulation and recognizing gestures from acoustics with a neural network trained on x-ray microbeam data. The Journal of the Acoustical Society of America, 92(2), 688-700.
Zacks, J. & Thomas, T. R. (1994). A new neural network for articulatory speech recognition and its application to vowel identification. Computer Speech & Language, 8(3), 189-209.
Richmond, K. (2001). Mixture density networks, human articulatory data and acoustic-to-articulatory inversion of continuous speech. Proceedings of Workshop on Innovation in Speech Processing (WISP 2001) (pp. 259-276).
Qin, C. & Carreira-Perpinan, M. A. (2010). Articulatory inversion of american english /r/ by conditional density modes. Proceedings of 11th Annual Conference of the International Speech Communication Association (Interspeech 2010) (pp. 1998-2001)
Richmond, K., Hoole, P., & King, S. (2011). Announcing the Electromagnetic Articulography (Day 1) Subset of the mngu0 Articulatory Corpus. Proceedings of 12th Annual Conference of the International Speech Communication Association (Interspeech 2011) (pp. 1505-1508).
Mitra, V., Nam, H., Espy-Wilson, C., Saltzman, E., & Goldstein, L. (2011). Articulatory information for noise robust speech recognition. Audio, Speech, and Language Processing, IEEE Transaction on Audio, Speech, and Language Processing, 19(7), 1913-1924.
Najnin, S. & Banerjee, B. (2015). Improved speech inversion using general regression neural network. The Journal of the Acoustical Society of America,138(3), EL229-EL235.
Tu, J. V. (1996). Advantages and disadvantages of using artificial neural networks versus logistic regression for predicting medical outcomes. Journal of clinical epidemiology, 49(11), 1225-1231.
Hinton, G. E., Osindero, S., & Teh, Y. W. (2006). A fast learning algorithm for deep belief nets. Neural computation, 18(7), 1527-1554.
Simpson, A. J. (2015). Taming the ReLU with Parallel Dither in a Deep Neural Network (arXiv preprint). Retrieved from http://arxiv.org/abs/1509.05173 on September 17, 2015
*원문 PDF 파일 및 링크정보가 존재하지 않을 경우 KISTI DDS 시스템에서 제공하는 원문복사서비스를 사용할 수 있습니다.
Free Access. 출판사/학술단체 등이 허락한 무료 공개 사이트를 통해 자유로운 이용이 가능한 논문
※ AI-Helper는 부적절한 답변을 할 수 있습니다.