$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

[국내논문] 심층신경망을 이용한 조음 예측 모형 개발
Development of articulatory estimation model using deep neural network 원문보기

말소리와 음성과학 = Phonetics and speech sciences, v.8 no.3, 2016년, pp.31 - 38  

유희조 (고려대학교 심리학과) ,  양형원 (고려대학교 영어영문학과) ,  강재구 (고려대학교 영어영문학과) ,  조영선 (고려대학교 영어영문학과) ,  황성하 (고려대학교 영어영문학과) ,  홍연정 (고려대학교 영어영문학과) ,  조예진 (고려대학교 영어영문학과) ,  김서현 (고려대학교 영어영문학과) ,  남호성 (고려대학교)

Abstract AI-Helper 아이콘AI-Helper

Speech inversion (acoustic-to-articulatory mapping) is not a trivial problem, despite the importance, due to the highly non-linear and non-unique nature. This study aimed to investigate the performance of Deep Neural Network (DNN) compared to that of traditional Artificial Neural Network (ANN) to ad...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 셋째, 데이터베이스가 무료로 공개되었다는 점이다. 데이터 수집의 어려움과 비용 문제에도 불구하고 speech inversion을 포함한 여러 응용 분야의 연구와 발전을 위하여 처음부터 공개 배포를 목적으로 만들어졌다. 여타 조음 코퍼스는 특정 연구 목적으로 소규모로 수집되거나 비공개 데이터임에 반해, XRMB는 충분한 샘플 사이즈와 샘플의 다양성을 지녔을 뿐만 아니라 공개된 자료이므로 본 연구에 가장 부합한 자료로 판단되었다.
  • 본 연구는 일반적인 인공신경망(ANN)과 deep belief network(D BN) 알고리즘을 적용한 심층신경망 모델(DNN)을 구성하고, 각 모델에 speech inversion 정보를 학습시킴으로써 모델의 수행능력을 검증해 보고자 하였다. 또한, 이를 통하여 각 신경망 모델의 보편적인 조음 데이터 산출 가능여부를 검증해 봄으로써, 과거 선행연구들에서 나타난 한계점이 현실적으로 극복가능한지 확인해보고자 하였다.
  • 본 연구는 일반적인 ANN과 DBN 알고리즘을 적용한 심층신경망 모델(이하 DBN-DNN)을 구성하고, 각 모델에 speech inversion 정보를 학습시킴으로써 모델의 수행능력을 검증하고자 한다. 또한, 이를 통하여 해당 신경망 모델의 보편적인 조음데이터 산출 가능여부를 검증해 봄으로써, 과거 선행연구들에서 포착된 난제를 극복해 보고자 한다.
  • 본 연구는 일반적인 ANN과 DBN 알고리즘을 적용한 심층신경망 모델(이하 DBN-DNN)을 구성하고, 각 모델에 speech inversion 정보를 학습시킴으로써 모델의 수행능력을 검증하고자 한다. 또한, 이를 통하여 해당 신경망 모델의 보편적인 조음데이터 산출 가능여부를 검증해 봄으로써, 과거 선행연구들에서 포착된 난제를 극복해 보고자 한다.
  • 본 연구는 일반적인 인공신경망(ANN)과 deep belief network(D BN) 알고리즘을 적용한 심층신경망 모델(DNN)을 구성하고, 각 모델에 speech inversion 정보를 학습시킴으로써 모델의 수행능력을 검증해 보고자 하였다. 또한, 이를 통하여 각 신경망 모델의 보편적인 조음 데이터 산출 가능여부를 검증해 봄으로써, 과거 선행연구들에서 나타난 한계점이 현실적으로 극복가능한지 확인해보고자 하였다.
  • 이를 위해 미리 구성된 3,202개의 테스트용 데이터 셋이 사용되었으며, 비용함수를 이용하여 각 데이터 셋에 대한 RMS를 구하였다. 이를 통해 각 세대별로 모델들의 수행이 어떻게 변화하는지를 파악하며, 각 모델들의 최종적인 수행 능력의 차이를 확인하고자 하였다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
음성은 무엇을 통해 만들어지는가? 말소리, 즉 음성(speech)은 혀를 비롯한 여러 조음 기관(articulators)의 체계적이고 물리적인 움직임, 즉 ‘조음’(articulation)을 통해 만들어진다. 최근 공학, 교육, 의료 등 다양한 분야에서 조음 연구의 성과가 활용됨에 따라, 조음 연구의 중요성과 조음 정보의 유용성은 더욱 강조되고 있다.
speech inversion의 문제 중, 다양한 조음 형태에 대응되어서 생기는 예는? 첫째, 하나의 음향 매개변수 셋은 특정 조음 형태에만 대응되지 않고, 다양한 조음 형태에 대응될 수 있다(one-to-many problem). 예를 들어, 인간의 발화 중에는 휴지 구간(pause)이 존재할 수 있는데, 이 휴지 구간에도 조음기관들은 계속적으로 다양한 변이형을 형성할 수 있다. 이는 무음이라는 음향 파라미터셋에 다양한 조음 형태가 대응될 수 있음을 보여주고 있다. 또 다른 예로, ‘perfect memory’란 단어를 발화할 때 /t/라는 음소는, 음향적으로 실현되지는 않지만, 실제 조음상에서는 /t/ 음소를 발화하기 위한 혀의 움직임이 관찰 된다.
Speech inversion은 어떤 기술인가? 이와 같은 조음 정보에 대한 연구의 한 축이 음향과 조음 간 매핑(acoustic-to-articulatory mapping) 내지는 speech inversion에 대한 분야이다. Speech inversion은 말소리의 음향 정보(acoustic information)를 바탕으로 그 소리를 생성해 낸 조음 형태(articulatory configuration)를 역으로 재구성하는 기술로, 최근 음성과 관련된 다양한 연구 분야에서 활용되고 있다. 특히 자동 음성 인식(automatic speech recognition 이하 ASR) 분야와 음성 합성(speech synthesis)분야에서는 널리 적용되고 있으며, 이 외에도 아직은 미비하지만 제2언어 학습자를 위한 효율적인 발음 교육, 의료적 차원으로는 청력이나 뇌 기능, 그리고 발음 기관상의 문제를 겪는 환자들의 조음 치료에도 유용하게 이용될 수 있다 [1][2][3][4].
질의응답 정보가 도움이 되었나요?

참고문헌 (16)

  1. Ghosh, P. K. & Narayanan, S. (2011). Automatic speech recognition using articulatory features from subject-independent acoustic-to-articulatory inversion. The Journal of the Acoustical Society of America, 130(4), EL251-EL257. 

  2. Sondhi, M. M. & Resnick, J. R. (1983). The inverse problem for the vocal tract: Numerical methods, acoustical experiments, and speech synthesis. The Journal of the Acoustical Society of America, 73(3), 985-1002. 

  3. Wilson, I., Gick, B., O'Brien, M. G., Shea, C., & Archibald, J. (2006). Ultrasound technology and second language acquisition research. Proceedings of the 8th Generative Approaches to Second Language Acquisition Conference (GASLA 2006) (pp. 148-152). 

  4. Wrench, A. A., Gibbon, F., McNeill, A. M., & Wood, S. (2002). An EPG therapy protocol for remediation and assessment of articulation disorders. ICSLP. 

  5. Dusan, S. (2001). Methods for integrating phonetic and phonological knowledge in speech inversion. Proceedings of the International Conference on Speech, Signal and Image Processing. Malta. 

  6. Engwall, O. (2006). Evaluation of speech inversion using an articulatory classifier. Proceedings of the 7th International Seminar on Speech Production (pp. 469-476). 

  7. Papcun, G., Hochberg, J., Thomas, T. R., Laroche, F., Zacks, J., & Levy, S. (1992). Inferring articulation and recognizing gestures from acoustics with a neural network trained on x-ray microbeam data. The Journal of the Acoustical Society of America, 92(2), 688-700. 

  8. Zacks, J. & Thomas, T. R. (1994). A new neural network for articulatory speech recognition and its application to vowel identification. Computer Speech & Language, 8(3), 189-209. 

  9. Richmond, K. (2001). Mixture density networks, human articulatory data and acoustic-to-articulatory inversion of continuous speech. Proceedings of Workshop on Innovation in Speech Processing (WISP 2001) (pp. 259-276). 

  10. Qin, C. & Carreira-Perpinan, M. A. (2010). Articulatory inversion of american english /r/ by conditional density modes. Proceedings of 11th Annual Conference of the International Speech Communication Association (Interspeech 2010) (pp. 1998-2001) 

  11. Richmond, K., Hoole, P., & King, S. (2011). Announcing the Electromagnetic Articulography (Day 1) Subset of the mngu0 Articulatory Corpus. Proceedings of 12th Annual Conference of the International Speech Communication Association (Interspeech 2011) (pp. 1505-1508). 

  12. Mitra, V., Nam, H., Espy-Wilson, C., Saltzman, E., & Goldstein, L. (2011). Articulatory information for noise robust speech recognition. Audio, Speech, and Language Processing, IEEE Transaction on Audio, Speech, and Language Processing, 19(7), 1913-1924. 

  13. Najnin, S. & Banerjee, B. (2015). Improved speech inversion using general regression neural network. The Journal of the Acoustical Society of America,138(3), EL229-EL235. 

  14. Tu, J. V. (1996). Advantages and disadvantages of using artificial neural networks versus logistic regression for predicting medical outcomes. Journal of clinical epidemiology, 49(11), 1225-1231. 

  15. Hinton, G. E., Osindero, S., & Teh, Y. W. (2006). A fast learning algorithm for deep belief nets. Neural computation, 18(7), 1527-1554. 

  16. Simpson, A. J. (2015). Taming the ReLU with Parallel Dither in a Deep Neural Network (arXiv preprint). Retrieved from http://arxiv.org/abs/1509.05173 on September 17, 2015 

저자의 다른 논문 :

LOADING...

관련 콘텐츠

오픈액세스(OA) 유형

FREE

Free Access. 출판사/학술단체 등이 허락한 무료 공개 사이트를 통해 자유로운 이용이 가능한 논문

유발과제정보 저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로