최소 단어 이상 선택하여야 합니다.
최대 10 단어까지만 선택 가능합니다.
다음과 같은 기능을 한번의 로그인으로 사용 할 수 있습니다.
NTIS 바로가기방송공학회논문지 = Journal of broadcast engineering, v.24 no.2, 2019년, pp.227 - 233
최재규 (서울과학기술대학교 전자IT미디어공학과) , 최승호 (서울과학기술대학교 전자IT미디어공학과)
In this paper, we propose a deep neural network-based sound interpolation method for realizing virtual reality sound. Through this method, sound between two points is generated by using acoustic signals obtained from two points. Sound interpolation can be performed by statistical methods such as ari...
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
핵심어 | 질문 | 논문에서 추출한 답변 |
---|---|---|
본 실험에서 어떠한 것들을 콘볼루션하여 스테레오 음향 신호를 생성하였는가? | 본 실험은 우선 음성신호에 대한 것이므로 16,000 Hz로 다운샘플링하여 실험하였다. 모노 사운드인 VCTK 데이터와 각각 0도와 45도 그리 고 90도에 해당하는 HRIR(head related impulse response) 을 콘볼루션하여 스테레오 음향 신호를 생성하였다. | |
시청자 이동형 실감 미디어 제공하기 위해서는 시청자 이동에 따른 임의의 좌표에서 촬영한 데이터가 필요한데, 현실적인 한계와 필요한 기술이 무엇인가? | 시청자 이동형 실감 미디어를 제공하기 위해서는 시청자 이동에 따른 임의의 좌표에서 촬영한 데이터가 필요하다. 하지만 무수히 많은 지점에서 촬영한 데이터를 취득하기에는 현실적으로 한계가 있으므로 제한된 데이터를 이용해 임의의 지점에서 취득한 데이터를 생성 하는 기술이 필요하다. 특히 일반 사용자가 취득한 UCC를 이용해 가상현실 음향을 생성하기 위해선 가상의 지점에서의 음향 신호를 주어진 데이터만으로 생성할 수 있어야 하고, 이를 위해선 사운드 보간(sound interpolation) 기법이 필요하다. | |
머리전달함수(head related transfer function, HRTF)는 무엇인가? | 실험에 사용한 데이터는 VCTK 음성과 PKU-IOA HRTF 데이터베이스[5]이다. 머리전달함수(head related transfer function, HRTF)는 정면을 0도 오른쪽이 90도 왼쪽을 270 도로 정의하며 2채널 사운드이다. 본 실험은 우선 음성신호에 대한 것이므로 16,000 Hz로 다운샘플링하여 실험하였다. |
Veaux Christophe, Yamagishi Junichi, and MacDonald Kirsten, "CSTR VCTK Corpus: English Multi-speaker Corpus for CSTR Voice Cloning Toolkit," The Centre for Speech Technology Research (CSTR), 2016.
V. Nair and G. E. Hinton, "Rectified linear units improve restricted Boltzmann machines," in Proc. 27th Int. Conf. Machine Learning, pp. 807-814, 2010.
Vu Pham, Theodore Bluche, Christopher Kermorvant, and Jerome Louradour, "Dropout improves recurrent neural networks for handwriting recognition," Frontiers in Handwriting Recognition (ICFHR), 2014 14th International Conference, pp. 285-290, IEEE, 2014.
D. P. Kingma and J. L. Ba, "Adam: A method for stochastic optimization," arXiv preprint arXiv:1412.6980, 2014.
T. Qu, Z. Xiao, M. Gong, Y. Huang, X. Li, and X. Wu, "Distance dependent head-related transfer functions measured with high spatial resolution using a spark gap," IEEE Trans. on Audio, Speech and Language Processing, vol. 17, no. 6, pp. 1124-1132, 2009.
J. Wen, N. Gaubitch, E. Habets, T. Myatt, P. Naylor, "Evaluation of speech dereverberation algorithms using the MARDY database", Proc. Int. Workshop Acoust. Echo Noise Control, pp. 1-4, 2006.
*원문 PDF 파일 및 링크정보가 존재하지 않을 경우 KISTI DDS 시스템에서 제공하는 원문복사서비스를 사용할 수 있습니다.
오픈액세스 학술지에 출판된 논문
※ AI-Helper는 부적절한 답변을 할 수 있습니다.