[논문]효과적인 인간-로봇 상호작용을 위한 딥러닝 기반 로봇 비전 자연어 설명문 생성 및 발화 기술

박동건; 강경민; 배진우; 한지형

doi:10.7746/jkros.2019.14.1.022

효과적인 인간-로봇 상호작용을 위한 딥러닝 기반 로봇 비전 자연어 설명문 생성 및 발화 기술
Robot Vision to Audio Description Based on Deep Learning for Effective Human-Robot Interaction 원문보기

로봇학회논문지 = The journal of Korea Robotics Society, v.14 no.1, 2019년, pp.22 - 30

박동건 (Dept. of Computer Science and Engineering, Seoul National University of Science and Technology) , 강경민 (Dept. of Computer Science and Engineering, Seoul National University of Science and Technology) , 배진우 (Dept. of Computer Science and Engineering, Seoul National University of Science and Technology) , 한지형 (Dept. of Computer Science and Engineering, Seoul National University of Science and Technology)

Abstract ▼ AI-Helper

For effective human-robot interaction, robots need to understand the current situation context well, but also the robots need to transfer its understanding to the human participant in efficient way. The most convenient way to deliver robot's understanding to the human participant is that the robot expresses its understanding using voice and natural language. Recently, the artificial intelligence for video understanding and natural language process has been developed very rapidly especially based on deep learning. Thus, this paper proposes robot vision to audio description method using deep learning. The applied deep learning model is a pipeline of two deep learning models for generating natural language sentence from robot vision and generating voice from the generated natural language sentence. Also, we conduct the real robot experiment to show the effectiveness of our method in human-robot interaction.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

따라서, 본 논문에서는 로봇 지능 개발을 위해 비디오 기반의 자연어 설명과 음성 합성을 연결하고자 한다. 로봇 비전 영상을 입력으로 받아 자연어 설명문을 생성하는 딥러닝 모델과 자연어 문장을 입력으로 받아 합성음을 생성하는 딥러닝 모델을 파이프라인으로 통합한 모델을 로봇에 적용한다.
인간의 입장에서 가장 원활한 상호작용 방식은 자연어 설명문의 발화를 통한 정보 전달이다. 따라서, 본 논문은 효과적인 인간-로봇 상호작용을 위한 로봇 지능 개발의 한 부분으로서 딥러닝 모델 기반 로봇 비전 자연어 설명문 생성 및 발화 기술 개발을 목표로 한다. 로봇이 상황을 인식하는 주요 센서는 로봇 비전 센서로 효과적인 상호작용을 위해서는 로봇 비전의 단일 이미지 기반 상황 인식이 아닌 시간 흐름이 포함된 비디오 기반의 맥락 인식이 필수적이다.
모델의 입력인 영상 프레임의 흐름과 출력인 단어의 흐름은 가변적인 길이를 가지기 때문에 Sequence to Sequence(Seq2Seq) 모델을 사용한다^[15,16]. 또한, 본 논문에서는 단어 생성에 이미지 프레임의 어느 부분이 더 중요한지를 반영하기 위해 S2VT 모델에 추가적으로 global attention을 접목하여 문장을 생성한다. Attention을 사용한 이유에는 두가지가 있다.
로봇 비전 동영상, 자연어 설명문, 합성음은 모두 시간의 흐름을 포함한 sequence 이므로 RNN 기반의 딥러닝 모델을 적용한다. 본논문에서 적용한 딥러닝 모델의 인간-로봇 상호작용을 위한로봇 지능에의 효용성을 검증하기 위해 실시간 로봇 실험을 수행한다. 로봇 실험에서는 robot operation system (ROS) 기반의 로봇 모바일 플랫폼인 Turtlebot3를 이용하여 로봇 비전으로 인지된 사람의 행동 혹은 주변 상황을 자연어 설명문으로 생성하고, 합성음으로 발화하여 효과적인 인간-로봇 상호작용을 확인한다.
설문조사는 문장이 잘 나온 상황과 그렇지 않은 상황을 섞어서 진행하였기 때문에 상황 설명평가 결과의 표준편차가 [Table 3] 보다 높은 것을 확인할 수 있다. 인간-로봇 상호작용 상황에서 상대방이 어떤 상황인지를 로봇이 인식하고, 이를 자연어 설명문을 이용한 음성으로 설명하는 것에 본 논문이 적용한 방식이 적절함을 보여준다.

가설 설정

CIDEr^[35]을 구할 때는 어간을 기준으로 변형된 단어들을 기본형으로 만들어주는 과정을 거친 후, 점수 계산을 한다. 사진에 대한 자연어 설명을 목적으로 만들어진 지표이기 때문에, 여러 개의 이미지를 보고 문장을 생성하는 상황을 가정한다. TF-IDF방법처럼 특정 영상에서만 나온 단어는 긍정적인 점수를, 대부분의 영상의 문장이 공통적으로 가지고 있는 단어들은 부정적인 점수를 주는 방식이다.

제안 방법

또한 실험의 신뢰성을 보다 향상시키기 위해 MSVD 데이터의 10%를 테스트 셋으로 만들어 상황 설명 평가를 추가적으로 진행하였다. 실험은 주로 기계 번역에서 사용되는 자연어평가 지표로 진행하였고 결과는 [Table 4]이다.
따라서, 본 논문에서는 로봇 지능 개발을 위해 비디오 기반의 자연어 설명과 음성 합성을 연결하고자 한다. 로봇 비전 영상을 입력으로 받아 자연어 설명문을 생성하는 딥러닝 모델과 자연어 문장을 입력으로 받아 합성음을 생성하는 딥러닝 모델을 파이프라인으로 통합한 모델을 로봇에 적용한다. 로봇 비전 동영상, 자연어 설명문, 합성음은 모두 시간의 흐름을 포함한 sequence 이므로 RNN 기반의 딥러닝 모델을 적용한다.
본논문에서 적용한 딥러닝 모델의 인간-로봇 상호작용을 위한로봇 지능에의 효용성을 검증하기 위해 실시간 로봇 실험을 수행한다. 로봇 실험에서는 robot operation system (ROS) 기반의 로봇 모바일 플랫폼인 Turtlebot3를 이용하여 로봇 비전으로 인지된 사람의 행동 혹은 주변 상황을 자연어 설명문으로 생성하고, 합성음으로 발화하여 효과적인 인간-로봇 상호작용을 확인한다.
로봇 실험을 수행하기 앞서, 3.1절학습 데이터 셋과 동일한 MSVD 동영상에 대한 자연어 설명문 생성 및 합성음 생성에 대한 모델 평가를 진행했다. 음성을 생성하는 모델이기 때문에 객관적인 지표를 통한 성능분석을 하기가 어렵다.
1]과 같다. 로봇의 시야에서 상황을 인식해 자연어 문장을 생성하고 생성된 문장을 기반으로 상황을 설명하는 스펙트로그램을 합성한다. 문장과 음성을 생성하는 두 가지 모델 모두 content 기반의 attention 매커니즘을 기반으로 한 모델을 적용한다^[12,13].
본 논문에서는 효과적인 인간-로봇 상호작용을 위해 딥러닝 기반 로봇 비전 자연어 설명문 생성 및 발화 모델을 학습시키고 로봇에 적용하였다. 로봇이 인식한 상황에 대하여 자연어를 이용해 발화를 함으로써 상호작용 상대방이 로봇의 인식결과를 가장 효율적으로 알 수 있어, 효과적인 인간-로봇 상호작용이 가능함을 보였다.
또한 실험의 신뢰성을 보다 향상시키기 위해 MSVD 데이터의 10%를 테스트 셋으로 만들어 상황 설명 평가를 추가적으로 진행하였다. 실험은 주로 기계 번역에서 사용되는 자연어평가 지표로 진행하였고 결과는 [Table 4]이다. 자연어 생성을 평가하기 위한 지표에는 여러가지가 있지만 가장 많이 사용되는 BLEU, METEOR, ROUGE_L 그리고 CIDEr^[32-35] 점수를 사용하였다.
두번째 LSTM층의 출력은 softmax 함수를 이용해 최대확률로써 단어를 선택하고, <EOS> 태그가 나타날 때까지 단어를 만들어 낸다. 예측된 문장과 정답문장을 이용해 log-likelihood로 손실함수를 계산해 Adam Optimizer^[18]를 사용해 전체 훈련데이터셋에 대해 최적화한다.

대상 데이터

Tacotron 학습에는 LJ Speech 데이터셋을 사용했다. 이 데이터는 공개적으로 사용 가능하여 최근 text to speech (TTS) 모델에서 벤치마크로써 널리 사용되고 있다.
마찬가지로 상황 설명 평가는 생성된 합성음이 영상을 잘 설명하는지 1-5점으로 구분하여 평가하는 방법이다. 각 설문지는 MSVD 데이터셋 중 학습하지 않은 영상을 무작위로 10~15개를 선정하고 추론 결과인 합성음을 영상에 추가하여 만들어졌다. 설문조사는 청력이 정상인 성인 54명을 대상으로 이루어졌다.
로봇을 이용한 실시간 자연어 설명문 생성 및 발화 실험을 위해 Turtlebot3 waffle Pi 모델에 OpenCR Board 와 RaspberryPi3을 장착하여 사용했다. Raspberry Pi3 에는 Raspbian OS에ROS Kinetic을 설치하여 ROBOTICS RC100을 이용하여 원격제어 했다.
각 설문지는 MSVD 데이터셋 중 학습하지 않은 영상을 무작위로 10~15개를 선정하고 추론 결과인 합성음을 영상에 추가하여 만들어졌다. 설문조사는 청력이 정상인 성인 54명을 대상으로 이루어졌다. 평가결과는 [Table 3]과 같다.
실시간 로봇 실험 결과를 3.2 장의 설문조사와 같은 방식으로 32명의 사람을 대상으로 평가하였다. 평가결과는 [Table 5]와 같다.
이 데이터는 공개적으로 사용 가능하여 최근 text to speech (TTS) 모델에서 벤치마크로써 널리 사용되고 있다. 이 데이터는 한 명의 성우가 녹음한 13,000개의 짧은 오디오 클립으로 구성되어 있으며 클립의 길이는 1초에서 10초사이로 총길이는 약24시간이다.
실험은 주로 기계 번역에서 사용되는 자연어평가 지표로 진행하였고 결과는 [Table 4]이다. 자연어 생성을 평가하기 위한 지표에는 여러가지가 있지만 가장 많이 사용되는 BLEU, METEOR, ROUGE_L 그리고 CIDEr^[32-35] 점수를 사용하였다. BLEU^[32] 점수는 각각의 생성된 문장을 정답문장과 비교하여 계산하고 최종적으로는 전체 말뭉치에 평균을 낸 값이다.
하지만 두번째 행에서는 상황을 잘 인식하지 못하여 잘못된 문장을 생성하였다. 첫번째 영상은 주변에 노트북, 물통, 휴대폰 다양한 물체가 있고 attention이 휴대폰으로 잡혀서 잘못된 문장이 생성되었다. 두번째는 물체보다는 기타를 치는 행동에 초점이 맞춰져 빗자루를 들고 있지만 기타를 친다고 생성되었다.

이론/모형

그리고 시간 축을 유지하기 위해 stride를 1로 사용한다. CBHG의 모든 convolutional 층에서 입력 데이터의 최적 스케일과 평균을 학습하여 신경망의 안정성과 성능을 향상시키기 위해 batch normalization^[25]을 사용한다. Max-pooling 층 이후에 두개의 1-D convolutional 층이 사용된다.
S2VT 학습에는 Microsoft Video Description Corpus(MSVD)^[31]를 사용했다. MSVD는 하나의 행동을 설명하는 짧은 유튜브 클립을 모아둔 데이터이다.
디코더에서는 content기반의 attention 매커니즘을 이용한다. Context 벡터와 attention RNN cell 출력을 합쳐서 디코더 RNN의 입력으로 넣는다.
스펙트로그램은 음성을 표현하기에 좋은 방법이지만 위상에 대한 정보가 부족하다. 때문에 스펙트로그램의 위상을 추정할 수 있는 신호처리 알고리즘인 Griffin-Lim^[29,30]을 사용하여 음성 파형을 예측할 수 있다. STFT 크기와 생성된 스펙트로그램이 일치하는 파형을 찾을 수 있도록 반복적으로 수행한다.
로봇 비전 영상을 입력으로 받아 자연어 설명문을 생성하는 딥러닝 모델과 자연어 문장을 입력으로 받아 합성음을 생성하는 딥러닝 모델을 파이프라인으로 통합한 모델을 로봇에 적용한다. 로봇 비전 동영상, 자연어 설명문, 합성음은 모두 시간의 흐름을 포함한 sequence 이므로 RNN 기반의 딥러닝 모델을 적용한다. 본논문에서 적용한 딥러닝 모델의 인간-로봇 상호작용을 위한로봇 지능에의 효용성을 검증하기 위해 실시간 로봇 실험을 수행한다.
S2VT는 시간적인 순서에 따른 이미지 프레임의 흐름과 단어의 흐름이 대응되도록 학습하는 RNN 기반 모델이다. 모델의 입력인 영상 프레임의 흐름과 출력인 단어의 흐름은 가변적인 길이를 가지기 때문에 Sequence to Sequence(Seq2Seq) 모델을 사용한다^[15,16]. 또한, 본 논문에서는 단어 생성에 이미지 프레임의 어느 부분이 더 중요한지를 반영하기 위해 S2VT 모델에 추가적으로 global attention을 접목하여 문장을 생성한다.
본 논문에서는 모델의 입력인 로봇 비전 비디오와 출력인 자연어 설명문이 모두 시간 흐름을 포함한 sequence 임에 착안하여 Sequence to Sequence – Video to Text (S2VT) 모델을 적용한다[14].
본 논문에서는 모델의 입력인 자연어 설명문과 출력인 음성이 모두 시간 흐름을 포함한 sequence 임에 착안하여 tacotron모델을 적용한다^[19]. Tacotron은 글을 음성으로 합성하는 end-to-end generative text-to-speech 모델로서 문자열을 입력으로 하고 일치하는 스펙트로그램을 출력으로 하는 통합적인 모델이다.

성능/효과

본 논문에서는 효과적인 인간-로봇 상호작용을 위해 딥러닝 기반 로봇 비전 자연어 설명문 생성 및 발화 모델을 학습시키고 로봇에 적용하였다. 로봇이 인식한 상황에 대하여 자연어를 이용해 발화를 함으로써 상호작용 상대방이 로봇의 인식결과를 가장 효율적으로 알 수 있어, 효과적인 인간-로봇 상호작용이 가능함을 보였다. 추후 연구과제로써 본 논문에서 사용한 파이프라인 형태의 딥러닝 모델이 아닌 end-to-end 딥러닝 모델 연구가 필요하다.

후속연구

추후 연구과제로써 본 논문에서 사용한 파이프라인 형태의 딥러닝 모델이 아닌 end-to-end 딥러닝 모델 연구가 필요하다. 또한, 상황설명을 위한 자연어 설명문 생성에 다중 물체 감지 딥러닝 모델을 활용하여 자연어 설명문 생성 성능을 발전시킬 것이다.
로봇이 인식한 상황에 대하여 자연어를 이용해 발화를 함으로써 상호작용 상대방이 로봇의 인식결과를 가장 효율적으로 알 수 있어, 효과적인 인간-로봇 상호작용이 가능함을 보였다. 추후 연구과제로써 본 논문에서 사용한 파이프라인 형태의 딥러닝 모델이 아닌 end-to-end 딥러닝 모델 연구가 필요하다. 또한, 상황설명을 위한 자연어 설명문 생성에 다중 물체 감지 딥러닝 모델을 활용하여 자연어 설명문 생성 성능을 발전시킬 것이다.
한 프레임에서 가장 많은 부분을 차지하고 있는 사물에 특징점을 두는 CNN에 기반을 두고 있기 때문이다. 한 화면에서 여러 물체를 감지하는 object detection을 이용해 작은 물체들에 대해서도 문장을 생성한다면 자연어 설명문 생성 성능을 개선시킬 수 있을 것이다.

질의응답

핵심어	질문	논문에서 추출한 답변
	S2VT는 무엇인가?	본 논문에서는 모델의 입력인 로봇 비전 비디오와 출력인 자연어 설명문이 모두 시간 흐름을 포함한 sequence 임에 착안하여 Sequence to Sequence – Video to Text (S2VT) 모델을 적용한다[14]. S2VT는 시간적인 순서에 따른 이미지 프레임의 흐름과 단어의 흐름이 대응되도록 학습하는 RNN 기반 모델이다. 모델의 입력인 영상 프레임의 흐름과 출력인 단어의 흐름은 가변적인 길이를 가지기 때문에 Sequence to Sequence(Seq2Seq) 모델을 사용한다[15,16].
	딥러닝 모델 기반 로봇 비전 자연어 설명문 생성 및 발화 기술개발이 필요한 이유는?	효과적인 인간-로봇 상호작용을 위해서는 로봇이 현재의 상황을 정확하게 인식하는 것뿐만 아니라, 로봇이 현재 상황을 어떻게 인식했는지 상호작용 상대방인 인간에게 효과적으로 전달하는 것 역시 필요하다. 인간의 입장에서 가장 원활한 상호작용 방식은 자연어 설명문의 발화를 통한 정보 전달이다. 따라서, 본 논문은 효과적인 인간-로봇 상호작용을 위한 로봇 지능 개발의 한 부분으로서 딥러닝 모델 기반 로봇 비전 자연어 설명문 생성 및 발화 기술 개발을 목표로 한다.
	현재 로봇 기술의 특징은 무엇인가?	DNN 기반의 인공지능 기술은convolutional neural network (CNN)를 이용한 이미지 관련 연구와 recurrent neural network (RNN)을 이용한 음성 및 자연어처리 관련 연구에서 괄목할 만한 성능을 내고 있다[1-5]. 반면 현재 로봇 기술은 휴머노이드 로봇의 걷기, 휠 베이스 로봇의 제어, 로봇 팔의 제어 등 하드웨어 제어 기술 성숙도는 높은 반면, 아직 로봇 지능 기술의 성숙도는 낮은 편이다. 따라서 현재 발전하고 있는 이미지, 자연어, 음성 관련 인공지능 기술을 로봇에 접목하여 로봇 지능 기술을 발전시킬 필요성이있다.

참고문헌 (35)

J. Donahue, L. A. Hendricks, S. Guadarrama, M. Rohrbach, S. Venugopalan, T. Darrell, and K. Saenko, "Long-term recurrent convolutional networks for visual recognition and description," 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Boston, MA, USA, 2015, DOI: 10.1109/CVPR.2015.7298878.
O. Vinyals, A. Toshev, S. Bengio, and D. Erhan, "Show and tell: A neural image caption generator," 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Boston, MA, USA, 2015, DOI: 10.1109/CVPR.2015.7298935.
L. Yao, A. Torabi, K. Cho, N. Ballas, C. Pal, H. Larochelle, and A. Courville, "Describing videos by exploiting temporal structure," 2015 IEEE International Conference on Computer Vision (ICCV), Santiago, Chile, 2015, DOI: 10.1109/ICCV.2015.512.
O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, Z. Huang, A. Karpathy, A. Khosla, M. Bernstein, A. C. Berg, and L, Fei-Fei, "ImageNet Large Scale Visual Recognition Challenge," arXiv:1409.0575 [cs.CV], 2014.
K. Simonyan and A. Zisserman, "Very deep convolutional networks for large-scale image recognition," arXiv:1409.1556 [cs.CV], 2014.
H. Yu, J. Wang, Z. Huang, Y. Yang, and W. Xu., "Video Paragraph Captioning Using Hierarchical Recurrent Neural Networks," arXiv:1510.07712 [cs.CV], 2016
L. Gao, Z. Guo, H. Zhang, X. Xu, and H. T. Shen., "Video captioning with attention-based LSTM and semantic consistency," IEEE Transactions on Multimedia, vol. 9, no. 9, pp. 2045-2055, Sept., 2017.
K. Tokuda, H. Zen, and A. Black, "An HMM-based speech synthesis system applied to English," 2002 IEEE Workshop on Speech Synthesis, Santa Monica, CA, USA, 2002.
A. van den Oord, S. Dieleman, H. Zen, K. Simonyan, O. Vinyals, A. Graves, N. Kalchbrenner, A. Senior, and K. Kavukcuoglu, "WaveNet: A generative model for raw audio," arXiv:1609.03499[cs.SD], 2016.
J. Sotelo, S. Mehri, K. Kumar, J. F. Santos, K. Kastner, A. Courville, and Y. Bengio, "Char2Wav: End-to-end speech synthesis," ICLR 2017, 2017.
S. O. Arik, M. Chrzanowski, A. Coates, G. Diamos, A. Gibiansky, Y. Kang, X. Li, J. Miller, J. Raiman, S. Sengupta, and M. Shoeybi, "Deep voice: Real-time neural text-to-speech," arXiv:1702.07825 [cs.CL], 2017.
O. Vinyals, L.Kaiser, T. Koo, S. Petrov, I. Sutskever, and G.Hinton, "Grammar as a foreign language," arXiv:1412.7449 [cs.CL], 2015.
M.-T. Luong, H. Pham, and C. D. Manning, "Effective approaches to attention-based neural machine translation," arXiv:1508.04025 [cs.CL], 2015.
S. Venugopalan, M. Rohrbach, J. Donahue, R. Mooney, T. Darrell, and K. Saenko, "Sequence to Sequence -- Video to Text," 2015 IEEE International Conference on Computer Vision (ICCV), 2015.
K. Cho, B. van Merrienboer, D. Bahdanau, and Y. Bengio, "On the properties of neural machine translation: Encoderdecoder approaches," arXiv:1409.1259 [cs.CL], 2014.
I. Sutskever, O. Vinyals, and Q. V. Le, "Sequence to sequence learning with neural networks," arXiv:1409.3215 [cs.CL], 2014.
S. Hochreiter and J. Schmidhuber, "Long short-term memory," Neural Computation, vol. 9, no. 8, Nov., 1997.

상세보기
D. P. Kingma and J. Ba, "Adam: A method for stochastic optimization," arXiv:1412.6980 [cs.LG], 2014.
Y. Wang, R.J. Skerry-Ryan, D. Stanton, Y. Wu, R. J. Weiss, N. Jaitly, Z. Yang, Y. Xiao, Z. Chen, S. Bengio, Q. Le, Y. Agiomyrgiannakis, R. Clark, and R. A. Saurous, "Tacotron: Towards End-to-End Speech Synthesis," Interspeech 2017, 2017, DOI: 10.21437/Interspeech.2017-1452.
D. Bahdanau, K.H. Cho, and Y. Bengio "Neural machine translation by jointly learning to align and translate," arXiv:1409.0473 [cs.CL], 2014.
N. Srivastava, G. Hinton, A. Krizhevsky, I. Sutskever, and R. Salakhutdinov, "Dropout: A simple way to prevent neural networks from overfitting," Journal of Machine Learning Research., vol. 15, no. 1, pp. 1929-1958, 2014.
J. Lee, K. Cho, and T. Hofmann, "Fully character-level neural machine translation without explicit segmentation," Transactions of the Association for Computational Linguistics, vol. 5, pp. 365-378, 2017.
R. K. Srivastava, K. Greff, and J. Schmidhuber, "Highway networks," arXiv:1505.00387 [cs.LG], 2015.
J. Chung, C. Gulcehre, K.H. Cho, and Y. Bengio, "Empirical evaluation of gated recurrent neural networks on sequence modeling," arXiv:1412.3555 [cs.NE], 2014.
S. Ioffe and C. Szegedy, "Batch normalization: Accelerating deep network training by reducing internal covariate shift," arXiv:1502.03167 [cs.LG], 2015.
K. He, X. Zhang, S. Ren, and J. Sun, "Deep residual learning for image recognition," 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Las Vegas, NV, USA, pp.770-778, 2016.
Y. Wu, M. Schuster, Z. Chen, Q. V Le, M. Norouzi, W. Macherey, M. Krikun, Y. Cao, Q. Gao, K. Macherey, J. Klingner, A. Shah, M. Johnson, X. Liu, Ł. Kaiser, S. Gouws, Y. Kato, T. Kudo, H. Kazawa, K. Stevens, G. Kurian, N. Patil, W. Wang, C. Young, J. Smith, J. Riesa, A. Rudnick, O. Vinyals, G. Corrado, M. Hughes, and J. Dean, "Google's neural machine translation system: Bridging the gap between human and machine translation," arXiv:1609.08144 [cs.CL], 2016.
H. Zen, Y. Agiomyrgiannakis, N. Egberts, F. Henderson, and P. Szczepaniak, "Fast, compact, and high-quality LSTM-RNN based statistical parametric speech synthesizers for mobile devices," Interspeech, 2016, DOI: 10.21437/Interspeech.2016-522.
D. Griffin and J. Lim, "Signal estimation from modified short-time fourier transform," ICASSP '83. IEEE International Conference on Acoustics, Speech, and Signal Processing, vol. 32, no. 2, pp. 236-243, 1984.
M. Abadi, A. Agarwal, P. Barham, E. Brevdo, Z. Chen, C. Citro, G. S Corrado, A. Davis, J. Dean, M. Devin, S. Ghemawat, I. Goodfellow, A. Harp, G. Irving, M. Isard, Y. Jia, R. Jozefowicz, L. Kaiser, M. Kudlur, J. Levenberg, D. Mane, R. Monga, S. Moore, D. Murray, C. Olah, M. Schuster, J. Shlens, B. Steiner, I. Sutskever, K. Talwar, P. Tucker, V. Vanhoucke, V. Vasudevan, F. Viegas, O. Vinyals, P. Warden, M. Wattenberg, M. Wicke, Y. Yu, X. Zheng, "TensorFlow: Large-scale machine learning on heterogeneous distributed systems," arXiv:1603.04467 [cs.DC], 2016.
D. L. Chen and W. B. Dolan, "Collecting highly parallel data for paraphrase evaluation," 49th Annual Meeting of the Association for Computational Linguistics, pp. 190-200, 2011.
K. Papineni, S. Roukos, T. Ward, and W.-J. Zhu, "Bleu: a method for automatic evaluation of machine translation," 40th Annual Meeting on Association for Computational Linguistics, pp. 311-318, Philadelphia, PA, USA, 2002.
C.-Y. Lin. "ROUGE: A Package for Automatic Evaluation of Summaries," ACL-04 Workshop, pp. 74-81, 2004.
M. Denkowski and A. Lavie, "Meteor universal: Language specific translation evaluation for any target language," Ninth Workshop on Statistical Machine Translation, pp. 376-380, Baltimore, MD, USA, 2014.
R. Vedantam, C. L. Zitnick, and D. Parikh, "CIDEr: Consensus- based image description evaluation," 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Boston, MA, USA, pp.4566-4575, 2015.

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증