최근 세계보건기구(WHO)의 Coronavirus Disease-19(COVID-19)에 대한 팬데믹 선언으로 COVID-19는 세계적인 관심사이며 많은 사망자가 속출하고 있다. 이를 극복하기 위하여 국가 간 정보 교환과 COVID-19 관련 대응 방안 등의 공유에 대한 필요성이 증대되고 있다. 하지만 언어적 경계로 인해 원활한 정보 교환 및 공유가 이루어지지 못하고 있는 실정이다. 이에 본 논문은 COVID-19 도메인에 특화 된 인공신경망 기반 기계번역(Neural Machine Translation(NMT)) 모델을 제안한다. 제안한 모델은 영어를 중심으로 프랑스어, 스페인어, 독일어, 이탈리아어, 러시아어, 중국어 지원이 가능한 Transformer 기반 양방향 모델이다. 실험결과 BLEU 점수를 기준으로 상용화 시스템과 비교하여 모든 언어 쌍에서 유의미한 높은 성능을 보였다.
최근 세계보건기구(WHO)의 Coronavirus Disease-19(COVID-19)에 대한 팬데믹 선언으로 COVID-19는 세계적인 관심사이며 많은 사망자가 속출하고 있다. 이를 극복하기 위하여 국가 간 정보 교환과 COVID-19 관련 대응 방안 등의 공유에 대한 필요성이 증대되고 있다. 하지만 언어적 경계로 인해 원활한 정보 교환 및 공유가 이루어지지 못하고 있는 실정이다. 이에 본 논문은 COVID-19 도메인에 특화 된 인공신경망 기반 기계번역(Neural Machine Translation(NMT)) 모델을 제안한다. 제안한 모델은 영어를 중심으로 프랑스어, 스페인어, 독일어, 이탈리아어, 러시아어, 중국어 지원이 가능한 Transformer 기반 양방향 모델이다. 실험결과 BLEU 점수를 기준으로 상용화 시스템과 비교하여 모든 언어 쌍에서 유의미한 높은 성능을 보였다.
With the recent World Health Organization (WHO) Declaration of Pandemic for Coronavirus Disease-19 (COVID-19), COVID-19 is a global concern and many deaths continue. To overcome this, there is an increasing need for sharing information between countries and countermeasures related to COVID-19. Howev...
With the recent World Health Organization (WHO) Declaration of Pandemic for Coronavirus Disease-19 (COVID-19), COVID-19 is a global concern and many deaths continue. To overcome this, there is an increasing need for sharing information between countries and countermeasures related to COVID-19. However, due to linguistic boundaries, smooth exchange and sharing of information has not been achieved. In this paper, we propose a Neural Machine Translation (NMT) model specialized for the COVID-19 domain. Centering on English, a Transformer based bidirectional model was produced for French, Spanish, German, Italian, Russian, and Chinese. Based on the BLEU score, the experimental results showed significant high performance in all language pairs compared to the commercialization system.
With the recent World Health Organization (WHO) Declaration of Pandemic for Coronavirus Disease-19 (COVID-19), COVID-19 is a global concern and many deaths continue. To overcome this, there is an increasing need for sharing information between countries and countermeasures related to COVID-19. However, due to linguistic boundaries, smooth exchange and sharing of information has not been achieved. In this paper, we propose a Neural Machine Translation (NMT) model specialized for the COVID-19 domain. Centering on English, a Transformer based bidirectional model was produced for French, Spanish, German, Italian, Russian, and Chinese. Based on the BLEU score, the experimental results showed significant high performance in all language pairs compared to the commercialization system.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
이외에도 수많은 인공지능 관련 COVID-19 연구들이 이루어지고 있으나 아직까지 기계번역과 관련된 실제적인 연구사례는 존재하지 않고 있다. 본 논문은 COVID-19에 특화된 기계번역 모델을 제작하여 COVID-19 관련 문서의 언어장벽 해소를 진행하고자 한다.
제안 방법
Corona Crisis Corpus에서 제공하는 모든 언어쌍에 대해여 구글 번역기와의 성능 비교를 BLEU를 기준으로 진행하였다. 즉 해당 코퍼스에서 제공하는 언어쌍인 영어-중국어, 영어-프랑스어, 영어-독일어, 영어-이탈리아어, 영어-스페인어, 영어- 러시아어 양방향 언어쌍에 대한 모든 실험을 진행하였다.
GPU는 GTX 1080 2개로 학습을 진행하였으며 총 20만 스텝까지 학습을 진행하며 5000 스텝마다 모델을 저장하고 가장 높은 성능을 보이는 모델을 최종 모델로 선택하였다. Pytorch를 기반으로 모델링을 하였다.
모델의 경우 논문, 보고서 등은 긴 문장이 많이 존재하므로 긴 문장을 잘 처리하면서 속도가 빠른 Transformer 모델을 기반으로 번역모델을 제작하였다. 더불어 해당 모델을 플랫폼 형태로 배포를 진행하였다. 해당 플랫폼의 장점으로는 친숙한 화면, 글자 수 제한이 없음과 GPU 1개로 서비스 됨과 동시에 CPU로도 서비스 가능할 수 있게 설계하였다.
모델의 경우 논문, 보고서 등은 긴 문장이 많이 존재하므로 긴 문장을 잘 처리하면서 속도가 빠른 Transformer 모델을 기반으로 번역모델을 제작하였다. 더불어 해당 모델을 플랫폼 형태로 배포를 진행하였다.
본 논문은 TAUS에서 제공하는 COVID-19에 특화된 병렬 말뭉치를 기반으로 모델을 제작하였다. 해당 모델과 상용화 시스템인 구글 번역기와의 성능 비교를 BLEU 점수를 기준으로 진행하였으며 실험결과 TAUS에서 제공하는 모든 언어 쌍에서 구글 번역기보다 우수한 성능을 보였다.
그러나 일반적인 기계번역기 같은 경우 특정 도메인에서만 사용되는 어휘들을 번역할 시 오번역이 많이 존재할 수 있다. 이러한 문제점과 필요성을 기반으로 본 논문은 인공신경망 기계번역(Neural Machine Translation(NMT))을 이용하여 COVID-19에 특화된 번역기를 제작하였다.
이러한 필요성을 바탕으로 본 논문은 TAUS에서 제공하는 COVID-19에 특화된 병렬 말뭉치인 Corona Crisis Corpus2)를 기반으로 COVID-19에 특화된 기계 번역 플랫폼을 제작하였다.
그러나 해당 모델들의 파라미터 개수, 모델 크기 등이 너무 커 실제 서비스에 적용하기에는 아직 무리가 존재한다. 이에 본 논문은 현재까지 발표된 논문 중 성능, 속도, 메모리 등 전반적인 것을 고려했을 때 가장 서비스를 진행하기 좋은 모델은 Transformer라고 판단하여 해당 모델을 기반으로 실험을 진행하였다.
통계기반 기계번역(SMT)은 대용량 병렬 말뭉치로부터 학습된 통계 정보를 이용하여 번역을 진행하는 방식이다[5]. 즉 대규모 병렬 말뭉치로부터 단어들 간의 정렬 정보와 빈도수를 구한 후 이를 기반으로 통계 정보를 학습한다. 그 통계 정보를 기반으로 확률기반 번역을 진행하는 방식이다.
Corona Crisis Corpus에서 제공하는 모든 언어쌍에 대해여 구글 번역기와의 성능 비교를 BLEU를 기준으로 진행하였다. 즉 해당 코퍼스에서 제공하는 언어쌍인 영어-중국어, 영어-프랑스어, 영어-독일어, 영어-이탈리아어, 영어-스페인어, 영어- 러시아어 양방향 언어쌍에 대한 모든 실험을 진행하였다. 실험결과는 Table 2와 같다.
먼저 사회적 측면으로는 나라별로 언어가 다르기 때문에 각 나라별 코로나 관련 연구내용 및 결과 등을 서로 공유하기 위해서 필요하다. 특히, COVID-19 관련 중국과 미국 자료들이 많이 나오는 것을 바탕으로 영어-중국어, 중국어-영어 기계번역 모델을 제작하였을 뿐만 아니라 유럽의 COVID-19 관련 상황이 상대적으로 심각하기에 프랑스어, 이탈리아어, 스페인어, 독일어, 러시아어의 모델을 추가 제작하였다. 이를 통해 국가 운영차원에서 해외사례들을 검토하며 더 나은 해결방안이나 방지법을 습득할 수 있다.
즉 본 논문에서 제안하는 모델이 상용화 시스템과의 비교에서 압도적인 성능 우위를 보였으며 해당 모델이 COVID-19 관련 도메인에서 만큼은 우수한 성능을 보임을 알 수 있었다. 해당 모델은 많은 사람들에게 실질적인 도움이 될 수 있도록 플랫폼 형태로 배포를 진행하였다. 해당 플랫폼에 대한 실행 화면은 Fig.
더불어 해당 모델을 플랫폼 형태로 배포를 진행하였다. 해당 플랫폼의 장점으로는 친숙한 화면, 글자 수 제한이 없음과 GPU 1개로 서비스 됨과 동시에 CPU로도 서비스 가능할 수 있게 설계하였다.
대상 데이터
본 논문에서 실험에 사용한 모델의 Hyper Parameters 같은 경우 Batch Size는 4096, Optimization은 Adam, Noam Decay를 사용하였고 6개의 Attention blocks와 8개의 Attention heads를 사용하며 embedding size는 512를 사용하였다. GPU는 GTX 1080 2개로 학습을 진행하였으며 총 20만 스텝까지 학습을 진행하며 5000 스텝마다 모델을 저장하고 가장 높은 성능을 보이는 모델을 최종 모델로 선택하였다. Pytorch를 기반으로 모델링을 하였다.
본 논문에서 실험에 사용한 모델의 Hyper Parameters 같은 경우 Batch Size는 4096, Optimization은 Adam, Noam Decay를 사용하였고 6개의 Attention blocks와 8개의 Attention heads를 사용하며 embedding size는 512를 사용하였다. GPU는 GTX 1080 2개로 학습을 진행하였으며 총 20만 스텝까지 학습을 진행하며 5000 스텝마다 모델을 저장하고 가장 높은 성능을 보이는 모델을 최종 모델로 선택하였다.
본 논문에서 실험을 위한 데이터로 TAUS에서 공개한 Corona Crisis Corpus를 이용하였다. 해당 코퍼스는 영어를 중심으로 스페인어, 이탈리아어, 프랑스어, 독일어, 러시아어, 중국어의 병렬 말뭉치를 제공해준다.
학습데이터의 전처리로 Subword Tokenization 같은 경우 구글의 Sentencepiece[14]를 적용하였으며 Vocabulary Size 같은 경우 32,000개로 설정하였다. 특히 Subword Tokenization 모델을 만들 때 COVID-19 도메인 데이터로만 모델을 제작하여 도메인 특화 효과를 극대화 시켰다.
이론/모형
TAUS 에서 제공하는 Corona Crisis Corpus를 활용하여 Transformer 모델[10]을 기반으로 NMT 모델을 제작하였다. Transformer란 Convolution과 Recurrence 없이 오직 Attention만을 이용한 Full-Attention based 방법론이다.
모든 언어쌍에 대해 테스트셋 같은 경우 전체 학습셋에서 3000개를 랜덤하게 추출하였으며 Validation set도 5000개를 랜덤하게 추출하였다. 모든 번역결과에 대한 성능평가는 BLEU점수를 기준으로 진행하며 Moses의 multi-bleu.perl script3)를 이용한다[15].
성능/효과
실험결과 본 논문에서 제안한 번역 모델이 상용화 시스템인 구글 번역기와 비교하여 모든 언어쌍에 대해여 BLEU 점수와 BLEU1, BLEU2, BLEU3, BLEU4까지 모든 수치에서 높은 성능을 보였다. BLEU 점수를 기준으로 구글 번역기보다 영어-중국어 10.87, 중국어-영어 6.79, 영어-프랑스어 2.89, 프랑스어-영어 4.01, 영어독일어 9.18, 독일어-영어 5.89, 영어-이탈리아어 5.16, 이탈리아어-영어 2.46, 영어-스페인어 3.96, 스페인어영어 3.80점, 영어-러시아어 2.01, 러시아어-영어 3.26점의 점수 차이를 보였다. 특히 영어-중국어 같은 경우 무려 10점 이상의 BLEU 점수 차이를 보였다.
도메인 특화에서 무엇보다 중요한 요소는 해당 도메인에 특화된 데이터를 구축하는 일이며 이는 시간과 비용이 많이 드는 작업이다. 그러나 본 논문에서 사용한 Corona Crisis Corpus같은 경우 TAUS에서 모든 사람들에게 무료로 오픈되어 사용되고 있으며 이로 인하여 데이터 구축에 대한 시간과 비용을 절약할 수 있다.
또한 Vocabulary도 Corona Crisis Corpus에서만 추출하였다. 모든 언어쌍에 대해 테스트셋 같은 경우 전체 학습셋에서 3000개를 랜덤하게 추출하였으며 Validation set도 5000개를 랜덤하게 추출하였다. 모든 번역결과에 대한 성능평가는 BLEU점수를 기준으로 진행하며 Moses의 multi-bleu.
실험결과 본 논문에서 제안한 번역 모델이 상용화 시스템인 구글 번역기와 비교하여 모든 언어쌍에 대해여 BLEU 점수와 BLEU1, BLEU2, BLEU3, BLEU4까지 모든 수치에서 높은 성능을 보였다. BLEU 점수를 기준으로 구글 번역기보다 영어-중국어 10.
영어와 어순이 같은 스페인, 이탈리아, 프랑스어, 러시아어 같은 경우 어순이 다른 독일어에 비하여 점수 차이가 비교적 적게 남을 알 수 있었다. 전체 언어 쌍을 대상으로 구글 번역기와 COVID-19 번역기의 성능 차이는 BLEU 기준 평균 5.02점이 남을 알 수 있었다. 즉 본 논문에서 제안하는 모델이 상용화 시스템과의 비교에서 압도적인 성능 우위를 보였으며 해당 모델이 COVID-19 관련 도메인에서 만큼은 우수한 성능을 보임을 알 수 있었다.
02점이 남을 알 수 있었다. 즉 본 논문에서 제안하는 모델이 상용화 시스템과의 비교에서 압도적인 성능 우위를 보였으며 해당 모델이 COVID-19 관련 도메인에서 만큼은 우수한 성능을 보임을 알 수 있었다. 해당 모델은 많은 사람들에게 실질적인 도움이 될 수 있도록 플랫폼 형태로 배포를 진행하였다.
학습데이터의 전처리로 Subword Tokenization 같은 경우 구글의 Sentencepiece[14]를 적용하였으며 Vocabulary Size 같은 경우 32,000개로 설정하였다. 특히 Subword Tokenization 모델을 만들 때 COVID-19 도메인 데이터로만 모델을 제작하여 도메인 특화 효과를 극대화 시켰다. 또한 Vocabulary도 Corona Crisis Corpus에서만 추출하였다.
본 논문은 TAUS에서 제공하는 COVID-19에 특화된 병렬 말뭉치를 기반으로 모델을 제작하였다. 해당 모델과 상용화 시스템인 구글 번역기와의 성능 비교를 BLEU 점수를 기준으로 진행하였으며 실험결과 TAUS에서 제공하는 모든 언어 쌍에서 구글 번역기보다 우수한 성능을 보였다. 이에 해당 모델은 플랫폼 형태로 배포하여 많은 사람들에게 실질적인 도움이 될 수 있도록 노력하였다.
후속연구
추후 언어쌍을 확장하여 더 많은 사람들에게 COVID-19 관련 문서 번역에 도움이 될 예정이다. 더불어 다양한 도메인 특화 기법을 적용하여 해당 모델의 성능을 향상 시킬 예정이며 한국어와 관련된 모델을 개발할 예정이다.
이에 해당 모델은 플랫폼 형태로 배포하여 많은 사람들에게 실질적인 도움이 될 수 있도록 노력하였다. 추후 언어쌍을 확장하여 더 많은 사람들에게 COVID-19 관련 문서 번역에 도움이 될 예정이다. 더불어 다양한 도메인 특화 기법을 적용하여 해당 모델의 성능을 향상 시킬 예정이며 한국어와 관련된 모델을 개발할 예정이다.
질의응답
핵심어
질문
논문에서 추출한 답변
COVID-19의 감염은 어떻게 되는가?
박쥐 중증급성호흡기증후군과 유전적 유사성을 지니고 있다. COVID-19는 감염자가 기침이나 재채기할 때 등의 비말이 호흡기나 눈,코,입의 점막으로 침투되었을 때, COVID-19에 오염된 물건을 만진 뒤 눈, 코, 입을 만짐을 통해 감염된다. 이로 인하여 전 세계적으로 유례없는 감염 전파가 이루어지고 있다.
COVID-19는 어떤 질환인가?
COVID-19는 SARS-CoV-2에 의한 호흡기 감염질환이다. 박쥐 중증급성호흡기증후군과 유전적 유사성을 지니고 있다.
COVID-19는 어떤 증후군과 유전적 유사성을 가지고 있는가?
COVID-19는 SARS-CoV-2에 의한 호흡기 감염질환이다. 박쥐 중증급성호흡기증후군과 유전적 유사성을 지니고 있다. COVID-19는 감염자가 기침이나 재채기할 때 등의 비말이 호흡기나 눈,코,입의 점막으로 침투되었을 때, COVID-19에 오염된 물건을 만진 뒤 눈, 코, 입을 만짐을 통해 감염된다.
참고문헌 (15)
Covid, C. D. C. & Team, R. (2020). Severe outcomes among patients with coronavirus disease 2019 (COVID-19)-United States, February 12-March 16, 2020. MMWR Morb Mortal Wkly Rep, 69(12), 343-346.
Sohrabi, C. et al. (2020). World Health Organization declares global emergency: A review of the 2019 novel coronavirus (COVID-19). International Journal of Surgery.
Kasher, A. (Ed.). (2012). Language in focus: foundations, methods and systems: essays in memory of Yehoshua Bar-Hillel (Vol. 43). Springer Science & Business Media.
Dugast, L., Senellart, J. & Koehn, P. (2007, June). Statistical Post-Editing on SYSTRAN's Rule-Based Translation System. In Proceedings of the Second Workshop on Statistical Machine Translation (pp. 220-223).
Koehn, P., Och, F. J. & Marcu, D. (2003, May). Statistical phrase-based translation. In Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology-Volume 1 (pp. 48-54). Association for Computational Linguistics.
Bahdanau, D., Cho, K. & Bengio, Y. (2014). Neural machine translation by jointly learning to align and translate. arXiv preprint arXiv:1409.0473.
Sutskever, I., Vinyals, O. & Le, Q. V. (2014). Sequence to sequence learning with neural networks. In Advances in neural information processing systems (pp. 3104-3112).
Kalchbrenner, N., Espeholt, L., Simonyan, K., Oord, A. V. D., Graves, A. & Kavukcuoglu, K. (2016). Neural machine translation in linear time. arXiv preprint arXiv:1610.10099.
Gehring, J., Auli, M., Grangier, D., Yarats, D. & Dauphin, Y. N. (2017, August). Convolutional sequence to sequence learning. In Proceedings of the 34th International Conference on Machine Learning-Volume 70 (pp. 1243-1252). JMLR. org.
Vaswani, A. et al. (2017). Attention is all you need. In Advances in neural information processing systems (pp. 5998-6008).
Lample, G. & Conneau, A. (2019). Cross-lingual language model pretraining. arXiv preprint arXiv:1901.07291.
Song, K., Tan, X., Qin, T., Lu, J. & Liu, T. Y. (2019). Mass: Masked sequence to sequence pre-training for language generation. arXiv preprint arXiv:1905.02450.
Liu, Y. et al. (2020). Multilingual denoising pre-training for neural machine translation. arXiv preprint arXiv:2001.08210.
Kudo, T. & Richardson, J. (2018). Sentencepiece: A simple and language independent subword tokenizer and detokenizer for neural text processing. arXiv preprint arXiv:1808.06226.
Papineni, K., Roukos, S., Ward, T. & Zhu, W. J. (2002, ㄴ July). BLEU: a method for automatic evaluation of machine translation. In Proceedings of the 40th annual meeting on association for computational linguistics (pp. 311-318). Association for Computational Linguistics.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.