$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

영한 기계번역 시스템의 영한 변환사전 확장 도구
English-Korean Transfer Dictionary Extension Tool in English-Korean Machine Translation System 원문보기

정보처리학회논문지. KIPS transactions on software and data engineering. 소프트웨어 및 데이터 공학, v.2 no.1, 2013년, pp.35 - 42  

김성동 (한성대학교 컴퓨터공학과)

초록
AI-Helper 아이콘AI-Helper

영한 기계번역 시스템을 개발하기 위해서는 언어에 대한 다양한 정보를 필요로 하며, 특히 영어 단어에 대한 의미 정보를 포함하는 영한 변환사전의 풍부한 정보량은 번역품질에 중요한 요소이다. 지속적으로 생성되는 새로운 단어들은 사전에 등록되어 있지 않아 번역문에 영어 단어가 그대로 출력되어 번역품질을 저하시킨다. 또한 복합명사는 어휘분석, 구문분석을 복잡하게 하고 사전에 의미가 등록되지 않은 경우가 많아 올바르게 번역하기 어렵다. 따라서 영한 기계번역의 번역품질 향상을 위해서는 사전에 등록되어 있지 않은 단어들과 자주 사용되는 복합명사들을 수집하고 의미 정보를 추가하여 영한 변환사전을 지속적으로 확장하는 것이 필요하다. 본 논문에서는 인터넷 신문기사로부터 말뭉치를 추출하고, 사전 미등록 단어와 자주 나타나는 복합명사를 찾은 후, 이들에 대해 의미를 부착하여 영한 변환사전에 추가하는 일련의 과정으로 구성되는 영한 변환사전의 확장 방안을 제안하고 이를 지원하는 도구를 개발하였다. 사전 정보의 확대는 많은 사람의 노력을 필요로 하는 일이지만, 영한 기계번역 시스템의 개선을 위해서는 필수적이다. 본 논문에서 개발한 도구는 사람의 노력을 최소화 하면서, 영한 변환사전의 정보량 지속적인 확대를 위해 유용하게 활용되어 영한 기계번역 시스템의 번역품질 개선에 기여할 것으로 기대된다.

Abstract AI-Helper 아이콘AI-Helper

Developing English-Korean machine translation system requires the construction of information about the languages, and the amount of information in English-Korean transfer dictionary is especially critical to the translation quality. Newly created words are out-of-vocabulary words and they appear as...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 복합어(compound words)는 두 개 이상의 단어로 구성되는 하나의 어휘 단위(lexical unit)인데,명사 복합어, 형용사 복합어, 부사 복합어, 전치사 복합어 등 복합어는 영어의 모든 품사에 해당하는 단위를 형성할 수 있다[7]. 본 논문에서는 그 중 명사 복합어, 즉 복합명사를 말뭉치로부터 추출하여 변환사전에 등록함으로써 영한 기계번역의 번역품질 개선을 도모하고자 한다. 영어에서 복합명사 인식은 명사구 추출(noun phrase extraction) 문제의 부분인데, 명사구 추출은 문장에 존재하는 모든 명사구를 인식하는 문제이며 정보검색(information retrieval)의 성능 개선을 위해 유용하게 이용될 수 있다[8].
  • 본 논문에서는 기 구축된 변환사전의 정보량을 지속적으로 확장하여 기계번역 시스템의 지속적 개선을 지원하기 위한 방법론에 초점을 맞추었다. [14]에서는 변환사전의 정보량 확대를 보다 용이하게 할 수 있도록 변환사전 관리 도구를 개발하였다.
  • 그런데 이 도구는 사전 전문가가 번역품질의 개선을 위해 개별적인 단어를 추가하는 작업을 지원하는 것으로서 대량의 정보를 추가하는 기능은 지원하지 않는다. 본 논문에서는 대량의 정보를 사람의 노력을 최소화하면서 변환사전에 추가하는 방법론에 대해서 연구하였다. 즉, 인터넷 신문기사로부터 영어 말뭉치를 구축하고, 이로부터 사전 미등록 단어와 자주 나타나는 복합명사를 추출하고, 여기에 의미를 부착하여 변환사전에 추가하는 과정으로 구성되는 방안을 제시하고 이를 지원하는 도구를 개발하였다.
  • 추출된 미등록 단어와 복합명사에 대해서 대역어를 입력하는 작업은 전문가에 의해 수행되고 결과를 영한 변환사전에 통합하여 영한 기계번역 시스템에서 사용할 수 있도록 한다. 본 논문에서는 말뭉치 수집, 사전 미등록 단어와 복합명사의 추출, 의미 부착, 영한 변환사전과의 통합 등의 일련의 과정을 지원하는 도구를 개발하였다.
  • 본 논문에서는 영한 기계번역 시스템의 번역품질 유지와 개선을 지원하기 위해 영한 변환사전의 정보량을 지속적으로 확장하는 방안을 제안한다. 사전 미등록 단어와 자주 사용되는 복합명사를 지속적으로 수집하여 추가하는 방식으로 정보량을 확장하려고 한다.
  • 영한 기계번역 시스템의 성능은 구축한 정보량과 이를 활용하는 효과적이고 효율적인 알고리즘과 밀접한 관계가 있다. 본 논문에서는 영한 기계번역 시스템의 번역품질 유지와 개선을 지원할 수 있도록 영한 변환사전의 정보량을 지속적으로 확장하는 방안을 제시한다.
  • 본 논문에서는 영한 기계번역 시스템의 영한 변환사전의 확장을 위해 영어 말뭉치 구축과 이로부터 사전 미등록어와 복합명사를 수집하여 기존 변환사전에 추가하는 일련의 과정으로 구성된 영한 변환사전 확장 방안을 제시하고 이를 지원하는 도구를 개발하였다. 영한 변환사전 확장 도구는 인터넷 신문기사를 추출하여 영어 말뭉치를 구축하고 기존 영한 변환사전에 없는 단어와 일정 빈도수 이상 나타나는 복합명사를 추출하고, 의미추가 및 영한 변환사전과의 통합 등의 과정을 지원하는 모듈로 구성된다.
  • 본 논문에서는 인터넷 신문기사로부터 영어 말뭉치를 구축하고 말뭉치로부터 영한 변환사전에 등록되지 않은 단어들과 자주 사용되는 복합명사를 수집하여 이들에 대한 의미를 부착한 후 기존 영한 변환사전에 통합하는 영한 변환 사전 확장 방안을 제안한다. 신조어의 수집을 위해 매일매일의 신문기사로부터 말뭉치를 구축하며, 말뭉치로부터 기존 영한 변환 사전에 없는 단어를 추출한다.
  • 본 논문에서는 영한 기계번역 시스템의 번역품질 유지와 개선을 지원하기 위해 영한 변환사전의 정보량을 지속적으로 확장하는 방안을 제안한다. 사전 미등록 단어와 자주 사용되는 복합명사를 지속적으로 수집하여 추가하는 방식으로 정보량을 확장하려고 한다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
복합어란 무엇인가? 복합어(compound words)는 두 개 이상의 단어로 구성되는 하나의 어휘 단위(lexical unit)인데,명사 복합어, 형용사 복합어, 부사 복합어, 전치사 복합어 등 복합어는 영어의 모든 품사에 해당하는 단위를 형성할 수 있다[7]. 본 논문에서는 그 중 명사 복합어, 즉 복합명사를 말뭉치로부터 추출하여 변환사전에 등록함으로써 영한 기계번역의 번역품질 개선을 도모하고자 한다.
본 논문에서는 신조어의 수집을 위해 어떤 절차를 거치는가? 본 논문에서는 인터넷 신문기사로부터 영어 말뭉치를 구축하고 말뭉치로부터 영한 변환사전에 등록되지 않은 단어들과 자주 사용되는 복합명사를 수집하여 이들에 대한 의미를 부착한 후 기존 영한 변환사전에 통합하는 영한 변환 사전 확장 방안을 제안한다. 신조어의 수집을 위해 매일매일의 신문기사로부터 말뭉치를 구축하며, 말뭉치로부터 기존 영한 변환 사전에 없는 단어를 추출한다. 복합명사의 추출을 위해서는 복합명사를 구성할 수 없는 불용어를 정의하고, 문서에 나타나는 빈도수를 기준으로 복합명사를 확인하도록 한다.
영한 기계번역의 번역품질 향상을 위해서 복합명사들을 수집하고 의미 정보를 추가하여 영한 변환사전을 지속적으로 확장해야 하는 것이 필요한 이유는 무엇인가? 영한 기계번역 시스템을 개발하기 위해서는 언어에 대한 다양한 정보를 필요로 하며, 특히 영어 단어에 대한 의미 정보를 포함하는 영한 변환사전의 풍부한 정보량은 번역품질에 중요한 요소이다. 지속적으로 생성되는 새로운 단어들은 사전에 등록되어 있지 않아 번역문에 영어 단어가 그대로 출력되어 번역품질을 저하시킨다. 또한 복합명사는 어휘분석, 구문분석을 복잡하게 하고 사전에 의미가 등록되지 않은 경우가 많아 올바르게 번역하기 어렵다. 따라서 영한 기계번역의 번역품질 향상을 위해서는 사전에 등록되어 있지 않은 단어들과 자주 사용되는 복합명사들을 수집하고 의미 정보를 추가하여 영한 변환사전을 지속적으로 확장하는 것이 필요하다.
질의응답 정보가 도움이 되었나요?

참고문헌 (14)

  1. Jeff Allen, "Improved Translation Quality with Machine Translation Dictionary Building", TranslatioCafe.com, June, 2006. 

  2. Mary McGee Wood, E. Pollard, H. Horsfall, N. Holdel, B, Chandler, and J. Carroll, "Dictionary Organization for Machine Translation: The Experience and Implications of the UMIST Japanese Project", Proceedings of the 3rd Conference on European Chapter of the Association for Computational Linguistics, 1987. 

  3. H. S. Lee, Y. T. Kim, "Automatic Extraction of Collocations and Verbal Idioms from Corpus for a Generation of English-Korean Transfer Dictionary," Journal of KIISE: Vol.21, No.6, pp.2110-2117, 1994. 

  4. S. J. Lee, S. K. Park, Y. T. Kim, "Head-based Phrase Structure Transfer Dictionary for Korean-English Machine Translation," in Proceedings of the 6th Human and Cognitive Language Technology (HCLT), 1994. 

  5. C. Y Ok, "Phrase-based Transfer Dictionary for Korean-English Machine Translation," Phd. Thesis, Dept. of Computer Engineering, Seoul National University, 1993. 

  6. S. M. Kim, C. W Min, S. C. Kang, J. I. Char, "Method and Apparatus for developing a transfer dictionary used in transfer-based machine translation system," Patent No. 100530154, 2005. 

  7. Su Nam Kim, "Statistical Modeling of Multiword Expressions," Ph.D. thesis, University of Melbourne, Melbourne, 2008. 

  8. H.-S. Bae, K.-S. Choi, "Electronic Dictionary for Performance Improvement of the Information Retrieval System," Journal of French Culture and Art Study, No.6, pp.69-82, 2002. 

  9. Jansche, Martin. "Named Entity Extraction with Conditional Markov Models and Classifiers," Proceedings of Conference on Computational Natural Language Learning, pp.1-4, 2002. 

  10. A. McCallum and W. Li, "Early Results for Named Entity Recognition with Conditional Random Fields, Features Induction and Web-Enhanced Lexicons," Proceedings of Conference on Natural Language Learning, pp.188-191, 2003. 

  11. Y. Shinyama and S. Sekine, "Named Entity Discovery Using Comparable News Articles," Proceedings of the International Conference on Computational Linguistics, 2004. 

  12. A. Kunchukuttan and Om P. Damani, "A System for Compound Noun Multiword Expression Extraction for Hindi," Proceedings of ICON-2008, 6th International Conference on Natural Language processing, pp.20-29, 2008. 

  13. Yujie Zhang and Hitoshi Isahara, "Acquiring Compound Word Translations Both Automatically and Dynamically," Proceedings of the Pacific Asia Conference on Language, Information, and Computation, pp.181-186, 2004. 

  14. Sung-Dong Kim, Da-Un kang, Bohee Lee, Dorim Kim, "Development of Dictionary Management Tool for English-Korean Machine Translation System," in Proceedings of the 36th KIISE(Korean Institute of Information Scientists and Engineers) Fall Conference, Vol.36, No.2(C), pp.199-203, 2009. 

저자의 다른 논문 :

LOADING...

관련 콘텐츠

오픈액세스(OA) 유형

BRONZE

출판사/학술단체 등이 한시적으로 특별한 프로모션 또는 일정기간 경과 후 접근을 허용하여, 출판사/학술단체 등의 사이트에서 이용 가능한 논문

유발과제정보 저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로