영한 기계번역 시스템을 개발하기 위해서는 언어에 대한 다양한 정보를 필요로 하며, 특히 영어 단어에 대한 의미 정보를 포함하는 영한 변환사전의 풍부한 정보량은 번역품질에 중요한 요소이다. 지속적으로 생성되는 새로운 단어들은 사전에 등록되어 있지 않아 번역문에 영어 단어가 그대로 출력되어 번역품질을 저하시킨다. 또한 복합명사는 어휘분석, 구문분석을 복잡하게 하고 사전에 의미가 등록되지 않은 경우가 많아 올바르게 번역하기 어렵다. 따라서 영한 기계번역의 번역품질 향상을 위해서는 사전에 등록되어 있지 않은 단어들과 자주 사용되는 복합명사들을 수집하고 의미 정보를 추가하여 영한 변환사전을 지속적으로 확장하는 것이 필요하다. 본 논문에서는 인터넷 신문기사로부터 말뭉치를 추출하고, 사전 미등록 단어와 자주 나타나는 복합명사를 찾은 후, 이들에 대해 의미를 부착하여 영한 변환사전에 추가하는 일련의 과정으로 구성되는 영한 변환사전의 확장 방안을 제안하고 이를 지원하는 도구를 개발하였다. 사전 정보의 확대는 많은 사람의 노력을 필요로 하는 일이지만, 영한 기계번역 시스템의 개선을 위해서는 필수적이다. 본 논문에서 개발한 도구는 사람의 노력을 최소화 하면서, 영한 변환사전의 정보량 지속적인 확대를 위해 유용하게 활용되어 영한 기계번역 시스템의 번역품질 개선에 기여할 것으로 기대된다.
영한 기계번역 시스템을 개발하기 위해서는 언어에 대한 다양한 정보를 필요로 하며, 특히 영어 단어에 대한 의미 정보를 포함하는 영한 변환사전의 풍부한 정보량은 번역품질에 중요한 요소이다. 지속적으로 생성되는 새로운 단어들은 사전에 등록되어 있지 않아 번역문에 영어 단어가 그대로 출력되어 번역품질을 저하시킨다. 또한 복합명사는 어휘분석, 구문분석을 복잡하게 하고 사전에 의미가 등록되지 않은 경우가 많아 올바르게 번역하기 어렵다. 따라서 영한 기계번역의 번역품질 향상을 위해서는 사전에 등록되어 있지 않은 단어들과 자주 사용되는 복합명사들을 수집하고 의미 정보를 추가하여 영한 변환사전을 지속적으로 확장하는 것이 필요하다. 본 논문에서는 인터넷 신문기사로부터 말뭉치를 추출하고, 사전 미등록 단어와 자주 나타나는 복합명사를 찾은 후, 이들에 대해 의미를 부착하여 영한 변환사전에 추가하는 일련의 과정으로 구성되는 영한 변환사전의 확장 방안을 제안하고 이를 지원하는 도구를 개발하였다. 사전 정보의 확대는 많은 사람의 노력을 필요로 하는 일이지만, 영한 기계번역 시스템의 개선을 위해서는 필수적이다. 본 논문에서 개발한 도구는 사람의 노력을 최소화 하면서, 영한 변환사전의 정보량 지속적인 확대를 위해 유용하게 활용되어 영한 기계번역 시스템의 번역품질 개선에 기여할 것으로 기대된다.
Developing English-Korean machine translation system requires the construction of information about the languages, and the amount of information in English-Korean transfer dictionary is especially critical to the translation quality. Newly created words are out-of-vocabulary words and they appear as...
Developing English-Korean machine translation system requires the construction of information about the languages, and the amount of information in English-Korean transfer dictionary is especially critical to the translation quality. Newly created words are out-of-vocabulary words and they appear as they are in the translated sentence, which decreases the translation quality. Also, compound nouns make lexical and syntactic analysis complex and it is difficult to accurately translate compound nouns due to the lack of information in the transfer dictionary. In order to improve the translation quality of English-Korean machine translation, we must continuously expand the information of the English-Korean transfer dictionary by collecting the out-of-vocabulary words and the compound nouns frequently used. This paper proposes a method for expanding of the transfer dictionary, which consists of constructing corpus from internet newspapers, extracting the words which are not in the existing dictionary and the frequently used compound nouns, attaching meaning to the extracted words, and integrating with the transfer dictionary. We also develop the tool supporting the expansion of the transfer dictionary. The expansion of the dictionary information is critical to improving the machine translation system but requires much human efforts. The developed tool can be useful for continuously expanding the transfer dictionary, and so it is expected to contribute to enhancing the translation quality.
Developing English-Korean machine translation system requires the construction of information about the languages, and the amount of information in English-Korean transfer dictionary is especially critical to the translation quality. Newly created words are out-of-vocabulary words and they appear as they are in the translated sentence, which decreases the translation quality. Also, compound nouns make lexical and syntactic analysis complex and it is difficult to accurately translate compound nouns due to the lack of information in the transfer dictionary. In order to improve the translation quality of English-Korean machine translation, we must continuously expand the information of the English-Korean transfer dictionary by collecting the out-of-vocabulary words and the compound nouns frequently used. This paper proposes a method for expanding of the transfer dictionary, which consists of constructing corpus from internet newspapers, extracting the words which are not in the existing dictionary and the frequently used compound nouns, attaching meaning to the extracted words, and integrating with the transfer dictionary. We also develop the tool supporting the expansion of the transfer dictionary. The expansion of the dictionary information is critical to improving the machine translation system but requires much human efforts. The developed tool can be useful for continuously expanding the transfer dictionary, and so it is expected to contribute to enhancing the translation quality.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
복합어(compound words)는 두 개 이상의 단어로 구성되는 하나의 어휘 단위(lexical unit)인데,명사 복합어, 형용사 복합어, 부사 복합어, 전치사 복합어 등 복합어는 영어의 모든 품사에 해당하는 단위를 형성할 수 있다[7]. 본 논문에서는 그 중 명사 복합어, 즉 복합명사를 말뭉치로부터 추출하여 변환사전에 등록함으로써 영한 기계번역의 번역품질 개선을 도모하고자 한다. 영어에서 복합명사 인식은 명사구 추출(noun phrase extraction) 문제의 부분인데, 명사구 추출은 문장에 존재하는 모든 명사구를 인식하는 문제이며 정보검색(information retrieval)의 성능 개선을 위해 유용하게 이용될 수 있다[8].
본 논문에서는 기 구축된 변환사전의 정보량을 지속적으로 확장하여 기계번역 시스템의 지속적 개선을 지원하기 위한 방법론에 초점을 맞추었다. [14]에서는 변환사전의 정보량 확대를 보다 용이하게 할 수 있도록 변환사전 관리 도구를 개발하였다.
그런데 이 도구는 사전 전문가가 번역품질의 개선을 위해 개별적인 단어를 추가하는 작업을 지원하는 것으로서 대량의 정보를 추가하는 기능은 지원하지 않는다. 본 논문에서는 대량의 정보를 사람의 노력을 최소화하면서 변환사전에 추가하는 방법론에 대해서 연구하였다. 즉, 인터넷 신문기사로부터 영어 말뭉치를 구축하고, 이로부터 사전 미등록 단어와 자주 나타나는 복합명사를 추출하고, 여기에 의미를 부착하여 변환사전에 추가하는 과정으로 구성되는 방안을 제시하고 이를 지원하는 도구를 개발하였다.
추출된 미등록 단어와 복합명사에 대해서 대역어를 입력하는 작업은 전문가에 의해 수행되고 결과를 영한 변환사전에 통합하여 영한 기계번역 시스템에서 사용할 수 있도록 한다. 본 논문에서는 말뭉치 수집, 사전 미등록 단어와 복합명사의 추출, 의미 부착, 영한 변환사전과의 통합 등의 일련의 과정을 지원하는 도구를 개발하였다.
본 논문에서는 영한 기계번역 시스템의 번역품질 유지와 개선을 지원하기 위해 영한 변환사전의 정보량을 지속적으로 확장하는 방안을 제안한다. 사전 미등록 단어와 자주 사용되는 복합명사를 지속적으로 수집하여 추가하는 방식으로 정보량을 확장하려고 한다.
영한 기계번역 시스템의 성능은 구축한 정보량과 이를 활용하는 효과적이고 효율적인 알고리즘과 밀접한 관계가 있다. 본 논문에서는 영한 기계번역 시스템의 번역품질 유지와 개선을 지원할 수 있도록 영한 변환사전의 정보량을 지속적으로 확장하는 방안을 제시한다.
본 논문에서는 영한 기계번역 시스템의 영한 변환사전의 확장을 위해 영어 말뭉치 구축과 이로부터 사전 미등록어와 복합명사를 수집하여 기존 변환사전에 추가하는 일련의 과정으로 구성된 영한 변환사전 확장 방안을 제시하고 이를 지원하는 도구를 개발하였다. 영한 변환사전 확장 도구는 인터넷 신문기사를 추출하여 영어 말뭉치를 구축하고 기존 영한 변환사전에 없는 단어와 일정 빈도수 이상 나타나는 복합명사를 추출하고, 의미추가 및 영한 변환사전과의 통합 등의 과정을 지원하는 모듈로 구성된다.
본 논문에서는 인터넷 신문기사로부터 영어 말뭉치를 구축하고 말뭉치로부터 영한 변환사전에 등록되지 않은 단어들과 자주 사용되는 복합명사를 수집하여 이들에 대한 의미를 부착한 후 기존 영한 변환사전에 통합하는 영한 변환 사전 확장 방안을 제안한다. 신조어의 수집을 위해 매일매일의 신문기사로부터 말뭉치를 구축하며, 말뭉치로부터 기존 영한 변환 사전에 없는 단어를 추출한다.
본 논문에서는 영한 기계번역 시스템의 번역품질 유지와 개선을 지원하기 위해 영한 변환사전의 정보량을 지속적으로 확장하는 방안을 제안한다. 사전 미등록 단어와 자주 사용되는 복합명사를 지속적으로 수집하여 추가하는 방식으로 정보량을 확장하려고 한다.
제안 방법
3절에서 설명한 복합명사 수집 도구를 이용하여 2, 3, 4 단어로 구성된 복합명사를 추출한 결과이다. 5 단어 이상의 복합명사도 존재하겠지만 그 수가 적을 것이라 판단하여 4 단어 이하의 복합명사만을 추출하였다.
4 절에서 생성된 복합명사 파일 자체가 복합명사 사전의 역할을 한다. 그리고 이 도구는 어휘사전에 필요한 품사 정보를 추가하는 기능을 제공하는데, 어휘사전에 있던 단어의 경우에는 품사정보만을 추가하며, 그렇지 않은 단어에 대해서는 알파벳 순서에 맞게 단어와 품사정보를 함께 추가하도록 하였다. 결과적으로 보다 많은 단어를 포함하는 확장된 변환사전과 복합명사 사전이 최종 결과물이 된다.
논문에서 제안한 영한 변환사전 확장 방안은 적은 사람의 노력만을 투입하여 지속적으로 사전 정보량을 확대할 수 있도록 한다. 이를 통해 영한 기계번역 시스템의 번역품질을 유지하고 개선하는 것을 지원할 것으로 기대된다.
3(c)). 다음으로 ArticleExtractor가 기사의 주소를 얻어서 해당 주소에 있는 기사를 추출하여 파일에 저장한다. ArticleExtractor는 기사들의 개수만큼 반복적으로 수행되어 모든 기사에 있는 문장을 추출하여 하나의 파일에 저장한다(Fig.
첫 번째 단계에서는 데일리중앙1), 코리아헤럴드2), 매일경제 영문판3) 등 3 가지 인터넷 영어 신문 사이트에서 신문기사를 추출하여 영어 말뭉치를 구축한다. 두 번째 단계에서는 구축한 말뭉치에서 기존 영한 변환사전에 등록되어 있지 않은 단어를 추출하고 자주 나타나는 복합명사를 수집한다. 세 번째 단계에서는 추출한 단어와 복합명사의 의미정보를 부착한다.
복합명사의 수집을 위해 복합명사를 형성할 수 없는 불용어를 정의하여 문서에서 복합명사 후보를 추출한 후, 빈도수를 기준으로 복합명사로 간주하는 간단한 방법을 적용하였다. 이는 영한 기계번역을 위해 최대한 많은 복합명사를 인식하여 최대한으로 성능을 개선하기 보다는 의미 있는 성능 개선을 약간의 노력으로 달성하려는 목적에 부합한다고 할 수 있다.
신조어의 수집을 위해 매일매일의 신문기사로부터 말뭉치를 구축하며, 말뭉치로부터 기존 영한 변환 사전에 없는 단어를 추출한다. 복합명사의 추출을 위해서는 복합명사를 구성할 수 없는 불용어를 정의하고, 문서에 나타나는 빈도수를 기준으로 복합명사를 확인하도록 한다. 즉 규칙에 의해 불용어를 확인하고 빈도수에 의해 복합명사로 판단하는, 규칙과 통계적인 방법을 혼용한 수집 방법을 적용하였다.
사전 미등록어를 추출한 후, 일정 빈도수6) 이상의 단어들에 대해서 특수문자의 포함여부를 검사한 후사전 등록 대상을 선정한다. 사전과의 통합을 용이하게 하기 위해 대문자 시작 단어와 소문자 시작 단어를 구분하였다.
영한 기계번역 시스템의 영한 변환사전 확장을 위해 인터넷 영어 신문기사 말뭉치를 수집하고 수집한 말뭉치로부터 사전 미등록 단어와 복합명사를 추출하였다. 신문이 신조어를 많이 포함하고 있다고 판단하여 신문으로부터 말뭉치를 구축하였으며, 경제, 과학, 기술 분야의 기사를 추출하였다. Table 2는 2012년 2월 26일부터 5월 20일까지 12주간 동안, 2명이 매주 20분씩의 작업을 통해 구축한 말뭉치에 대한 통계를 보여준다.
영한 기계번역 시스템의 영한 변환사전 확장을 위해 인터넷 영어 신문기사 말뭉치를 수집하고 수집한 말뭉치로부터 사전 미등록 단어와 복합명사를 추출하였다. 신문이 신조어를 많이 포함하고 있다고 판단하여 신문으로부터 말뭉치를 구축하였으며, 경제, 과학, 기술 분야의 기사를 추출하였다.
영한 변환사전에 등록된 단어 목록을 만들고 이를 이용하여 사전 등록 여부를 판단하고 첫 단계에서 생성한 영어 말뭉치로부터 사전 미등록 단어를 추출한다. 영한 변환사전은 명사, 동사, 형용사, 부사, 대명사, 전치사, 접속사 등 7개의 사전으로 구성되는데, 품사별 사전 중 어느 곳에도 등록되어 있지 않은 단어를 말뭉치로부터 추출하여 첫 글자의 알파벳 순서로 정렬하여 파일에 출력한다.
의미를 선정할 단어는 [English Word] 부분에 나타나고 [Sample Sentences] 부분에서 예문을 참고하여 의미를 결정하여 [Meaning] 부분에 입력하고 단어의 적절한 품사를 [Part-of-Speech] 부분에서 선택한다. 의미를 결정할 때 고려할 정책을 [Policy] 부분에 제시하여 일관성 있는 의미 결정을 할 수 있도록 하였다. 의미 부착 도구는 사전 미등록어와 복합명사를 제시하고, 미등록 단어와 복합명사의 문맥을 제공하는 등의 기능을 갖추어 사람이 효율적으로 의미 부착 작업을 수행할 수 있도록 지원한다.
복합명사의 추출을 위해서는 복합명사를 구성할 수 없는 불용어를 정의하고, 문서에 나타나는 빈도수를 기준으로 복합명사를 확인하도록 한다. 즉 규칙에 의해 불용어를 확인하고 빈도수에 의해 복합명사로 판단하는, 규칙과 통계적인 방법을 혼용한 수집 방법을 적용하였다. 추출된 미등록 단어와 복합명사에 대해서 대역어를 입력하는 작업은 전문가에 의해 수행되고 결과를 영한 변환사전에 통합하여 영한 기계번역 시스템에서 사용할 수 있도록 한다.
[1]에서는 사용자 번역 사전 구축을 통해 번역품질을 개선할 수 있음을 보였다. 즉 사용자 사전 정보가 기존 번역 사전 정보와 문법 규칙을 대치할 수 있도록 하여, 사용자 사전을 통한 번역품질 개선에 대한 결과를 제시하였다. 이는 번역 시스템이 포함하고 있는 번역사전 이외에 독립적인 사전을 추가하여 번역품질을 개선할 수 있음을 보여준다.
복합명사의 수집은 복합명사를 구성할 수 없는 불용어의 판단과 문서에 나타나는 빈도수를 이용하여 복합명사를 추출하는 방법을 적용한다. 즉, 불용어를 판단하기 위한 규칙을 정의하고 불용어를 제외한 연속적인 단어들을 결합하여 복합명사 후보를 추출하고 추출된 복합명사 후보들이 문서에서 나타나는 빈도수를 기준으로 복합명사로 판단한다. 간단한 방법이지만 자주 나타나는 복합명사를 수집함으로써 영한 기계번역 시스템의 번역품질 개선에 기여할 수 있다.
본 논문에서는 대량의 정보를 사람의 노력을 최소화하면서 변환사전에 추가하는 방법론에 대해서 연구하였다. 즉, 인터넷 신문기사로부터 영어 말뭉치를 구축하고, 이로부터 사전 미등록 단어와 자주 나타나는 복합명사를 추출하고, 여기에 의미를 부착하여 변환사전에 추가하는 과정으로 구성되는 방안을 제시하고 이를 지원하는 도구를 개발하였다.
대상 데이터
12주간의 작업을 통해 사전 미등록 단어 968개와 약 2,300개 이상의 복합명사를 수집할 수 있었다. 이후 전문가에 의한 의미 부착과 영한 변환사전과의 통합이 이루어진다.
Table 3은 수집한 말뭉치로부터 추출한 사전 미등록어의 수를 보여준다. 사전 미등록어를 추출한 후, 일정 빈도수6) 이상의 단어들에 대해서 특수문자의 포함여부를 검사한 후사전 등록 대상을 선정한다. 사전과의 통합을 용이하게 하기 위해 대문자 시작 단어와 소문자 시작 단어를 구분하였다.
성능/효과
위의 표들은 기준 빈도수를 2, 3, 5, 7, 10으로 정하고 기준 빈도수 이상 나타나는 복합명사의 개수를 보여준다. 기준 빈도수가 높을수록 추출되는 복합명사의 개수가 줄어드는 것은 당연하나, 10번 이상 나타나는 복합명사의 총 수는 2,307로 논문에서 제시한 방법으로 많은 복합명사를 추출할 수 있음을 알 수 있다.
이는 영한 기계번역을 위해 최대한 많은 복합명사를 인식하여 최대한으로 성능을 개선하기 보다는 의미 있는 성능 개선을 약간의 노력으로 달성하려는 목적에 부합한다고 할 수 있다. 따라서 논문에서 제안한 복합명사 수집 방법은 실제로 적용될 수 있는 유용성이 있다고 판단한다.
후속연구
또한 추출한 복합명사에 대한 분석을 통해 불용어를 확장하고, 보다 정교한 불용어 확인 방법을 고안하여 대용량의 데이터로부터 의미있는 복합명사를 추출하는 연구가 필요하다. 그리고 숙어인식을 이용하여 복합명사 처리하였던 기존의 방식을 개선하여 3.5절에서 언급한 것처럼 복합명사를 사전을 독립적으로 유지하고 이를 어휘분석과 구문분석 단계에서 활용하도록 하여 영어 분석의 효율성을 개선하는 연구가 필요하다. 이는 복합명사를 포함하는 문장에 대해 보다 빠르고 정확한 번역을 가능하게 할 것이며 궁극적으로 영한 기계번역 시스템의 성능에도 긍정적 영향을 미칠 것이다.
이를 통해 영한 기계번역 시스템의 번역품질을 유지하고 개선하는 것을 지원할 것으로 기대된다. 또한 영어 말뭉치 구축 기능은 영한 기계번역 시스템의 개선을 위해 다양하게 활용될 수 있을 것이다.
의미 부착이 자동화될 수 있다면 사전에 등록하지 않고 번역 시스템에서 직접 한국어 대역어를 생성할 수 있으므로 매번 사전에 등록하는 것보다 사전 미등록어에 대한 일반적인 해결방법이 될 것이다. 또한 추출한 복합명사에 대한 분석을 통해 불용어를 확장하고, 보다 정교한 불용어 확인 방법을 고안하여 대용량의 데이터로부터 의미있는 복합명사를 추출하는 연구가 필요하다. 그리고 숙어인식을 이용하여 복합명사 처리하였던 기존의 방식을 개선하여 3.
앞으로 새로 수집된 단어들에 대한 분석이 필요할 것으로 판단된다. 새로운 명칭을 나타내는 고유명사, 하이픈(-)을 포함하는 명사 또는 형용사들이 많이 나타나는데 이들에 대한 의미 부착을 자동화 또는 반자동화 하는 방안을 연구할 예정이다. 의미 부착이 자동화될 수 있다면 사전에 등록하지 않고 번역 시스템에서 직접 한국어 대역어를 생성할 수 있으므로 매번 사전에 등록하는 것보다 사전 미등록어에 대한 일반적인 해결방법이 될 것이다.
앞으로 새로 수집된 단어들에 대한 분석이 필요할 것으로 판단된다. 새로운 명칭을 나타내는 고유명사, 하이픈(-)을 포함하는 명사 또는 형용사들이 많이 나타나는데 이들에 대한 의미 부착을 자동화 또는 반자동화 하는 방안을 연구할 예정이다.
[13]에서는 웹과 말뭉치로부터 자기-학습(self-learning) 학습 방법으로 복합어의 대역어를 획득하는 방안을 제시하였다. 여기서 제안한 방법은 언어 쌍에 독립적이므로 영어-한국어 간의 복합어의 대역어를 얻는 데에도 활용할 수 있을 것으로 판단된다.
영한 기계번역 시스템을 개발하기 위해서는 영어와 한국어에 대한 언어 정보(영어 어휘규칙 정보, 영어 구문구조 정보, 영한 변환 정보, 한국어 생성 정보)와 다양한 사전 정보(영어 어휘사전, 영한 변환사전, 한국어 생성사전)를 구축하고 이들 정보를 활용하여 분석과 생성을 수행하는 알고리즘을 개발해야 한다. 영한 기계번역 시스템의 성능은 구축한 정보량과 이를 활용하는 효과적이고 효율적인 알고리즘과 밀접한 관계가 있다.
논문에서 제안한 영한 변환사전 확장 방안은 적은 사람의 노력만을 투입하여 지속적으로 사전 정보량을 확대할 수 있도록 한다. 이를 통해 영한 기계번역 시스템의 번역품질을 유지하고 개선하는 것을 지원할 것으로 기대된다. 또한 영어 말뭉치 구축 기능은 영한 기계번역 시스템의 개선을 위해 다양하게 활용될 수 있을 것이다.
질의응답
핵심어
질문
논문에서 추출한 답변
복합어란 무엇인가?
복합어(compound words)는 두 개 이상의 단어로 구성되는 하나의 어휘 단위(lexical unit)인데,명사 복합어, 형용사 복합어, 부사 복합어, 전치사 복합어 등 복합어는 영어의 모든 품사에 해당하는 단위를 형성할 수 있다[7]. 본 논문에서는 그 중 명사 복합어, 즉 복합명사를 말뭉치로부터 추출하여 변환사전에 등록함으로써 영한 기계번역의 번역품질 개선을 도모하고자 한다.
본 논문에서는 신조어의 수집을 위해 어떤 절차를 거치는가?
본 논문에서는 인터넷 신문기사로부터 영어 말뭉치를 구축하고 말뭉치로부터 영한 변환사전에 등록되지 않은 단어들과 자주 사용되는 복합명사를 수집하여 이들에 대한 의미를 부착한 후 기존 영한 변환사전에 통합하는 영한 변환 사전 확장 방안을 제안한다. 신조어의 수집을 위해 매일매일의 신문기사로부터 말뭉치를 구축하며, 말뭉치로부터 기존 영한 변환 사전에 없는 단어를 추출한다. 복합명사의 추출을 위해서는 복합명사를 구성할 수 없는 불용어를 정의하고, 문서에 나타나는 빈도수를 기준으로 복합명사를 확인하도록 한다.
영한 기계번역의 번역품질 향상을 위해서 복합명사들을 수집하고 의미 정보를 추가하여 영한 변환사전을 지속적으로 확장해야 하는 것이 필요한 이유는 무엇인가?
영한 기계번역 시스템을 개발하기 위해서는 언어에 대한 다양한 정보를 필요로 하며, 특히 영어 단어에 대한 의미 정보를 포함하는 영한 변환사전의 풍부한 정보량은 번역품질에 중요한 요소이다. 지속적으로 생성되는 새로운 단어들은 사전에 등록되어 있지 않아 번역문에 영어 단어가 그대로 출력되어 번역품질을 저하시킨다. 또한 복합명사는 어휘분석, 구문분석을 복잡하게 하고 사전에 의미가 등록되지 않은 경우가 많아 올바르게 번역하기 어렵다. 따라서 영한 기계번역의 번역품질 향상을 위해서는 사전에 등록되어 있지 않은 단어들과 자주 사용되는 복합명사들을 수집하고 의미 정보를 추가하여 영한 변환사전을 지속적으로 확장하는 것이 필요하다.
참고문헌 (14)
Jeff Allen, "Improved Translation Quality with Machine Translation Dictionary Building", TranslatioCafe.com, June, 2006.
Mary McGee Wood, E. Pollard, H. Horsfall, N. Holdel, B, Chandler, and J. Carroll, "Dictionary Organization for Machine Translation: The Experience and Implications of the UMIST Japanese Project", Proceedings of the 3rd Conference on European Chapter of the Association for Computational Linguistics, 1987.
H. S. Lee, Y. T. Kim, "Automatic Extraction of Collocations and Verbal Idioms from Corpus for a Generation of English-Korean Transfer Dictionary," Journal of KIISE: Vol.21, No.6, pp.2110-2117, 1994.
S. J. Lee, S. K. Park, Y. T. Kim, "Head-based Phrase Structure Transfer Dictionary for Korean-English Machine Translation," in Proceedings of the 6th Human and Cognitive Language Technology (HCLT), 1994.
C. Y Ok, "Phrase-based Transfer Dictionary for Korean-English Machine Translation," Phd. Thesis, Dept. of Computer Engineering, Seoul National University, 1993.
S. M. Kim, C. W Min, S. C. Kang, J. I. Char, "Method and Apparatus for developing a transfer dictionary used in transfer-based machine translation system," Patent No. 100530154, 2005.
Su Nam Kim, "Statistical Modeling of Multiword Expressions," Ph.D. thesis, University of Melbourne, Melbourne, 2008.
H.-S. Bae, K.-S. Choi, "Electronic Dictionary for Performance Improvement of the Information Retrieval System," Journal of French Culture and Art Study, No.6, pp.69-82, 2002.
Jansche, Martin. "Named Entity Extraction with Conditional Markov Models and Classifiers," Proceedings of Conference on Computational Natural Language Learning, pp.1-4, 2002.
A. McCallum and W. Li, "Early Results for Named Entity Recognition with Conditional Random Fields, Features Induction and Web-Enhanced Lexicons," Proceedings of Conference on Natural Language Learning, pp.188-191, 2003.
Y. Shinyama and S. Sekine, "Named Entity Discovery Using Comparable News Articles," Proceedings of the International Conference on Computational Linguistics, 2004.
A. Kunchukuttan and Om P. Damani, "A System for Compound Noun Multiword Expression Extraction for Hindi," Proceedings of ICON-2008, 6th International Conference on Natural Language processing, pp.20-29, 2008.
Yujie Zhang and Hitoshi Isahara, "Acquiring Compound Word Translations Both Automatically and Dynamically," Proceedings of the Pacific Asia Conference on Language, Information, and Computation, pp.181-186, 2004.
Sung-Dong Kim, Da-Un kang, Bohee Lee, Dorim Kim, "Development of Dictionary Management Tool for English-Korean Machine Translation System," in Proceedings of the 36th KIISE(Korean Institute of Information Scientists and Engineers) Fall Conference, Vol.36, No.2(C), pp.199-203, 2009.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.