보고서 정보
주관연구기관 |
고려대학교 산학협력단 Korea University |
보고서유형 | 최종보고서 |
발행국가 | 대한민국 |
언어 |
한국어
|
발행년월 | 2014-05 |
과제시작연도 |
2013 |
주관부처 |
미래창조과학부 Ministry of Science, ICT and Future Planning |
과제관리전문기관 |
한국연구재단 National Research Foundation of Korea |
등록번호 |
TRKO201500004147 |
과제고유번호 |
1345200122 |
사업명 |
중견연구자지원 |
DB 구축일자 |
2015-05-23
|
키워드 |
기계 번역.번역 지식.자연어처리.대용량 시스템.영-한 번역.중-한 번역.machine translation.translation knowledge.natural language processing.mass data processing.English-Korean.Chinese-Korean.
|
DOI |
https://doi.org/10.23000/TRKO201500004147 |
초록
▼
연구의 목적 및 내용
언어의 어휘/구조 정보 부족은 기계 번역의 품질을 하락시키는 주요 원인임. 본 연구에서는 명사구 대역 지식, 숙어 대역 지식, 술어-논항 구조 변환 지식, 구문 구조 변환 지식과 같은 다양한 종류의 번역 지식을 병렬 말뭉치로부터 자동으로 구축하고, 이를 활용하여 번역의 품질을 향상 시킬 수 있는 통계 기반 기계 번역 기술을 개발함.
개발하고자 하는 기술은 크게 1) 병렬 말뭉치로부터 다양한 번역 지식을 자동으로 추출하는 기술, 2) 추출된 지식을 활용하여 통계적으로 번역을 수행하는 기술, 3) 번역
연구의 목적 및 내용
언어의 어휘/구조 정보 부족은 기계 번역의 품질을 하락시키는 주요 원인임. 본 연구에서는 명사구 대역 지식, 숙어 대역 지식, 술어-논항 구조 변환 지식, 구문 구조 변환 지식과 같은 다양한 종류의 번역 지식을 병렬 말뭉치로부터 자동으로 구축하고, 이를 활용하여 번역의 품질을 향상 시킬 수 있는 통계 기반 기계 번역 기술을 개발함.
개발하고자 하는 기술은 크게 1) 병렬 말뭉치로부터 다양한 번역 지식을 자동으로 추출하는 기술, 2) 추출된 지식을 활용하여 통계적으로 번역을 수행하는 기술, 3) 번역 지식구축에 필요한 대량의 데이터를 수집하고 효과적으로 처리할 수 있는 대용량 데이터 처리기술로 이루어짐.
연구결과
병렬 말뭉치로부터 번역에 필요한 각종 지식을 추출하는 기술과 이를 활용한 기계 번역 기술을 개발하고 이러한 기술을 대량의 데이터에 적용할 수 있도록 최적화 하는 기술을 개발하기 위해 3년간 다음의 연구를 수행하였음.
● 1차년도: 통계적 언어 처리 기술을 이용한 어휘 수준, 구문 수준 번역 지식 자동 구축 기술 개발
- 명사구 대역 지식, 숙어 대역 지식, 술어-논항 구조 변환 지식, 구문 구조 변환 지식 자동 구축 기술을 개발하였음.
- 제안된 기술을 통해 고품질의 다양한 번역 지식을 구축할 수 있었음.
● 2차년도: 어휘 수준, 구문 수준 번역 지식을 이용한 영-한, 중-한 통계 기반 기계 번역 기술 개발
- 통계 기반 기계 번역 모델, 학습기 및 디코딩 시스템, 번역 지식에 대한 통계적 정련 기술을 개발하였음
- 제안된 통계 기계 번역 시스템은 기존 시스템에 비해 더 나은 성능을 보여주었음.
● 3차년도: 대규모 번역 시스템을 위한 대용량 데이터 수집 및 처리 기술 개발
- 대용량 병렬 말뭉치 수집 및 가공, 대용량 데이터 처리 기술을 개발하였음.
- 제안된 기술에 의해 수집된 병렬 말뭉치는 통계 기계 번역의 성능을 향상시켰음.
연구결과의 활용계획
● 영어, 중국어는 전 세계에서 가장 많이 쓰이는 언어로써, 이들 언어로 작성된 정보를 빠르게 습득하는데 도움을 줄 수 있는 고품질의 영/중/한 기계 번역 시스템은 경제적, 산업적, 문화적으로 큰 부가 가치를 창출할 수 있음
● 본 연구의 성공적인 추진을 통해 국내에서도 통계 기반 기계 번역 기술 연구의 중요한 토대를 마련할 수 있을 것으로 기대됨
● 본 연구를 통해 구축된 각종 번역 지식 및 기술들은 향후 다른 언어에 대한 기계 번역 시스템을 개발하는 데에도 유용하게 사용될 수 있음
Abstract
▼
Purpose&contents
Lack of lexical and structural knowledge is a main reason of deteriorating the quality of machine translation. This research focuses to automatically extract various linguistic knowledges for translating compound nouns, idioms, syntactic structures, and predicate-argument structu
Purpose&contents
Lack of lexical and structural knowledge is a main reason of deteriorating the quality of machine translation. This research focuses to automatically extract various linguistic knowledges for translating compound nouns, idioms, syntactic structures, and predicate-argument structures, etc. from parallel corpora. We also try to develop a novel statistical machine translation method which effectively utilizes these linguistic knowledge. The research topics consist of 1) developing automatic translation knowledge extraction methods, 2) devising statistical machine translation approach utilizing such translation knowledge resources, and 3) developing large data processing technique for collecting and mining parallel corpus.
Result
For the last three years, we specifically focused on the following topics:
● The 1st year: automatic extraction for lexical-level and syntactic-level translation knowledge based on statistical natural language processing techniques
- We developed the techniques for building a noun-phrase translation table, building a parallel idiom dictionary, collecting transformation knowledge on predicate-argument structures between source and target languages, and collecting transformation knowledge on syntactic-structures between source and target languages.
- Our method could automatically collect highly precise translation knowledge from a parallel corpus.
● The 2nd year: development of a new statistical machine translation approach using the lexical-level and the syntactic-level translation knowledge
- We developed a novel statistical model for machine translation, an effective trainer and decoder for the statistical model, and a statistical method to refine the collected translation knowledge.
- Our statistical machine translation system showed better performance than the conventional SMT system
● The 3rd year: collecting and mining parallel corpus automatically from mass amount of non-parallel corpus
- We developed methodologies for mining a large scale of parallel corpus automatically from Web and processing large scale data.
- The parallel corpus collected by our system could improve the performance of SMT.
Expected Contribution
● High performance English/Chinese/Korean machine translation system can contribute to the Korean economy by helping people access information written in English or Chinese.
● The proposed research is expected to establish a foundation for statistical machine translation research in Korea.
● The knowledge and techniques developed in this research will be also useful to develop machine translations on other language pairs.
목차 Contents
- 핵심연구사업 최종보고서(평가용) ... 1
- 목 차 ... 3
- 연구계획 요약문 ... 4
- 연구결과 요약문 ... 5
- 한글요약문 ... 5
- SUMMARY ... 6
- 연구내용 및 결과 ... 7
- 1. 연구개발과제의 개요 ... 7
- 2. 국내외 기술개발 현황 ... 18
- 3. 연구수행 내용 및 결과 ... 22
- 4. 목표달성도 및 관련분야에의 기여도 ... 49
- 5. 연구결과의 활용계획 ... 51
- 6. 연구과정에서 수집한 해외과학기술정보 ... 53
- 7. 주관연구책임자 대표적 연구실적 ... 56
- 8. 참고문헌 ... 57
- 9. 연구성과 ... 59
- 10. 기타사항 ... 62
- 끝페이지 ... 76
※ AI-Helper는 부적절한 답변을 할 수 있습니다.