[보고서]통계적 언어 처리 기술과 번역지식 자동 구축을 통한 기계번역 시스템 개발

통계적 언어 처리 기술과 번역지식 자동 구축을 통한 기계번역 시스템 개발
Machine translation system based on statistical natural language processing and automatic construction of translation knowledge 원문보기

보고서 정보
주관연구기관	고려대학교 산학협력단 Korea University
보고서유형	최종보고서
발행국가	대한민국
언어	한국어
발행년월	2014-05
과제시작연도	2013
주관부처	미래창조과학부 Ministry of Science, ICT and Future Planning
과제관리전문기관	한국연구재단 National Research Foundation of Korea
등록번호	TRKO201500004147
과제고유번호	1345200122
사업명	중견연구자지원
DB 구축일자	2015-05-23
키워드	기계 번역.번역 지식.자연어처리.대용량 시스템.영-한 번역.중-한 번역.machine translation.translation knowledge.natural language processing.mass data processing.English-Korean.Chinese-Korean.
DOI	https://doi.org/10.23000/TRKO201500004147

초록 ▼

연구의 목적 및 내용
언어의 어휘/구조 정보 부족은 기계 번역의 품질을 하락시키는 주요 원인임. 본 연구에서는 명사구 대역 지식, 숙어 대역 지식, 술어-논항 구조 변환 지식, 구문 구조 변환 지식과 같은 다양한 종류의 번역 지식을 병렬 말뭉치로부터 자동으로 구축하고, 이를 활용하여 번역의 품질을 향상 시킬 수 있는 통계 기반 기계 번역 기술을 개발함.
개발하고자 하는 기술은 크게 1) 병렬 말뭉치로부터 다양한 번역 지식을 자동으로 추출하는 기술, 2) 추출된 지식을 활용하여 통계적으로 번역을 수행하는 기술, 3) 번역 지식구축에 필요한 대량의 데이터를 수집하고 효과적으로 처리할 수 있는 대용량 데이터 처리기술로 이루어짐.
연구결과
병렬 말뭉치로부터 번역에 필요한 각종 지식을 추출하는 기술과 이를 활용한 기계 번역 기술을 개발하고 이러한 기술을 대량의 데이터에 적용할 수 있도록 최적화 하는 기술을 개발하기 위해 3년간 다음의 연구를 수행하였음.
● 1차년도: 통계적 언어 처리 기술을 이용한 어휘 수준, 구문 수준 번역 지식 자동 구축 기술 개발
- 명사구 대역 지식, 숙어 대역 지식, 술어-논항 구조 변환 지식, 구문 구조 변환 지식 자동 구축 기술을 개발하였음.
- 제안된 기술을 통해 고품질의 다양한 번역 지식을 구축할 수 있었음.
● 2차년도: 어휘 수준, 구문 수준 번역 지식을 이용한 영-한, 중-한 통계 기반 기계 번역 기술 개발
- 통계 기반 기계 번역 모델, 학습기 및 디코딩 시스템, 번역 지식에 대한 통계적 정련 기술을 개발하였음
- 제안된 통계 기계 번역 시스템은 기존 시스템에 비해 더 나은 성능을 보여주었음.
● 3차년도: 대규모 번역 시스템을 위한 대용량 데이터 수집 및 처리 기술 개발
- 대용량 병렬 말뭉치 수집 및 가공, 대용량 데이터 처리 기술을 개발하였음.
- 제안된 기술에 의해 수집된 병렬 말뭉치는 통계 기계 번역의 성능을 향상시켰음.
연구결과의 활용계획
● 영어, 중국어는 전 세계에서 가장 많이 쓰이는 언어로써, 이들 언어로 작성된 정보를 빠르게 습득하는데 도움을 줄 수 있는 고품질의 영/중/한 기계 번역 시스템은 경제적, 산업적, 문화적으로 큰 부가 가치를 창출할 수 있음
● 본 연구의 성공적인 추진을 통해 국내에서도 통계 기반 기계 번역 기술 연구의 중요한 토대를 마련할 수 있을 것으로 기대됨
● 본 연구를 통해 구축된 각종 번역 지식 및 기술들은 향후 다른 언어에 대한 기계 번역 시스템을 개발하는 데에도 유용하게 사용될 수 있음

Abstract ▼

Purpose&contents
Lack of lexical and structural knowledge is a main reason of deteriorating the quality of machine translation. This research focuses to automatically extract various linguistic knowledges for translating compound nouns, idioms, syntactic structures, and predicate-argument structures, etc. from parallel corpora. We also try to develop a novel statistical machine translation method which effectively utilizes these linguistic knowledge. The research topics consist of 1) developing automatic translation knowledge extraction methods, 2) devising statistical machine translation approach utilizing such translation knowledge resources, and 3) developing large data processing technique for collecting and mining parallel corpus.
Result
For the last three years, we specifically focused on the following topics:
● The 1st year: automatic extraction for lexical-level and syntactic-level translation knowledge based on statistical natural language processing techniques
- We developed the techniques for building a noun-phrase translation table, building a parallel idiom dictionary, collecting transformation knowledge on predicate-argument structures between source and target languages, and collecting transformation knowledge on syntactic-structures between source and target languages.
- Our method could automatically collect highly precise translation knowledge from a parallel corpus.
● The 2nd year: development of a new statistical machine translation approach using the lexical-level and the syntactic-level translation knowledge
- We developed a novel statistical model for machine translation, an effective trainer and decoder for the statistical model, and a statistical method to refine the collected translation knowledge.
- Our statistical machine translation system showed better performance than the conventional SMT system
● The 3rd year: collecting and mining parallel corpus automatically from mass amount of non-parallel corpus
- We developed methodologies for mining a large scale of parallel corpus automatically from Web and processing large scale data.
- The parallel corpus collected by our system could improve the performance of SMT.
Expected Contribution
● High performance English/Chinese/Korean machine translation system can contribute to the Korean economy by helping people access information written in English or Chinese.
● The proposed research is expected to establish a foundation for statistical machine translation research in Korea.
● The knowledge and techniques developed in this research will be also useful to develop machine translations on other language pairs.

목차 Contents

핵심연구사업 최종보고서(평가용) ... 1
목 차 ... 3
연구계획 요약문 ... 4
연구결과 요약문 ... 5
한글요약문 ... 5
SUMMARY ... 6
연구내용 및 결과 ... 7
1. 연구개발과제의 개요 ... 7
2. 국내외 기술개발 현황 ... 18
3. 연구수행 내용 및 결과 ... 22
4. 목표달성도 및 관련분야에의 기여도 ... 49
5. 연구결과의 활용계획 ... 51
6. 연구과정에서 수집한 해외과학기술정보 ... 53
7. 주관연구책임자 대표적 연구실적 ... 56
8. 참고문헌 ... 57
9. 연구성과 ... 59
10. 기타사항 ... 62
끝페이지 ... 76

표/그림 (37)

표 전체 시스템 구성도
표 자동화된 번역 지식 구축과 통계적 번역 시스템 기술 개발의 필요성
표 구축하고자 하는 번역 지식 종류
표 명사구 대역 사전 예
표 숙어 사전 예
표 개별 단어 번역과 숙어 번역의 차이
표 술어-논항 구조 변환 지식을 이용한 영-한 번역 예제
표 중심어, 구문 관계 정보가 결합된 구문 구조 변환 규칙 사용 예
표 노이즈 채널과 통계 기반 기계 번역 시스템 모델
표 다양한 번역 지식을 활용하는 통계적 기계 번역 모델
표 번역 모델 가중치 학습기
표 디코딩 시스템의 모듈 구성
표 병렬 말뭉치 증가에 따른 각 언어별 번역 성능 향상
표 웹을 이용한 대용량 병렬 말뭉치 구축 방법
표 기계 번역에서 대용량 데이터 처리 기술 이용
표 구축 번역 지식 종류
표 명사구 대역사전 예
표 복합어 대역사전 자동 구축 성능
표 개별 단어 번역과 숙어 번역의 차이
표 숙어 인식 성능
표 술어-논항 구조 변환 지식을 이용한 영-한 번역 예제
표 동사구 패턴 추출 성능
표 중심어, 구문 관계 정보가 결합된 구문 구조 변환 규칙 사용 예
표 다양한 번역 지식을 활용하는 통계적 기계 번역 모델
표 상대 빈도 기반 번역 확률의 부작용과 문맥의 부재로 인하여 잘못된 번역의 예
표 말뭉치 내 빈도와 구 번역 확률의 예
표 원거리 리오더링과 다양한 문법 트리 자질
표 구 기반 번역 과정에서의 구 분할
표 구 분할 모델 학습 및 번역 과정
표 기존의 구 단위 통계적 기계 번역 모델과 제안하는 모델의 성능
표 제안하는 모델과 baseline의 각 문장 단위로 BLEU score를 비교한 결과
표 이동 거리에 따른 정확도 평가
표 언어 쌍별 번역 성능 평가
표 디코더 기반 구 분할 학습 방법의 영향력 평가
표 구 분할 모델이 통합된 번역 시스템의 성능 평가
표 OpenMT-12 한국어-영어 번역 부문 최종 성적
표 영-한, 중-한 번역지식 추출 및 통계 기반 기계 번역 기술의 활용방안

과제명(ProjectTitle) :	-
연구책임자(Manager) :	-
과제기간(DetailSeriesProject) :	-
총연구비 (DetailSeriesProject) :	-
키워드(keyword) :	-
과제수행기간(LeadAgency) :	-
연구목표(Goal) :	-
연구내용(Abstract) :	-
기대효과(Effect) :	-

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 제목(한글), 저자명(한글), 발행일자, 전자원문, 초록(한글), 초록(영문) 관리번호, 제목(한글), 제목(영문), 저자명(한글), 저자명(영문), 주관연구기관(한글), 주관연구기관(영문), 발행일자, 총페이지수, 주관부처명, 과제시작일, 보고서번호, 과제종료일, 주제분류, 키워드(한글), 전자원문, 키워드(영문), 입수제어번호, 초록(한글), 초록(영문), 목차
저장형식	Text(ASCII format) Excel format
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

통계적 언어 처리 기술과 번역지식 자동 구축을 통한 기계번역 시스템 개발
Machine translation system based on statistical natural language processing and automatic construction of translation knowledge 원문보기