[논문]한베 통계기계번역의 성능 향상을 위한 내포문 추출 및 복원 기법

조승우; 김영길; 권홍석; 이의현; 이원기; 조형미; 이종혁

한베 통계기계번역의 성능 향상을 위한 내포문 추출 및 복원 기법
Embedded clause extraction and restoration for the performance enhancement in Korean-Vietnamese statistical machine translation 원문보기

조승우 (포항공과대학교 컴퓨터공학과) , 김영길 (한국전자통신연구원) , 권홍석 (포항공과대학교 컴퓨터공학과) , 이의현 (포항공과대학교 컴퓨터공학과) , 이원기 (포항공과대학교 컴퓨터공학과) , 조형미 (포항공과대학교 컴퓨터공학과) , 이종혁 (포항공과대학교 컴퓨터공학과)

본 논문에서는 기호로 둘러싸인 내포문이 포함된 문장의 번역 성능을 높이는 방법을 제안한다. 입력 문장에서 내포문을 추출하여 여러 문장으로 나타내고, 각각의 문장들을 번역한다. 그리고 번역된 문장들을 복원정보를 활용하여 최종 번역 문장을 생성한다. 이러한 방법론은 입력 문장의 길이를 줄여주며, 그로 인하여 문장 구조가 단순해져 번역 품질이 향상된다. 본 논문에서는 한국어-베트남어 통계 기반 번역기에 대하여 제안한 방법론을 적용하고 실험하였다. 그 결과 BLEU 점수가 약 1.5 향상된 것을 확인할 수 있었다.

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서는 한국어-베트남어 통계기계번역 시스템을 MOSES로 구축하고 제안한 방법론을 적용하여 실제 번역 성능을 향상시키는지에 대한 실험을 수행하였다.
본 논문에서는 형태소 번역 단위를 가지는 번역기를 구축하였다. 한국어는 포항공과대학교 지식 및 언어 공학 연구실의 한국어 형태소 분석기(KoMA)[4]를 사용하였고, 베트남어는 호치민 대학교의 단어 분리기[5]와 품사태거[5]를 사용하였다.
본 논문은 통계기계번역 시스템의 성능 향상을 위한 내포문 추출 및 복원 알고리즘을 제안하였다. 그리고 제안한 방법론이 실제로 번역 시스템의 성능을 향상시킨다는 것을 실험으로 확인하였다.
문법적인 구조 및 어순 차이에서 발생할 수 있는 어려움을 줄여주기 위해 문장의 길이를 짧게 만드는 문장 단순화 기법이 기계번역에 도입되어 왔다. 본 연구는 이러한 문장 단순화 기법의 일환으로 기호로 둘러싸인 내포문(직접인용문, 부연설명문, 강조문 등)에 대해 문장 분리를 함으로써 문장길이를 줄여 번역 성능을 높이려고 한다. 또한 동음이의어 문제를 해소하기 위해 품사를 활용한다.

제안 방법

통계기계번역에서는 성능 향상을 위해 다양한 문장 분할 기법들이 연구되어 왔다. [1]은 영어-힌두어 병렬 말뭉치 단어 정렬 성능 향상을 위해서 각 언어 말뭉치에서 나타나는 Cue word들을 활용했다. Cue word는 영어의 Because 같은 연결 표현으로 문장에서 발생한 담화 정보를 확장시켜 준다.
추출 기호가 목표 언어로 번역된 경우라면, 먼저 원시언어 문장의 추출 기호 위치를 확인한다. 그리고 원시언어 문장과 대역되는 목표언어 문장의 단어 정렬 정보를 확인한다. 마지막으로, 추출 기호를 복원 정보에 표기된 문장으로 치환하면 복원이 완료된다.
기계 번역 이후, 원시언어 문장의 추출 기호가 어떻게 번역되었는지 확인하고 알고리즘을 달리 적용하여 목표 언어 문장을 복원했다. 번역 결과에서 추출 기호가 번역된 문장, 추출 기호가 번역되지 않고 사라진 문장들을 세어 표 5에 표시하였다.
만약, 추출 기호가 목표 언어로 번역되지 않았다면 추출 기호의 단어 정렬 정보를 사용할 수 없으므로 복원 과정을 진행할 수 없다. 따라서 일정 문맥 크기를 설정하고 주위 단어의 번역 결과를 이용하여 복원 과정을 진행한다. 한국어의 수식 방향을 고려하여 문맥 범위 안에 있는 추출 기호의 왼쪽 단어들이 먼저 번역되었는지 확인한다.
단순히 내포문이 하나만 있지 않고 그 안에 또 다른 내포문이 존재할 수도 있기 때문에 재귀적으로 이를 처리할 수 있어야 한다. 또한, 내포문 추출 이후의 병렬 말뭉치 대역 상태를 보존하기 위해 원시언어 문장에서 추출된 내포문 개수와 목표언어 문장에서 추출된 내포문 개수를 대조한다. 대조 결과가 같지 않다면 내포문 추출 작업을 취소하고 원문을 사용하도록 한다.
본 논문에서 제안하는 내포문의 추출은 몇 가지 사전 정의된 특수 기호들을 기준으로 수행된다. 그 종류는 아래 표 1과 같으며, 한국어-베트남어 번역기 구축을 위한 병렬 말뭉치로부터 자주 등장하는 기호들로 선정되었다.
실험을 통해 내포문 추출 및 복원과 품사 정보 활용 기법에 대한 성능을 평가하였다. 평가 방법으로는 BLEU[7] 점수를 사용하였다.
Cue word는 영어의 Because 같은 연결 표현으로 문장에서 발생한 담화 정보를 확장시켜 준다. 이를 이용하여 긴 문장에서 존재하는 내포된 구와 절(Clause)들을 추출하여 단어 정렬의 성능을 향상시켰다. [2]에서는 일본어 문장 내 형태소 품사 정보와 마침표 위치 정보를 활용하여 문장을 여러 개 절로 분할한다.
따라서 일정 문맥 크기를 설정하고 주위 단어의 번역 결과를 이용하여 복원 과정을 진행한다. 한국어의 수식 방향을 고려하여 문맥 범위 안에 있는 추출 기호의 왼쪽 단어들이 먼저 번역되었는지 확인한다. 만약, 왼쪽 단어들이 모두 복원되지 않았을 경우에는 문맥 범위 내 추출 기호의 오른쪽 단어들을 확인한다.

대상 데이터

본 논문에서 제안하는 내포문의 추출은 몇 가지 사전 정의된 특수 기호들을 기준으로 수행된다. 그 종류는 아래 표 1과 같으며, 한국어-베트남어 번역기 구축을 위한 병렬 말뭉치로부터 자주 등장하는 기호들로 선정되었다.
본 논문에서는 형태소 번역 단위를 가지는 번역기를 구축하였다. 한국어는 포항공과대학교 지식 및 언어 공학 연구실의 한국어 형태소 분석기(KoMA)[4]를 사용하였고, 베트남어는 호치민 대학교의 단어 분리기[5]와 품사태거[5]를 사용하였다. 표 4는 실험에서 사용한 전처리 분석기들의 성능이다.

이론/모형

따라서 원시언어 문장에 존재하던 추출 기호가 목표언어의 어떤 표현으로 번역되었는지 혹은 번역되지 않았는지 확인할 수 있어야 한다. 추출 기호의 번역 경로를 따라가기 위해 MOSES[3]가 생성해주는 단어 정렬 정보를 활용하기로 했다. MOSES의 단어 정렬 표시 형태는 그림 3과 같다.
실험을 통해 내포문 추출 및 복원과 품사 정보 활용 기법에 대한 성능을 평가하였다. 평가 방법으로는 BLEU[7] 점수를 사용하였다. 아래 표 6은 여러 실험 조합에 대한 실험결과를 나타낸 것이다.

성능/효과

Case 3의 결과를 보면 baseline 대비 약 1.5 정도 BLEU 점수가 향상된 것을 확인할 수 있었다. 따라서 제안한 방법론이 내포문을 포함한 문장의 구조를 단순화 시키고 그에 따라 번역 시스템의 여러 자질(Feature)학습(어순 조정, 단어 정렬 등)에 긍정적인 효과를 보여준 것이라 볼 수 있다.
본 논문은 통계기계번역 시스템의 성능 향상을 위한 내포문 추출 및 복원 알고리즘을 제안하였다. 그리고 제안한 방법론이 실제로 번역 시스템의 성능을 향상시킨다는 것을 실험으로 확인하였다. 또한 특정 언어쌍에만 적용할 수 있는 것이 아니라 언어쌍에 독립적으로 적용할수 있다는 장점이 있다.
5 정도 BLEU 점수가 향상된 것을 확인할 수 있었다. 따라서 제안한 방법론이 내포문을 포함한 문장의 구조를 단순화 시키고 그에 따라 번역 시스템의 여러 자질(Feature)학습(어순 조정, 단어 정렬 등)에 긍정적인 효과를 보여준 것이라 볼 수 있다.
번역 결과에서 추출 기호가 번역된 문장, 추출 기호가 번역되지 않고 사라진 문장들을 세어 표 5에 표시하였다. 추출된 내포문 수에 비하여 크지 않은 숫자지만 번역 과정에서 추출 기호가 없어지는 문장이 있음을 확인하였다.

후속연구

향후 과제로는 문장 단순화(text simplification) 방법을 활용하여 내포문뿐만 아니라 일반 문장도 처리할수 있게 적용 범위를 넓히고 추출 기호를 생략하면서 내포문을 복원할 수 있는 알고리즘을 실험할 계획이다.

핵심어

질문

논문에서 추출한 답변

베트남어의 특징은?

특히 어순이 한국어와 매우 다른데, 한국어는 Subject-Object-Verb(SOV) 언어이며 앞에서 수식하고 상대적으로 어순이 자유로운 언어다. 반면, 베트남어는 Subject-Verb-Object(SVO) 언어이며 뒤에서 수식하고 어순이 고정된 언어이다. 일반적으로 통계기계번역 성능은 원시언어와 대상언어가 문법적으로 다를수록 떨어지고 문장의 길이가 길어질수록 어순 조정이 힘들게 되어 성능이 떨어진다.

한국어의 특징은?

더욱이 베트남어는 한국어와 문법적으로 크게 다른 언어라 번역을 더욱 어렵게 만든다. 특히 어순이 한국어와 매우 다른데, 한국어는 Subject-Object-Verb(SOV) 언어이며 앞에서 수식하고 상대적으로 어순이 자유로운 언어다. 반면, 베트남어는 Subject-Verb-Object(SVO) 언어이며 뒤에서 수식하고 어순이 고정된 언어이다.

본 논문에서 제안한 통계기계번역 시스템의 성능 향상을 위한 내포문 추출 및 복원 알고리즘의 장점은?

그리고 제안한 방법론이 실제로 번역 시스템의 성능을 향상시킨다는 것을 실험으로 확인하였다. 또한 특정 언어쌍에만 적용할 수 있는 것이 아니라 언어쌍에 독립적으로 적용할수 있다는 장점이 있다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

한베 통계기계번역의 성능 향상을 위한 내포문 추출 및 복원 기법
Embedded clause extraction and restoration for the performance enhancement in Korean-Vietnamese statistical machine translation 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

한베 통계기계번역의 성능 향상을 위한 내포문 추출 및 복원 기법 Embedded clause extraction and restoration for the performance enhancement in Korean-Vietnamese statistical machine translation 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

한베 통계기계번역의 성능 향상을 위한 내포문 추출 및 복원 기법
Embedded clause extraction and restoration for the performance enhancement in Korean-Vietnamese statistical machine translation 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper