[논문]통계적 기계 번역 기술의 연구 동향

김선호; 윤준태; 임해창

문제 정의

IBM 모델 1에서 우리의 관심은 결국 2개 언어말뭉치로부터 전체 확률p(f[e)를 최대화시키는 각각의 번역 확률t를 구하는 것이며 본절에서는 이 t값을 계산하는 방법에 대해 알아본다. 주어진 문제에는 부가되는 제약조건이 주어지는데 그것은 각 영어 단어e의 번역어 f에 대한 확률의 합은 1°1 되어야 한다는 것이다.
본 논문에서는 SMT 개요와 현재 기술 수준을 논하였다. SMT는 아직까지는 시작 단계이나 통계적 언어 처리의 가능성으로 볼 때 앞로의 번역시장을 주도할 만한 기계번역의 한 대안인 것은 분명하다.
하나다. 이에 본 논문은 IBM 모델을 중심으로 SMT의 개요를 설명하고 연구의 동향과 그 문제점 등에 대해 개략적으로 소개하고자 한다.
정보 이론은 잡음이 존재하는 채널 하에서 메시지의 전송 혹은 통신을 처리량과 정확성이라는 측면에서 최적화하기 위해 연구되었다.

가설 설정

"직관적 이해를 위해 영어-한국어 병렬말뭉치를 구성하는 문장쌍이 , 의 두개로 주어진다고 가정해보자."
즉, 1) 단어 복사와 삭제를 위한 fertility 확률, 2) NULL 삽입을 위한 확률, 3) 위치의 재순서화를 위한 distortion 확률. 4) 단어번역을 위한 translation 확률이 고려된다. 번역의 기본 전략은 각원시 문장의 단어에 대해 목적 문장의 단어(들)을 생성 하고 그들을 재순서 화 한다.
4. 《/le) 가 특정 범위 내로 값이 수렴할 때까지 과정 2와 3을 반복한다.
IBM 모델의 전반적인 정렬의 제약 조건은 불어 문장 f의 개별 단어는 단 하나의 영어 단어 e에만 대응됨을 가정하였다.
직관적 이해를 위해 영어-한국어 병렬말뭉치를 구성하는 문장쌍이 <“b c”-"x y">, 의 두개로 주어진다고 가정해보자. 여기에 어휘간 대응 관계를 만든다면 어떤 것이 가장 그럴 듯 할까? 관찰된 사실만으로 추정해본다면 가능한 번역 쌍은((b, y), (c, x)}가 될 것이다. EM에서는 부트스트래핑 개념을 이용하여.
Yamamoto (2000)의 연구에서는 구 단위 대응 관계를 추줄하는 방법을 제시하였다. 그들은 번역시 단어의 순서나 위치가 달라질 수 있지만 단어들 간의 의존구조는 번역 후에도 유지된다고 가정하였다. 대역 말 뭉치 쌍들은 각각의 언어에 대해 통계적 의존 관계 파서를 이용해 각각 의존구조 후보들이 생성된다.
이를 위해. 문장이 길수록 부가적인 단어들이 많이 생긴다고 가정하였으며. 개별 불어 단어들이 잉여 불어 단어를 pl 의 확률로 생산하는 다음과 같은 이항분포를 정의하였다.
즉, 이번째 영어 단어가 [번째 불어 단어와 정렬될 확률은 불어 단어의 위치 및 영어 문장의 길이에 의해조건화된다고 가정하여 p(ajlj, m.l) 로근사화시 켰다.
한영번역을 이러한 잡음채널 모델하에서 살펴보면, 화자는 영어를 통해 말을 전달하려고 하나 잡음 채널을 통과하면서 실제 나타난 텍스트에서는 한국어로 나타나게 된다고 가정한다. 따라서 우리는 출력된 결과인 한국어로부터 입력인 영어를 예측해야 하며 이러한 잡음채널에 의한 변환은 확률적으로 결정된다.

제안 방법

ITG는 두 언어가 동일한 하나의 문법 즉, 동일한 문법 구조를 공유하기 때문에 발생할 수 있는 어순의 차이를 고려하기 위해 CFG의 RHS를 구성하는 구성요소들이 반대의 방향으로도 결합할 수 있도록 허용하였으며, A -> x/y 형태의 어휘 생성규칙을 이용하였다. 여기서 X는 원시 언어의 단어이고 y는 이에 대응되는 목적 언어의 단어다.
여기서 X는 영어 단어의 문맥, y는 X 문맥 하에서 영어 단어 e의 불어 번역이 y임을 의미한다. Pe(ylx)의 확률값을 구하기 위해 영어 단어e가 주어졌을 때 주변 문맥 X가 나타나고 그때 번역이 y가 되면 그 값이 1이 되는 이진 자질함수 fe(xy)를 도입하여 p(fle)를 구하는 문맥 의존적 모델을 제안하였다.
청크 내부의 재순서화 및 청크 재순서 화 순으로 보았으며. 과도한 학습량을 줄이기 위해 Yamada 의 Inside-Outside 기반 학습방법을 변형하여 사용하였다.
다시 학습의 문제로 돌아가서 IBM 모델 2-5도 각 확률파라미터를 병렬 말 뭉치를 이용하여 추정하기 위해서 앞에서 설명한 대로 카운트 c를 정의하고 EM을 사용해 진행하여 나간다. 그러나 유의할 점은 모델3부터는 모델 1과 모델 2에 적용할 수 있는 식 11)과 같은 계산상의 편의를 이용할 수 없으므로 카운트 c값을 모든 가능한 정렬에 대해 구한다는 것은 사실상 불가능하다.
Vogel(1996)의 연구에서는 원시 문장의 단어 위치와 번역된 문장에서 그 대응 위치에 대한 정보가 정렬 시 유리하지만 이때 대응 위치정보는 단어의 절대적 위치에 의존하는 것이 아니라 상대적 위치에 의존함을 파악하고 정렬에 있어서 위치 상의 지역성이 유지되는 점을 이용하였다. 또한, 이의 확률은 이-1에 의존적이라는 마코프 가정을 적용함으로써 IBM 모델 2를 수정하였다. 수정된 정렬 확률 a는 다음의 식 18)에 의해 표현될 수 있다.
t("b”, “y”)는 허용되지 않는다. 또한, 학습에 모든 구를 다 반영할 수 없기 때문에 빈도수가 높은 n-gram만을 고려하도록 조정하였다.
SMT는 아직까지는 시작 단계이나 통계적 언어 처리의 가능성으로 볼 때 앞로의 번역시장을 주도할 만한 기계번역의 한 대안인 것은 분명하다. 많은 수식과 복잡한 모델링이 필요한 SMT의 이해를 돕고자 IBM 모델을 중심으로 번역 모델링을 살펴보았고 각 모델에 사용된 파라미터 학습을 위해 EM 알고리즘과 해당 카운트를 계산하는 방법을 설명하였다. 최근 연구 동향으로는 과거의 언어학적 지식이 거의 부과되지 않았던 모델과는 달리 구조적 정보를 부과하여 정렬의 성능을 향상시키는연구가 많이 진행되고 있다.
방대한 수작업과 언어처리 모듈을 필요로 하는 기존 시스템의 한 대안으로 IBM TJ Watson Research Center에서 통계적 기계 번역(SMT)의 실험적인 연구를 발표하였다. Candide 시스템은 SMT 연구의 시초가 되는 시스템으로 기계번역을 정보 이론적 관점 즉, 잡음채널 모델 측면에서 재해석하고 Hansard라고 하는 방대한 양의 영-불 2 개국어 문서집합으로부터 영어와 불어가 어떻게 관련되는지의 번역과정을 자동적으로 학습하였다.
theory)에 있다. 본장에서는 정보 이론의 잡음 채널 모델과 통계적 기계번역이 잡음 채널 모델 하에서 어떻게 모델링되는지를 살펴본 다 또한 채널 오퍼레이션으로서의 번역은 확률적으로 결정되는데, 이 확률값 추정을 위해 SMT 전반에 사용되고 있는 학습방법인 EM( expectation maximi- ztion) 알고리즘과 그 수학적 전개를 IBM 모델을 바탕으로 알아본다.
앞장에서는 SMT 연구의 수학적 기반이 되고있는 IBM 모델 1~5와 EM 학습 방법에 대해서 간략하게 살펴보았다. 그러나 IBM 모델은 기본적으로 단어 대 단어 모델로서, 영어 대 불어에 대해 l'n 대응의 기본 틀을 벗어나지 못하는 표현력의 한계를 가지고 있다.
또한 구조를 반영하기 위해 파스 트리의 비 단말 노드를 사용하는 것은 지나친 단순화로 모호성을 심화시킨다. 이 연구에서는 품사 태그 순서 열 (POS tag sequence)을 NP나 VP대신 구를 나타내는 태그(phrasal tag)로 사용하였고 태그 열의 매핑정보를 구문적 대응 정보로 사용하였다. 이에 따르면 "DT(determiner) +NN (noun)”의 영어 구태 그는 한국어의 “NN (noun)+SUBJ(주격조사)”, “NN(noun)+ OBJ(목적격 조사)”의 구태 그에 대응될 가능성이 높다.
여기서 X는 원시 언어의 단어이고 y는 이에 대응되는 목적 언어의 단어다. 이러한 1TG는 inside-outside 알고리즘을 통해 각 규칙에 확률값이 부여되는 Stochastic ITG(SITG)로 확장되고 SITG를 이용하여 각 문 장 쌍에 대해 Earley 파싱에 의해서 가장 높은 확률의 파스 트리를 발견하는 알고리즘을 제안하였다.
따라서 더 가능성 있는 한 정렬들만을 대상으로 카운트값을 구하는 방법이 사용된다.이를 위해 IBM 모델에서는 neighbor를 구해 pegged Viterbi 정렬을 시도하였다. 또, Knight (1999)는 모든 가능한 정 렬을 다 고려한 것과 동일한 결과를 내는 계산상으로 훨씬 간단한 알고리즘을 제시하였으며, Yamada (2001)는 Inside-outside 알고리즘을 이용하여 학습의 효율성을 높이는 등, 학습의 효율화가 주요 문제로 다루어 졌다.
Watanabe (2002)의연 구와 다른 점은 문장 번역 모델의 내부 구조에도 있지만 외부 자원인 청커를 이용한다는 점이다. 청크를 모델 내부에서 자동으로 유도되도록 모델링할 수도 있겠지만 청커는 구현하기도 쉽고 그 정확성도 보장되기 때문에 내부 파라미터로 사용해 부정확성과 모델의 복잡성을 피하였다. 또한 단어와 구가 동시에 표현될 수 있는 한영정렬 모델을 제안하고 있다.
대역 말 뭉치 쌍들은 각각의 언어에 대해 통계적 의존 관계 파서를 이용해 각각 의존구조 후보들이 생성된다. 파서가 의존구조 후보를 뽑을 때 여러 가지 형태의 후보를 생성하여 가중치다이스 계수(weighted dice coefficient) 를 사용해서 상대적 공기빈도가 높은 두 구를 후보간의 해당 번역구로 선택하였다.
(i, rl), (i+l, j). 포인트들이 이미 교집합 A에 나타났거나 영어 단어 孩나 불어 단어 亳가둘 다 A에서 정렬되지 않았다면 추가되도록 하였다.
한다. 확장된 구들에 대해 상대적 빈도수를 이용하여 구 단위 번역 확률을 계산해내고 주어진 구에 대한 어휘 가중치를 고려하여 다음과 같은 수식을 제안하였다.

성능/효과

결과적으로 문장은 단어 클래스의 열들로 이루어 진얕은 구문 구조(shallow phrase struct ure) 로표현된다. 예를 들어 "I could meet on Wednesday afternoon" 라는 문장에 대해서는 [I could meet] 와 [on Wednesday afternoon] 의 두 개의 구가 사용되고 이러한 구들을 기본 단위로 하되 내부적으로는 IBM 모델의 형식의 번역 방식을 취하였다 해당 모델은 구대구 매핑을 시도하고 구의 내부에서 단어 매핑을 시도하는 chunk-to-string 모델이다.
7屮는 i번째 영어 단어가 생성해내는 불어 단어리스트 중k-1 번째 불어 단어의 문장 내의 위치를 의미한다. 따라서 위치 변형 확률의 의미를 해석해보면 현재 1번째 영어 단어가 j번째 머리어 불어 단어와 연결될 확률은 j번째 위치와 i-1 번째 영어 단어가 생성해낸 불어 단어들의 위치 중심과의 차이와 현 불어단어의 클래스, 이전 영어 단어의 클래스에 의존한다고 보았다. 머리어가 아닌 경우에는 현재 리스트의 k번째 불어 단어의 실제 문장상의 위치를 1번째 단어가 생성해내는 불어 리스트 중 이전 단어 k-1 번째 불어 단어의 문장의 위치와 뺀 차이와 현재불어 단어의 클래스에 의존한다고 보았다.
이 연구에서는 이러한 동사들은 '접두사+어간'의 형태로 붙여 전 처리 단계에서 변형을 시킨다. 또한 복합어들의 경우는 두 단어로 쪼개 고 문장에서 특별한 구문적 역할을 담당해 통째로 하나로 볼 수 있는 여러 단어로 구성된 구(multi-word phrase) 들을 하나로 합쳐 단어 대 단어의 대응을 유지하면서 단어 대 단어 기반 모델의 단점을 극복하였다.
첫째는 SMT 기법은 수학적으로 복잡한 모델과 학습에 상당한 계산량이 필요하고, 둘째 영어-불어를 제외하면 학습을 위한 충분한 양의 2개 국어 텍스트가 부족하며 주로 그 텍스트의 도메인이 제한적이라는 점에 있다. 셋째는 언어처리에 있어 구문적 처리의 중요성에도 불구하고 이의 반영이 제대로 이루어지지 않고 있다는 점이다.

후속연구

그러나 SMT분야에서 이러한 일들은 이제 시작단계지만 비교적인 상적인 초기 결과를 내놓는 정도의 수준에 있어 앞으로 보다 나은 성능을 낼 수 있을 것으로 기대하고 있다. 현재까지의 SMT는 번역된 2개 언어 말뭉치를 사용하여, 적어도 영어-불어와 같이 사용 가능한 리소스가 풍부한 언어 쌍에 대해서는 기존의 상용화된 MT 시스템의 성능을 능가할 수 있다는 다소 희망적 인 결과를 보여주고 있다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

통계적 기계 번역 기술의 연구 동향 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

성능/효과

후속연구

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

통계적 기계 번역 기술의 연구 동향 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

성능/효과

후속연구

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

초록
AI-Helper

AI 본문요약
AI-Helper