$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

통계적 기계번역을 위한 변환 기반 문장 분할 방법
A Transformation based Sentence Splitting method for Statistical Machine Translation 원문보기

한국정보과학회언어공학연구회 2007년도 제19회 한글 및 한국어 정보처리 학술대회, 2007 Oct. 12, 2007년, pp.276 - 281  

이종훈 (포항공과대학교 컴퓨터공학과) ,  이동현 (포항공과대학교 컴퓨터공학과) ,  이근배 (포항공과대학교 컴퓨터공학과)

초록
AI-Helper 아이콘AI-Helper

최근 활발하게 연구 되고 있는 통계 기반의 기계 번역 시스템에서는 입력 문장이 길어지면 번역 성능이 떨어지는 현상이 나타난다. 이를 완화하기 위해 긴 문장을 같은 의미의 짧은 문장들로 분할하여 각각 번역하면 기계 번역 성능을 향상 시킬 수 있다. 본 논문에서는 통계적 기계 번역을 위한 변환 기반의 문장 분할 방법을 제안한다. 변환 기반의 문장 분할 방법은 사람이 직접 분할한 예문으로부터 변환 규칙을 학습하여 기계 번역의 입력 문장에 적용함으로써 구절 기반의 통계적 기계 번역 성능을 최대화 한다.

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 남은 것은 중문으로서, 중문의 경우는 원래 독립된 문장들이 접속하여 이루어지는 형태이므로 비교적 분할하기 쉽다고 할 수 있다. 본 논문에서는 이러한 중문의 분할에 관한 내용을 다루고자 한다.
  • 본 논문에서는 한국어 문장 분할을 통해 한-영 통계적 기계 번역 성능을 향상시키기 위한 방법으로 변환 기반의 문장 분할 방식을 제안하였다. 변환은 유인 환경과 다시 쓰기 규칙으로 구성 되며, 변환의 학습은 미리 분할된 훈련 데이터에서부터 초기 변환을 학습 하여 이를 주어진 테스트 데이터에 대해서 오류가 없도록 확장 한뒤 이들을 BLEU 점수를 최대화 하도록 골라내고 순서 매김 하는 과정을 통해 이루어진다.
  • 이러한 조건을 만족시킬 수 있는 방법론으로서 변환 기반 학습 (Transformation-based Learning)이 있다. 본 논문에서는 한국어를 원시 언어(Source Language)로 하는 언어 쌍에 대한 번역 성능을 향상시키기 위해 변환 기반 학습을 이용한 문장 분할 방식을 제안한다.
  • 본 연구의 목표는 긴 문장들 중에서 복문을 분할하여 짧은 문장들로 바꿔 씀으로서 구절 기반 통계적 기계 번역 시스템의 성능을 향상시키는 것으로, 이를 달성하기 위해 변환 기반의 접근 방법을 사용한다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
변환 기반 학습에서의 변환은 어떤 형식으로 동작하는가? 변환은 다음과 같은 형식으로 동작한다. 만약 어떤 입력 패턴이 유인 환경에 기술된 조건과 부합 한다면 다시 쓰기 규칙을 입력 패턴에 적용한다. 그 결과로 입력 패턴은 다시 쓰기 규칙의 원본 패턴과 일치하는 부분이 목적 패턴으로 치환된 형태로 변형된다. 예를 들어 유인 환경이 조건 A이고, 다시 쓰기 규칙이 B를 C로 변경하는 것인 변환이 있다면 이는 다음과 같은 문장으로 표현할 수 있다.
통계적 기계 번역 방식으로 긴 문장을 번역할 때 번역 성능이 떨어지는 문제의 원인은 무엇인가? 이러한 현상의 원인은 다양한 관점에서 분석 할 수 있지만 주된 원인은 단어 재배열의 경우의 수가 많아지기 때문이라고 할 수 있다. 한 문장을 번역함에 있어서 가능한 단어 배열의 경우의 수는 문장에 포함된 단어의 수에 기하급수적으로 비례하여 증가한다. 그러나 전통적인 방식의 구절 기반 기계 번역(Phrase-based Machine Translation) 시스템[2]의 단어 재배열 모델은 복잡한 재배 열을 제대로 처리하기에 충분하지 않다.
한국어의 문장은 구조에 따라 무엇으로 분류할 수 있는가? 한국어의 문장은 그 구조에 따라 단문, 중문, 복문의 3가지 분류로 나눌 수 있다. 이 중에서 단문은 여러 개의 완전한 문장으로 분할하는 것이 불가능하다.
질의응답 정보가 도움이 되었나요?

관련 콘텐츠

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로