$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

통계적 기계 번역 기술의 연구 동향 원문보기

정보처리학회지 = Korea information processing society review, v.11 no.2, 2004년, pp.76 - 87  

김선호 (고려대학교 자연어처리연구실) ,  윤준태 (Daumsoft. 자연어처리 연구) ,  임해창

초록
AI-Helper 아이콘AI-Helper

기계번역자연어 처리인공지능 분야에서 가장 어려 운 태스크 중의 하나로 인식되어 왔다. 이는 정확한 번역이란 텍스트에 대한 이해 없이는 불가능하기 때문이다. 그러한 이유로 연구자들은 한때 기계번역에 대한 부정적인 결론에 도달하기도 하였다. 지금까지 기계번역을 위해 다양한 방법이 연구되어 왔으며 이들 연구에서는 주로 두 언어에 대한어휘나 구의 대역사전, 숙어사전, 개별 언어의 문법, 혹은 변환규칙 및 변환사전, 문장생성에 관련된 지식, 의미나 실세계 지식, 도메인에 적합한 지식 등 번역의 방식과 목적에 따라 다양한 형태의 지식과 알고리즘이 적용되었으며 그 대부분은 방대한 양의 수작업에 의존적이었다.(중략)

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • IBM 모델 1에서 우리의 관심은 결국 2개 언어말뭉치로부터 전체 확률p(f[e)를 최대화시키는 각각의 번역 확률t를 구하는 것이며 본절에서는 이 t값을 계산하는 방법에 대해 알아본다. 주어진 문제에는 부가되는 제약조건이 주어지는데 그것은 각 영어 단어e의 번역어 f에 대한 확률의 합은 1°1 되어야 한다는 것이다.
  • 본 논문에서는 SMT 개요와 현재 기술 수준을 논하였다. SMT는 아직까지는 시작 단계이나 통계적 언어 처리의 가능성으로 볼 때 앞로의 번역시장을 주도할 만한 기계번역의 한 대안인 것은 분명하다.
  • 하나다. 이에 본 논문은 IBM 모델을 중심으로 SMT의 개요를 설명하고 연구의 동향과 그 문제점 등에 대해 개략적으로 소개하고자 한다.
  • 정보 이론은 잡음이 존재하는 채널 하에서 메시지의 전송 혹은 통신을 처리량과 정확성이라는 측면에서 최적화하기 위해 연구되었다.

가설 설정

  • "직관적 이해를 위해 영어-한국어 병렬말뭉치를 구성하는 문장쌍이 , 의 두개로 주어진다고 가정해보자."
  • 즉, 1) 단어 복사와 삭제를 위한 fertility 확률, 2) NULL 삽입을 위한 확률, 3) 위치의 재순서화를 위한 distortion 확률. 4) 단어번역을 위한 translation 확률이 고려된다. 번역의 기본 전략은 각원시 문장의 단어에 대해 목적 문장의 단어(들)을 생성 하고 그들을 재순서 화 한다.
  • 4. 《/le) 가 특정 범위 내로 값이 수렴할 때까지 과정 2와 3을 반복한다.
  • IBM 모델의 전반적인 정렬의 제약 조건은 불어 문장 f의 개별 단어는 단 하나의 영어 단어 e에만 대응됨을 가정하였다.
  • 직관적 이해를 위해 영어-한국어 병렬말뭉치를 구성하는 문장쌍이 <“b c”-"x y">, 의 두개로 주어진다고 가정해보자. 여기에 어휘간 대응 관계를 만든다면 어떤 것이 가장 그럴 듯 할까? 관찰된 사실만으로 추정해본다면 가능한 번역 쌍은((b, y), (c, x)}가 될 것이다. EM에서는 부트스트래핑 개념을 이용하여.
  • Yamamoto (2000)의 연구에서는 구 단위 대응 관계를 추줄하는 방법을 제시하였다. 그들은 번역시 단어의 순서나 위치가 달라질 수 있지만 단어들 간의 의존구조는 번역 후에도 유지된다고 가정하였다. 대역 말 뭉치 쌍들은 각각의 언어에 대해 통계적 의존 관계 파서를 이용해 각각 의존구조 후보들이 생성된다.
  • 이를 위해. 문장이 길수록 부가적인 단어들이 많이 생긴다고 가정하였으며. 개별 불어 단어들이 잉여 불어 단어를 pl 의 확률로 생산하는 다음과 같은 이항분포를 정의하였다.
  • 즉, 이번째 영어 단어가 [번째 불어 단어와 정렬될 확률은 불어 단어의 위치 및 영어 문장의 길이에 의해조건화된다고 가정하여 p(ajlj, m.l) 로근사화시 켰다.
  • 한영번역을 이러한 잡음채널 모델하에서 살펴보면, 화자는 영어를 통해 말을 전달하려고 하나 잡음 채널을 통과하면서 실제 나타난 텍스트에서는 한국어로 나타나게 된다고 가정한다. 따라서 우리는 출력된 결과인 한국어로부터 입력인 영어를 예측해야 하며 이러한 잡음채널에 의한 변환은 확률적으로 결정된다.
본문요약 정보가 도움이 되었나요?
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로