[논문]도메인 특화 방법에 의한 영한 특허 자동 번역 시스템의 구축

최승권; 권오욱; 이기영; 노윤형; 박상규

도메인 특화 방법에 의한 영한 특허 자동 번역 시스템의 구축
Construction of English-Korean Automatic Translation System for Patent Documents Based on Domain Customizing Method 원문보기

정보과학회논문지. Journal of KIISE. 소프트웨어 및 응용, v.34 no.2, 2007년, pp.95 - 103

최승권 (한국전자통신연구원 언어처리연구팀) , 권오욱 (한국전자통신연구원 언어처리연구팀) , 이기영 (한국전자통신연구원 언어처리연구팀) , 노윤형 (한국전자통신연구원 언어처리연구팀) , 박상규 (한국전자통신연구원 언어처리연구팀)

초록
AI-Helper

본 논문은 웹과 같은 일반적인 도메인의 영한 자동 번역기를 특정 도메인으로 특화하는 방법에 의해 구축된 영한 특허 자동번역 시스템을 기술하는 것을 목표로 한다. 특정 도메인으로서의 특허 자동번역기를 위한 특화 방법은 다음과 같은 단계로 이루어진다: 1) 대용량 특허 문서의 수집 및 언어학적 특성 분석, 2) 전문용어 추출 및 대역어 구축, 3) 기보유한 용어의 대역어 특화, 4) 특허 고유의 번역 패턴추출 및 구축, 5) 언어학적 특성 분석에 따른 기보유 번역 엔진 모듈의 특화 및 개선, 6) 특화된 번역 지식 및 번역 엔진 모듈에 따른 번역률 평가. 이와 같은 특화 절차에 따른 특허 영한 자동 번역기는 특허 전문번역가의 평가에 의해 전분야 평균 81.03%의 번역률을 내었으며, 분야별로는 기계(80.54%), 전기전자 (81.58%), 화학일반(79.92%), 의료위생(80.79%), 컴퓨터(82.29%)의 성능을 보였으며 계속 개선 중에 있다.

Abstract ▼ AI-Helper

This paper describes an English-to-Korean automatic translation system for patent documents which is constructed by a method customizing from a general domain to a specific domain. The customizing method consists of following steps: 1) linguistically studying about characteristics of patent documents, 2) extracting unknown words from large patent documents and terminologically constructing, 3) customizing the target language words of existing terms, 4) extracting and constructing patent translation patterns peculiar to patent documents, 5) customizing existing translation engine modules according to linguistic study about characteristics of patent documents, 6) evaluation of automatic translation results. The English-to-Korean patent machine translation system implemented by these customization steps shows a translation accuracy of 81.03% and is improving.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

3) 특허 고유의 번역 패턴 추출 및 구축에 있어서, 기존의 특화 방법들에서는 영어 특허에 고유한 패턴에 대한 언급이 없으나, 본 논문에서는 영어 특허 문서 고유의 구문 및 문장 패턴에 대한 추출 및 구축에 대해 기술된다.
4) 기존 번역 엔진 모듈의 특화에 있어서, 기존의 특화 방법들은 영한 번역 엔진에 대한 특화 방법이 아닌 타 언어 엔진에 대한 특화 방법이 기술되어 있으나, 본 논문에서는 영한 번역 엔진을 특허 문서에 특화시키는 방법에 대해 기술한다.
본 논문에서는 일반 도메인을 대상으로 한 영한 자동번역기를 특허 도메인을 대상으로 한 영한 자동번역기로 특화하는 방법에 대해 살펴보았다. 특허 영한 자동번역기로의 특화 절차는 다음과 같은 절차로 이루어진다: 1) 대용량 특허 문서의 수집 및 언어학적 특성 분석, 2) 대용량 특허문서를 대상으로 한 전문용어 추출 및 대역어 구축, 3) 기존 번역사전 대역어의 특화, 4) 특허문서고유의 번역 패턴 추출 및 구축, 5) 언어학적 특성 분석에 따른 번역 엔진 모듈의 특화 및 개선, 6) 특화된 번역 지식 및 번역 엔진 모듈에 따른 번역률 평가.
본 절 이후부터는 기존의 특화 방법들을 포함하면 서상기에 기술된 추가적인 특화 방법에 대해 더 상세히기술하고자 한다.
본 절에서는 영한 특허 자동번역 시스템의 특허 분야별 번역률 평가 결과를 기술하고자 한다. 특허 분야별 평가 결과를 비교하기 위해 사용한 평가 코퍼스, 평가 방법, 평가 기준을 기술하면 다음과 같다:
이러한 기술적 문제점을 해결하기 위해 본 논문에서는 일반 도메인을 대상으로 구현되었던 기존 영한 자동번역 시스템을 도메인 특화 방법에 의해 구현된 영한특허 자동 번역 시스템에 대해 기술하고자 한다.

가설 설정

. The present invention relates to ~ 본 발명은 ~에 관한 것이다.
.전치사구, 분사구의 부착 편향성 반영: for 전치사구, 분사구에 대해 NP부착이 VP부착보다 우선하도록 편향성을 반영한다.

제안 방법

공백 단어 사이의 스트링들을 형태별로 분류하여서 분리할 심볼 및 대소문자 조합과 결합할 심볼및 대소문자 조합을 구분하여 특허용 토큰 분리 모듈을구현하였다. 그리고, 형태소 분석에서 사전에 등록되지않은 "/, , 과 "_, , 으로 이루어진 복합 단어를 처리할 수있도록 하였다.
.고빈도 명사/동사 어휘에 대한 대역어별 공기정보 수집: 동일한 특허 분야 내에서 문맥에 따라 서로 다르게 번역되는 어휘들을 수집하고, 이런 어휘들의 대역어 선택 모호성을 해결하기 위해 서로 다른 대역어로 번역되는 경우의 공기 정보들을 수집하였다. 이러한 공기 정보는 대역어 선택 모호성을 해소하기 위한 실마리로서 사용된다.
.동일 분야에서 공기정보를 활용한 대역어 선택 모호성 해소: 수집한 공기정보를 활용하여 동일 특허 분야내에서 서로 다른 대역어로 번역되는 어휘들에 대한대역어 선택 모호성 처리 모듈을 구현하였다.
.분야간 대역어 선택 해결을 위해 고빈도 어휘에 대한특허 분야별 디폴트 대역어 등록: 동일한 영어 어휘가서로 다른 특허 분야에서 서로 다른 한국어 대역어로번역되는 경우, 대역어에 대해 특허 분야 문서별로 어휘의 고빈도를 추출하여 대역어에 대해 디폴트 대역어 정보를 자질값으로 할당하였다.
.평가 코퍼스: 2001년-2005년 사이에 출원된 100만여건의 특허문서에서 주요 5개 산업분야7)(기계, 전기전자, 화학일반, 의료위생, 컴퓨터)에 대해 각 분야별로임의로 1,000개의 문서를 선정하고, 선정된 문서들로부터 Field별 문장수와 가중치를 반영하여 각 분야별로 100 문장을 자동 추출하였다(분야별로 100문장을구성하는 각 필드별 추출 문장수는 다음과 같다: Titled문장), Abstracts문장), Technical Field(l문장), Background of the Invention(5문장), Summaiy of the Invention(9문장), Brief Description of the Drawings。문장), Description of the preferred Embodiments (54문장), Claims (24문장)).
2) 기보유하고 있는 번역사전 엔트리의 대역어를 특화함에 있어서, 기존의 특화 방법들에서는 기존 번역사 전의 대역어 특화 방법이 구체적으로 어떻게 하는지에 대해 기술되어 있지 않으나, 본 논문에서는 기보유엔트리의 대역어 특화를 두부분으로 나누어 기술한다. 하나는 고빈도에 따른 디폴트 대역어 선정 방법이며, 다른 하나는 특허 분야별 대역어 선정 방법에 관한 것이다.
공백 단어 사이의 스트링들을 형태별로 분류하여서 분리할 심볼 및 대소문자 조합과 결합할 심볼및 대소문자 조합을 구분하여 특허용 토큰 분리 모듈을구현하였다. 그리고, 형태소 분석에서 사전에 등록되지않은 "/, , 과 "_, , 으로 이루어진 복합 단어를 처리할 수있도록 하였다.
그리고, 또한 자동 태깅된 코퍼스에서 기존 어휘 및 품사 n-gram 통계치와 크게 차이가 나는 어휘 및 품사 n-gram을 전문가에 의해서 재조정하고, 새롭게 뽑힌 n-gram 정보를 기존 n-gram 통계치에 대비하여 추가하여 새로운 도메인 언어모델에서도 정확하게 품사 태깅이 이루어지도록 특화하였다.
먼저, 특정 어휘 표층형에 대한 분석을 특화하기 위해서, 영어 토큰 분리와 형태소 분석 모듈을 부분적으로수정하였다. 공백 단어 사이의 스트링들을 형태별로 분류하여서 분리할 심볼 및 대소문자 조합과 결합할 심볼및 대소문자 조합을 구분하여 특허용 토큰 분리 모듈을구현하였다.
본 장에서는 상기예 언급된 영어 특허 문서 중에서 1/1, 000에 해당하는 1,000건의 특허문서를 임의로 추출하여 언어학적 특성 분석을 실시하였다.
특허 고유의 구문/문장 패턴의 적용: 특허 고유의 구문/문장 패턴의 일반적인 형태는 어휘에 의해 구분되는 구문의 형태로 되어 있다. 이러한 패턴에 대해 패턴의 어휘를 먼저 인식하고, 인식된 패턴 가중치 순으로 패턴의 구문 노드에 대한 실제적인 파싱을 수행하여, 모든 구문 노드의 파싱이 성공하는 첫번째 패턴을선택함으로써, 구문 분석 효율성 및 번역의 품질을 올렸다.
일반 도메인에서 어휘들을 올바로 번역하기 위해 다양한 정보들(예를 들어, 공기정보, 격정보, 의미코드 등) 을 사용하여 의미 모호성 오류 및 대역어 선택 모호성을 해소하였다.
그러므로, 어휘와 문맥통계 정보 특화 방법은 어휘확률과 전이확률을 특허 도메인에 맞도록 조정하여야 한다. 특허 도메인용 어휘확률과 전이확률을 학습할 태깅된 특허 문서 코퍼스가 없으므로, 앞서 언급한 2001년부터 2005년까지의 약 100만 특허 문서를 일반 도메인용 태깅 시스템으로 태깅한 후, 일반 도메인에서 얻은 어휘확률과 0.3 이상 차이가 나는 어휘들을 수집하여 반자동으로 그 어휘확률을 조정하였다.
특허 영한 자동번역 시스템의 품사 태거는 어휘화된 HMM(Hidden Markov Model)[기을 확장하여 구현되었다. 그러므로, 어휘와 문맥통계 정보 특화 방법은 어휘확률과 전이확률을 특허 도메인에 맞도록 조정하여야 한다.

대상 데이터

영어 특허 문서의 고유한 언어학적 특성을 찾기 위해 활용한 특허 문서는 1, 001, 419 건이다.1)이 특허 문서는 2001년부터 2005년까지 미국에서 공개 출원된 특허 문서이며 문장수로는 290, 683, 622에 달하며 1문서당 평균문장 수는 290 문장 정도이고, 1 문장당 평균 단어수는 28.

성능/효과

, 전치사구, 분사구의 부착에 있어서 편향성을 나타냄: for 전치사구 및 현재 분사구 수식의 경우 동사구 보다는 명사구 부착의 편향성을 나타냄.
. 대명사 출현빈도가 일반 도메인보다 적으며, 특히 인칭대명사는 거의 나타나지 않는다.
1) 용어 추출 단계어】서, 기존의 특화 방법들이 미등록어 추출만을 다룬 반면, 본 논문의 특화 방법에서는 미등록어 추출 뿐만 아니라 기보유하고 있는 다른 전문용어의 활용도 특화 방법에 포함하고 있다.

참고문헌 (7)

이민행, 지광신, 정소우 (1998), '기계번역 시스템 측정 장치 연구', 언어와 정보, Volume2, Number2
시정곤, 김원경, 고창수 (2000), '영-한 기계번역 성능 평가 방안 연구', 언어와 정보, Volume4, Number2
최승권 (2000) '영한자동번역에서의 두단계 영어전산 문법', 언어와 정보, Volume1, Number1. 97-109쪽
Akihiro Shinmori, Manabu Okumura, Yuzo Marukawa and Makoto Iwayama (2003), 'Patent Claim Processing for Readability - Structure Analysis and Term Explanation,' ACL-2003 Workshop on Patent Corpus Processing
Remi Zajac (2003), 'MT Customization,' MT Summit IX Workshop
Munpyo Hong, Young-Gil Kim, Chang-Hyun Kim, Seong-Il Yang, Young-Ae Seo, Cheol Ryu, and Sang-Kyu Park (2005), 'Customizing a Korean- English MT System for Patent Translation,' MT Summit X. 181-187
Ferran Pla and Antonio Molina (2005), 'Improving Part-of-speech Tagging Using Lexicalized HMMs,' Natural Language Engineering 10(2) 167-189

상세보기

LOADING...

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증