[논문]한국어-영어 법률 말뭉치의 로컬 이중 언어 임베딩

최순영; 임희석

doi:10.15207/jkcs.2018.9.10.045

[국내논문] 한국어-영어 법률 말뭉치의 로컬 이중 언어 임베딩
Utilizing Local Bilingual Embeddings on Korean-English Law Data 원문보기

한국융합학회논문지 = Journal of the Korea Convergence Society, v.9 no.10, 2018년, pp.45 - 53

최순영 (고려대학교 컴퓨터학과) , (고려대학교 컴퓨터학과) , 임희석 (고려대학교 컴퓨터학과)

초록
AI-Helper

최근 이중 언어 임베딩(bilingual word embedding) 관련 연구들이 각광을 받고 있다. 그러나 한국어와 특정 언어로 구성된 병렬(parallel-aligned) 말뭉치로 이중 언어 워드 임베딩을 하는 연구는 질이 높은 많은 양의 말뭉치를 구하기 어려우므로 활발히 이루어지지 않고 있다. 특히, 특정 영역에 사용할 수 있는 로컬 이중 언어 워드 임베딩(local bilingual word embedding)의 경우는 상대적으로 더 희소하다. 또한 이중 언어 워드 임베딩을 하는 경우 번역 쌍이 단어의 개수에서 일대일 대응을 이루지 못하는 경우가 많다. 본 논문에서는 로컬 워드 임베딩을 위해 한국어-영어로 구성된 한국 법률 단락 868,163개를 크롤링(crawling)하여 임베딩을 하였고 3가지 연결 전략을 제안하였다. 본 전략은 앞서 언급한 불규칙적 대응 문제를 해결하고 단락 정렬 말뭉치에서 번역 쌍의 질을 향상시켰으며 베이스라인인 글로벌 워드 임베딩(global bilingual word embedding)과 비교하였을 때 2배의 성능을 확인하였다.

Abstract ▼ AI-Helper

Recently, studies about bilingual word embedding have been gaining much attention. However, bilingual word embedding with Korean is not actively pursued due to the difficulty in obtaining a sizable, high quality corpus. Local embeddings that can be applied to specific domains are relatively rare. Additionally, multi-word vocabulary is problematic due to the lack of one-to-one word-level correspondence in translation pairs. In this paper, we crawl 868,163 paragraphs from a Korean-English law corpus and propose three mapping strategies for word embedding. These strategies address the aforementioned issues including multi-word translation and improve translation pair quality on paragraph-aligned data. We demonstrate a twofold increase in translation pair quality compared to the global bilingual word embedding baseline.

주제어

표/그림 (5)

그림 Fig. 1. Overview of local bilingual word embedding system
그림 Fig. 2. Effect of each strategy on translation equivalence selection for sample sentence
그림 Fig. 3. Performance (Y-axis : %) of various strategies vs. baseline on the single word translationtask
그림 Fig. 4. Performance (Y-axis : %) of first and third strategies on the multiple word translation task
그림 Fig. 5. Performance (Y-axis : %) of strategy 1 on the single word translation task when varying embedding dimension

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

예를 들면 일대다 ('대학원' : 'graduate school', '문화재' : 'cultural heritage')와 같이 불규칙적인 대응관계를 갖는 현상을 쉽게 볼 수 있다[18]. 따라서 본 논문에서는 이러한 불규칙적 대응 문제를 해결하고, 단락 기준의 말뭉치의 워드 임베딩 질을 향상시키기 위해서 다음과 같은 3가지 연결 전략을 제안한다.

가설 설정

본 연구에서는 이중 언어 워드 임베딩을 학습시키기 위한 영역 특수적(domain-specific)인 말뭉치 C를 한국어와 영어로 이루어진 단락 기준 정렬 한국 법률 말뭉치로 가정한다.

제안 방법

11,655개의 한국어-영어로 정렬(parallel- aligned)된 법률 문서를 한국 법률 웹사이트에서 1948.8.30.부터 2018.7.1.까지의 기간에 대해서 크롤링(crawling)하였다.
본 연구에서는 이중 언어 워드 임베딩을 학습시키기 위한 영역 특수적(domain-specific)인 말뭉치 C를 한국어와 영어로 이루어진 단락 기준 정렬 한국 법률 말뭉치로 가정한다. 그리고 원시 언어(source language)를 한국어로 하고 목적 언어(target language)를 영어로 설정한 후, 한국어 단락을 입력으로 하여 [4]와 같은 방식으로 독립확률(independent likelihood) a를 0.5로 설정하고 a에 따라서 한국어 단락에 포함되어 있는 어휘를 어휘집에 존재하는 영어 대역어(equivalent)로 교체한다.
해당 문서는 문장 기준으로 정렬된 말뭉치가 아닌 단락 기준으로 정렬된 말뭉치이므로 첫째, 유사도(similarity)가 높은 서로 다른 언어의 두 단어를 효율적으로 연결(mapping)하기 위해서 둘째, 한 단어로 이루어진 한국어 어휘가 여러 개의 단어로 이루어진 영어 어휘와 연결되는 문제를 해결하기 위해서 3가지의 연결 전략을 제안한다. 그리고 이 3가지 연결 전략을 검증하기 위해서 학습에 사용된 한국어-영어로 표현된 법률 말뭉치를 바탕으로 150쌍의 단일 단어로 이루어진 검증 사전과 50쌍의 다중 단어(multi-word)로 이루어진 검증 사전을 구축하고, 이 사전을 기준으로 전략 간의 정확도를 비교한다. 또한 위키피디아 글로벌 이중 언어 워드 임베딩을 베이스라인으로 사용하여 본 논문의 전략과 정확도 비교한다.
까지의 기간에 대해서 크롤링(crawling)하였다. 그리고 해당 법률 문서를 전처리(preprocessing)하여 총 868,163개의 병렬(parallel- aligned) 단락을 이중 언어 워드 임베딩을 학습시킬 말뭉치로 하였다. 또한 한국어-영어 번역 쌍을 구축하는 데에는 국립국어원에서 제공하는 어휘집을 사용하였다.
본 모델은 데이터 전처리, 제안된 모델의 학습, 실험 세 단계로 이루어져있다. 데이터 전처리 단계에서는 한국어-영어 법률 데이터에 대해서 어근화를 하고, 학습 단계에서는 전처리 후의 단락 정렬 법률 데이터에 대해서 제안된 알고리즘을 사용하여 이중 언어 문장을 생성한다. 실험 단계에서는 학습된 이중 언어 워드 임베딩을 바탕으로 번역 쌍의 성능을 측정한다.
본 연구의 기여는 첫째, 단락 정렬 말뭉치를 사용한 워드 임베딩과 같은 문장 정렬 말뭉치를 사용한 워드 임베딩 보다 상대적으로 임베딩의 질이 떨어질 수 있는 말뭉치에 대해 번역 쌍 연결의 질을 향상시키기 위해 다양한 매핑전략을 적용하였다. 둘째, 한국어-영어 번역 쌍을 연결시키는 과정에서 발생하는 하나의 원시 어휘(source language vocabulary)에 여러 개의 단어로 이루어진 목적 어휘(target language vocabulary)가 연결되는 문제를 해결하기 위해 3가지의 전략을 제안하고 각 전략들의 결과를 비교분석하였다. 셋째, 법률 데이터를 사용하여 로컬 워드 임베딩을 학습시킨 결과, 영역 특수적인 자연어 처리 관련 분야에서 위키피디아 데이터를 사용하여 글로벌 워드 임베딩을 학습시킨 이중 언어 임베딩보다 2배의 정확도를 얻음을 보였다.
본 논문의 기여는 첫째, 단락 정렬 말뭉치를 사용한 워드 임베딩과 같은 문장 정렬 말뭉치를 사용한 워드 임베딩 보다 상대적으로 질이 떨어질 수 있는 말뭉치에 대해 다양한 매핑전략을 적용하였다. 둘째, 한국어-영어 번역쌍을 연결시키는 과정에서 발생하는 하나의 원시 어휘에 여러 개의 단어로 이루어진 목적 어휘가 연결되는 문제를 해결하기 위해 3가지의 전략을 제안하고 각 전략들의 결과를 비교분석하였다. 셋째, 법률 데이터를 사용하여 로컬 워드 임베딩을 학습시킨 결과, 영역 특수적인 자연어 처리 관련 분야에서 위키피디아 데이터를 사용하여 글로벌 워드 임베딩을 학습시킨 이중 언어 임베딩보다 2배의 정확도를 얻음을 보였다.
따라서 본 논문에 적용된 skip-gram 모델은 인덱스 i 와 윈도우 크기 c 그리고, 중심 단어 wi 가 주어졌을 때, 영역 특수적인 법률 문맥 단어인 wj, (i - c ≦ i ≦ i+c, j ≠ i)를 예측한다.
따라서 본 연구에서 한국 법률의 한국어-영어 번역 말뭉치를 사용하여 로컬 워드 임베딩(local word embedding)을 학습시켰으며, 학습에 사용된 말뭉치가 단락 기준 정렬 데이터이고 번역 쌍을 연결할 때 일대일 연결이 어려운 경우를 처리하기 위해서 Random Match, Single Match Greedy Intersect, Multiple Match Greedy Intersect 3가지 연결 전략을 제안하였다.
또한 글로벌 워드 임베딩(global word embedding)과 본 논문의 로컬 워드 임베딩(local word embedding)의 차이를 알아보기 위해서 글로벌 워드 임베딩인 위키피디아(Wikipedia) 이중 언어 워드 임베딩을 베이스라인(baseline)으로 사용하였다. 정확한 비교를 위해 해당 위키피디아 이중 언어 임베딩의 학습에도 본 논문과 같이 pseudo cross-lingual 접근법을 사용하였다.
그리고 이 3가지 연결 전략을 검증하기 위해서 학습에 사용된 한국어-영어로 표현된 법률 말뭉치를 바탕으로 150쌍의 단일 단어로 이루어진 검증 사전과 50쌍의 다중 단어(multi-word)로 이루어진 검증 사전을 구축하고, 이 사전을 기준으로 전략 간의 정확도를 비교한다. 또한 위키피디아 글로벌 이중 언어 워드 임베딩을 베이스라인으로 사용하여 본 논문의 전략과 정확도 비교한다.
법률 말뭉치에서 전반적으로 사용되는 형태학적으로 복잡한 한국어의 동사 어형의 다양성 때문에 이중 언어 연결강도(bilingual signal)를 늘리고 데이터의 희박성(sparsity)를 줄이기 위해서, 원시 언어와 목적 언어에 어근화(stemming) 및 품사부착(POS tagging)을 하였다. 주어진 원시 언어의 선택적인 교체를 하는 동안, 알파 파라미터 a는 0.
본 논문의 기여는 첫째, 단락 정렬 말뭉치를 사용한 워드 임베딩과 같은 문장 정렬 말뭉치를 사용한 워드 임베딩 보다 상대적으로 질이 떨어질 수 있는 말뭉치에 대해 다양한 매핑전략을 적용하였다. 둘째, 한국어-영어 번역쌍을 연결시키는 과정에서 발생하는 하나의 원시 어휘에 여러 개의 단어로 이루어진 목적 어휘가 연결되는 문제를 해결하기 위해 3가지의 전략을 제안하고 각 전략들의 결과를 비교분석하였다.
본 연구에서는 단락 기준으로 정렬(paragraph-aligned)된 한국 법률 데이터의 한국어-영어 말뭉치(corpus)와 작은 단어집(dictionary seed)을 사용하여 한국어-영어 이중 언어 워드 임베딩(bilingual word embedding)을 반지도(semi -supervised)로 학습시키는 방법을 제안한다. 해당 문서는 문장 기준으로 정렬된 말뭉치가 아닌 단락 기준으로 정렬된 말뭉치이므로 첫째, 유사도(similarity)가 높은 서로 다른 언어의 두 단어를 효율적으로 연결(mapping)하기 위해서 둘째, 한 단어로 이루어진 한국어 어휘가 여러 개의 단어로 이루어진 영어 어휘와 연결되는 문제를 해결하기 위해서 3가지의 연결 전략을 제안한다.
본 연구의 기여는 첫째, 단락 정렬 말뭉치를 사용한 워드 임베딩과 같은 문장 정렬 말뭉치를 사용한 워드 임베딩 보다 상대적으로 임베딩의 질이 떨어질 수 있는 말뭉치에 대해 번역 쌍 연결의 질을 향상시키기 위해 다양한 매핑전략을 적용하였다. 둘째, 한국어-영어 번역 쌍을 연결시키는 과정에서 발생하는 하나의 원시 어휘(source language vocabulary)에 여러 개의 단어로 이루어진 목적 어휘(target language vocabulary)가 연결되는 문제를 해결하기 위해 3가지의 전략을 제안하고 각 전략들의 결과를 비교분석하였다.
원시 언어 단락의 한 단어로 이루어진 어휘가 목적 언어 단락의 여러 개로 이루어진 어휘와 대응될 경우, 해당 어휘를 교체 대상으로 한다. 본 전략에서는 SMGI와 동일하게 어근화한 형태로 표현된 영어 문장과 사전을 참고하여 한국어 어휘를 0.5 확률로 교체한다. 본 전략을 적용한 [Fig.
데이터 전처리 단계에서는 한국어-영어 법률 데이터에 대해서 어근화를 하고, 학습 단계에서는 전처리 후의 단락 정렬 법률 데이터에 대해서 제안된 알고리즘을 사용하여 이중 언어 문장을 생성한다. 실험 단계에서는 학습된 이중 언어 워드 임베딩을 바탕으로 번역 쌍의 성능을 측정한다.
제안한 전략 3가지로 학습시킨 이중 언어 워드 임베딩으로부터 얻어진 번역 쌍의 정확도를 평가하기 위해서, 본 연구에서는 학습에 사용된 한국어 법률 데이터를 바탕으로 150개의 단일 단어로 구성된 검증 어휘집과 50개의 다중 단어로 구성된 검증 어휘집을 수작업으로 구축하여 사용하였다.
첫 번째로는 무작위 매치(Random Match) : RM, 두 번째로는 한 단어 교집합 매치(Single Match Greedy Intersect) : SMGI, 세 번째로는 복수 단어 교집합 매치(Multiple Match Greedy Intersect) : MMGI(목적 언어로 표현된 법률 말뭉치에 존재하는 단어 중 어휘집에 존재하는 목적 단어로 교차시킨다. )를 제안한다.
본 연구에서는 단락 기준으로 정렬(paragraph-aligned)된 한국 법률 데이터의 한국어-영어 말뭉치(corpus)와 작은 단어집(dictionary seed)을 사용하여 한국어-영어 이중 언어 워드 임베딩(bilingual word embedding)을 반지도(semi -supervised)로 학습시키는 방법을 제안한다. 해당 문서는 문장 기준으로 정렬된 말뭉치가 아닌 단락 기준으로 정렬된 말뭉치이므로 첫째, 유사도(similarity)가 높은 서로 다른 언어의 두 단어를 효율적으로 연결(mapping)하기 위해서 둘째, 한 단어로 이루어진 한국어 어휘가 여러 개의 단어로 이루어진 영어 어휘와 연결되는 문제를 해결하기 위해서 3가지의 연결 전략을 제안한다. 그리고 이 3가지 연결 전략을 검증하기 위해서 학습에 사용된 한국어-영어로 표현된 법률 말뭉치를 바탕으로 150쌍의 단일 단어로 이루어진 검증 사전과 50쌍의 다중 단어(multi-word)로 이루어진 검증 사전을 구축하고, 이 사전을 기준으로 전략 간의 정확도를 비교한다.

대상 데이터

그리고 해당 법률 문서를 전처리(preprocessing)하여 총 868,163개의 병렬(parallel- aligned) 단락을 이중 언어 워드 임베딩을 학습시킬 말뭉치로 하였다. 또한 한국어-영어 번역 쌍을 구축하는 데에는 국립국어원에서 제공하는 어휘집을 사용하였다. 국립국어원에서 제공하는 사전은 체언 및 용언으로 나뉘어져 있었으며, 한국어-영어 번역쌍의 정확률을 향상시키기 위해 학습에 사용한 법률 말뭉치를 형태소 분석하여 국립국어원 사전을 나뉜 구조 그대로 적용할 수 있도록 하였다.
본 연구에서 사용된 한국 법률 문서는 국방, 이민, 식품관리, 문화유산 등을 포함한 다양한 주제로 구성되어 있는 말뭉치이다.

이론/모형

따라서 본 논문에서는 Word Embedding 기법중 Word2Vec을 사용하였으며, SGNS 모델이 상대적으로 소량의 데이터로 보다 안정적으로 작동하고 희소한 단어를 보다 효과적으로 나타낼 수 있기 때문에[1], 법률 영역 로컬 이중 언어 워드 임베딩을 학습시키는 데 SGNS 모델을 적용한다. 따라서 본 논문에 적용된 skip-gram 모델은 인덱스 i 와 윈도우 크기 c 그리고, 중심 단어 w_i 가 주어졌을 때, 영역 특수적인 법률 문맥 단어인 w_j, (i - c ≦ i ≦ i+c, j ≠ i)를 예측한다.
또한 네 번째 접근법인 Joint optimization은 단일 언어와 이중 언어를 공동으로 목적 함수로 최적화시키기 때문에 이중 언어 임베딩의 질이 저하될 수 있다. 따라서 본 연구에서는 이중 언어 임베딩의 질을 최대화 시킬 수 있고, 말뭉치의 크기가 작고 희박성(sparsity)이 높은 경우에도 잘 학습될 수 있는 pseudo cross-lingual 접근법을 사용하였다.
본 논문에서 제안된 이중 언어 워드 임베딩 학습 전략들을 평가하기 위해서 Acc@k 평가법을 사용하였다. Acc@k 평가법은 ground truth 집합 T_topK@d의 목적 언어 번역 결과 중 top k 안에 예측된 번역 결과가 나타나는지 안 나타나는지에 대한 여부를 측정한다.
또한 글로벌 워드 임베딩(global word embedding)과 본 논문의 로컬 워드 임베딩(local word embedding)의 차이를 알아보기 위해서 글로벌 워드 임베딩인 위키피디아(Wikipedia) 이중 언어 워드 임베딩을 베이스라인(baseline)으로 사용하였다. 정확한 비교를 위해 해당 위키피디아 이중 언어 임베딩의 학습에도 본 논문과 같이 pseudo cross-lingual 접근법을 사용하였다.

성능/효과

두 번째 전략은 단일 단어 연결에 최적화되어 있는 전략이기 때문에 위와 같은 단일 단어 번역 실험에서 가장 높은 성능을 얻음을 볼 수 있다. 또한 세 가지 전략 간의 성능 차이는 크지 않았지만 베이스라인인 위키피디아 이중 언어 워드 임베딩과의 차이는 약 2배 차이가 나는 것을 볼 수 있다. 이는 3가지 제안된 전략은 법률 데이터를 이용한 로컬 임베딩이지만 위키피디아 워드 임베딩의 경우에는 글로벌 임베딩이므로 이러한 영역 특수적인 목적의 데이터에서는 로컬 임베딩이 성능이 훨씬 높게 나타난다는 것을 의미한다.
둘째, 한국어-영어 번역 쌍을 연결시키는 과정에서 발생하는 하나의 원시 어휘(source language vocabulary)에 여러 개의 단어로 이루어진 목적 어휘(target language vocabulary)가 연결되는 문제를 해결하기 위해 3가지의 전략을 제안하고 각 전략들의 결과를 비교분석하였다. 셋째, 법률 데이터를 사용하여 로컬 워드 임베딩을 학습시킨 결과, 영역 특수적인 자연어 처리 관련 분야에서 위키피디아 데이터를 사용하여 글로벌 워드 임베딩을 학습시킨 이중 언어 임베딩보다 2배의 정확도를 얻음을 보였다.

후속연구

따라서 다른 영역의 데이터의 경우에도 로컬 워드 임베딩이 글로벌 워드 임베딩보다 성능이 높게 나올 것으로 기대된다. 또한 본 연구에서는 이중 언어 워드 임베딩을 사용하였는데, 다중언어 임베딩인 삼중(tri) 사중(quad)언어 임베딩에서도 로컬 워드 임베딩과 글로벌 워드 임베딩에서도 본 3가지 전략을 사용할 경우 성능의 향상이 있을 것으로 기대된다.
향후 연구로는 본 연구에서 법률 영역을 대상으로 3가지 전략으로 로컬 워드 임베딩을 실험해보았을 때 글로벌 워드 임베딩보다 성능이 높게 나옴을 확인할 수 있었다. 따라서 다른 영역의 데이터의 경우에도 로컬 워드 임베딩이 글로벌 워드 임베딩보다 성능이 높게 나올 것으로 기대된다.

질의응답

핵심어	질문	논문에서 추출한 답변
	다중 언어 워드 임베딩은 주로 어디서 사용될 수 있는가?	최근 들어서는 다중 언어 워드 임베딩(Multilingual Word Embedding)에 관한 관심도 많아졌다[5]. 그리고 다중 언어 워드 임베딩은 기계번역(Machine Translation), 품사 태깅(POS tagging), 감정분석(Sentiment Analysis) 등 자연어 처리 분야에서 폭 넓게 사용될 수 있다. [6]에서는 형태소 단위 자질을 표현하기 위해 워드 임베딩을 사용하였고, [7]에서는 아마존 패션 상품 리뷰 데이터를 이용하여 각 단어들의 의미론적 특성을 반영하기 위해 워드 임베딩을 사용하였다.
	대부분의 워드 임베딩 연구는 어떻게 진행되어 왔는가?	대부분의 워드 임베딩 연구는 단일 언어에 대해서 문법적으로 혹은 의미적으로 유사한 단어를 임베딩 공간(Embedding space)에서 가깝게 표현하도록 하는 단어의 표현을 학습하는 데 초점을 맞추었었다[4]. 최근 들어서는 다중 언어 워드 임베딩(Multilingual Word Embedding)에 관한 관심도 많아졌다[5].
	한국어를 사용한 이중 언어 워드 임베딩 연구가 활발히 이루어지지 못하는 이유는 무엇인가?	한국어와 특정 언어를 사용한 이중 언어 워드 임베딩의 경우 특히, 병렬 데이터로 이중 언어 워드 임베딩을 학습하는 데에 있어서는 병렬 데이터가 양에서도 한정적이고, 질이 좋은 데이터는 더욱 희소하다. 위와 같은 이유로 한국어를 사용한 이중 언어 워드 임베딩 연구는 활발히 이루어지지 못하고 있다.

참고문헌 (18)

T. Mikolov, I. Sutskever, K. Chen, G. Corrado, J. Dean (2013). Distributed representations of words and phrases and their compositionality. Advances in neural information processing systems, 3111-3119.
J. Turian, L. Ratinov, Y. Bengio. (2010). Word representations: a simple and general method for semi-supervised learning. ACL '10 Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics, 384-394.
J. Guo, W. Che, H. Wang, T. Liu (2014). Revisiting embedded features for simple semisupervised learning. Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing, 110-120.
S. Gouws, A. Sogaard (2013). Simple task-specific bilingual word embeddings. Proceedings of the 2015 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 1386-1390.
M. Artetxe, G. Labaka, E. Agirre (2017). Learning bilingual word embeddings with (almost) no bilingual data. Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics, 1, 451-462.
D. Y. Lee, W. H. Yu, H. S. Lim (2017). Bi-directional LSTM-CNN-CRF for Korean Named Entity Recognition System with Feature Augmentation. Korea Convergence Society, 8(12), 55-62.
D. Y. Lee, J. C. Jo, H. S. Lim (2017). User Sentiment Analysis on Amazon Fashion Product Review Using Word Embedding. Korea Convergence Society, 8(4), 1-8.
S. H. Lee, C. H. Lee, H. S. Lim (2017). Bilingual Word Embedding Using Parallel Corpus. Korean Institute of Information Scientists and Engineers, 645-647.
F. Diaz, B. Mitra, N. Craswell (2016). Query Expansion with Locally-Trained Word Embeddings. arXiv preprints, 1605.07891.
Y. Goldberg, O. Levy (2014). word2vec Explained: deriving Mikolov et al.'s negative-sampling word-embedding method. arXiv preprints, 1402.3722.
T. Mikolov, K. Chen, G. Corrado, J. Dean (2013). Efficient Estimation of Word Representations in Vector Space. arXiv preprints, 1301.3781.
S. Ruder, I. Vulic, A. Sogaard (2017). A Survey of Cross-Lingual Word Embedding Models. arXiv preprints, 1706.04902.
T. Mikolov, Q. V. Le, I. Sutskever, (2013). Exploiting Similarities among Languages for Machine Translation. arXiv preprints, 1309.4168.
M. Faruqui, C. Dyer (2014). Improving Vector Space Word Representations Using Multilingual Correlation. Proceedings of the 14th Conference of the European Chapter of the Association for Computational Linguistics, 462-471.
L. Duong, H. Kanayama, T. Ma, S. Bird, T. Cohn, (2016). Learning crosslingual word embeddings without bilingual corpora. arXiv preprints, 1606.09403.
KM. Hermann, P. Blunsom (2013). Multilingual Distributed Representations without Word Alignment. arXiv preprints, 1312.6173.
A. Klementiev, I. Titov, B. Bhattarai (2012). Inducing Crosslingual Distributed Representations of Words. Proceedings of COLING 2012, 1459-1474.
S. H. Yun, Y. T. Kim (1993). Idiom-Based Analysis of Natural Language for Machine Translation. Korean Institute of Information Scientists and Engineers, 20(8), 1148-1158.

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증