[논문]영한 기계 번역에서 미가공 텍스트 데이터를 이용한 대역어 선택 중의성 해소

김유섭; 장정호

doi:10.3745/kipstb.2004.11b.6.749

문제 정의

또한 두 모델의 성능을 비교하여 각각의 특성을 파악하였고 은닉 공간 상에서의 축소된 어휘 벡터의 차원수와 선택 정확도 간의 상관관계와 k-최근점 학습에서의 k값과 선택 정확도 간의 상관관계를 파악하고자 하였다. 이 과정을 보다 상세히 설명하면 다음과 같다.
본 논문에서는 공간의 차원수와 대역어 선택 정확도와의 관련성을 분석하기 위하여 50 차원부터 300 차원까지 다양한 벡터의 차원수(PLSA의 경우에는 z의 갯수)를 조절하여 대역어 선택 결과를 분석하였다. LSA 공간을 구성하기 위하여 SVDPACKE19] 으로부터 파생된 단일 벡터 Lanczos 알고리즘[2 이을 사용하였으며, PLSA는 [10, 12]에서 제시된 EM 알고리즘을 적용하였다.
본 논문에서는 영한 기계 번역에서의 대역어 선택에서 앞의 두 모델을 적용하여 보다 정확한 선택을 가능하게 하였다. 또한 두 모델의 성능을 비교하여 각각의 특성을 파악하였고 은닉 공간 상에서의 축소된 어휘 벡터의 차원수와 선택 정확도 간의 상관관계와 k-최근점 학습에서의 k값과 선택 정확도 간의 상관관계를 파악하고자 하였다.
본 논문에서는 예제 간 거리를 추정하고자 할 때 각 예저〕 (단어)들의 의미 유사도를 계산하였다. 의미 유사도를 계산하기 위해서는 지식이 필요한데, 여기서는 은닉 의미 분석 (Latent Semantic Analysis : LSA)과 확률적 은닉 의미 분석 (Probabilistic Latent Semantic Analysis : PLSA)을 사용하여 지식을 구축하였다.
본 논문은 영한 기계번역의 대역어 선택시 발생하는 중의성을 해소하기 위하여 A-. 최근점 학습 알고리즘과 두 개의 데이터 기반 모델을 사용하는 방법을 제시하였다.
실험에서는 1988년도 AP 뉴스 말뭉치를 TREC-7 데이터 [13]에서 얻어서 은닉 의미 구조를 구축하고자 하였다. 그리고 Wall Street Journal 말뭉치를 활용하여 사전과 테스트 세트를 구축하였다.

가설 설정

LSA는 기본적으로 특정 문맥에서 특정 단어들이 서로 공기하는 정도가 두 단어 간의 유사도를 추정하는데 가장 큰 정보를 제공한다는 점을 가정한다[9, 16]. LSA는 또한 특정 담화의 내용 중에서 단어들의 기대되는 문맥적 활용의 관계를 추출하고 추론한다.

제안 방법

그리고 Wall Street Journal 말뭉치를 활용하여 사전과 테스트 세트를 구축하였다. 우리는 8만 여 개의 문서에서 2만 여 종의 단어를 추출하여 은닉 의미 구조를 구축하였다.
그리고 두 번째 실험은 차원의 복잡도와 생성된 공간의 분포 건전성(distributional soundness) 간의 상관관계가 특정한 성격을 가지고 있는지 확인하는 실험을 하였다. 이 실험을 위하여 본 논문에서는 차원의 복잡도와 대역어 선택의 정확성 간의 상관관계를 계산하였으며 동시에 左-최근점 학습의 & 값과 대역어 선택의 정확도간의 상관관계를 계산하였다.
선택의 실례를 설명한다. 대역어 선택이 요구되는 입력단어 'build'가 입력되면 구문 분석을 통하여 인자 단어들을 추출한다. 여기서 'build'는 타동사이므로 동사의 목적어단어가 인자 단어가 된다.
또한 본 논문에서는 은닉 공간의 차원수 및 k- 최근점학습의 값과 대역어 선택 정확성간의 상관관계를 찾아서 각 모델의 은닉 공간 표현력을 분석하였다. 결과적으로 PLSA가 LSA보다 선택 정확도 및 은닉 의미의 표현력에 있어서 더 좋은 성능을 보여주었다.
이 실험에서 디폴트 대역어를 선택한 경우에 비하여 약 10% 이상의 선택 정확도의 향상을 보여 주었고 대체적으로는 PLSA가 LSA보다 근소하게 더 좋은 성능을 보여주었다. 또한 의미 공간의 차원수와 为- 최근점 학습의 为-값을 대역어 선택정확도와의 상관관계를 계산하여 각 요소들이 대역어 선택에 미치는 영향을 분석하였다.
최근점 학습 알고리즘과 두 개의 데이터 기반 모델을 사용하는 방법을 제시하였다. 본 논문에서 제시된 모델은 별도의 인간의 지식과 노력이 필요없고 단지 가공되지 않은 텍스트 데이터만을 필요로 한다. LSA와 PLSA는 모두 은닉 의미 공간을 구성하는데 사용되는데 이 공간에서 단어간 유사도를 추정하게 된다.
첫째, 유사도 추정에 포함된 어휘의 수가 제한되었기 때문이다. 본 논문에서는 약 20, 000 어휘만을 위한 유사도 추정 행렬을 구축하였다. 때문에 이 행렬에 포함되지 못한 어휘가 인자어로 입력될 경우에는 의미상 가장 유사한 단어를 사전에서 찾을 수 없기 때문에 디폴트 의미를 적용하는데 여기서 오류가 발생할 수 있다.
이에 반하여 본 논문에서 활용할 데이터 기반 자율 (unsupervised) 학습 방법은 인간의 지식, 추가적인 지식 베이스, 시소러스 또는 구문 파서와 같은 다양한 형태 및 내용의 추가 자원이 필요없이 미가공된 텍스트 데이터만을 가지고 원하고자 하는 자원을 구축할 수 있다. 본 논문에서는 이를 위하여 두 가지 기법을 활용하는데, 하나는 은닉 의미 분석 (Latent Semantic Analysis : LSA)[5] 이고 다른 하나는 이 모델의 프로토타입을 확률적인 모델로 재구성한 확률적 은닉의 미 분석 (Probabilistic Latent Semantic Analysis : PLSA) [1이 이다.
본 논문에서는 적절한 대역어를 선택하기 위하여 사전의 형태로 저장되어 있는 문법적 관계를 활용하였다. [1] 에서는단어 간의 문법적인 관계를 표현하기 위하여 구문 투플 (syntactic tuple)을 사용하였는데 이들 투플은 대역어 선택에 필요한 매우 주요한 문맥 정보를 가지고 있었다.
본 실험에서는 몇 가지 요소들의 상관계수(Co”(x, y)) 를 [22]에서 제시하고 있는 다음의 방법을 통하여 계산할 수 있었다.
TREC-7 데이터에 있는 1988년 AP 뉴스 말뭉치로부터 약 4천만 단어로 이루어진 79, 919 문서를 추출하였다. 여기서 먼저 4개 이하의 문자로 이루어진 단어와 문서 형식을 나타내는 태그들을 제거하여 21, 陋, 292 단어 텍스트 데이터를 구축하였다. 그리고 텍스트에 포함되어 있는 단어들의 어근을 추출하고 문서에서 20회 이상 나타나는 19, 286 단어들을 선태하였다.
셋째, 만일 인자어가 사전에 등록되어 있지 않으면 /c-최근 점 학습 알고리즘을 사용하여 입력된 단어의 대역어로 어떤 대역어 부류가 가장 적절한지 결정한다. 여기서 최근 점을 결정하기 위해서는 단어 간의 거리를 측정할 수 있어야 하는데, 본 논문에서는 위의 은닉 의미 분석 모델을 활용하여 그 거리를 측정하였다.
그리고 Wall Street Journal 말뭉치를 활용하여 사전과 테스트 세트를 구축하였다. 우리는 8만 여 개의 문서에서 2만 여 종의 단어를 추출하여 은닉 의미 구조를 구축하였다. 이 실험에서 디폴트 대역어를 선택한 경우에 비하여 약 10% 이상의 선택 정확도의 향상을 보여 주었고 대체적으로는 PLSA가 LSA보다 근소하게 더 좋은 성능을 보여주었다.
본 논문에서는 예제 간 거리를 추정하고자 할 때 각 예저〕 (단어)들의 의미 유사도를 계산하였다. 의미 유사도를 계산하기 위해서는 지식이 필요한데, 여기서는 은닉 의미 분석 (Latent Semantic Analysis : LSA)과 확률적 은닉 의미 분석 (Probabilistic Latent Semantic Analysis : PLSA)을 사용하여 지식을 구축하였다. 이들 방법은 기존의 미가공의 텍스트 데이터 외에는 어떠한 추가적인 인간의 지식도 불필요하다는 장점을 가지고 있다.
이 실험을 위하여 본 논문에서는 차원의 복잡도와 대역어 선택의 정확성 간의 상관관계를 계산하였으며 동시에 左-최근점 학습의 & 값과 대역어 선택의 정확도간의 상관관계를 계산하였다. 이 실험에서는 50, 100, 150, 200, 250, 300의 6가지 차원수를 사용하였고 동시에 1개, 2%, 4%, 6%, 8%, 그리고 10%의 6가지의 为 값을 사용하였다. 여기서 %값은 전체 샘플 중에서의 비율을 의미한다.
가지고 있는지 확인하는 실험을 하였다. 이 실험을 위하여 본 논문에서는 차원의 복잡도와 대역어 선택의 정확성 간의 상관관계를 계산하였으며 동시에 左-최근점 학습의 & 값과 대역어 선택의 정확도간의 상관관계를 계산하였다. 이 실험에서는 50, 100, 150, 200, 250, 300의 6가지 차원수를 사용하였고 동시에 1개, 2%, 4%, 6%, 8%, 그리고 10%의 6가지의 为 값을 사용하였다.
첫 번째 실험은 은닉 의미 분석이 대역어 선택 중의성 해소에 기여하는 정도를 측정한 실험이다. 이를 위해서, 가장 먼저 디폴트 의미(default meaning)를 사용하여 적절한 대역어를 선택하는 방법을 평가하였다. 여기서 디폴트 의미란 여러 대역어 중에서 가장 높은 빈도로 선택되어지는 대역어를 말하며 사전에 인자단어가 나열되어 있지 않은 경우에 디폴트 대역어를 무조건 선택하는 방식이다.
본 실험은 크게 두 개의 실험으로 이루어져 있다. 첫 번째 실험은 은닉 의미 분석이 대역어 선택 중의성 해소에 기여하는 정도를 측정한 실험이다. 이를 위해서, 가장 먼저 디폴트 의미(default meaning)를 사용하여 적절한 대역어를 선택하는 방법을 평가하였다.
첫째, 두 단어 간의 문법적인 관계를 표현하는 투플(tuple) 을 저장하는 사전을 구축하였다. 여기서 문법적인 관계는 주어-자동사, 타동사-목적어, 그리고 형용사-명사로 그 범위를 제한하였다.
해소하기 위하여 A-. 최근점 학습 알고리즘과 두 개의 데이터 기반 모델을 사용하는 방법을 제시하였다. 본 논문에서 제시된 모델은 별도의 인간의 지식과 노력이 필요없고 단지 가공되지 않은 텍스트 데이터만을 필요로 한다.

대상 데이터

TREC-7 데이터에 있는 1988년 AP 뉴스 말뭉치로부터 약 4천만 단어로 이루어진 79, 919 문서를 추출하였다. 여기서 먼저 4개 이하의 문자로 이루어진 단어와 문서 형식을 나타내는 태그들을 제거하여 21, 陋, 292 단어 텍스트 데이터를 구축하였다.
여기서 먼저 4개 이하의 문자로 이루어진 단어와 문서 형식을 나타내는 태그들을 제거하여 21, 陋, 292 단어 텍스트 데이터를 구축하였다. 그리고 텍스트에 포함되어 있는 단어들의 어근을 추출하고 문서에서 20회 이상 나타나는 19, 286 단어들을 선태하였다. 그럼으로써 텍스트 데이터의 크기는 17, 071, 211 단& 가 되었다.
실험에서는 두 종류의 데이터가 사용되었는데, 첫 번째 데이터는 LSA와 PLSA에 의한 은닉 공간을 구성하기 위한 데이터이고, 다른 데이터는 문법적 관계를 포함하고 있는 사전을 구축하고 또한 대역어 선택 결과를 테스트하기 위한 데이터이다. TREC-7 데이터에 있는 1988년 AP 뉴스 말뭉치로부터 약 4천만 단어로 이루어진 79, 919 문서를 추출하였다.
나열한 예이다. 실험을 위하여 타동사-목적어, 자동사-즈어, 형용사-명사와 같은 문법적인 관계를 가지고 있는 3, 443개의 문장들을 220, 047개의 월 스트리트 말뭉치와 41, 750개의 그 밖의 신문 말뭉치 등 총 261, 797 단어 말뭉치로부터 추출하였다.[표 4]의 단어들은 여기서 인자단어로 사용된 단어들이다.
여기서 %값은 전체 샘플 중에서의 비율을 의미한다. 첫 번째 실험과는 달리, 정확도를 계산할 때 사전에는 포함되어 있지 않기 때문에 유사도 계산 및 为- 최근점 학습을 적용해야 하는 샘플들만을 그 대상으로 하였다. 따라서 결과의 y축의 값이 실제 대역어 선택 정확도에 비하여 낮은 수치를 보여주고 있다.

데이터처리

즉 각 문법적 관계를 나타내는 샘플 문장들을 5개의 서로 교차하지 않는 샘플 집합으로 나누고, 실험에서 하나의 샘플은 테스트 샘플이 되고 나머지 4개의 샘플은 문법적 관계를 저장하고 있는 사전을 구성하는데 사용되도록 서로 결합되는 것이다. 그리고 5개의 모든 샘플들이 각각 테스트 샘플이 되어 총 5회의 실험을 반복한 후 그 결과의 평균을 구했다.

이론/모형

선택 결과를 분석하였다. LSA 공간을 구성하기 위하여 SVDPACKE19] 으로부터 파생된 단일 벡터 Lanczos 알고리즘[2 이을 사용하였으며, PLSA는 [10, 12]에서 제시된 EM 알고리즘을 적용하였다. 지식 구축을 위하여 필요한 시간 및 공간 복잡도는 LSA에 비하여 PLSA가 월등히 높은 모습을 보여주었는데 축소된 차원의 크기에 따라 약 12배에서 60배 정도의 차이가 나타났다.
그리고 대역어 선택 실험을 할 때는 5-폴드 교차 검증 (5-fold cross validation) 방법을 각각의 문법적 관계에 적용시켰다. 즉 각 문법적 관계를 나타내는 샘플 문장들을 5개의 서로 교차하지 않는 샘플 집합으로 나누고, 실험에서 하나의 샘플은 테스트 샘플이 되고 나머지 4개의 샘플은 문법적 관계를 저장하고 있는 사전을 구성하는데 사용되도록 서로 결합되는 것이다.
그리고 이 함수는 대부분의 은닉 변수 모델에서 그러하듯이 EM 알고리즘을 사용하여 최대화한다. 파라미터 추정과 관련하여 더 자세한 사항은 [1이을 참조하기 바란다.
둘째, 어근을 찾는 알고리즘에서 문제가 발생한 경우이다. 대량의 문서 데이터에서 출현한 어휘를 대표어휘로 변환하기 위해서 본 논문에서는 단순한 형태의 스테밍 Xstemming tool)을활용하였다. 예를 들어 본 실험에서는 'house'와 'housing' 모두 동일한 어근인 'hous'로 대표어휘가 결정되는데 두 단어는 각각 'build'의 대역어를 '건축하다'와 '건설하다'로 다르게 선택하게 한다.
입력된 인자단어가 사전에 나열되어 있지 않은 경우에는 이미 나열되어 있는 단어 (예제)들을 분석하여 인자단어의 부류(class)를 유추해서 대역어를 선택할 수 있다. 이때 유추를 위하여 본 논문에서는 力- 최근점 학습 방법을 사용하였다. 々- 최근점 학습 알고리즘[14-15]에서는 먼저 모든 예제들은 如-차원의 공간 R”상의 한 점에 대응된다고 가정한다.

성능/효과

이는 인자단어가 주어졌을 때 사전에 나열되어 있는 단어들과의 유사도를 계산하는 과정에서 크고 복잡한 벡터간의 코사인 연산일수록 더 많은 시간이 소요되었기 때문이다. LSA와 PLSA의 경우에서도 결과 차원의 수와 토픽의 수가 작을 수록 대역어 선택에 필요한 시간은 점점 줄어드는 모습을 보여주었다.
또한 본 논문에서는 은닉 공간의 차원수 및 k- 최근점학습의 값과 대역어 선택 정확성간의 상관관계를 찾아서 각 모델의 은닉 공간 표현력을 분석하였다. 결과적으로 PLSA가 LSA보다 선택 정확도 및 은닉 의미의 표현력에 있어서 더 좋은 성능을 보여주었다.
여기서 문법적인 관계는 주어-자동사, 타동사-목적어, 그리고 형용사-명사로 그 범위를 제한하였다. 둘째, 대역어 선택을 위한 입력은 역시 투플로 구성되는데 이 중 한 단어는 번역되어야 하는 단어이고 나머지 한 단어는 인자로 활용되는 단어이다. 이때 하나의 투플이 입력되면 인자로 사용되는 단어로 사전을 검색한다.
이에 대해서는 아래에서보다 자세하게 설명한다. 마지막으로 LSA 와 PLSA를 사용하여 어휘 유사도를 계산하여 대역어를 선택하였는데 최대 87.16%의 정확한 대역어가 선택되었다. 그런데 대역어 선택에 있어서 소요된 시간을 비교해 보면, 가공되지 않은 벡터를 사용한 경우는 LSA나 PLSA를 사용하여 기존 행렬을 가공한 경우에 비하여 약 6배에서 9배까지 더 많은 시간을 소비하는 결과를 보여주었다.
또한 PLSA에서는 차원수가 150일 경우에 상관계수 가정점을 이루고 있는 것을 보여주는데, 이는 이때가 PLSA 공간이 가장 은닉 의미를 정확하게 표현하고 있는 것을 의미한다. 반대로 LSA는 벡터가 200 차원으로 구축되었을 때 가장 바람직한 결과가 나타났다. 평균적으로 PLSA는 LSA보다 약간 더 높은 상관계수를 보여주었다.
본 논문에서 제시된 방법을 통하여 대역어 선택에 있어서 디폴트 의미 선택시보다 약 10%의 성능향상이 가능하게 되었다. 또한 본 논문에서는 은닉 공간의 차원수 및 k- 최근점학습의 값과 대역어 선택 정확성간의 상관관계를 찾아서 각 모델의 은닉 공간 표현력을 분석하였다.
이때 하나의 투플이 입력되면 인자로 사용되는 단어로 사전을 검색한다. 셋째, 만일 인자어가 사전에 등록되어 있지 않으면 /c-최근 점 학습 알고리즘을 사용하여 입력된 단어의 대역어로 어떤 대역어 부류가 가장 적절한지 결정한다. 여기서 최근 점을 결정하기 위해서는 단어 간의 거리를 측정할 수 있어야 하는데, 본 논문에서는 위의 은닉 의미 분석 모델을 활용하여 그 거리를 측정하였다.
그리고 그림에서의 X 축은 々 값을 丫축은 선택 정확도를 보여준다. 실험 결과 LSA 와 PLSA 모두 선택 정확도가 为값이 증가할수록 동시에 같이 증가하는 모습을 보여주었다. 실험의 결과 벡터의 차원의 크기가 대역어 선택의 시간 복잡도에 큰 영향을 미쳤듯이 k- 최근점 학습에서의 为값도 그 정도는 아니지만 역시 시간 복잡도에 영향을 미쳤다.
실험 결과 LSA 와 PLSA 모두 선택 정확도가 为값이 증가할수록 동시에 같이 증가하는 모습을 보여주었다. 실험의 결과 벡터의 차원의 크기가 대역어 선택의 시간 복잡도에 큰 영향을 미쳤듯이 k- 최근점 학습에서의 为값도 그 정도는 아니지만 역시 시간 복잡도에 영향을 미쳤다.
우리는 8만 여 개의 문서에서 2만 여 종의 단어를 추출하여 은닉 의미 구조를 구축하였다. 이 실험에서 디폴트 대역어를 선택한 경우에 비하여 약 10% 이상의 선택 정확도의 향상을 보여 주었고 대체적으로는 PLSA가 LSA보다 근소하게 더 좋은 성능을 보여주었다. 또한 의미 공간의 차원수와 为- 최근점 학습의 为-값을 대역어 선택정확도와의 상관관계를 계산하여 각 요소들이 대역어 선택에 미치는 영향을 분석하였다.
즉 모든 단어는 실험에 사용된 문서수와 동일한 차원수의 벡터를 가지고 벡터의 각 원소는 해당 단어가 해당 문서에 나타난 빈도수 그 자체를 의미한다. 이러한 방법을 이용하여 약 87.09%까지 정확한 대역어가 선택되었는데, 본 논문에서의 대역어 선택은 为- 최근점 학습을 이용하여 이루어지기 때문에 为값에 따라서 그 정확도는 조금씩 달랐다. 이에 대해서는 아래에서보다 자세하게 설명한다.
LSA 공간을 구성하기 위하여 SVDPACKE19] 으로부터 파생된 단일 벡터 Lanczos 알고리즘[2 이을 사용하였으며, PLSA는 [10, 12]에서 제시된 EM 알고리즘을 적용하였다. 지식 구축을 위하여 필요한 시간 및 공간 복잡도는 LSA에 비하여 PLSA가 월등히 높은 모습을 보여주었는데 축소된 차원의 크기에 따라 약 12배에서 60배 정도의 차이가 나타났다.
반대로 LSA는 벡터가 200 차원으로 구축되었을 때 가장 바람직한 결과가 나타났다. 평균적으로 PLSA는 LSA보다 약간 더 높은 상관계수를 보여주었다. 이것은 PLSA를 통하여 생성된 은닉공간의 샘플 분포가 LSA를 통하여 생성된 분포보다 더 최적에 가깝다고 해석할 수 있다.
간의 상관계수를 보여준다. 표에서 보듯이 左값과 정확도의 상관계수가 차원수와 정확도의 상관계수보다 월등히 높음을 알 수 있다. 다시 말해서, 为값의 선택이 벡터의 차원 수보다 훨씬 더 선택 정확도에 많은 영향을 미친다고 볼 수 있다.

후속연구

또한 워드넷과 같이 본 논문에서 사용된 방법론과 이형적(heterogeneous)인 모델들을 효과적으로 결합하는 방법도 연구 대상이 될 것이다. 또한 다양한 의미 커널 알고리즘을 통하여 문제를 해결하고자 하는 것도 좋은 연구 대상이 될 것이다.
예를 들어, 본 논문에서 제시된 방법론들의 결과를 서로 결합하여 앙상블모델을 구축하거나 이들 모델을 선형적으로 결합하여 제 3의 모델을 구축하는 것이 필요하다. 또한 워드넷과 같이 본 논문에서 사용된 방법론과 이형적(heterogeneous)인 모델들을 효과적으로 결합하는 방법도 연구 대상이 될 것이다. 또한 다양한 의미 커널 알고리즘을 통하여 문제를 해결하고자 하는 것도 좋은 연구 대상이 될 것이다.
향후 연구로서 이들 모델들이 가지고 있는 성능의 제한을 해결하기 위한 다양한 시도가 필요할 것이다. 예를 들어, 본 논문에서 제시된 방법론들의 결과를 서로 결합하여 앙상블모델을 구축하거나 이들 모델을 선형적으로 결합하여 제 3의 모델을 구축하는 것이 필요하다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

영한 기계 번역에서 미가공 텍스트 데이터를 이용한 대역어 선택 중의성 해소
Target Word Selection Disambiguation using Untagged Text Data in English-Korean Machine Translation 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

참고문헌 (22)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

연관된 기능

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

영한 기계 번역에서 미가공 텍스트 데이터를 이용한 대역어 선택 중의성 해소 Target Word Selection Disambiguation using Untagged Text Data in English-Korean Machine Translation 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

참고문헌 (22)

이 논문을 인용한 문헌

저자의 다른 논문 :

김유섭 (9) 장정호 (4)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

연관된 기능

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

영한 기계 번역에서 미가공 텍스트 데이터를 이용한 대역어 선택 중의성 해소
Target Word Selection Disambiguation using Untagged Text Data in English-Korean Machine Translation 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper