본 논문에서는 자을 선형 정렬 알고리즘을 이용하여 선형 정렬 말뭉치를 구축하는 방법을 제안한다. 기존의 자율 선형 정렬 알고리즘을 이용하여 선형 정렬 말뭉치를 구축할 경우, 두 문자열의 길이가 서로 다르면 정렬된 두 문자열(입력열과 출력열)에 모두 공백문자가 나타난다. 이 방법을 그대로 사용하면 정렬 말뭉치의 구축은 용이하나 정렬된 말뭉치를 이용하는 응용 시스템에서는 탐색 공간이 기하급수적으로 늘어날 뿐 아니라 구축된 정렬 말뭉치는 다양한 기계학습 방법에 두루 사용될 수 없다는 문제가 있다. 본 논문에서는 이들 문제를 최소화하기 위해서 입력열에는 공백문자가 나타나지 않도록 기존의 자을 선형 정렬 알고리즘을 수정하였다. 이 알고리즘을 이용해서 한영 음차 표기 및 복원, 영어 단어의 발음 생성, 영어 발음의 단어 생성, 한국어 형태소 분리 및 복원을 위한 정렬 말뭉치를 구축하였으며, 간단한 실험을 통해, 그들의 실용성을 입증해 보였다.
본 논문에서는 자을 선형 정렬 알고리즘을 이용하여 선형 정렬 말뭉치를 구축하는 방법을 제안한다. 기존의 자율 선형 정렬 알고리즘을 이용하여 선형 정렬 말뭉치를 구축할 경우, 두 문자열의 길이가 서로 다르면 정렬된 두 문자열(입력열과 출력열)에 모두 공백문자가 나타난다. 이 방법을 그대로 사용하면 정렬 말뭉치의 구축은 용이하나 정렬된 말뭉치를 이용하는 응용 시스템에서는 탐색 공간이 기하급수적으로 늘어날 뿐 아니라 구축된 정렬 말뭉치는 다양한 기계학습 방법에 두루 사용될 수 없다는 문제가 있다. 본 논문에서는 이들 문제를 최소화하기 위해서 입력열에는 공백문자가 나타나지 않도록 기존의 자을 선형 정렬 알고리즘을 수정하였다. 이 알고리즘을 이용해서 한영 음차 표기 및 복원, 영어 단어의 발음 생성, 영어 발음의 단어 생성, 한국어 형태소 분리 및 복원을 위한 정렬 말뭉치를 구축하였으며, 간단한 실험을 통해, 그들의 실용성을 입증해 보였다.
In this paper, we propose a modified unsupervised linear alignment algorithm for building an aligned corpus. The original algorithm inserts null characters into both of two aligned strings (source string and target string), because the two strings are different from each other in length. This can ca...
In this paper, we propose a modified unsupervised linear alignment algorithm for building an aligned corpus. The original algorithm inserts null characters into both of two aligned strings (source string and target string), because the two strings are different from each other in length. This can cause some difficulties like the search space explosion for applications using the aligned corpus with null characters and no possibility of applying to several machine learning algorithms. To alleviate these difficulties, we modify the algorithm not to contain null characters in the aligned source strings. We have shown the usability of our approach by applying it to different areas such as Korean-English back-trans literation, English grapheme-phoneme conversion, and Korean morphological analysis.
In this paper, we propose a modified unsupervised linear alignment algorithm for building an aligned corpus. The original algorithm inserts null characters into both of two aligned strings (source string and target string), because the two strings are different from each other in length. This can cause some difficulties like the search space explosion for applications using the aligned corpus with null characters and no possibility of applying to several machine learning algorithms. To alleviate these difficulties, we modify the algorithm not to contain null characters in the aligned source strings. We have shown the usability of our approach by applying it to different areas such as Korean-English back-trans literation, English grapheme-phoneme conversion, and Korean morphological analysis.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
그러나 본 논문에서는 자율 학습알고리즘[5]을 사용하기 때문에 이것은 큰 문제가 되지 않는다. 기촌의 DP 정렬 알고리즘을 그대로 사용할 수 없기 때문에 본 논문에서 [5]의 DP 정렬 알고리즘을 수정하여 정렬 말뭉치를 구축하고, 구축된 말뭉치를 음차 복원 및 표기 등과 같은 몇몇 응용 분야에 적용해서 그 유용성을 보이고자 한다.
즉, 음차(音借) 변환이나 자소/음소 변환과 같은 영역에서 자율 선형 정렬 알고리즘을 이용해서 사람이 개입하지 않고 정렬된 말뭉치를 구축하는 방법을 제안한다. 또 구축된 정렬 말뭉치를 다양한 분야에 적용해 봄으로써 그 유용성을 보이고자 한다.
본 논문에서는 다른 여러 기계학습 방법에서 자유롭게 사용할 수 있는 정렬 말뭉치를 구축하는데 목적이 있다. 이를 달성하기 위해서 본 논문에서는 정렬된 입력열에 공백문자가 들어가지 않도록 기존의 알고리즘을 수정한다, 이렇게 수정된 알고리즘에서 입력열에 속한 각 문자에 대응하는 출력열의 문자의 길이는 0개 이상이 된다.
본 논문에서는 사전을 이용하지 않기 때문에 형태소 분리 및 복원을 위한 정렬 말뭉치를 구축하고자 한다. 선형정렬 알고리즘을 학습하기 위해 KAIST 품사 부착 말뭉치 [1 기를 사용하였다.
본 논문에서는 영어와 한국어 사이의 음차 표기 및 복원을 위한 정렬 말뭉치를 구축하고자 한다. 자율 선형 정렬을 위한 학습 데이터는 단어 단위로 음차 표기된 한국어와 영어 단어 쌍이다.
본 논문에서는 이런 문제를 최소화하기 위해서 정렬된 입력 문자열에 공백문자가 나타나지 않도록 정렬 말뭉치를 구축한다. 이렇게 정렬된 말뭉치는<표 2>에서 가지고 있던 양방향성(bi-directionality)이 사라지게 된다.
본 논문에서는 자율 선형 정렬 알고리즘을 이용하여 자동으로 정렬 말뭉치를 구축하는 방법을 기술하였다. 본 논문에서는 기존의 자율 선형 정렬 알고리즘을 수정하여 입력 열에 나타날 수 있는 공백 문자를 제거하였으며, 이 알고리즘을 이용하여 정렬 말뭉치를 구축할 경우, 입력 문자열에 따라 다른 말뭉치가 구축되어야 한다.
뿐만 아니라 말뭉치 구축은 고도의 숙련된 전문가에 의해서 구축되지 않으면 많은 오류를 범하게 되어 자칫하면 어렵게 구축된 말뭉치가 쓸모없게 될 수도 있다. 본 논문은 이런 문제를 다소 완화시키기 위해서 제한된 분야이기는 하지만 사람의 개입을 최소화하는 방법으로 말뭉치를 구축하고자 한다. 즉, 음차(音借) 변환이나 자소/음소 변환과 같은 영역에서 자율 선형 정렬 알고리즘을 이용해서 사람이 개입하지 않고 정렬된 말뭉치를 구축하는 방법을 제안한다.
본 장에서는 3장에서 기술한 수정된 선형 정렬 알고리즘을 이용해서 자연언어처리에서 필요로 하는 선형 정렬 말뭉치의 구축 사례를 소개하고자 한다.
본 절에서는 4장에서 구축된 세 종류의 말뭉치를 이용해서 한영 음차 복원, 영어 발음 생성, 한국어 형태소 분리에 적용하여 그 유용성을 살펴보고자 한다. 본 논문은 시스템이나 모델의 정확성을 개선하고자 하는 목적이 아니기 때문에, HMM118]을 사용해서 각 응용 시스템을 구축하였으며, 사전이나 여러가지 경험규칙을 사용해서 성능을 개선 私기 위한 노력을 전혀 하지 않았다.
본 논문에서는 확률 이론에 기반을 둔 동적 프로그래밍 방법을 이용한다. 본 절에서는 Ristad와 Yilanilos에 의해서 제안된 기존의 자율 학습(unsupervised learning) 및 선형 정렬 알고리즘[5, 10]의 수정에 대해서 기술한다. 1장에서 이미 언급했듯이 입력열과 출력 열의 길이가 다를 경우, 정렬된 문자열에 공백문자가 사용되어 구축된 정렬 말뭉치는 결정트리[6]와 SVM[8]과 같은 기존의 기계학습 알고리즘에 그대로 적용할 수 없다.
<표 8>은 실험에 사용될 말뭉치의 규모이다. 이 말뭉치들을 이용해서 각 응용 시스템을 학습시키고 그 성능을 평가해 보고자 한다.
가설 설정
이런 정렬 결과는 1장에서 기술한 기존의 DP 정렬 알고리즘에 의해서 정렬된 말뭉치의 문제점을 해소할 수 있다. 본 논문에서는 한영 음차 표기 및 복원, 영어 단어의 발음 생성과 영어 발음의 단어 생성, 한국어 형태소 분리 및 복원을 위한 정렬 말뭉치를 구축하였으며 각 응용 분야의 원시 말뭉치의 구축 방법과 규모에 대해서는 4장에서 자세히 기술할 것이다.
제안 방법
자율 선형 정렬을 위한 학습 데이터는 단어 단위로 음차 표기된 한국어와 영어 단어 쌍이다. 본 논문에서는 표준국어대사전[13]의 "외래어 표기 용례"로부터 23, 576개의 단어 쌍을 수집하였으나 이들 중에서 영어 외에 일어, 불어, 노어 등에서 나온 단어를 세외하고 14, 590개의 단어 쌍을 학습을 위해서 사용하였다. 3장에서 기술한 자율 학습 및 선형 정렬 알고리즘을 이용히.
정렬 말뭉치를 구축하는 방법을 기술하였다. 본 논문에서는 기존의 자율 선형 정렬 알고리즘을 수정하여 입력 열에 나타날 수 있는 공백 문자를 제거하였으며, 이 알고리즘을 이용하여 정렬 말뭉치를 구축할 경우, 입력 문자열에 따라 다른 말뭉치가 구축되어야 한다. 즉 구축된 말뭉치는 양방향성을 잃게 된다.
본 논문에서는 영어 단어/발음 정렬을 위해 CMU 발음 사전[14]으로부터 127, 069개의 단어/발음 쌍을 추출하였다. 이들 중에서 엉'와 '#' 등이 포함된 단어는 제거하였고, 발음기호에서 악센트를 표기하기 위한 숫자를 제거하여 45, 000 개의 쌍을 학습 데이터로 선정하였다.
한영 음차변환의 예를 들면, 음차 표기된 한국어를 영어 단어로 변환할 경우와 영어 단어를 음차 표기된 한국어로 변환할 경우의 말뭉치가 다르게 된다. 본 논문에서는 제안된 알고리즘을 실제 응용 분야(한영 음차 표기 및 복원, 영어 자소/음소 변환, 한국어 형태 분리 및 복원에 적용해 보았다. 그 결과 대부분의 선형 정렬이 요구되는 응용 분야에 잘 적용됨을 알 수 있었다.
그 유용성을 살펴보고자 한다. 본 논문은 시스템이나 모델의 정확성을 개선하고자 하는 목적이 아니기 때문에, HMM118]을 사용해서 각 응용 시스템을 구축하였으며, 사전이나 여러가지 경험규칙을 사용해서 성능을 개선 私기 위한 노력을 전혀 하지 않았다.
단계이다. 본 논문은 영어 단어를 소리나는 대로 한글로 표기하는 한영 음차 표기와 영어 단어를 발음 기호로 변환하는 영어 단어의 발음 생성 그리고 한국어 어절을 분리하여 형태소의 사전표현과 표층표현으로 정렬하는 한국어 형태소 분리 및 복원 분야에 적용하였으며, 좀더 구체적인 내용은 5장에서 다룰 것이다.
이 검사를 통해서 오류가 충분히 작을 때까지 이와 같은 과정을 계속 반복한다. 선형 정렬 말뭉치의 구축 단계는 학습 단계에서 충분히 학습된 확률 편집거리를 모델로 수정된 DP 정렬 알고리즘을 수행함으로써 선형 정렬 말뭉치를 구축한다. 수정된 DP 정렬 알고리즘의 입력은 원시 말뭉치의 입력역과 출력 열 쌍이며, 출력은<표 1>과 같이 입력열과 출력열에 포함된 문자들의 정렬 결과이다.
편집거리를 학습하는 단계이다. 앞에서 언급했듯이 본 논문에서는 기존의 DP 정렬 알고리즘[5]을 수정해서 사용하는데, 수정에 대한 구체적인 내용은 3장에서 기술할 것이다. 일반적으로 DP 정렬 알고리즘의 매개변수로 편집거리를 사용하는데, 본 논문에서는 확률 편집거리를 사용한다.
이 학습 데이터와 3 장에서 기술한 자율 선형 정렬 알고리즘을 이용해서 자동적으로 영어 단어/발음 정렬 말뭉치를 구축하였으며 그 결과의 일부를에 실었다.
이를 달성하기 위해서 본 논문에서는 정렬된 입력열에 공백문자가 들어가지 않도록 기존의 알고리즘을 수정한다, 이렇게 수정된 알고리즘에서 입력열에 속한 각 문자에 대응하는 출력열의 문자의 길이는 0개 이상이 된다. 먼저 일반적인 선형 정렬 알고리즘의 편집 연산(삽입, 삭제, 대체)을 정의하면 아래와 같다.
이와 같은 과정을 통해서 구축된 학습 데이터를 자율 선형정렬 알고리즘으로 학습하였으며, 에 그 결과의 일부를 보이고 있다.
앞에서 언급했듯이 본 논문에서는 기존의 DP 정렬 알고리즘[5]을 수정해서 사용하는데, 수정에 대한 구체적인 내용은 3장에서 기술할 것이다. 일반적으로 DP 정렬 알고리즘의 매개변수로 편집거리를 사용하는데, 본 논문에서는 확률 편집거리를 사용한다. 이 편집거리의 추정 방법(estimation method)으로 EM 알고리즘을 사용하며, EM 알고리즘은 자율학습(unsupervised learning)으로 미리 정렬된 말뭉치를 사용하지 않는다[4, 5].
본 논문은 이런 문제를 다소 완화시키기 위해서 제한된 분야이기는 하지만 사람의 개입을 최소화하는 방법으로 말뭉치를 구축하고자 한다. 즉, 음차(音借) 변환이나 자소/음소 변환과 같은 영역에서 자율 선형 정렬 알고리즘을 이용해서 사람이 개입하지 않고 정렬된 말뭉치를 구축하는 방법을 제안한다. 또 구축된 정렬 말뭉치를 다양한 분야에 적용해 봄으로써 그 유용성을 보이고자 한다.
학습 방법은 원시 말뭉치인 입력열과 출력열 쌍을 EM 알고리즘에 입력하여 각 입력 문자에 대한 편집 연산(edit operation : 삭제, 대체, 삽입의 가능 정도를 편집거리로서 추정한다. 추정된 편집거리를 이용해서 다음 단계에서 설명할 선형 정렬 알고리즘에 적용하여, 주어진 입력열에 대해 정확한 출력열을 찾는지를 검사한다. 이 검사를 통해서 오류가 충분히 작을 때까지 이와 같은 과정을 계속 반복한다.
대상 데이터
이들 중에서 엉'와 '#' 등이 포함된 단어는 제거하였고, 발음기호에서 악센트를 표기하기 위한 숫자를 제거하여 45, 000 개의 쌍을 학습 데이터로 선정하였다. 이 학습 데이터와 3 장에서 기술한 자율 선형 정렬 알고리즘을 이용해서 자동적으로 영어 단어/발음 정렬 말뭉치를 구축하였으며 그 결과의 일부를<표 6>에 실었다.
이론/모형
모든 응용 시스템에서 기본 분류기는 N개의 결과를 출력할 수 있는 HMM 분류기[19]를 사용한다.<표 8>은 실험에 사용될 말뭉치의 규모이다.
방법으로 다루어지고 있다. 본 논문에서는 확률 이론에 기반을 둔 동적 프로그래밍 방법을 이용한다. 본 절에서는 Ristad와 Yilanilos에 의해서 제안된 기존의 자율 학습(unsupervised learning) 및 선형 정렬 알고리즘[5, 10]의 수정에 대해서 기술한다.
일반적으로 DP 정렬 알고리즘의 매개변수로 편집거리를 사용하는데, 본 논문에서는 확률 편집거리를 사용한다. 이 편집거리의 추정 방법(estimation method)으로 EM 알고리즘을 사용하며, EM 알고리즘은 자율학습(unsupervised learning)으로 미리 정렬된 말뭉치를 사용하지 않는다[4, 5]. 학습 방법은 원시 말뭉치인 입력열과 출력열 쌍을 EM 알고리즘에 입력하여 각 입력 문자에 대한 편집 연산(edit operation : 삭제, 대체, 삽입의 가능 정도를 편집거리로서 추정한다.
성능/효과
본 논문에서는 제안된 알고리즘을 실제 응용 분야(한영 음차 표기 및 복원, 영어 자소/음소 변환, 한국어 형태 분리 및 복원에 적용해 보았다. 그 결과 대부분의 선형 정렬이 요구되는 응용 분야에 잘 적용됨을 알 수 있었다. 앞으로의 연구는 선형 정렬된 코퍼스를 이용하여 입력 열을 출력 열로 변환하는 변환 시스템의 성능 향상에 집중해야 할 것이다.
후속연구
정확률이 그다지 높지 않다. 앞에서도 언급했듯이 정확률을 높이는 연구를 앞으로 좀더 수행할 계획이며, 사전이나 각 응용 분야에 적합한 경험규칙 혹은 다양한 문맥을 사용할 수 있는 분류기를 사용함으로써 이들 성능은 충분히 개선될 수 있다고 확신한다.
그 결과 대부분의 선형 정렬이 요구되는 응용 분야에 잘 적용됨을 알 수 있었다. 앞으로의 연구는 선형 정렬된 코퍼스를 이용하여 입력 열을 출력 열로 변환하는 변환 시스템의 성능 향상에 집중해야 할 것이다.
참고문헌 (20)
국립국어연구원, 21세기 세종계획 성과발표 및 토론회 자료집, 2004
Manning, C. D. and Schutze, H. Foundations of Statistical Natural Language Processing, The MIT Press, 1999
Marcus, M. P., Santorini, B. and Marcinkiewicz, M. A. 'Building a large annotated corpus of English: The Penn Treebank,' Computational Linguistics, 19(2), pp.313-330, 1993
Krogh, A., Brown, M., Mian, I. S., Sjolander, K. and Haussler, D. 'Hidden Markov models in computational biology: Applications to protein modeling,' Journal of Molecular Biology, 235, pp.1501-1531, 1994
Huang, E.-F., Soong, F. K., and Wang, H.-C., 'The use of tree-trellis search for large-vocabulary mandarin polysyllabic word speech recognition,' Computer Speech and Language, 8, pp.39-50, 1994
※ AI-Helper는 부적절한 답변을 할 수 있습니다.