$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

자율 학습을 이용한 선형 정렬 말뭉치 구축
Construction of Linearly Aliened Corpus Using Unsupervised Learning 원문보기

정보처리학회논문지. The KIPS transactions. Part B. Part B, v.11B no.3, 2004년, pp.387 - 394  

이공주 (경인여자대학 컴퓨터정보기술학부) ,  김재훈 (한국해양대학교 컴퓨터공학과)

초록
AI-Helper 아이콘AI-Helper

본 논문에서는 자을 선형 정렬 알고리즘을 이용하여 선형 정렬 말뭉치를 구축하는 방법을 제안한다. 기존의 자율 선형 정렬 알고리즘을 이용하여 선형 정렬 말뭉치를 구축할 경우, 두 문자열의 길이가 서로 다르면 정렬된 두 문자열(입력열과 출력열)에 모두 공백문자가 나타난다. 이 방법을 그대로 사용하면 정렬 말뭉치의 구축은 용이하나 정렬된 말뭉치를 이용하는 응용 시스템에서는 탐색 공간이 기하급수적으로 늘어날 뿐 아니라 구축된 정렬 말뭉치는 다양한 기계학습 방법에 두루 사용될 수 없다는 문제가 있다. 본 논문에서는 이들 문제를 최소화하기 위해서 입력열에는 공백문자가 나타나지 않도록 기존의 자을 선형 정렬 알고리즘을 수정하였다. 이 알고리즘을 이용해서 한영 음차 표기 및 복원, 영어 단어의 발음 생성, 영어 발음의 단어 생성, 한국어 형태소 분리 및 복원을 위한 정렬 말뭉치를 구축하였으며, 간단한 실험을 통해, 그들의 실용성을 입증해 보였다.

Abstract AI-Helper 아이콘AI-Helper

In this paper, we propose a modified unsupervised linear alignment algorithm for building an aligned corpus. The original algorithm inserts null characters into both of two aligned strings (source string and target string), because the two strings are different from each other in length. This can ca...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 그러나 본 논문에서는 자율 학습알고리즘[5]을 사용하기 때문에 이것은 큰 문제가 되지 않는다. 기촌의 DP 정렬 알고리즘을 그대로 사용할 수 없기 때문에 본 논문에서 [5]의 DP 정렬 알고리즘을 수정하여 정렬 말뭉치를 구축하고, 구축된 말뭉치를 음차 복원 및 표기 등과 같은 몇몇 응용 분야에 적용해서 그 유용성을 보이고자 한다.
  • 즉, 음차(音借) 변환이나 자소/음소 변환과 같은 영역에서 자율 선형 정렬 알고리즘을 이용해서 사람이 개입하지 않고 정렬된 말뭉치를 구축하는 방법을 제안한다. 또 구축된 정렬 말뭉치를 다양한 분야에 적용해 봄으로써 그 유용성을 보이고자 한다.
  • 본 논문에서는 다른 여러 기계학습 방법에서 자유롭게 사용할 수 있는 정렬 말뭉치를 구축하는데 목적이 있다. 이를 달성하기 위해서 본 논문에서는 정렬된 입력열에 공백문자가 들어가지 않도록 기존의 알고리즘을 수정한다, 이렇게 수정된 알고리즘에서 입력열에 속한 각 문자에 대응하는 출력열의 문자의 길이는 0개 이상이 된다.
  • 본 논문에서는 사전을 이용하지 않기 때문에 형태소 분리 및 복원을 위한 정렬 말뭉치를 구축하고자 한다. 선형정렬 알고리즘을 학습하기 위해 KAIST 품사 부착 말뭉치 [1 기를 사용하였다.
  • 본 논문에서는 영어와 한국어 사이의 음차 표기 및 복원을 위한 정렬 말뭉치를 구축하고자 한다. 자율 선형 정렬을 위한 학습 데이터는 단어 단위로 음차 표기된 한국어와 영어 단어 쌍이다.
  • 본 논문에서는 이런 문제를 최소화하기 위해서 정렬된 입력 문자열에 공백문자가 나타나지 않도록 정렬 말뭉치를 구축한다. 이렇게 정렬된 말뭉치는<표 2>에서 가지고 있던 양방향성(bi-directionality)이 사라지게 된다.
  • 본 논문에서는 자율 선형 정렬 알고리즘을 이용하여 자동으로 정렬 말뭉치를 구축하는 방법을 기술하였다. 본 논문에서는 기존의 자율 선형 정렬 알고리즘을 수정하여 입력 열에 나타날 수 있는 공백 문자를 제거하였으며, 이 알고리즘을 이용하여 정렬 말뭉치를 구축할 경우, 입력 문자열에 따라 다른 말뭉치가 구축되어야 한다.
  • 뿐만 아니라 말뭉치 구축은 고도의 숙련된 전문가에 의해서 구축되지 않으면 많은 오류를 범하게 되어 자칫하면 어렵게 구축된 말뭉치가 쓸모없게 될 수도 있다. 본 논문은 이런 문제를 다소 완화시키기 위해서 제한된 분야이기는 하지만 사람의 개입을 최소화하는 방법으로 말뭉치를 구축하고자 한다. 즉, 음차(音借) 변환이나 자소/음소 변환과 같은 영역에서 자율 선형 정렬 알고리즘을 이용해서 사람이 개입하지 않고 정렬된 말뭉치를 구축하는 방법을 제안한다.
  • 본 장에서는 3장에서 기술한 수정된 선형 정렬 알고리즘을 이용해서 자연언어처리에서 필요로 하는 선형 정렬 말뭉치의 구축 사례를 소개하고자 한다.
  • 본 절에서는 4장에서 구축된 세 종류의 말뭉치를 이용해서 한영 음차 복원, 영어 발음 생성, 한국어 형태소 분리에 적용하여 그 유용성을 살펴보고자 한다. 본 논문은 시스템이나 모델의 정확성을 개선하고자 하는 목적이 아니기 때문에, HMM118]을 사용해서 각 응용 시스템을 구축하였으며, 사전이나 여러가지 경험규칙을 사용해서 성능을 개선 私기 위한 노력을 전혀 하지 않았다.
  • 본 논문에서는 확률 이론에 기반을 둔 동적 프로그래밍 방법을 이용한다. 절에서는 Ristad와 Yilanilos에 의해서 제안된 기존의 자율 학습(unsupervised learning) 및 선형 정렬 알고리즘[5, 10]의 수정에 대해서 기술한다. 1장에서 이미 언급했듯이 입력열과 출력 열의 길이가 다를 경우, 정렬된 문자열에 공백문자가 사용되어 구축된 정렬 말뭉치는 결정트리[6]와 SVM[8]과 같은 기존의 기계학습 알고리즘에 그대로 적용할 수 없다.
  • <표 8>은 실험에 사용될 말뭉치의 규모이다. 이 말뭉치들을 이용해서 각 응용 시스템을 학습시키고 그 성능을 평가해 보고자 한다.

가설 설정

  • 이런 정렬 결과는 1장에서 기술한 기존의 DP 정렬 알고리즘에 의해서 정렬된 말뭉치의 문제점을 해소할 수 있다. 본 논문에서는 한영 음차 표기 및 복원, 영어 단어의 발음 생성과 영어 발음의 단어 생성, 한국어 형태소 분리 및 복원을 위한 정렬 말뭉치를 구축하였으며 각 응용 분야의 원시 말뭉치의 구축 방법과 규모에 대해서는 4장에서 자세히 기술할 것이다.
본문요약 정보가 도움이 되었나요?

참고문헌 (20)

  1. 국립국어연구원, 21세기 세종계획 성과발표 및 토론회 자료집, 2004 

  2. Manning, C. D. and Schutze, H. Foundations of Statistical Natural Language Processing, The MIT Press, 1999 

  3. Marcus, M. P., Santorini, B. and Marcinkiewicz, M. A. 'Building a large annotated corpus of English: The Penn Treebank,' Computational Linguistics, 19(2), pp.313-330, 1993 

  4. Jurafsky, A. and Martin, J. H., An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, Prentice-Hall, 2000 

  5. Ristad, E., Yianilos, P., 'Learning String Edit Distance,' IEEE Tr. on Pattern Analysis and Machine Intelligence, 20(2), pp.522-532, 1998 

  6. Qualian J. R., C4.5 : Programs for Machine Learning, San Mateo, CA : Morgan Kaufmann Publishers, 1993 

  7. Mitchell, T. M. Machine Learning, McGraw-Hill, 1997 

  8. Burges, C. J. C., 'A tutorial on support vector machines for pattern recognition,' Knowledge Discovery and Data Mining, 2(2), 1998 

  9. Krogh, A., Brown, M., Mian, I. S., Sjolander, K. and Haussler, D. 'Hidden Markov models in computational biology: Applications to protein modeling,' Journal of Molecular Biology, 235, pp.1501-1531, 1994 

  10. Allison, L., Powell, D. and Dix, T. I. 'Comptession and Approximate Matching,' The Computer Journal, 42(1), pp. 1-10, 1999 

  11. Breimer, E. A. A Learning Approach for Designing Dynamic Programming Algorithms, http://www.cs.rpi.edu/~breime/slide/, 2000 

  12. 이재성, 다국어 정보검색을 위한 영-한 음차 표기 및 복원 모델, 한국과학기술원 박사학위논문, 1999 

  13. 국립국어연구원, 표준대국어사전, (주)두산동아, 2000 

  14. CMU, CMU Pronouncing Dictionary, http://www.speech.cs.cmu.edu/speech/ 

  15. 이성진, Two-Level 한국어 형태소 해석, 한국과학기술원, 전산학과, 석사학위 논문, 1992 

  16. Antworth, E. L., PC-KIMMO : A Two-level Processor for Morphological Analysis, Summer Institute of Linguistics, 1990 

  17. 김재훈, 김길창, 한국어에서의 품사 부착 말뭉치의 작성 요령 : KAIST 말뭉치, 한국과학기술원, 전산학과, CS-TR-95-99, 1995 

  18. Rainber, L. R., 'A tutorial on hidden Markov models and selected application in speech recognition,' Proceedings of the IEEE, 77(2), pp.257-286. 1989 

  19. Huang, E.-F., Soong, F. K., and Wang, H.-C., 'The use of tree-trellis search for large-vocabulary mandarin polysyllabic word speech recognition,' Computer Speech and Language, 8, pp.39-50, 1994 

저자의 다른 논문 :

관련 콘텐츠

오픈액세스(OA) 유형

BRONZE

출판사/학술단체 등이 한시적으로 특별한 프로모션 또는 일정기간 경과 후 접근을 허용하여, 출판사/학술단체 등의 사이트에서 이용 가능한 논문

이 논문과 함께 이용한 콘텐츠

섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로