$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

영한 기계 번역에서 미가공 텍스트 데이터를 이용한 대역어 선택 중의성 해소
Target Word Selection Disambiguation using Untagged Text Data in English-Korean Machine Translation 원문보기

정보처리학회논문지. The KIPS transactions. Part B. Part B, v.11B no.6, 2004년, pp.749 - 758  

김유섭 (한림대학교 정보통신공학부) ,  장정호 (서울대학교 컴퓨터공학부)

초록
AI-Helper 아이콘AI-Helper

본 논문에서는 미가공 말뭉치 데이터를 활용하여 영한 기계번역 시스템의 대역어 선택 시 발생하는 중의성을 해소하는 방법을 제안한다. 이를 위하여 은닉 의미 분석(Latent Semantic Analysis : LSA)과 확률적 은닉 의미 분석(Probabilistic LSA : PLSA)을 적용한다. 이 두 기법은 텍스트 문단과 같은 문맥 정보가 주어졌을 때, 이 문맥이 내포하고 있는 복잡한 의미 구조를 표현할 수 있다 본 논문에서는 이들을 사용하여 언어적인 의미 지식(Semantic Knowledge)을 구축하였으며 이 지식은 결국 영한 기계번역에서의 대역어 선택 시 발생하는 중의성을 해소하기 위하여 단어간 의미 유사도를 추정하는데 사용된다. 또한 대역어 선택을 위해서는 미리 사전에 저장된 문법 관계를 활용하여야 한다. 본 논문에서는 이러한 대역어 선택 시 발생하는 데이터 희소성 문제를 해소하기 위하여 k-최근점 학습 알고리즘을 사용한다. 그리고 위의 두 모델을 활용하여 k-최근점 학습에서 필요한 예제 간 거리를 추정하였다. 실험에서는, 두 기법에서의 은닉 의미 공간을 구성하기 위하여 TREC 데이터(AP news)론 활용하였고, 대역어 선택의 정확도를 평가하기 위하여 Wall Street Journal 말뭉치를 사용하였다. 그리고 은닉 의미 분석을 통하여 대역어 선택의 정확성이 디폴트 의미 선택과 비교하여 약 10% 향상되었으며 PLSA가 LSA보다 근소하게 더 좋은 성능을 보였다. 또한 은닉 공간에서의 축소된 벡터의 차원수와 k-최근점 학습에서의 k값이 대역어 선택의 정확도에 미치는 영향을 대역어 선택 정확도와의 상관관계를 계산함으로써 검증하였다.젝트의 성격에 맞도록 필요한 조정만을 통하여 품질보증 프로세스를 확립할 수 있다. 개발 된 패키지의 효율적인 활용이 내조직의 소프트웨어 품질보증 구축에 투입되는 공수 및 어려움을 줄일 것으로 기대된다.도가 증가할 때 구기자 열수 추출 농축액$1.6182{\sim}2.0543$, 혼합구기자 열수 추출 농축액은 $1.7057{\sim}2.1462{\times}10^7\;J/kg{\cdot}mol$로 증가하였다. 이와 같이 구기자 열수 추출 농축액과 혼합구기자 열수 추출 농축액의 리올리지적 특성에 큰 차이를 나타내지는 않았다. security simultaneously.% 첨가시 pH 5.0, 7.0 및 8.0에서 각각 대조구의 57, 413 및 315% 증진되었다. 거품의 열안정성은 15분 whipping시, pH 4.0(대조구, 30.2%) 및 5.0(대조구, 23.7%)에서 각각 $0{\sim}38.0$$0{\sim}57.0%$이었고 pH 7.0(대조구, 39.6%) 및 8.0(대조구, 43.6%)에서 각각 $0{\sim}59.4$$36.6{\sim}58.4%$이었으며 sodium alginate 첨가시가 가장 양호하였다. 전체적으로 보아 거품안정성이 높은 것은 열안정성도 높은 경향이며, 표면장력이 낮으면 거품형성능이 높아지고, 비점도가 높으면 거품안정성 및 열안정성이 높아지는 경향이 있었다.protocol.eractions between application agents that are developed using different

Abstract AI-Helper 아이콘AI-Helper

In this paper, we propose a new method utilizing only raw corpus without additional human effort for disambiguation of target word selection in English-Korean machine translation. We use two data-driven techniques; one is the Latent Semantic Analysis(LSA) and the other the Probabilistic Latent Seman...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 또한 두 모델의 성능을 비교하여 각각의 특성을 파악하였고 은닉 공간 상에서의 축소된 어휘 벡터의 차원수와 선택 정확도 간의 상관관계와 k-최근점 학습에서의 k값과 선택 정확도 간의 상관관계를 파악하고자 하였다. 이 과정을 보다 상세히 설명하면 다음과 같다.
  • 본 논문에서는 공간의 차원수와 대역어 선택 정확도와의 관련성을 분석하기 위하여 50 차원부터 300 차원까지 다양한 벡터의 차원수(PLSA의 경우에는 z의 갯수)를 조절하여 대역어 선택 결과를 분석하였다. LSA 공간을 구성하기 위하여 SVDPACKE19] 으로부터 파생된 단일 벡터 Lanczos 알고리즘[2 이을 사용하였으며, PLSA는 [10, 12]에서 제시된 EM 알고리즘을 적용하였다.
  • 본 논문에서는 영한 기계 번역에서의 대역어 선택에서 앞의 두 모델을 적용하여 보다 정확한 선택을 가능하게 하였다. 또한 두 모델의 성능을 비교하여 각각의 특성을 파악하였고 은닉 공간 상에서의 축소된 어휘 벡터의 차원수와 선택 정확도 간의 상관관계와 k-최근점 학습에서의 k값과 선택 정확도 간의 상관관계를 파악하고자 하였다.
  • 본 논문에서는 예제 간 거리를 추정하고자 할 때 각 예저〕 (단어)들의 의미 유사도를 계산하였다. 의미 유사도를 계산하기 위해서는 지식이 필요한데, 여기서는 은닉 의미 분석 (Latent Semantic Analysis : LSA)과 확률적 은닉 의미 분석 (Probabilistic Latent Semantic Analysis : PLSA)을 사용하여 지식을 구축하였다.
  • 본 논문은 영한 기계번역의 대역어 선택시 발생하는 중의성을 해소하기 위하여 A-. 최근점 학습 알고리즘과 두 개의 데이터 기반 모델을 사용하는 방법을 제시하였다.
  • 실험에서는 1988년도 AP 뉴스 말뭉치를 TREC-7 데이터 [13]에서 얻어서 은닉 의미 구조를 구축하고자 하였다. 그리고 Wall Street Journal 말뭉치를 활용하여 사전과 테스트 세트를 구축하였다.

가설 설정

  • LSA는 기본적으로 특정 문맥에서 특정 단어들이 서로 공기하는 정도가 두 단어 간의 유사도를 추정하는데 가장 큰 정보를 제공한다는 점을 가정한다[9, 16]. LSA는 또한 특정 담화의 내용 중에서 단어들의 기대되는 문맥적 활용의 관계를 추출하고 추론한다.
본문요약 정보가 도움이 되었나요?

참고문헌 (22)

  1. I. Dagan and A. Itai, 'Word Sense Disambiguation Using a Second Language Monolingual Corpus,' Computational Linguistics, 20, pp.563-595, 1994 

  2. N. Kim and Y. Kim, 'Determining Target Expression Using Parameterized Collocations from Corpus in Korean-English Machine Translation,' Proceedings of Pacific Rim International Corference on Artificial Intelligence, 1994 

  3. I. Dagan, L. Lee and F. Fereira, 'Similarity-based Models of Word Cooccurrence Probabilities,' Machine Learning, 34, pp.43-69, 1999 

  4. Y. Kim, B. Zhang and Y. Kim, 'Collocation Dictionary Optimization using WordNet and k- nearset Neighbor Learning,' Machine Translation, 16, pp.89-108, 2001 

  5. T. K. Landauer and S. T. Dumais, 'A Solution to Plato's Problem: The Latent Semantic Analysis Theory of the Acquisition, Induction, and Representation of Knowledge,' Psychological Review, 104, 1988 

  6. S. Deerwester, S. Dumais, G. Furnas, T. Landauer and R. Harshman, 'Indexing by Latent Semantic Analysis,' Journal of the American Society for Information Science, 41, pp. 391-407, 1990 

  7. P. Foltz, W. Kintsch and T. Landauer, 'The Measurement of Textual Coherence with Latent Semantic Analysis,' Discourse Processes, 25, pp.285-307, 1998 

  8. Y. Kim, J. Chang and B. Zhang, 'Target Word Selection using WordNet and Data-driven Model in Machine Translation,' Lecture Notes in Artificial Intelligence, 2417, p.607, 2002 

  9. T. K. Landauer, P. W. Foltz and D. Laham, 'An Introduction to Latent Semantic Analysis,' Discourse Processes, 25, pp.259-284, 1998 

  10. T. Hoffmann, 'Probabilistic Latent Semantic Analysis,' Proceedings of the Fifteenth Conference on Uncertainty in Artificial Intelligence(UAI 1999), 1999 

  11. T. Hoffmann, J. Puzicha and M. Jordan, 'Unsupervised Learning from Dyadic Data,' Advances in Neural Iriformation Processing Systems, 11, 1999 

  12. T. Hoffmann, 'Probabilistic Latent Semantic Indexing,' Proceedings of the 22th Annual International ACM SIGIR conference on Research and Development in Information Retrieval(SIGIR99), pp.50-57, 1999 

  13. E. Voorhees and D. Harman, 'Overview of the Seventh Text Retrieval Conference(TREC-7),' Proceedings of the Seventh Text REtrieval Conference(TREC-7), pp.1-24, 1998 

  14. T. Cover and P. Hart, 'Nearest Neighbor Pattern Classification,' IEEE trans. on Information Theory, 13, pp. 21-27, 1967 

  15. D. Aha, D. Kibler and M. Albert, 'Instance-based Learning Algorithms,' Machine Learning, 6(1) pp. 37-66, 1991 

  16. Y. Gotoh and S. Renals, 'Document Space Models using Latent Semantic Analysis,' Proceedings of Eurospeech-97, pp.1443-1446, 1997 

  17. D. Gildea and T. Hofmann, 'Topic Based Language Models using EM,' Proceedings of the 6th European Conference on Speech Communication and Technology, 1999 

  18. T. Hofmann, J. Puzicha and M. Jordan, 'Unsupervised Learning from Dyadic Data,' Advances in Neural Irformation Processing Systems, 11, 1999 

  19. M. Berry, T. Do, G. O'Brien, V. Krishna and S. Varadhan, 'SVDPACKC : Version 1.0 User's Guide,' University of Tennessee Technical Report, CS-93-194, 1993 

  20. F. R. K. Chung, 'Spectral Graph Theory,' Corference Board of the Mathematical Sciences, 92, American Mathematical Society, 1997 

  21. http://www.smartran.co.kr/ 

  22. L. Bain and M. Engelhardt, 'Introduction to Probability and Mathematical Statistics,' Thomson Learning, pp.179-190, 1987 

저자의 다른 논문 :

관련 콘텐츠

오픈액세스(OA) 유형

BRONZE

출판사/학술단체 등이 한시적으로 특별한 프로모션 또는 일정기간 경과 후 접근을 허용하여, 출판사/학술단체 등의 사이트에서 이용 가능한 논문

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로