지시 표현 '것'은 한국어 대화에서 자주 등장하는 표현이지만, 그 자체로서 대명사나 한정 명사구와 같은 지시 표현이 아니고, 비지시적인 표현으로 쓰이는 '것'과 구별되지 못했기 때문에 지시 해석(reference resolution)에 관한 기존 연구에서 제대로 다루어지지 못했다. 이러한 문제를 해결하기 위해 '것'이 가지고 있는 언어학적 속성과 담화 상의 속성을 기반으로 하여 자질 집합을 설정하고, 결정트리를 이용하여 '것'을 구별하는 방법을 제안한다. 이 방법에 의한 시스템은 비지시 표현의 것에 대해 92%, 지시표현의 것에 대해 82%의 F-measure를 보였으며, 전체적인 분류 성능은 89%였다. 이는 패턴에 따른 규칙을 적용한 분류 성능에 비해 약 15% 가량 향상된 결과이다.
지시 표현 '것'은 한국어 대화에서 자주 등장하는 표현이지만, 그 자체로서 대명사나 한정 명사구와 같은 지시 표현이 아니고, 비지시적인 표현으로 쓰이는 '것'과 구별되지 못했기 때문에 지시 해석(reference resolution)에 관한 기존 연구에서 제대로 다루어지지 못했다. 이러한 문제를 해결하기 위해 '것'이 가지고 있는 언어학적 속성과 담화 상의 속성을 기반으로 하여 자질 집합을 설정하고, 결정트리를 이용하여 '것'을 구별하는 방법을 제안한다. 이 방법에 의한 시스템은 비지시 표현의 것에 대해 92%, 지시표현의 것에 대해 82%의 F-measure를 보였으며, 전체적인 분류 성능은 89%였다. 이는 패턴에 따른 규칙을 적용한 분류 성능에 비해 약 15% 가량 향상된 결과이다.
Referential expression 'Geot' is often occurred in Korean dialogues. However, it has not been properly dealt with by the previous researchers of reference resolution, since it is not by itself the referential expression like pronoun and definite noun phrases, and it has never been discriminated from...
Referential expression 'Geot' is often occurred in Korean dialogues. However, it has not been properly dealt with by the previous researchers of reference resolution, since it is not by itself the referential expression like pronoun and definite noun phrases, and it has never been discriminated from non-referring 'geot'. To resolve this problem, we establish a feature set which is based on the linguistic property of 'geot' and the discourse property of its text, and propose a method to identify referential 'geot' from non-referring 'geot' using decision tree. In the experiment, our system achieved the F-measures of 92.3% for non-referring geot and of 82.2% for referential geot and the total classification performance of 89.27%, and outperformed the classification system based on pattern rules.
Referential expression 'Geot' is often occurred in Korean dialogues. However, it has not been properly dealt with by the previous researchers of reference resolution, since it is not by itself the referential expression like pronoun and definite noun phrases, and it has never been discriminated from non-referring 'geot'. To resolve this problem, we establish a feature set which is based on the linguistic property of 'geot' and the discourse property of its text, and propose a method to identify referential 'geot' from non-referring 'geot' using decision tree. In the experiment, our system achieved the F-measures of 92.3% for non-referring geot and of 82.2% for referential geot and the total classification performance of 89.27%, and outperformed the classification system based on pattern rules.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
즉, 항공 예약, 호텔예약 등에 관한 대화가 아닌 경우에 그림 3에 나타난 '출발하~', '예약하~', '라스베가스' 등의 어휘는 주요 어휘로 취급되지 못할 것이며, 시스템의 성능을 저하시키는 원인으로 작용할 것이다. 그러므로, 본 논문에서는 상기한 두 어휘 자질을 제외한 실험을 수행하여 그 결과를 살펴보았다. 표 8은 상기한 어휘 자질을 제외하고 10개의 자질만을 이용하여 학습한 시스템의 성능을 보여준다.
본 논문에서는 대화에서 종종 쓰이는 지시 표현 , 것, 을 비지시 표현으로 쓰이는 '것, 과 구별하여 인식할 수 있는 방법을 제시함으로써 지시 해석의 대상을 넓히고, 담화 이해의 수준을 높이고자 한다. 즉, 표 1과 같이 '비행기'를 지시하는 '출발하는 것'의 '것'과 무엇인가를 지시하는 표현이 아닌 '투숙하실 것'의 '것'을 구별하여 지금까지 지시 표현으로 처리되지 못한 '것'을 지시 해석의 대상으로 삼을 수 있게 한다.
한국어 대화에서 '~ 것과 같은 지시 표현의 출현이 빈번하지만 비지시적인 쓰임의 경우들과의 구별이 어렵기 때문에 기존의 지식 해석에서 그 대상이 되지 못하였다 이러한 문제를 해결하기 위하여 본 논문에서는 결정 트리를 이용하여 지시 표현 '것'을 구별하는 방법을 제안하였다. 제안한 방법은 형태소 분석 결과를 바탕으로 '것'이 가지는 언어적 속성, 문맥적 속성, 담화적 속성 그리고 위치적 속성을 자질로 추출하고 이것을 결정 트리의 입력으로 사용하여 '것'의 쓰임을 선택한다.
제안 방법
결정된다. 그러므로 본 논문에서는 지시 해석의 전 단계인 지시 표현 구별의 문제에 중점을 두어 지시 대상에 따른 세부적인 분류를 하지 않고 지시 표현으로서의 '것'과 그렇지 않은 비지시 표현으로서의 '것'만을 분류한다. 말뭉치 태깅 과정에서 '사실', '현상' 등의 의미를 가지면서 보문소 '음/기' 등으로 대체되는 경우들은 연세한 국어사전과 달리 비지시 표현으로 보았다[6丄
5 알고리즘을 이용하여 학습하였으며 U9], 성능 평가를 위해 10-fold 교차 검증(10-fold cross validation)을 수행하였다. 그리고, 기계 학습에 의해 도출된 규칙에 의한 시스템이 패턴으로 추출된 규칙에 의한 시스템에 비해 얼마나 향상된 성능을 보이는지를 비교하도록 하였다.
본 논문에서는 표 5에서 정의한 12가지 자질의 값들을 '것'이 나타난 대화 문장에서 추출하여 C4.5 결정 트리의 입력으로 사용한다. 그림 2는 C4.
우리는 지시 표현 구별에 우수한 자질들을 보기 위해 자질 조정에 따른 성능의 변화를 실험하였다. 표 11은 언어 문맥 자질만을 사용한 시스템의 성능을 보여준다.
따라 쓰임이 결정되기 때문이다. 이러한 문제를 해결하기 위하여 본 논문에서는 비교적 신뢰도가 높은 형태소 분석 결과만을 바탕으로 '것'의 언어문맥적 자질, 담화적 자질, 위치적 자질을 정의하고, 기계학습 방법의 하나인 C4.5 결정 트리(decision tree) 알고리즘을 이용하여 '것'의 쓰임을 구별한다[2이. 언어문맥적 자질이란 '것' 자체가 가지고 있는 언어적 속성과 '것이 쓰이고 있는 문장 내에서의 앞뒤 문맥을 이용하여 추출된 자질을 의미하며, 담 화적 자질이란 '것'이 쓰인 문장의 속성이나 대화상에서 '것'이 쓰인 문장과 이전 문장과의 관계를 이용하여 추출된 자질을 의미한다.
제안한 방법은 형태소 분석 결과를 바탕으로 '것'이 가지는 언어적 속성, 문맥적 속성, 담화적 속성 그리고 위치적 속성을 자질로 추출하고 이것을 결정 트리의 입력으로 사용하여 '것'의 쓰임을 선택한다. 실험을 통하여 '것'의 구별에 가장 유용한 자질은 언어 문맥적 자질임을 알 수 있었으며, 담화적 자질과 위치적 자질도 성능 향상에 기여함을 알 수 있었다.
데이터처리
표 11에 위치 자질을 추가한 경우는 표 8과 같으며, 위치 자질의 추가는 정확률을 떨어뜨렸지만 재현율을 상대적으로 향상시킴으로써 보다 높은 F-measure 를 얻게 하였다. 하지만 그 성능의 변화가 크지 않아 위치 자질의 유용성이 다른 자질들에 비해 떨어짐을 알 수 있었다.
이론/모형
결정 트리는 학습 데이타에 담긴 규칙을 위계적인 구조의 'if then' 규칙으로 추출하는 기계 학습 기법으로 국외 연구에서 지시 해석 및 구별에 자주 이용되었다 [13, 14, 16], 본 논문에서는 기계 학습을 위한 공개소스인 Weka 3.0에 포함된 C4.5 알고리즘을 이용하여 학습하였으며 U9], 성능 평가를 위해 10-fold 교차 검증(10-fold cross validation)을 수행하였다. 그리고, 기계 학습에 의해 도출된 규칙에 의한 시스템이 패턴으로 추출된 규칙에 의한 시스템에 비해 얼마나 향상된 성능을 보이는지를 비교하도록 하였다.
성능/효과
기계 학습에 의한 규칙으로 '것'을 분류했을 때, 패턴 규칙에 의해 분류했을 때보다 약 15% 정도의 성능 향상이 있음을 보인다.
실험을 통하여 '것'의 구별에 가장 유용한 자질은 언어 문맥적 자질임을 알 수 있었으며, 담화적 자질과 위치적 자질도 성능 향상에 기여함을 알 수 있었다. 또한 응용 영역에 의존적인 개별 어휘 자질을 제외한 언어문맥 자질을 사용한 경우가 그렇지 않은 경우에 비해 성능 하락이 크지 않아 일반화하기에 가장 좋은 자질임을 알 수 있었다.
제안한 방법은 형태소 분석 결과를 바탕으로 '것'이 가지는 언어적 속성, 문맥적 속성, 담화적 속성 그리고 위치적 속성을 자질로 추출하고 이것을 결정 트리의 입력으로 사용하여 '것'의 쓰임을 선택한다. 실험을 통하여 '것'의 구별에 가장 유용한 자질은 언어 문맥적 자질임을 알 수 있었으며, 담화적 자질과 위치적 자질도 성능 향상에 기여함을 알 수 있었다. 또한 응용 영역에 의존적인 개별 어휘 자질을 제외한 언어문맥 자질을 사용한 경우가 그렇지 않은 경우에 비해 성능 하락이 크지 않아 일반화하기에 가장 좋은 자질임을 알 수 있었다.
4%의 Fmeasure를 얻을 수 있음을 보인다. 이러한 실험 결과를 바탕으로 지시 표현 구별 문제에 있어서 언어문맥 자질의 중요성과 언어문맥 자질을 도출한 가설들의 정당함을 알 수 있었다.
첫 번째, 비지시 표현으로서 '것'은 대부분이 보문소2) 로서 표 2와 같이 명사절을 만드는 문법적 기능 외에 어떤 의미를 갖지 않는다.
표 8은 상기한 어휘 자질을 제외하고 10개의 자질만을 이용하여 학습한 시스템의 성능을 보여준다. 표 8가 보이는 바와 같이 개별 어휘 자질을 제외한 시스템의 성능이 모든 자질을 사용한 것에 비해 크게 떨어지지 않음을 알 수 있었다. 그림 3의 두 번째 열은 개별 어휘 자질을 제외하고 학습된 결정 트리의 모습이다 그림 3에서 보는 것과 같이 모든 자질을 사용한 결정 트리에 비해 개별 어휘 자질을 대신한 품사들이 지시 표현의 구별에 주요한 요인으로 작용함을 알 수 있었다.
후속연구
것이다. 그리고, 보다 많은 사용 예를 담은 말뭉치를 확보하여 지시 표현, 것, 의 다양한 용법과 쓰임에 대해 연구해야 할 것이다. 또한, 지시 해석의 성능 향상에 기여할 수 있도록 지시 표현의 범주를 세분화하고 구별하는 방법을 연구해야 할 것이다.
그리고, 보다 많은 사용 예를 담은 말뭉치를 확보하여 지시 표현, 것, 의 다양한 용법과 쓰임에 대해 연구해야 할 것이다. 또한, 지시 해석의 성능 향상에 기여할 수 있도록 지시 표현의 범주를 세분화하고 구별하는 방법을 연구해야 할 것이다.
향후에는 제안된 시스템을 지시 해석 시스템에 통합하여 지시 해석의 성능 향상에 미치는 영향을 실험해야 할 것이다. 그리고, 보다 많은 사용 예를 담은 말뭉치를 확보하여 지시 표현, 것, 의 다양한 용법과 쓰임에 대해 연구해야 할 것이다.
참고문헌 (20)
김학수, 다중모드 대화 시스템에서의 명사 대용어구 처리, 석사학위논문, 서강대학교, 1997
남기심, '불완전명사 '것'의 쓰임', 국어의 이해와 인식, 한국문화사, 1991
노현철, 이근배, 이종혁, 박재득, '한국어 담화 특성에 기반한 영역 독립 생략 및 대용 처리', 정보과학회논문지(B) 제25권 제12호, pp. 1845-1857. (1998)
이상호, 미등록어를 고려한 한국어 품사 태깅 시스템 구현, 석사학위논문, 한국과학기술원, 1995
조은경, 이민행, '지시 해석을 위한 것의 구별과 쓰임에 관한 연구', 한국어학 제 31집, 한국어학회, 2006
MAK Halliday and Ruqaiya Hasan, Cohesion in English, Longman, 1976
Shalom Lappin and Herbert J. Leass, 'An Algorithm for Pronominal Anaphora Resolution,' Computational Linguistics, volume 20, number 4. (1994)
Lluis Marquez, 'Machine Learning and Natural Language Processing,' Technical Report LSI00-45-R, Departament de Llenguatges i Sistemes Informatics (LSI), Universitat Politecnica de Catalunya (UPC), Barcelona, Spain (2000)
David L. Bean and Ellen Riloff., 'Corpus-Based Identification of Non-Anaphoric Noun Phrases', In the proceedings of ACL. (1999)
Richard Evans, 'Applying Machine Learning Toward an Automatic Classification of It,' Literary and Linguistic Computing (2001)
Renata Vieira and Massimo Poesio, 'Processing definite descriptions in corpora,' Corpus-based and computational approaches to discourse anaphora. Simon Botley and Anthony Mark McEnery.(ed.) Benjamins Pub. 2000
Vincent Ng and Claire Cardie, 'Identifying Anaphoric and Non-Anaphoric Noun Phrases to Improve Coreference Resolution,' In the proceedings of COLING. (2002)
Vincent Ng and Claire Cardie 'Learning Noun Phrase Anaphoricity to Improve Coreference Resolution-Issues in Representation and Optimization,' In the proceedings of ACL. (2004)
Antonio Ferrandez and Lidia Moreno 'A computational approach to pronominal anaphora, oneanaphora and surface count anaphora,' In the proceedings of Discourse Anaphora and Anaphora Resolution (1998)
Michael Strube and Christoph Muller, 'A Machine Learning Approach to Pronoun Resolution in Spoken dialogue,' In the proceedings of ACL. (2003)
Didier Baltazart and Laurence Kister, 'Is it possible to predetermine a referent included in a French N De N structure?,' Corpus-based and computational approaches to discourse anaphora. Simon Botley and Anthony Mark McEnery.(ed.) Benjamins Pub, 2000
Joseph F. McCarthy and Wendy G. Lehnert, 'Using Decision Trees for Coreference Resolution,' In the proceedings of International Joint Conference on Artificial Intelligence (1995)
Ian H. Witten and Eibe Frank, Morgan Kaufmann. Data Mining: Practical machine learning tools and techniques, San Francisco, 2005
Quinlan R. J., C4.5: Programs for Machine Learning, Morgan Kaufmann, San Mateo, CA, 1993
※ AI-Helper는 부적절한 답변을 할 수 있습니다.