[논문]문법관계 정보를 이용한 단계적 한국어 구문 분석

이성욱

doi:10.3745/kipstb.2008.15-b.1.69

문법관계 정보를 이용한 단계적 한국어 구문 분석
Cascaded Parsing Korean Sentences Using Grammatical Relations 원문보기

정보처리학회논문지. The KIPS transactions. Part B. Part B, v.15B no.1, 2008년, pp.69 - 72

이성욱 (국립충주대학교 컴퓨터과학과)

초록
AI-Helper

본 연구는 한국어 의존 구조를 결정하는 단계적 의존 구조 분석기를 제안한다. 각 단계에서는 주어진 문법관계의 후보열에서 올바른 문법관계를 결정하는데, 대상문법관계의 종류에 따라 독립적으로 수행된다. 문법관계의 후보열은 미리 학습된 지지벡터기계를 이용하여 주어, 목적어, 보어, 부사어 등 7가지의 문법관계로 추정한다. 각 단계에서는 지지벡터기계 분류기와 어절 간의 거리, 교차 구조 금지, 격 제한의 원칙 등의 한국어 언어 특성을 이용하여 대상문법관계를 결정하며, 모든 단계를 거쳐 최종적으로 전체 의존 구조와 문법관계가 결정된다. 트리 및 문법관계 부착 말뭉치를 이용하여 제안된 시스템을 구현 및 실험하였으며 약 85.7%의 정확률을 얻었다.

Abstract ▼ AI-Helper

This study aims to identify dependency structures in Korean sentences with the cascaded chunking. In the first stage of the cascade, we find chunks of NP and guess grammatical relations (GRs) using Support Vector Machine (SVM) classifiers for all possible modifier-head pairs of chunks in terms of GR categories as subject, object, complement, adverbial, etc. In the next stages, we filter out incorrect modifier-head relations in each cascade for its corresponding GR using the SVM classifiers and the characteristics of the Korean language such as distance between relations, no-crossing and case property. Through an experiment with a parsed and GR tagged corpus for training the proposed parser, we achieved an overall accuracy of 85.7%.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

가설 설정

, H_t 에 대해 가중치 함수는 수식 (1)와 같다. 수식어와 머리어의 발생은 선후 후보 쌍들에 독립이라고 가정한다. H_k 는 H₁, .

제안 방법

<표 2>는 전체 구문 분석에 사용된 이공주[14]의 방법과 단계적 구문분석 방법을 이용한 본 시스템의 성능을 비교하고 있다. [14]의 방법은 구-구조 트리를 출력하므로 그 결과를 의존 구조로 변형하였으며 평가집합B를 이용하였다. <표 2>와 같이 제안 시스템의 성능이 [14]의 방법보다 약간 높은 결과를 보였으며, 이러한 결과는 제안하는 부분 구문 분석 방법을 단계적으로 적용한 방법이 일반적인 통계적 구문 분석 기법의 성능에 필적한다고 할 수 있다.
우리는 단계적 단위화 전략을 이용하여 [10]의 부분 구문 분석 방법을 각 단계에 적용하여 의존 구조를 분석할 수 있도록 확장하였으며, 모든 단계를 거친 후에는 모든 문법관계에 대하여 분석할 수 있게 하였다. 각각의 단계에서, 트리 부착 말뭉치로부터 자동으로 학습된 지지벡터기계(SVM) 분류기를 각 단계에서 분석하고자하는 문법관계의 결정 모형에 사용하였으며, 자세한 내용은 2장과 3장에서 설명한다.
주어진 수식어와 머리어에 존재하는 문법관계에 대한 확률은 MLE (maximum likelihood estimation) 등의 방법을 사용하면 추정할 수 있으나 어휘 정보의 사용에 따른 자료 부족 문제가 발생한다. 그래서 우리는 SVM[12]를 이용하여 주어진 수식어와 머리어에 존재하는 문법관계에 대한 가중치를 계산한다. 명사구, 명사구의 조사, 용언 등의 어휘 자질과 각 어휘의 품사 자질을 사용하여 SVM을 학습한다.
그래서 우리는 SVM[12]를 이용하여 주어진 수식어와 머리어에 존재하는 문법관계에 대한 가중치를 계산한다. 명사구, 명사구의 조사, 용언 등의 어휘 자질과 각 어휘의 품사 자질을 사용하여 SVM을 학습한다. 자질 벡터의 차원은 각 자질의 어휘의 개수의 총합이 되며 각각의 자질은 자질의 유무에 따라 이진값으로 표현되었다.
제안된 구문 분석기는 7가지 문법관계에 대해 각각 독립적으로 분석하여 최종적으로 하나의 의존 구조를 결정하며 각 의존 구조의 문법관계도 동시에 결정된다. 문법관계에 대한 통계 정보는 구문구조와 문법관계 부착 말뭉치에서 추출하였고 지지벡터 분류기를 학습하는데 사용하였다. 제안된 방법은 수식어와 머리어 사이에 존재하는 문법관계에 대한 통계적 정보를 각 문법관계의 중의성 해소에 단계 적으로 사용하여 전체 문장의 의존 구조를 결정하였으며, 한국어의 언어특성인 교차구조 제한, 격제한 원칙 및 어절 간의 거리 등을 각 문법관계의 중의성 해소에 이용하였다.
본 연구에서 한국어 문법관계를 결정하는 단계적 의존 구조 분석기를 제안하고 구문구조 말뭉치를 이용하여 구현하였다. 제안된 구문 분석기는 7가지 문법관계에 대해 각각 독립적으로 분석하여 최종적으로 하나의 의존 구조를 결정하며 각 의존 구조의 문법관계도 동시에 결정된다.
이 장에서 각 단계에서 문법관계를 분석하는 방법을 설명한다. 우리는 7개의 문법관계를 분석하는 각각의 단계를 두어 최종적으로 각 단계의 결과를 합치는 방법으로 의존 구조를 분석한다. 따라서 각 단계에서는 7가지 문법관계 중 해당하는 하나의 문법관계만을 고려하여 의존 구조를 결정한다.
우리는 단계적 단위화 전략을 이용하여 [10]의 부분 구문 분석 방법을 각 단계에 적용하여 의존 구조를 분석할 수 있도록 확장하였으며, 모든 단계를 거친 후에는 모든 문법관계에 대하여 분석할 수 있게 하였다. 각각의 단계에서, 트리 부착 말뭉치로부터 자동으로 학습된 지지벡터기계(SVM) 분류기를 각 단계에서 분석하고자하는 문법관계의 결정 모형에 사용하였으며, 자세한 내용은 2장과 3장에서 설명한다.
실험에는 145,630어절의 11,932문장을사용했다. 이 말뭉치로부터 용언 및 수식 명사구 쌍 120,830개에 수동으로 문법관계를 부착하고 SVM의 문법관계 학습에 사용하였다. 학습에서 사용되지 않은 5,056어절의 475문장을 평가집합A로 사용하였고, 다른 구문 분석기와의 비교를 위해서 195개의 문장으로 이뤄진 평가집합B를 사용하였다.
본 연구에서 한국어 문법관계를 결정하는 단계적 의존 구조 분석기를 제안하고 구문구조 말뭉치를 이용하여 구현하였다. 제안된 구문 분석기는 7가지 문법관계에 대해 각각 독립적으로 분석하여 최종적으로 하나의 의존 구조를 결정하며 각 의존 구조의 문법관계도 동시에 결정된다. 문법관계에 대한 통계 정보는 구문구조와 문법관계 부착 말뭉치에서 추출하였고 지지벡터 분류기를 학습하는데 사용하였다.
문법관계에 대한 통계 정보는 구문구조와 문법관계 부착 말뭉치에서 추출하였고 지지벡터 분류기를 학습하는데 사용하였다. 제안된 방법은 수식어와 머리어 사이에 존재하는 문법관계에 대한 통계적 정보를 각 문법관계의 중의성 해소에 단계 적으로 사용하여 전체 문장의 의존 구조를 결정하였으며, 한국어의 언어특성인 교차구조 제한, 격제한 원칙 및 어절 간의 거리 등을 각 문법관계의 중의성 해소에 이용하였다. 실험을 통해 의존 구조 분석에서 약 85.

대상 데이터

우리는 구문구조가 부착된 한국어정보베이스 말뭉치[13]을 실험에 사용했다. 실험에는 145,630어절의 11,932문장을사용했다. 이 말뭉치로부터 용언 및 수식 명사구 쌍 120,830개에 수동으로 문법관계를 부착하고 SVM의 문법관계 학습에 사용하였다.
우리는 구문구조가 부착된 한국어정보베이스 말뭉치[13]을 실험에 사용했다. 실험에는 145,630어절의 11,932문장을사용했다.
이 말뭉치로부터 용언 및 수식 명사구 쌍 120,830개에 수동으로 문법관계를 부착하고 SVM의 문법관계 학습에 사용하였다. 학습에서 사용되지 않은 5,056어절의 475문장을 평가집합A로 사용하였고, 다른 구문 분석기와의 비교를 위해서 195개의 문장으로 이뤄진 평가집합B를 사용하였다. 정확률과 재현율로 평가하고 F1 평가-2*P*R/(P+R) 로도 나타냈다.

이론/모형

반복 실험 결과, SVM의 커널은 시스템 성능에 큰 영향을 끼치지 않아 선형 커널을 사용한다. SVM은 이진 분류기이므로 각 문법관계에 대한 분류기를 각각 학습하였고 실험에는 SVMlight[15]를 이용하였다.
(그림 2)와 같이 주어진 후보 GR패턴은 의존 구조 결정 단계의 입력으로 주어진다. 의존 구조 결정 단계는 주어진 후보 GR패턴 중에서 올바른 관계와 그른 관계를 구분하는데, [11]의 부분구문 분석 방법을 이용하였다. 다음 3장에서각 단계에서 올바른 관계를 찾을 수 있는 방법을 설명한다.

성능/효과

<표 2>와 같이 제안 시스템의 성능이 [14]의 방법보다 약간 높은 결과를 보였으며, 이러한 결과는 제안하는 부분 구문 분석 방법을 단계적으로 적용한 방법이 일반적인 통계적 구문 분석 기법의 성능에 필적한다고 할 수 있다. 결과적으로 의존구조의 중의성을 단계적 문 법관계 분석 방법을 통해 효과적으로 해소되었다고 할 수 있다.
반복 실험 결과, SVM의 커널은 시스템 성능에 큰 영향을 끼치지 않아 선형 커널을 사용한다. SVM은 이진 분류기이므로 각 문법관계에 대한 분류기를 각각 학습하였고 실험에는 SVMlight[15]를 이용하였다.
제안된 방법은 수식어와 머리어 사이에 존재하는 문법관계에 대한 통계적 정보를 각 문법관계의 중의성 해소에 단계 적으로 사용하여 전체 문장의 의존 구조를 결정하였으며, 한국어의 언어특성인 교차구조 제한, 격제한 원칙 및 어절 간의 거리 등을 각 문법관계의 중의성 해소에 이용하였다. 실험을 통해 의존 구조 분석에서 약 85.7%의 정확률을 얻었다. 더 신뢰할 만한 결과와 더 나은 성능을 위해서 좀더 많은 데이터가 필요하며, 현재 제안된 방법과 대용량의 말뭉치에서 추출한 공기정보와 기계가독사전을 이용한 단어의미 분별 모형과 결합하는 방법을 연구하고 있다.
[14]의 방법은 구-구조 트리를 출력하므로 그 결과를 의존 구조로 변형하였으며 평가집합B를 이용하였다. <표 2>와 같이 제안 시스템의 성능이 [14]의 방법보다 약간 높은 결과를 보였으며, 이러한 결과는 제안하는 부분 구문 분석 방법을 단계적으로 적용한 방법이 일반적인 통계적 구문 분석 기법의 성능에 필적한다고 할 수 있다. 결과적으로 의존구조의 중의성을 단계적 문 법관계 분석 방법을 통해 효과적으로 해소되었다고 할 수 있다.

후속연구

7%의 정확률을 얻었다. 더 신뢰할 만한 결과와 더 나은 성능을 위해서 좀더 많은 데이터가 필요하며, 현재 제안된 방법과 대용량의 말뭉치에서 추출한 공기정보와 기계가독사전을 이용한 단어의미 분별 모형과 결합하는 방법을 연구하고 있다.

질의응답

핵심어	질문	논문에서 추출한 답변
	의존 구조 및 문법관계 정보는 어디서 이용되고 있는가?	머리어-수식어 관계를 나타내는 의존 구조 및 문법관계 정보는 정보 검색, 정보 추출, 문서 요약 및 질의응답 시스템 등 대부분의 문서 분석 응용 시스템에 유용하게 이용되어 왔다[1, 2, 3]. 한국어의 의존 구조를 분석하기 위해서 우리는 두 가지 문제를 해결해야 한다.
	의존 구조 및 문법관계 정보는 어떤 관계를 나타내는가?	머리어-수식어 관계를 나타내는 의존 구조 및 문법관계 정보는 정보 검색, 정보 추출, 문서 요약 및 질의응답 시스템 등 대부분의 문서 분석 응용 시스템에 유용하게 이용되어 왔다[1, 2, 3]. 한국어의 의존 구조를 분석하기 위해서 우리는 두 가지 문제를 해결해야 한다.
	한국어의 의존 구조를 분석하기 위해 해결해야할 두가지 문제는 무엇인가?	한국어의 의존 구조를 분석하기 위해서 우리는 두 가지 문제를 해결해야 한다. 하나는 ‘문장에서 어떤 어절이 어떤 수식어의 머리어인가?’하는 문제이며, 다른 하나는 ‘주어진 수식어와 머리어 사이에 어떤 종류의 문법관계가 성립하는가?’라는 문제이다. 문장의 의존 구조 및 문법 관계를 분석하는 연구가 그 동안 많이 수행되어왔는데, [4]에서는 은닉마르코프 모형을 단계적으로 구성하여 문법관계를 결정하였는데, 품사 태깅 방법을 문법관계 결정에 적용 하였고, 문법관계를 위한 태거는 어휘 확률과 부모 노드의 분류에 의존하는 문맥 확률을 이용하여 동작한다.

참고문헌 (15)

Grenfenstette, G. 'SQLET: Short query linguistic expansion techniques, palliating one-word queries by providing intermediate structure to text', In Proc. of the RIAO'97, pp.500-509, 1997
Palmer, M., Passonneau, R., Weir, C. & Finin, T. 'The KERNEL text understanding system', Artificial Intelligence, Vol. 63, pp.17-68, 1993

상세보기
Yeh, A. 'Using existing systems to supplement small amounts of annotated GRs training data', Proc. of the ACL2000, pp.126-132. Hong Kong, 2000
Brants, T., Skut, W. & Krenn, B. 'Tagging grammatical functions', In Proceedings of the 2nd Conference on EMNLP, pp.64-74. Providence, RI., 1997
Argamon, S., Dagan, I. & Krymolowski, Y. 'A memory-based approach to learning shallow natural language patterns', In Proceedings of the 36th Annual Meeting of the ACL, pp.67-73. Montreal, Canada, 1998
Buchholz, S., Veenstra, J. & Daelemans, W. 'Cascaded GR assignment', In Proceedings of the Joint Conference on EMNLP and Very Large Corpora, pp.239-246, 1999
Stanfill, C. & Waltz, D. 'Toward memory-based reasoning', Communications of the ACM, Vol. 29, pp.1213-1228, 1986

상세보기
Blaheta, D. & Charniak, E. 'Assigning function tags to parsed text', In Proceedings of the 1st Conference of the NAACL, pp.234-240. Seattle, WA, 2000
Carroll, J. & E. Briscoe 'High precision extraction of GRs', In Proceedings of the 19th International Conference on Computational Linguistics (COLING), pp.134-240, Taipei, Taiwan, 2002
이성욱, 서정연, '한국어 문법관계에 대한 부분구문 분석', 정보과학회논문지 소프트웨어 및 응용, 제32권10호지 pp.984-989, Oct. 2005
Viterbi, A. J. 'Error bounds for convolution codes and an asymptotically optimal decoding algorithm', IEEE trans. on Information Theory, Vol. 12, pp.260-269, 1967

상세보기
Vapnik, V. N. 'The Nature of Statistical Learning Theory', Springer, New York, 1995
Lee, K. J., KIM, J. H., Choi, K. S. & Kim, G. C. 'Korean syntactic tagset for building a tree annotated corpus', Korean Journal of Cognitive Science, Vol. 7, No. 4, pp.7-24, 1996
Lee, K. J., Kim, J. H., & Kim, G. C. 'An Efficient Parsing of Korean Sentence Using Restricted Phrase Structure Grammar', Computer Processing of Oriental Languages, Vol.12, No. 1, pp. 49-62, 1997
http://svmlight.joachims.org

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증