[논문]S-절 분할을 통한 구문 분석

김미영; 이종혁

S-절 분할을 통한 구문 분석
Syntactic Analysis based on Subject-Clause Segmentation 원문보기

정보과학회논문지. Journal of KIISE. 소프트웨어 및 응용, v.32 no.9, 2005년, pp.936 - 947

김미영 (포항공과대학교 컴퓨터공학과) , 이종혁 (포항공과대학교 컴퓨터공학과)

초록
AI-Helper

한국어 장문에서는 하나의 주어를 여러 용언이 공유하는 경우가 흔하고 주어의 생략 또한 빈번하다. 따라서 주어를 공유하는 용언들의 구간을 파악하는 것이 어렵고 의존문법을 이용한 구문분석시 주어의 의존관계를 찾는데 많은 오류가 생긴다. 이러한 주어의 의존관계의 애매성을 해소하기 위하여 우리는 S(ubject)-절이라는 개념을 제안한다. S-절은 한 개의 주어와 이 주어를 공유하는 단어그룹의 집합으로 정의되고, 본 논문에서는 결정트리를 이용하여 S-절을 자동적으로 분할하는 방법을 제안한다. S-절을 사용한 결과 의존문법에 기반한 구문분석 시스템의 성능이 $5\%$ 향상되었고 주어의 지배소를 찾는 정확률이 $32\%$ 증가했다.

Abstract ▼ AI-Helper

In dependency parsing of long sentences with fewer subjects than predicates, it is difficult to recognize which predicate governs which subject. To handle such syntactic ambiguity between subjects and predicates, this paper proposes an 'S-clause' segmentation method, where an S(ubject)-clause is defined as a group of words containing several predicates and their common subject. We propose an automatic S -clause segmentation method using decision trees. The S-clause information was shown to be very effective in analyzing long sentences, with an improved parsing performance of 5 percent. In addition, the performance in detecting the governor of subjects was improved by $32\%$.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

기계번역 시스템)이 명사구 전체를 하나의 단위로 취급하여 명사구 내부의 구문분석을 하지 않으므로 이 오류는 크게 중요하지 않다. 그러므로 이 논문은 주어의 지배소를 판단하는 오류를 해결하기 위한 방법을 제안한다.
먼저, S-절 내의 의존관계를 설정하는 첫 단계에서 주어-용언간의 의존관계 설정에 대해 알아보자. 3.
여기에서 두 번째 S-절은 세 번째 S-절을 내포하고 있고, 두 번째 S-절과 네 번째 S-절은 중문을 형성한다. 본 논문은 이와 같은 S-절의 분할을 자동적으로 하는 방법을 제안하고 구문분석에 있어서 S-절의 효과를 실험을 통하여 보여준다.

가설 설정

1) 우선, 격조사가 붙은 논항을 대상으로 우선 지배소를 설정하면, '학교에 6 갔다'라는 의존관계가 '가다에 대한 사전의 선택제약정보에 의해 먼저 결정된다.
하나의 절 내에 주어가 생략되어 있을 때, Leffa⑵는 앞쪽에 가장 가까이 위치한 주어를 공유하고 있다고 가정하고 그 주어의 자질을 절 앞의 접속사에 표시하였다. 하지만 절의 생략된 주어가 항상 바로 앞 절의 주어와 일치하는 것은 아니다.

제안 방법

S-절 분할을 위해 어떤 기계학습 방법이라도 적용이 가능하지만, 본 논문에서는 결정트리를 사용하여 실험한다. 결정트리 학습은 결과가 트리로 표현된다, 트리는 또한 if-then 규칙으로 표현될 수 있으므로 학습된 결과를 사람이 쉽게 이해할 수 있고 학습에 영향을 미치는 중요한 자질이 무엇인지를 쉽게 알 수 있는 장점이 있다.
첫 번째 단계로서, 동사구 묶음과 관계절의 틈올 인식하여 S-절 경계의 후보를 줄인다. 두 번째 단계로, 결정 트리를 이용한 S-절 분할 방법을 수행한다. 실험결과는 S- 절이 주어와 용언 각각의 지배소를 결정하는데 유용함을 보이고 있다.
그 결과, S-절 분할을 했을 때 주어의 지배소를 찾는 데 있어서의 정확률이 S-절을 사용하지 않을 때보다 더 좋음을 표 7을 통해서 알 수 있다. 또한 용언 간의 의존관계의 성능을 S-절을 사용했을 때와 그렇지 않을 때로 비교해 본다. S-절을 사용하지 않은 용언 간 의존관계에 있어서 용언의 지배소는 링크의 교차를 허용하지 않는 가장 가까운 용언으로 설정한다.
우리는 제안된 S-절 분할 방법을 Matec99(제 1회 형태소 분석기 평가 대회)[22] 말뭉치의 설명문들과 KIBS(국어정보베이스)1)말뭉치의 역사, 건강 그리고 예술에 관련된 문장들을 뽑아서 실험한다. 학습데이타 사이즈는 5, 000문장부터 50, 000문장까지 다양하게 이루어져 있고, 테스트용 데이타로는 학습데이타와 분리하여 5, 000문장 (평균 18.
이 논문은 장문에 있어서 구문적 애매성을 줄이기 위해 S-절이라는 새로운 개념을 제안하고, 2단계 s-절 분할 방법을 제안하였다. S-절은 여러 개의 용언과 하나의 공통된 주어를 포함하는 단어그룹으로 정의된다.
기존 연구에서 절(clause)은 하나의 용언을 중심으로 인식되었다. 이와 대조적으로, 본 논문에서는 문장을 주어를 중심으로 분할한다. 이전 연구에서의 절 개념과 구분하기 위하여, 본 논문에서 제안하는 방법으로 분할된 단위를 S(ubject)-절이라고 명명한다.
주어를 포함하지 않은 절의 주어를 정확히 판단하기 위해서, 우리는 S(ubject)-절(clause)이라는 개념을 도입하고, 자동적으로 S-절을 분할하는 방법을 제안한다. 기존 연구에서 절(clause)은 하나의 용언을 중심으로 인식되었다.
첫번째로, S-절 분할 방법을 다른 언어에도 적용해본다. 왜냐하면 대부분의 언어들은 장문에서 하나의 주어를 공유하는 경향이 있고, 이러한 용언들의 구간을 파악하는 데 있어서 애매성이 존재하기 때문이다.
획득된 S-절에 포함된 단어들을 예제문장에서 제외한 후, 수정된 문자열을 대상으로 반복적으로 위의 과정을 수행하여 두 번째 S-절을 인식한다.

대상 데이터

이 표는 목표주어 가까이에서 왼쪽으로 2개, 오른쪽으로 7개의 용언들의 범위 내에 경계의 99%가 존재함을 보여준다. 따라서, 왼쪽 경계의 후보로는 목표주어 왼쪽에 인접한 2개의 용언까지를 대상으로 하고, 오른쪽 경계의 후보로는 목표주어의 오른쪽에 인접한 7개의 용언들을 대상으로 한다.
문장들을 뽑아서 실험한다. 학습데이타 사이즈는 5, 000문장부터 50, 000문장까지 다양하게 이루어져 있고, 테스트용 데이타로는 학습데이타와 분리하여 5, 000문장 (평균 18.82어절/문장)을 따로 추출하여 사용하였다. 구문분석기의 정확률은 (정확하게 분석된 구문분석링크 수)/(모든 인식된 구문분석 링크 수)이고, 재현율은 (정확하게 분석된 구문분석 링크 수)/(모든 정확한 구문분석 링크 수)이다.

데이터처리

위의 절 분할 과정이 끝나면, 주어의 지배소를 찾아주기 위해서 2단계를 통한 S-절 분할 방법이 적용된다. 마지막으로 S-절을 이용하여 구문분석을 수행한다. 아래의 장에서, S-절 인식을 위한 두 단계& 방법을 설명하고, 4장에서 S-절을 기반으로 구문분석을 어떻게 수행하는지를 자세히 설명한다.

이론/모형

우선, 김미영 외U6]의 방법을 이용하여 명사구의 구 묶음을 수행한다. 그 다음으로 하위범주화와 선택제약정보를 이용하여 주어를 제외한 논항의 지배소를 결정한다.
의미를 나타내는 방법으로는 카도가와 개념코드를 사용하며, 개념유사도 계산 방법은 Kim93[17]o] 제안한 그림 6과 같은 방법으로 계산한다.
따라서 s-절 간의 의존관계 설정 단계로 용언과 용언간의 의존관계를 설정하도록 한다. 이 관계의 설정 시, 우리는 일본어 KN 구문분석기에서 사용된 Minami 규칙을 사용한다[5]. Minami는 절들 사이의 의존관계를 설정하기 위하여, 그림 9와 같은 규칙을 사용하였다.

성능/효과

1. 경계의 후보를 줄인 후 S-절 분할 성능이 6% 향상되었다(표 5 참조).
2. S-절 분할 성능이 더 좋을수록, 구문분석 성능이 더 좋다(표 6 참조).
3. S-절 분할의 정확률이 83.28%일 때, 구문분석 정확률은 87.38%이다. 이 때 학습데이타 사이즈는 50, 000 문장이고, 테스트데이타 사이즈는 5, 000문장이다.
4. S-절 분할 결과는 약 5.1%의 구문분석 성능향상을 보였다(표 7 참조).
표 7은 S-절에 기반한 용언간의 의존관계가 S-절을 사용하지 않았을 때보다 더 좋은 성능을 보임을 증명한다. 그 결과 구문분석 성능은 87.38%로 S-절 분할을 하지 않았을 때보다 5%의 성능향상을 보였다.
그 결과, S-절 분할을 했을 때 주어의 지배소를 찾는 데 있어서의 정확률이 S-절을 사용하지 않을 때보다 더 좋음을 표 7을 통해서 알 수 있다. 또한 용언 간의 의존관계의 성능을 S-절을 사용했을 때와 그렇지 않을 때로 비교해 본다.
두 번째 단계로, 결정 트리를 이용한 S-절 분할 방법을 수행한다. 실험결과는 S- 절이 주어와 용언 각각의 지배소를 결정하는데 유용함을 보이고 있다. S-절 분할 후에, S-절을 사용한 구문분석기가 S-절을 사용하지 않은 것보다 5%의 성능향상을 보이고 있다.
이 결과는 부분적으로 몇 가지 휴리스틱 규칙을 보여준다. 첫째, 왼쪽 경계가 가능한 용언의 어말형태는 관형형이었다. 왜냐하면 단지 관형형 용언만이 주어의 앞쪽에 등장이 가능하기 때문이다.

후속연구

왜냐하면 대부분의 언어들은 장문에서 하나의 주어를 공유하는 경향이 있고, 이러한 용언들의 구간을 파악하는 데 있어서 애매성이 존재하기 때문이다. 두 번째로, 우리는 기계번역 시스템에 S-절을 도입하여, S- 절 단위로 문장을 번역하는 것에 대해 연구해 볼 예정이다.
S-절 분할 후에, S-절을 사용한 구문분석기가 S-절을 사용하지 않은 것보다 5%의 성능향상을 보이고 있다. 향후 작업으로 S-절의 정확률을 높이기 위해, 이중주어문 구조와 서술어로 기능하는 부사어의 특성을 파악할 필요가 있다.

참고문헌 (22)

M. Kim. S.J. Kang, and J.H. Lee, 'Resolving Ambiguity in Inter-chunk Dependency Parsing,' Proc. 6th Natural Language Processing Pacific Rim Symposium, Tokyo, Japan, pp. 263-270, 2001
V. J. Leffa, 'Clause processing in complex sentences,' Proc. 1st International Conference on Language Resources and Evaluation, Granada, Spain, pp. 937-943, 1998
R. Agarwal, L. Boggess, 'A simple but useful approach to conjunct identification,' Proc. 30th Annual Meeting of the Association for Computational Linguistics, Nantes, France, pp. 15-21, 1992
장재철, 박의규, 나동렬, '구간분할 기반 한국어 대동 접속 구문분석 기법', 제 14회 한글 및 한국어 정보처리 학술대회, 청주, pp. 139-146, 2002
S. Kurohashi and M. Nagao, 'A syntactic analysis method of long japanese sentences based on the detection of conjunctive structures,' Computational Linguistics, vol.20, no.4, pp.507-534, 1994
윤준태, 송만석, '한국어의 대등접속구문 분석', 정보과학논문지, 24:326-336, 1997
X. Carreras, L. Marquez, V. Punyakanok, and D. Roth, 'Learning and inference for clause identification,' Proc. 13th European Conference on Machine Learning, Helsinki, Finland, pp.35-47, 2002
A. Molina and F. Pla, 'Clause detection using HMM,' Proc. 5th Conference on Computational Natural Language Learning, Toulouse, France, pp.70-72, 2001
E. F. T. K. Sang and H. Dejean. 'Introduction to the CoNLL-2001 shared task: clause identification,' Proc. CoNLL-2001, pp.53-57, 2001
S. Doi, K. Muraki, S. Kamei and K. Yamabana, 'Long sentence analysis by domain-specific pattern grammar,' Proc. 6th Conference on the European Chapter of the Association of Computational Linguistics, p.466, OTS, The Netherlands, 1993
김광백, 박의규, 나동렬, 윤준태, '구간 분할 기반 한국어 구문분석', 제 4회 한글 및 한국어 정보처리 학술대회, 청주, pp.163-168, 2002
W. C. Li, T. Pei, B. H. Lee and C. F. Chiou. 'Parsing long English sentences with pattern rules,' Proc. 13th International Conference on Computational Linguistics, Helsinki, Finland, pp.410-412, 1990
D. D. Palmer, M. A. Hearst, 'Adaptive multilingual sentence boundary disambiguation,' Computational Linguistics, vol.27, pp.241-261, 1997
S. Kim, B. Zhang and Y. Kim, 'Learning-based intrasentence segmentation for efficient translation of long sentences,' Machine Translation, vol.16, no.3, pp.151-174, 2001
C. Lyon, and B. Dickerson, 'Reducing the complexity of parsing by a method of decomposition,' Proc. 6th International Workshop on Parsing Technology, Boston, USA, pp.215-222, 1997
김미영, 강신재, 이종혁, '규칙과 어휘정보를 이용한 한국어 문장의 구묶음', 제 12회 한글 및 한국어 정보처리 학술대회, 전주, pp.103-109. 2000
E. J. Kim and J. H. Lee, 'A collocation-based transfer model for Japanese-to-Korean machine translation,' Proc. NLPRS1993, Fukuoka, Japan, pp.223-231, 1993
M. Haruno, S. Shirai, and Y. Ooyama, 'Using decision trees to construct a practical parser,' Proc. 36th Annual Meeting of the Association for Computational Linguistics, Monteal, Quebec, Canada, pp.505-511, 1998
T. Nomoto and Y. Matsumoto, 'Discourse parsing: a decision tree approach,' Proc. 6th Workshop on Very Large Corpora, Montreal, Quebec, Canada, pp.216-224, 1998
V. Sornertlamvanich, T. Potipiti and T. Charoenporn, 'Automatic corpus-based Thai word extraction with the C4.5 learning algorithm,' Proc. 18th International Conference on Computational Linguistics, Saarbrucken, Germany, pp.802-807, 2000
J. R. Quinlan. C4.5 Programs for Machine Learning. Morgan Kaufmann Publishers. 1993
이재성, 박재득, 차건희, 박세영, '형태소분석기 및 품사 태거 평가대회(MATEC99) 개요', 제 11회 한글 및 한국어 정보처리 학술대회, 1999

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증