[논문]대규모 말뭉치와 전산 언어 사전을 이용한 의미역 결정 규칙의 구축

강신재; 박정혜

doi:10.3745/kipstb.2003.10b.2.219

대규모 말뭉치와 전산 언어 사전을 이용한 의미역 결정 규칙의 구축
Rule Construction for Determination of Thematic Roles by Using Large Corpora and Computational Dictionaries 원문보기

정보처리학회논문지. The KIPS transactions. Part B. Part B, v.10B no.2, 2003년, pp.219 - 228

초록
AI-Helper

본 논문은 한국어정보처리 과정에서 구문 관계를 의미역으로 사상시키기 위한 규칙을 효과적으로 구축하는 방법을 제시하고 있다. 의미역의 결정은 의미 분석의 핵심 작업 중 하나이며 자연어처리에서 해결해야 하는 매우 중요한 문제 중 하나이다. 일반적인 언어학 지식과 경험만 가지고 의미역 결정 규칙을 기술하는 것은 작업자의 주관에 따라 결과가 많이 달라질 수 있으며, 또 모든 경우를 다룰 수 있는 규칙의 구축은 불가능하다. 하지만 본 논문에서 제시하는 방법은 대량의 원시 말뭉치를 분석하여 실제 언어의 다양한 사용례를 반영하며, 또 수십 명의 한국어 학자들이 심도 있게 구축하고 있는 세종전자사전의 격틀 정보도 함께 고려하기 때문에 보다 객관적이고 효율적인 방법이라 할 수 있다. 의미역을 보다 정확하게 결정하기 위해 구문관계, 의미부류, 형태소 정보, 이중주어의 위치정보 등의 자질 정보를 사용하였으며, 특히 의미부류의 사용으로 인해 규칙의 적용률이 향상되는 효과를 가져올 수 있었다.

Abstract ▼ AI-Helper

This paper presents an efficient construction method of determination rules of thematic roles from syntactic relations in Korean language processing. This process is one of the main core of semantic analysis and an important issue to be solved in natural language processing. It is problematic to describe rules for determining thematic roles by only using general linguistic knowledge and experience, since the final result may be different according to the subjective views of researchers, and it is impossible to construct rules to cover all cases. However, our method is objective and efficient by considering large corpora, which contain practical osages of Korean language, and case frames in the Sejong Electronic Lexicon of Korean, which is being developed by dozens of Korean linguistic researchers. To determine thematic roles more correctly, our system uses syntactic relations, semantic classes, morpheme information, position of double subject. Especially by using semantic classes, we can increase the applicability of the rules.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

결정은 격틀(case frame)과 같은 언 어 지식 (linguistic knowledge)을 필요로 하지만, 지식 구죽의 어려움 때문에 그다지 연구가 활발하지는 못한 실정이다. 그 래서 본 연구에서는 사용 가능한 격틀 정보가 없거나 부족한 경우에, 단어 의미(word sense)가 태깅된 구문 트리(syrtac- tic tree)를 입력으로 받아, 주어/목적어와 같은 구문관계를 행위주/대상과 같은 의미역으로 사상하여 의미 (seman tic tree)를 생성하는 시스템을 구축하고자 한다(그림 1)1).
데, 이를 언어학 논저에서 제시하고 있는 일반 적 원칙과 말뭉치 분석 결과, 그리고 세종전자사전의 정보 등을 종합하여 구문관계에 따른 의미역을 정리해 본 것이 이다.
본 논문에서는 의미 분석의 한 부분인 의미역 결정을 위한 규칙올 대규모 말뭉치와 기계번역 시스템, 세종 전자사 전올 활용하여 구축하는 방법을 제시하였다. 사실 격틀과 같은 언어 지식이 의미역 결정에서 대단히 중요한 역할을 하지만, 이것이 가용치 않은 경우가 대부분이므로 기존 언 어 자원올 최대한 활용하여, 규칙의 구축이 보다 객관적이 고 효율적으로 이루어지게 하였다.
일반적으로 언어를 분석할 때는 형 태소 분석과 구문 분석의 과정을 거쳐 의미 분석을 하게 되 는데, 의미 분석에서는 단어의 의미 중의성 해소(word sense disambiguation)4 단어간 의미역(thematic role)의 결정이 주요한 작업이다. 이러한 여러 과정 가운데 본 논문에서는 의미 분석에서의 의미역 결정에 대해 논하고자 한다.
의미역은 논항들이 문장 내에서 수행하 고 있는 역할[8]을 의미하므로 필수 논항인 구성요소에만 할당하는 것이 원칙이다. 하지만 남기심[3]에서 밝히고 있 듯이 논항과 부가항의 구분이 어렵고, 또 궁극적인 의미분 석을 위해서는 부가항에 대해서도 의미역을 결정해야 하므 로 본 연구에서는 논항 뿐만 아니라 부가항에 대해서도 의 미역을 결정하는 것을 목표로 한다.

가설 설정

② 철수는 영희의 합격에 무척 기뻐했다.
구문관계에서 의미관계로 사상할 때 어떠한 경우에 트리 가 변형되는지에 관해, 현재까지의 연구 결과로는 완전히 정리가 되지 않기 때문에, 본 논문에서는 구문 트리가 변형 되지 않는다는 가정 하에서 연구를 진행하였다. 의미역 사 상 후의 의미 트리를 표현하기 위해서는 개념 그래프(con ceptual graph)[10, 15]를 사용하고 있는데, 이는 개념 노드 (conceptual node)와 그 개념을 연결해 주는 개념 관계 노 H(conceptual relation node)로 개념 그래프가 이루어진다 는 점에서 본 연구의 결과와 매우 유사한 특성을 가지고 있기 때문이다.

제안 방법

양단희[기에서는 격 원형성 (case prototypicality)이라는 개 념을 도입하였는데, 이는 모든 격에 대해 명사와 동사가 갖 고 있는 의미의 정도를 말한다. 각 용언과 명사에 대해 격 원형성을 말뭉치로부터 미리 계산해 둔 후, 논항의 격을 이 로부터 결정하는 방법을 제시하였다. 이 방법은 말뭉치로부 터 기계 학습을 통해 지식을 구축했기 때문에 은유나 환유 현상을 다룰 수 있는 장점이 있으나, 대량의 학습데이터가 필요하며, 격조사가 표현할 수 있는 격 종류를 3가지로 제 한한 점이 문제점으로 나타난다.
이를 통해 논항과 부가항이 구 분되므로 논항이 가질 수 있는 의미와 부가항이 가질 수 있는 의미를 구분하여 기술하고 있다. 부사격 조사 에'의 논항은 장소, 대상, 기준점, 원인, 이유, 도구, 행위자, 수혜 주로 8개의 의미를, 부가항은 장소, 시간, 부가, 원인, 도구, 인용, 대응, 기준으로 8개의 의미를 가지며, 부사격 조사 로'의 논항에 대해서는 지향점, 방향, 경로, 속성, 변성, 재 료, 원인으로 7개의 의미를, 부가항에 대해서는 양태, 순서, 시간, 진술, 정도, 빈도, 원인, 수량으로 8개의 의미를 제안 했다. 다른 기존 연구와 비교해 볼 때, 의미를 매우 자세하 게 분류하였다.
의미코드가 포함된 구문패턴은 포항공대 지식 및 언어공학 연구실에서 개발한 한일 기계번역 시스템(COBALT-KJ)[16] 을 사용해서 추출했다. 이 기계번역 시스템은 내부적으로로 단어 의미 중의성 해소를 위해 가도카와 시소러스의 의미 코드로 표현된 결합가 정보를 사용하고 있는데, 단어 의미 중의성 해소가 끝난 단계에서 의미코드를 한국어 어휘와 동 시에 출력하게 수정하였다. 그러면, 번역되어 출력된 문장의 각 어휘는 의미코드가 부가되어 있게 되는데, 이렇게 번역된 문장을 의존 문법을 이용하여 부분 구문 분석 [1 기을 하면 (그림 4)와 같은 구문 패턴을 얻을 수가 있게 된다.
이 분석 결과와 언어학 논저에 기술된 일반적인 규칙들을 종합적으로 정리하여와 같이 총 55개의 규칙을 구축하였다.
사전식으로 기술되어 있는 이 연구를 통해 조사에 따른 의미를 파악할 수 있다. 주격조사, 목적 격조사, 보격조사와 인용격조사를 제외한 부사격조사에 대 해 30개 가량의 조사를 언급하였으며, 조사가 가질 수 있는 의미역은 기존 연구[1, 3, 5, 12]를 기준으로 재해석하여 제시 하였다.
일반적인 언어학 지식과 경험만 가지고 의미역 결정 규칙을 기술하는 것은 작업자 의 주관에 따라 결과가 많이 달라질 수 있으며, 또 미처 생 각지 못한 부분들도 있을 수 있기 때문에 규칙의 적용률이 많이 떨어질 수 있다. 하지만 본 논문에서 제시하는 방법은 대량의 원시 말뭉치를 기계번역 시스템으로 분석하여 의미 정보가 태깅된 구문패턴을 추출함으로써 실제 언어의 다양 한 사용례를 반영하였으며, 또 다수의 언어학자들이 심도있 게 구축하고 있는 세종전자사전(용언사전)의 격틀 정보도 함께 고려하였기. 때문에 본 방법에 의해 구축된 규칙들은 보다 객관적이고 효율적이라 할 수 있다.

대상 데이터

그러면, 번역되어 출력된 문장의 각 어휘는 의미코드가 부가되어 있게 되는데, 이렇게 번역된 문장을 의존 문법을 이용하여 부분 구문 분석 [1 기을 하면 (그림 4)와 같은 구문 패턴을 얻을 수가 있게 된다. 7,000만 어절의 KIBS(Korean Information Base System, 1994— 1997) 한국어 원시 말뭉치를 분석하여 총 208, 088개의 의미 태깅된 구문 패턴을 생성하였다. (그림 4)는 생성된 구문 패턴을 언어학 논저의 일반적 규칙과 작업자의 언어적 직 관에 의하여 의미역 패턴으로 변환하는 예를 보여 주고 있 으며, (그림 5)는 세종 전자사전의 격틀 정보로부터 의미역 패턴 정보를 얻어내는 과정을 예시하고 있다.
세종계획 (전자사전 개발)[1]의 용언사전에서는 술어가 요구하는 통 사적인 논항 뿐만 아니라 의미적인 논항에 대해서도 의미 역을 정의하여 격틀정보를 구축했다. 대상, 행위주, 경험주, 동반주, 처소, 출발점, 도착점, 방향, 도구, 이유, 수령주, 자 격, 기준치, 정도 등 총 14개의 의미역을 정의했다. 구별 가능한 의미역을 최 대한 구분하여 기술하고 추후에 필요가 없다고 판단되면 구분했던 의미역을 다시 하나로 통합한다 는 방침을 세우고 있다.
실험말뭉치로는 한국전자통신연구원에서 주관한 한국어 형태소 분석기 및 품사태거 평가 워크숍(MATEC'99)에서 제공받은 말뭉치에서 임의로 추출한 340문장을 사용하였다. 먼저 형태소 분석, 구문 분석 및 단어 의미 중의성 해소 등 전단계의 오류를 모두 수정한 후의 적용 결과가<표 3>에 제시되어 있다.
선형 보간법은 구체적인(speci fic) 자질을 통한 확률과 일반적인(general) 자질을 통한 확 률 모두를 항상 고려해서 원하는 값을 얻는 것인 반면, 선 형 보간법에 backoff를 결합한 방법은 구체적인 자질을 통 한 확률이 있을 경우에는 그 확률로 원하는 값을 얻지만, 자료 부족 문제로 인해 구체적인 자질을 이용한 확률이 없 을 경우에는 좀 더 일반적인 자질의 확률 값을 보간(inter polation) 하여 원하는 값을 추정하는 효과적인 방법이다. 이 연구에서는 일종의 의미부류인 프레임(frame)과 의미역이 태 깅된 말뭉치를 포함하고 있는 FrameNet이라는 지식베이스 를 사용하고 있다. 특정 프레임은 그 의미에 속한 단어들과 그 단어들이 가질 수 있는 의미역에 대한 정보를 갖고 있 다.

이론/모형

또 의미역 결정 문제의 기본 성능을 알아보기 위해 특정 구문관계에 대해 주로 나타나는 의미역을 기본적으로 할당 하는 기본(baseline) 모델로도 실험을 따로 하였다. 주어, 목 적어, 보어는 대상으로, 부사어 '에, 에서'는 장소로, 부사어 '에게, 로'는 도착점으로, 부사어 '와'는 동반주로 기본 의미 역을 설정하였다.
의미코드가 포함된 구문패턴은 포항공대 지식 및 언어공학 연구실에서 개발한 한일 기계번역 시스템(COBALT-KJ)[16] 을 사용해서 추출했다. 이 기계번역 시스템은 내부적으로로 단어 의미 중의성 해소를 위해 가도카와 시소러스의 의미 코드로 표현된 결합가 정보를 사용하고 있는데, 단어 의미 중의성 해소가 끝난 단계에서 의미코드를 한국어 어휘와 동 시에 출력하게 수정하였다.

성능/효과

기존 의미역 결정 연구와는 연구 범위와 대상, 방법들이 달라서 성능의 직접 비교에는 무리가 있지만, 겉으로 드러 난 정확률 만올 비교한다면 본 연구에서 구축한 시스템이 70〜82%에 이르는 기존 연구에 비해 88%로 다소 좋은 성 능을 보이고 있다.
본 연구를 통해 구축된 규칙 모델은 기본 모델에 비해 37%의 성능 향상을 보이고 있다. 그런데 실험 결과에서 목 적어가 가질 수 있는 의미역이 대상, 하나임에도 불구하고 정확률이 90%인 것은 의미역을 할당해서는 안 되는 구성 요소가 있기 때문이다.
조정미[13]에서는 한국어의 의미격을 30가지로 구분한 후, 23가지의 대표 조사를 그 의미격에 따라 분류하였으며, 명 사와 동사의 의미부류와 조사만을 이용해 의미역을 결정하 는 신경망 기반 방법을 제안했다. 실험 결과는 보이지 않았 으나, 세 개의 자질(feature*)만으로는 의미역을 결정하기에 부족하다는 사실을 짐작할 수 있다.

후속연구

'생각을 하다'가 생각하다'와 사실상 같은 의미를 갖 고 있기 때문에 의미론적으로는 같은 트리를 가져야 한다. 따라서 이런 경우에 트리의 변형이 필요하다는 사실을 알 수 있는데, 본 연구에서는 구문 트리에서 의미 트리로 사상 시 트리 변형이 없다고 가정을 했기 때문에 추후 좀더 고 려해 보아야 할 부분이라 하겠다.
본 연구의 결과는 온톨러지(ontology)의 구축시 개념간 개념관계의 추출이나 기계 번역(machine translation), 질의 응답 시스템 둥과 같은 응용분야에서 활용될 수 있다.
그래서 규칙으로 해결되지 않는, .즉 규칙이 적용되는 않는 부분에 대한 처리를 현재는 기본 의미역(빈도수로 결정)으 로 결정하나, 향후에는 확률모델을 도입하여 성능을 개선하 는 연구를 할 예정이다. 규칙 모델의 또다른 단점이라면 규 칙의 수가 많아질수록 기존 규칙과의 충돌이 발생할 가능 성이 높아진다는 점을 들 수 있는데, 본 연구에서는 어휘 정보를 사용한 규칙을 먼저 적용하고 의미코드 정보를 사 용한 규칙을 나중에 적용하는 등 규칙 간 적용순서를 정해 서 이 문제를 해결하고 있다.
향후에는 본 시스템을 이용하여 의미역이 태깅된 말뭉치 를 반자동으로 구축하는 방법과 의미역이 할당되지 않는 구성요소를 고려하기 위해 트리가 변형되는 부분을 고려할 예정이며, 정확률이 상대적으로 낮은 부사어 에'와 로'의 성능 향상을 위한 새로운 방법을 연구할 예정이다.

참고문헌 (20)

21세기 세종계획 전자사전 개발 연구보고서, 문화관광부, 2000
김나리, 김영택, '한국어 동사 패턴에 기반한 한국어 문장 분석과 한영 변환의 모호성 해결,' 한국정보과학회논문지, 제23권 제7호, pp.766-775, 1996
남기심, '국어 조사의 용법 '-에' 와 '-로'를 중심으로', 서광학술자료사, 1993
박성배, 김영택, '한영 기계번역에서 결정 트리 학습에 의한 한국어 부사격 조사의 의미 중의성 해소', 한국정보과학회논문지, 제27권 제6호, pp.668-677, 2000

원문보기 상세보기
박정운, '한국어 도구격 조사의 다의어 체계 언어', 제24권 제3호, pp.405-426, 1999
서정수, '국어 문법', 뿌리 깊은 나무, 1994
양단희, 송만석, '기계학습에 의한 단어의 격 원형성 자동 획득', 한국정보과학회논문지, 제25권 제7호, pp.1116-1127, 1998
이익환, '의미론 개론', 한신문화사, 1995
이홍식, '국어문장의 주성분 연구', 서울대학교 박사학위논문, 1996
이휘봉, '구문의존구조에서 중간언어 방식 기계번역을 위한 개념그래프의 생성', 포항공과대학교 전자계산학과 박사학위논문, 1998
이회자, 이종희, '사전식 텍스트분석적 국어 조사의 연구', 한국문화사, 1998
조일영, ''NP로'의 의미역', 제16차 한국어학회 전국 학술 대회, pp.56-65, 1998
조정미, 김길창, '한국어 의미 해석시 중의성 해소에 대한 연구', 정보과학회지, 제14권 제7호, pp.71-83, 1996

원문보기 상세보기
D. Gildea and D. Jurafsky, 'Automatic Labeling of Semantic Roles,' In Proceedings of the 38th Annual Meeting of Association of Computational Linguistics, Hong Kong, pp.512-520, 2000
J. F. Sowa, 'Using a Lexicon of Canonical Graphs in a Semantic Interpreter,' in Relational Models of the Lexicon : Representing knowledge in Semantic Networks, Edited by M. W. Evens, Cambridge University Press, pp.113-138, 1988
K. H. Moon and J. H. Lee, 'Representation and Recognition Method for Multi-Word Translation Units in Korean-to-Japanese MT System,' In the 18th International Conference on Computational Linguistics (COLING 2000), Germany, pp.544-550, 2000
M. Y. Kim, S. J. Kang and J. H. Lee, 'Resolving Ambiguity in Inter-chunk Dependency Parsing,' NLPRS 2001 (6th Natural Language Processing Pacific Rim Symposium), Tokyo, Japan, pp.263-270, Nov., 2001
S. B. Park and Y. T. Kim, 'Semantic Role Determination in Korean Relative Clauses using Idiomatic Patterns,' In Proceedings of the 17th International Conference on Computer Processing of Oriental Languages, pp.1-6, 1997
S. Ohno and M. Hamanishi, 'New Synonyms Dictionary,' Kadokawa Shoten, Tokyo, 1981.(Written in Japanese)
Y. J. Chung, S. J. Kang, K. H. Moon and J. H. Lee, 'Word Sense Disambiguation Using Neural Networks with Concept Co-occurrence Information,' NLPRS 2001 (6th Natural Language Processing Pacific Rim Symposium), Tokyo, Japan, pp.715-722, Nov., 2001

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증