부분 언어 분석 기법의 요지는 공통적인 목적을 가지고 있는 특정한그룹의 사람들이 만들어 낸 텍스트가 그 나름대로의 어휘적, 통사적, 의미적 특성을 가지고있다는 이론에 기반을 두고 있다. 본 연구에서는 부분언어 분석 기법을 적용하여 한국어문서 제목의 구조와 의미 분석을 시도하였다. 영어권에서는 이 기법의 적용에 관한 연구가많이 이루어져 있고 실제 응용한 사례도 많이 보고 되었으나, 한국어 처리에 있어서는 적용사례가 거의 없다. 이 연구에서는 문서 제목을 개념 그래프 형태로 변형하는데 목표를 두고 다양한 부분언어 분석을 함
부분 언어 분석 기법의 요지는 공통적인 목적을 가지고 있는 특정한그룹의 사람들이 만들어 낸 텍스트가 그 나름대로의 어휘적, 통사적, 의미적 특성을 가지고있다는 이론에 기반을 두고 있다. 본 연구에서는 부분언어 분석 기법을 적용하여 한국어문서 제목의 구조와 의미 분석을 시도하였다. 영어권에서는 이 기법의 적용에 관한 연구가많이 이루어져 있고 실제 응용한 사례도 많이 보고 되었으나, 한국어 처리에 있어서는 적용사례가 거의 없다. 이 연구에서는 문서 제목을 개념 그래프 형태로 변형하는데 목표를 두고 다양한 부분언어 분석을 함으로써 전 과정을 자동화하는데 필요한 기반을 마련하였다.본 연구를 통해서 얻은 주요 성과는 다음과 같다. 첫째, 한국어 처리를 위해 부분언어 분석기법을 도입하여 그 가능성을 제시하였고, 부분언어 분석 과정이 하나의 방법론으로서 다양한 분야에 사용될 수 있는 계기를 마련하였다.둘째, 논문의 제목에 존재하는 개념간의 의미적 관계성을 자료 분석을 통해 추출하였고이들을 개념 카탈로그 형태로 정리하였다. 이 분석은 정보검색의 응용을 염두에 두고 행해졌는데, 개념에 기반을 둔 정보검색 연구에 중요한 기반을 제공하리라 기대된다.셋째, 각 관계성에 대해 관계성 발현 패턴(relation revealing pattern)을 도출하고 규칙화한 후, 이를 사용하여 관계성 뿐만 아니라 대상이 되는 개념의 범위(scope)를 자동으로 추출하는 프로그램을 개발하여 규칙들의 실효성을 시험하였다. 차트 파싱(chart parsing) 방법을 사용하였는데, 비교적 간단한 문법 규칙을 사용하였음에도 불구하고 약 80%의 성공률을보였다.넷째, 한국어처리에 중요한 부분이 되어 있는 복합명사처리를 위해 복합명사 분리 방법을설계 구현하였고, 복합명사를 구성하고 있는 단순명사간에 존재하는 의미적 관계성의 자동추출을 위한 기초연구를 하여 유용한 의미적 패턴을 추출하여 정리하였다. 도출된 결과는구성 명사의 형태적, 의미적 제약 조건을 통해 구성 명사간에 생략된 서술 형태를 복원하는방법으로 격(case) 정보를 이용하여 개념 그래프를 자동 생성할 수 있는 기반을 제공하였다.본 연구에서 장기적인 목표로 설정한 것은 문서 제목을 개념 그래프로 자동 변환하는 기법을 개발하는 것으로 이를 위해서는 많은 연구가 필요하다. 본 연구에서 도출한 결과를기반으로 한 효율적인 알고리즘과 필요한 언어 자원이 동시에 개발이 되어야 한다. 예를들어, 본 연구에서 제시한 구문 분석기보다 효과적이면서도 초소한의 계산자원(computational resource)를 사용하는 알고리즘이 개발되어야 하고 복합 명사간의 관계성 추출을 위해서는 구성 명사의 의미정보를 가지고 있는 사전이 구축되어야 한다. 또한 도출한관계성이 정보검색과 같은 응용에서 어떤 역할을 하는지 규명하여야 하고, 특정 관계성의효과가 분명하지 않을 때는 이를 추상화하던지 구체화하여 그 유용성을 높이는 작업도 필요하다.
Abstract▼
The sublanguage analysis methodology is based on the theory thattexts generated by a group of people possess their own lexical, syntactic, and semanticcharacteristics. The main thrust of the research reported here is to apply themethodology to Korean document titles, reflecting the fa
The sublanguage analysis methodology is based on the theory thattexts generated by a group of people possess their own lexical, syntactic, and semanticcharacteristics. The main thrust of the research reported here is to apply themethodology to Korean document titles, reflecting the fact that there has been littleresearch in applying the methodology for the Korean language although much researchhas been done with English texts. The research had the goal of finding a way toconvert document titles to a set of conceptual graphs representing the meaning, and haslaid out a firm ground for automating the entire process by developing necessarycomponents and analyzing the liguistic phenomena.The main accomplishments are as follows. First, we showed the possibility ofsuccessfully applying the methodology for a variety of Korean texts. This is likely togive a momentum to use the methodology for a number of practical problems.Second, we extracted a number of lexico-semantic relations between concepts existingin document titles with intellectual analysis, which have been all organized into a formof conceptual catalog. This analysis was done with the inention of using the result forinformation retrieval. It is execpted that the result will provide a good basis forbuilding an information retrieval system based on concepts.Third, for each relation, we generated relation revealing patterns that became rules bywhich a program can extract not only relations but concepts connected by a relation.We used a relatively simple chart parsing algorithm together with the rules to test theefficacy of the rules, and achieved about 80% accuracy.Fourth, we also tackled the problem of processing compound nouns, one of theimportant problems in processing Korean texts. Specifically, we developed an algorithmby which a concatenated compound noun can be segmented into component nouns. Inaddition, we analyzed many examples to generate a set of rules by which the conceptualrelationship between two more more component nouns can be identified. The methodwe devised is an attempt to recover the omitted particles in the process of generating acompound noun, and eventually construct a conceptual graph representing the piece oftext.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.