문장 축소란 원본 문장의 기본적인 의미를 유지하면서 불필요한 단어나 구를 제거하는 일련의 정보 압축 과정을 의미한다. 기존의 문장 축소에 관한 연구들은 학습 과정에서 대량의 어휘나 구문적 자원을 필요로 하였으며, 복잡한 파싱 과정을 통해서 불필요한 문장의 구성원(예를 들어, 단어나 구, 절 등)들을 제거하여 문장을 요약하였다. 그러나 학습 데이타로부터 얻을 수 있는 어휘적 자원은 매우 한정적이며, 문장의 모호성과 예외적인 표현들 때문에 구문 분석 결과가 명료하게 제공되지 않은 언어에서는 문장 요약이 용이하지 않다. 이에 본 논문에서는 구문 분석을 대체하기 위한 방법으로 템플릿과 품사 정보를 이용한 문장 축소 방법을 제안한다. 제안하는 방법은 요약문의 구조적 형태를 결정하기 위한 문장 축소 템플릿(Sentence Reduction Templates)과 문법적으로 타당한 문장 구조를 구성하는 품사기반 축소규칙(Grammatical POS-based Reduction Rules)을 이용하여 요약 대상 문장의 구성을 분석하고 요약한다. 더불어, 문장 축소 템플릿 적용 시 발생하는 연산량 증가 문제를 은닉 마르코프 모델(HMM: Hidden Markov Model)의 비터비 알고리즘(Viterbi Algorithm)을 이용하여 효과적으로 처리한다. 마지막으로, 본 논문에서 제안한 문장 축소 방법의 결과와 기존 논문의 연구 결과를 비교 및 평가함으로써 제안하는 문장 축소 방법의 유용성을 확인한다.
문장 축소란 원본 문장의 기본적인 의미를 유지하면서 불필요한 단어나 구를 제거하는 일련의 정보 압축 과정을 의미한다. 기존의 문장 축소에 관한 연구들은 학습 과정에서 대량의 어휘나 구문적 자원을 필요로 하였으며, 복잡한 파싱 과정을 통해서 불필요한 문장의 구성원(예를 들어, 단어나 구, 절 등)들을 제거하여 문장을 요약하였다. 그러나 학습 데이타로부터 얻을 수 있는 어휘적 자원은 매우 한정적이며, 문장의 모호성과 예외적인 표현들 때문에 구문 분석 결과가 명료하게 제공되지 않은 언어에서는 문장 요약이 용이하지 않다. 이에 본 논문에서는 구문 분석을 대체하기 위한 방법으로 템플릿과 품사 정보를 이용한 문장 축소 방법을 제안한다. 제안하는 방법은 요약문의 구조적 형태를 결정하기 위한 문장 축소 템플릿(Sentence Reduction Templates)과 문법적으로 타당한 문장 구조를 구성하는 품사기반 축소규칙(Grammatical POS-based Reduction Rules)을 이용하여 요약 대상 문장의 구성을 분석하고 요약한다. 더불어, 문장 축소 템플릿 적용 시 발생하는 연산량 증가 문제를 은닉 마르코프 모델(HMM: Hidden Markov Model)의 비터비 알고리즘(Viterbi Algorithm)을 이용하여 효과적으로 처리한다. 마지막으로, 본 논문에서 제안한 문장 축소 방법의 결과와 기존 논문의 연구 결과를 비교 및 평가함으로써 제안하는 문장 축소 방법의 유용성을 확인한다.
A sentence reduction is the information compression process which removes extraneous words and phrases and retains basic meaning of the original sentence. Most researches in the sentence reduction have required a large number of lexical and syntactic resources and focused on extracting or removing e...
A sentence reduction is the information compression process which removes extraneous words and phrases and retains basic meaning of the original sentence. Most researches in the sentence reduction have required a large number of lexical and syntactic resources and focused on extracting or removing extraneous constituents such as words, phrases and clauses of the sentence via the complicated parsing process. However, these researches have some problems. First, the lexical resource which can be obtained in loaming data is very limited. Second, it is difficult to reduce the sentence to languages that have no method for reliable syntactic parsing because of an ambiguity and exceptional expression of the sentence. In order to solve these problems, we propose the sentence reduction method which uses templates and POS(part of speech) information without a parsing process. In our proposed method, we create a new sentence using both Sentence Reduction Templates that decide the reduction sentence form and Grammatical POS-based Reduction Rules that compose the grammatical sentence structure. In addition, We use Viterbi algorithms at HMM(Hidden Markov Models) to avoid the exponential calculation problem which occurs under applying to Sentence Reduction Templates. Finally, our experiments show that the proposed method achieves acceptable results in comparison to the previous sentence reduction methods.
A sentence reduction is the information compression process which removes extraneous words and phrases and retains basic meaning of the original sentence. Most researches in the sentence reduction have required a large number of lexical and syntactic resources and focused on extracting or removing extraneous constituents such as words, phrases and clauses of the sentence via the complicated parsing process. However, these researches have some problems. First, the lexical resource which can be obtained in loaming data is very limited. Second, it is difficult to reduce the sentence to languages that have no method for reliable syntactic parsing because of an ambiguity and exceptional expression of the sentence. In order to solve these problems, we propose the sentence reduction method which uses templates and POS(part of speech) information without a parsing process. In our proposed method, we create a new sentence using both Sentence Reduction Templates that decide the reduction sentence form and Grammatical POS-based Reduction Rules that compose the grammatical sentence structure. In addition, We use Viterbi algorithms at HMM(Hidden Markov Models) to avoid the exponential calculation problem which occurs under applying to Sentence Reduction Templates. Finally, our experiments show that the proposed method achieves acceptable results in comparison to the previous sentence reduction methods.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
설명한다. 더불어, 규칙을 선택하는 과정 중에서 발생하는 지수승의 계산량을 효과적으로 처리하기 위한 HMM 모델 기반의 문장 축소 방법에 대해서 기술한다.
본 논문에서는 구문 분석을 이용하지 않고 적절한 요약문을 생성하기 위한 방법으로 템플릿과 품사 정보를 이용한 문장 죽소 방법을 제안한다. 본 논문에서 사용한 문장 축소 템플릿 (Sentence Reduction Templates)은 문장을 축소하는 과정에서 중요한 정보를 유지하고 요약문의 구조적 형태를 결정하기 위해 사용된다.
본 논문에서는 구문 분석을 이용하지 않고 적절한 요약문을 생성하기 위해서 문장 축소 템플릿과 품사 기반축소규칙을 이용한 문장 축소 방법을 제안하였다. 문장축소 템플릿은 기계 번역 분야에서 사용된 번역 템플릿 기반의 학습 알고리즘을 적용하였으며, 이를 이용하여 문장 내의 중요 정보를 유지하면서 불필요한 구나 절을 제거하고 요약문의 형태를 결정하였다.
방법을 수행하였다[3]. 본 논문에서는 문장의 중요정보 유지도와 문장의 문법성을 평가하기 위해서 각 평가자들에게 두 가지 실험에 참여하도록 하였다. 우선 평가자들은 축소된 문장이 원본 문장에 포함된 중요 정보를 얼마나 유지하고 있는가에 대해 1부터 10까지 범위내에서 평가하도록 하였으며, 다음으로 축소된 문장이 얼마나 문법적으로 타당한가에 대해 1부터 10까지 범위내에서 평가하도록 하였다.
본 논문에서는 실험의 타당성을 증명하기 위해서 4명의 평가자들에게 서로 다른 방법으로 생성된 4개의 요약문을 평가하도록 하였다. 우선, 문장의 문법성 측면에서는 단어 간의 확률 정보를 이용한 방법이나 템플릿을 이용한 방법보다 문법적으로 적합하다고 분석되었으며, 중요 정보의 유지도 측면에서도 본 논문에서 제안한 방법이 기존의 방법과 비교하여 효과적으로 유지하고 있음을 확인하였다.
이에 본 논문에서는 품사 정보를 이용하여 일반화된 축소 규칙을 유도하고 문법적으로 타당한 문장 구조를 구성하기 위해서 품사기반 축소규칙을 이용한 HMM 기반의 문장 축소 방법을 제안한다. 아래의 표 1은 단어 뭉치 "The/DT PKlite/NNP compression/NN" 이 나타낼 수 있는 모든 품사기반 축소규칙에 대한 정보를 설명하고 있다.
가설 설정
. 문장 축소 템플릿과 어휘 규칙을 통해서 단어 뭉치가 축소될 경우, 축소된 단어뭉치 간의 관계는 문법적으로 타당한가?
제안 방법
문장을 요약하였다. Jinge 자동 요약 시스템으로부터 생성된 문장을 전문가의 요약문과 유사한 형태로 만들기 위해서 구문 분석과 같은 복잡한 파싱 과정을 수행한 후, 각 문장의 불필요한 구문을 식별하고 제거하는 문장 축소 방법을 제안하였다[2]. 그러나 이 방법은 구문 지식 및 문맥 정보, 그리고 전문가에 의해 작성된 예제 말뭉치 (Corpus) 둥 다양한 종류의 리소스로부터 계산된 통계적 정보를 이용하기 때문에 복잡한 자연어 처리 과정과 대량의 어휘 및 구문 정보를 필요로 하였다.
각각의 평가자들은 “원본 문장과 비교하여 얼마만큼 중요한 정보를 유지하는가?”와 “생성된 문장이 문법적으로 적합한가기에 대해서 평가하였으며, 생성된 각 문장의 길이를 비교하여 압축률을 계산하였다.
한다. 그러나 본 논문에서 제안한 방법은 품사 정보를 이용하여 일반화된 품사뭉치를 구성하고, 각 품사뭉치 간의 전후 관계를 확률로 처리함으로써 문법적으로 타당한 요약문을 생성한다.
Nagao에 의해서 최초로 제안된 예제 기반 기계 번역 방법은 말뭉치 기반의 기계 번역 방법 중의 하나로세7], 두 개의 언어로 구성된 문장 말뭉치로부터 원본 언어의 문장(예제)과 번역 언어의 문장 간에 서로 대응되는 구문의 구조적 유사성과 편차를 비교하고, 각 구문 간의 규칙을 생성하여 번역 과정을 수행한다. 그러나 이 연구는 두 언어 사♦이의 문장을 비교하고 번역 규칙을 생성하기 위해서 모든 학습 데이타를 수작업으로 처리하였다.
다음으로, 요약할 대상 문장이 입력되면 문장에 대한 품사 정보를 획득한 후, 문장 축소 템플릿과 비교하여다 수의 연속된 단어뭉치로 분리한다. 마지막으로 연속된 단어 뭉치를 기반으로 적절한 품사기반 축소규칙을 선택하기 위해서 HMM 기법 중에 하나인 비터비 알고리즘을 적용하여 최선의 축소된 문장을 선택한다.
이러한 문제를 해결하기 위해서 템플릿 적용 시 발생하는 연산량 증가 문제를 은닉 마르코프 모델 (HMM: Hidden Markov Model)의 비터비 알고리즘(Viterbi Algorithm) 을 적용함으로써 각 구문들이 나타날 수 있는 가장 높은 확률의 상태열을 복잡한 과정 없이 효과적으로 처리한다. 더불어, 문법적으로 타당한 문장 구조를 구성하는 품사 기반 축소규칙 (Grammatical POS-based Reduction Rules)을 정의하여 요약 대상 문장의 구성을 분석한 후, 이를 요약한다. 품사기반 축소규칙은 문장 축소 템플릿구축 시 정의되지 않은 단어나 구, 절 등을 문법적으로 적합하게 축소시킨다.
두 개의 문장 축소 예제 功와 局가 주어지면, 이들로부터 문장 축소 템플릿을 추출하기 위해서 단어 간의 유사성과 상이성을 분석하게 된다. 유사성이란 두 개의 원본 문장들(Q, 이) 및 축소 문장들(凡, Rb) 사이에서 각각 공통으로 나타난 하나 이상의 연속된 단어들의 집합을 의미하며, 상이성은 공통으로 나타나지 않은 단어들의 집합을 의미한다.
문장축소 템플릿은 기계 번역 분야에서 사용된 번역 템플릿 기반의 학습 알고리즘을 적용하였으며, 이를 이용하여 문장 내의 중요 정보를 유지하면서 불필요한 구나 절을 제거하고 요약문의 형태를 결정하였다. 또한, 문장 축소 템플릿을 생성하는 과정에서 정의되지 않은 문장 구성요소들을 문법적으로 적합하게 축소시키기 위해서 품사 기반 축소규칙을 정의 및 활용하였으며, 그 결과 적절한 요약문을 얻을 수 있었다. 마지막으로 HMM의 비터비 알고리즘을 이용하여 문법 및 의미적으로 적합한 품사 기반축소규칙의 시퀀스를 효과적으로 발견할 수 있었다.
마지막으로, 선택된 품사기반 축소규칙으로부터 적절한 품사 결과를 추출한 후, 이를 원래의 어휘 정보로 대체함으로써 요약문을 생성하게 된다. 이러한 과정은 각 품사 뭉치 간의 관계를 HMM 기반의 확률정보로 처리함으로써 요약문의 문법성을 추가적인 과정 없이 평가할 수 있으며, 더불어 기존의 어휘 규칙 기반의 방법보다 논리적이고 문법적으로 타당한 요약문장을 만든다.
문장축소 템플릿은 기계 번역 분야에서 사용된 번역 템플릿 기반의 학습 알고리즘을 적용하였으며, 이를 이용하여 문장 내의 중요 정보를 유지하면서 불필요한 구나 절을 제거하고 요약문의 형태를 결정하였다. 또한, 문장 축소 템플릿을 생성하는 과정에서 정의되지 않은 문장 구성요소들을 문법적으로 적합하게 축소시키기 위해서 품사 기반 축소규칙을 정의 및 활용하였으며, 그 결과 적절한 요약문을 얻을 수 있었다.
요약하였다. 본 논문에서 제안하는 방법은 뉴스 사이트로부터 얻은 원본 문장과 축소된 문장, 그리고 전처리 과정을 통해서 얻은 문장의 품사 정보를 이용하여 템플릿을 구축한 후, 이를 입력된 문장과 비교하여 요약문장을 생성한다. 그림 3은 본 논문에서 제안한 문장 축소 방법에 대한 구성도를 보여주고 있다.
본 논문에서 제안하는 방법은 문법적으로 적합하고 의미전달이 가능한 축소된 문장을 생성함으로써 문서 요약 분야에 효과적으로 적용될 수 있으며, 다양한 주제로 논의된 회의록 및 보고서에 대한 요약 정보를 제공할 수 있다. 또한, 본 논문의 문서 요약 방법을 이용하여 비정형화된 문서를 정형화시킴으로써 문서의 색인화, 메타 정보화 및 지식 베이스 구성을 가능하게하며, 이를 통해 정보 검색이나 추천 시스템이 사용자에게 적절한 정보를 제공해 줄 수 있다.
본 논문의 문장 축소 방법은 크게 템플릿 학습 부와 문장 축소부로 구성된다. 템플릿 학습부는 문장 축소 예제 말뭉치 구축 과정, 전처리 과정, 그리고 템플릿 학습 과정으로 이루어지며, 문장 축소부는 입력 문장의 전처리 과정, 문장 축소 템플릿 및 품사기반 축소규칙을 이용한 문장 축소 과정으로 이루어진다.
본 논문의 실험에서는 각각의 축소 문장들을 비교하기 위해서 4명의 평가자들이 참여하였으며, 각 평가자에게 20개의 원본 문장에 대해서 4가지 방법으로 생성된 총 80개의 축소된 문장을 보여줌으로써 Knight와 같은 평가 방법을 수행하였다[3]. 본 논문에서는 문장의 중요정보 유지도와 문장의 문법성을 평가하기 위해서 각 평가자들에게 두 가지 실험에 참여하도록 하였다.
세 번째로, 각각 분리된 단어뭉치를 앞에서 추출한 품사 정보로 대체함으로써 4개의 품사뭉치를 얻게 된다. 이 때, 각각의 품사뭉치에서 선택할 수 있는 모든 품사 기반 축소규칙(孔 ~心J을 발견한 후, 각 규칙이 나타날 확률 정보 및 각 규칙 간의 전이 확률 정보를 이용하여 최선의 품사기반 축소규칙 시퀀스를 발견하게 된다.
본 논문에서는 문장의 중요정보 유지도와 문장의 문법성을 평가하기 위해서 각 평가자들에게 두 가지 실험에 참여하도록 하였다. 우선 평가자들은 축소된 문장이 원본 문장에 포함된 중요 정보를 얼마나 유지하고 있는가에 대해 1부터 10까지 범위내에서 평가하도록 하였으며, 다음으로 축소된 문장이 얼마나 문법적으로 타당한가에 대해 1부터 10까지 범위내에서 평가하도록 하였다.
템플릿 학습부는 문장 축소 예제 말뭉치 구축 과정, 전처리 과정, 그리고 템플릿 학습 과정으로 이루어지며, 문장 축소부는 입력 문장의 전처리 과정, 문장 축소 템플릿 및 품사기반 축소규칙을 이용한 문장 축소 과정으로 이루어진다. 우선, 학습 데이타 집합인 문장 축소 예제 말뭉치를 구축하기 위해서 뉴스 사이트로부터 원본 기사와 요약 기사를 얻은 후, 그림 4와 같이 원본/축소 문장의 쌍으로 구성된 문장축소 예제들을 추출한다.
의사 결정 모델은 4가지 종류의 함수 (SHIFT, REDUCE, DROP, 그리고 ASSIGNTYPE 함수)를 이용한 문장 축소 방법으로써, 학습 데이타로부터 각 함수의 사용 시기와 순서를 IF-Then 규칙으로 구성하고, 새로운 문장이 입력되면 사전에 정의된 IF-Then 규칙에 따라서 문장을 축소하였다. 두 가지 방법은 전문가에 의해 작성된 문장을 분석함으로써 새로운 요약문을 구축하기 위한 가능성을 보였다.
템플릿은 두 개의 언어로 구성된 문장들의 쌍으로 정의되는데, 유사한 부분(단어의 어간이나 형태소)은 그대로 유지하고 서로 다른 부분은 변수로 대체함으로써 번역 템플릿을 생성하였다. 이 연구에서 제안된 번역 템플릿 학습 방법은 원본 언어의 문장과 번역 언어의 문장 사이에서 패턴 간의 대응성을 추론하였다 그림 1은 템플릿 학습 방법을 설명하기 위해서 영어와 터키어로 구성된 두 개의 번역 예제 쌍을 보여주고 있다.
이러한 문제를 해결하기 위해서, 다음 장에서는 품사 기반 축소규칙을 이용한 HMM 기반의 방법을 제안한다.
이외에도 Nguyene 구문 분석 결과를 대체하기 위해 기계 번역(Machine Translation) 분야에서 제안된 번역 템플릿 학습 방법 (TTL: Translation Template Leaming)을 이용한 문장 축소 방법을 제안하였다[6, 12]. 이 방법은 원문으로부터 논리적인 요약문을 생성하기 위해 뉴스나 신문 기사, 논문 등의 원문과 전문가에 의해 작성된 요약문을 대상으로 템플릿을 정의한 후, 요약 대상 문장이 입력되면 각각의 템플릿과 비교하여 적절한 요약문을 생성하는 방법이다.
대상 데이터
학습 데이타는 800개의 문장 축소 예제를 사용하였으며, 나머지 예제로부터 무작위로 20개의 문장을 선택하여 실험을 수행하였다. 또한, 전처리 과정을 수행하기 위해 Stanford 대학(http://nlp.stanford.edu/)에서 제공하는 품사 태거를 이용하였으며, 문장 축소 템플릿 학습 방법을 수행함으로써 1, 316개의 문장 축소 템플릿과 3, 480개의 품사 기반 축소규칙을 획득하였다.
이 말뭉치는 컴퓨터 제품 판매를 위한 뉴스 기사를 다루며, 각 기사는 원문과 전문가에 의해 작성된 요약문을 함께 제공한다. 이 말뭉치로부터 문장 축소 템플릿을 생성하기 위한 프로그램을 구현하였으며, 총 1, 360개의 원본 문장과 축소된 문장의 쌍을 획득하였다 이 중에서 적합하지 않거나 오류가 발생한 문장을 제거함으로써 최종적으로 1, 052개의 문장을 추출하였다. 학습 데이타는 800개의 문장 축소 예제를 사용하였으며, 나머지 예제로부터 무작위로 20개의 문장을 선택하여 실험을 수행하였다.
이 말뭉치로부터 문장 축소 템플릿을 생성하기 위한 프로그램을 구현하였으며, 총 1, 360개의 원본 문장과 축소된 문장의 쌍을 획득하였다 이 중에서 적합하지 않거나 오류가 발생한 문장을 제거함으로써 최종적으로 1, 052개의 문장을 추출하였다. 학습 데이타는 800개의 문장 축소 예제를 사용하였으며, 나머지 예제로부터 무작위로 20개의 문장을 선택하여 실험을 수행하였다. 또한, 전처리 과정을 수행하기 위해 Stanford 대학(http://nlp.
데이터처리
본 논문에서는 평가자의 실험 결과에 대한 타당성을 입증하기 위해서 T-검정을 수행하였으며, 표 6은 이러한 결과를 나타내고 있다. 각각의 결과는 신뢰구간 99% 내에서 유의하지 않기 때문에 모든 평가자의 평가 결과와 각 평가자의 평가 결과는 차이가 없다고 분석할 수 있다.
이론/모형
연속된 단어뭉치로 분리한다. 마지막으로 연속된 단어 뭉치를 기반으로 적절한 품사기반 축소규칙을 선택하기 위해서 HMM 기법 중에 하나인 비터비 알고리즘을 적용하여 최선의 축소된 문장을 선택한다. 앞에서 언급한 각각의 처리 과정은 이어지는 4장과 5장에서 상세하게 기술된다.
비터비 알고리즘을 이용한다. 마지막으로, 매개변수를 추정하기 위해서는 EM 알고리즘(Expectation Maximization Algorithm)으로 알려진 바움-웰치 알고리즘(Baum-Welch Algorithm)을 이용하여 처리한다. 본 논문에서는 요약 대상 문장으로부터 추출 가능한 품사 정보를 이용하여 가장 적절한 품사기반 축소규칙의 상태 순서를 발견하기 위해 비터비 알고리즘을 이용한다.
문장 죽소 방법을 제안한다. 본 논문에서 사용한 문장 축소 템플릿 (Sentence Reduction Templates)은 문장을 축소하는 과정에서 중요한 정보를 유지하고 요약문의 구조적 형태를 결정하기 위해 사용된다. 그러나 기존의 템플릿을 이용한 방법은 학습 데이타로부터 모든 어휘 조합을 구성하기 어려우며, 더욱이 문법적으로 적합한 요약문을 생성하기 어렵다.
본 논문에서는 기계 번역 분야에서 제안된 번역 템플릿 학습 방법(TTL)을 이용하여 문장 축소 템플릿(Sentence Reduction Templates)을 생성한다⑻. 문장 축소 방법에서 원본 문장과 축소 문장을 번역 템플릿 학습 방법의 원본 문장과 번역 문장으로 생각하면, 기계 번역 분야에서 사용하는 번역 방법을 문장 축소 방법에 적용시킬 수 있다.
본 논문에서는 문장 축소 템플릿과 품사기반 축소규칙을 추출하기 위해서 Linguistic Data Consortium (LDC)에서 제공하는 Ziff-Davis 말뭉치를 사용하였다. 이 말뭉치는 컴퓨터 제품 판매를 위한 뉴스 기사를 다루며, 각 기사는 원문과 전문가에 의해 작성된 요약문을 함께 제공한다.
본 논문에서는 식 (9)를 최대화시키는 품사기반 축소규칙의 시퀀스를 찾기 위해 HMM 모델의 비터비 알고리즘을 이용한다. 만일 문장 축소 템플릿이 t개의 품사 뭉치를 가지고 있고, 각 품사뭉치가 Z개의 품사기반 축소규칙과 대응된다면, 컴퓨팅 연산량은 化가 된다.
본 논문에서는 예제 기반 기계 번역(EBMT: Examplebased Machine Translation) 분야에서 제안된 번역 템플릿 학습 방법(TTL)을 이용한다. Nagao에 의해서 최초로 제안된 예제 기반 기계 번역 방법은 말뭉치 기반의 기계 번역 방법 중의 하나로세7], 두 개의 언어로 구성된 문장 말뭉치로부터 원본 언어의 문장(예제)과 번역 언어의 문장 간에 서로 대응되는 구문의 구조적 유사성과 편차를 비교하고, 각 구문 간의 규칙을 생성하여 번역 과정을 수행한다.
마지막으로, 매개변수를 추정하기 위해서는 EM 알고리즘(Expectation Maximization Algorithm)으로 알려진 바움-웰치 알고리즘(Baum-Welch Algorithm)을 이용하여 처리한다. 본 논문에서는 요약 대상 문장으로부터 추출 가능한 품사 정보를 이용하여 가장 적절한 품사기반 축소규칙의 상태 순서를 발견하기 위해 비터비 알고리즘을 이용한다.
또한, 문장 축소를 위해서 대량의 템플릿 및 축소 규칙을 참조할 경우 컴퓨팅 연산량이 크게 증가하는 문제점이 있다. 이러한 문제를 해결하기 위해서 템플릿 적용 시 발생하는 연산량 증가 문제를 은닉 마르코프 모델 (HMM: Hidden Markov Model)의 비터비 알고리즘(Viterbi Algorithm) 을 적용함으로써 각 구문들이 나타날 수 있는 가장 높은 확률의 상태열을 복잡한 과정 없이 효과적으로 처리한다. 더불어, 문법적으로 타당한 문장 구조를 구성하는 품사 기반 축소규칙 (Grammatical POS-based Reduction Rules)을 정의하여 요약 대상 문장의 구성을 분석한 후, 이를 요약한다.
표 2는 그림 10에서 사용된 품사기반 축소규칙 간의 전이 확률 정보를 나타내고 있다. 이러한 전이 확률 정보와 관측 확률 정보는 HMM 모델의 비터비 알고리즘에 적용되어 품사기반 축소규칙 厶, &, 氐, 厶1을 선택하게 된다.
성능/효과
의사 결정 모델은 4가지 종류의 함수 (SHIFT, REDUCE, DROP, 그리고 ASSIGNTYPE 함수)를 이용한 문장 축소 방법으로써, 학습 데이타로부터 각 함수의 사용 시기와 순서를 IF-Then 규칙으로 구성하고, 새로운 문장이 입력되면 사전에 정의된 IF-Then 규칙에 따라서 문장을 축소하였다. 두 가지 방법은 전문가에 의해 작성된 문장을 분석함으로써 새로운 요약문을 구축하기 위한 가능성을 보였다. 그러나 학습 데이타로부터 얻을 수 있는 어휘적 자원은 매우 한정적이며, 문장의 모호성과 예외적인 표현들 때문에 구문 분석 결과가 명료하게 제공되지 않은 언어에서는 쉽게 적용하기 어렵다.
수 있다. 또한, 본 논문의 문서 요약 방법을 이용하여 비정형화된 문서를 정형화시킴으로써 문서의 색인화, 메타 정보화 및 지식 베이스 구성을 가능하게하며, 이를 통해 정보 검색이나 추천 시스템이 사용자에게 적절한 정보를 제공해 줄 수 있다.
또한, 문장 축소 템플릿을 생성하는 과정에서 정의되지 않은 문장 구성요소들을 문법적으로 적합하게 축소시키기 위해서 품사 기반 축소규칙을 정의 및 활용하였으며, 그 결과 적절한 요약문을 얻을 수 있었다. 마지막으로 HMM의 비터비 알고리즘을 이용하여 문법 및 의미적으로 적합한 품사 기반축소규칙의 시퀀스를 효과적으로 발견할 수 있었다.
마지막으로 본 논문의 방법을 활용한 문서 요약 시스템은 논리적으로 적합한 요약문을 생성함으로써 요약문서의 가독성과 응집성을 떨어뜨리지 않고 원본 문서의 유용한 정보를 손쉽게 전달할 수 있으며, 비정형화된 문서를 정형화시킴으로써 문서의 색인화 및 메타 정보화를 가능하게 하여 정보 검색이나 정보 추천 시 사용자에게 적절한 정보를 제공해 줄 수 있다. 더불어 본 논문의 방법을 구현하기 위해서 수집된 대량의 학습 말뭉치는 오디오-스캐닝 서비스나 뉴스 요약 서비스와 같은 다양한 응용 분야에서도 유용하게 활용될 수 있다.
문장 축소 방법에서 원본 문장과 축소 문장을 번역 템플릿 학습 방법의 원본 문장과 번역 문장으로 생각하면, 기계 번역 분야에서 사용하는 번역 방법을 문장 축소 방법에 적용시킬 수 있다. 본 논문에서 사용되는 문장 축소 템플릿은 요약 대상 문장을 다수의 연속된 단어뭉치로 분리함으로써, 요약문의 구조적 형태를 결정하고 구문 분석과 같은 복잡한 파싱 과정 없이 문장의 구조를 표현할 수 있다.
두 번째 열은 문법의 적합성에 대한 평가 결과이다. 본 논문에서 제안한 방법의 결과는 전문가의 방법과 비교하여 문법적으로 낮게 평가되었지만, Baseline 방법이나 템플릿과 어휘 규칙을 이용한 방법보다는 높게 평가되었다. 특히, Baseline 방법은 문법적 정보 없이 단어 간의 확률 정보만 올 고려하기 때문에 문법적 측면에서 낮게 평가되었을 것이라고 판단된다.
마지막으로 표 5의 세 번째 열은 압축률을 나타내고 있으며, 압축률이 낮을수록 보다 짧게 축소된 문장이다. 압축률은 전문가에 의해서 생성된 문장이 가장 좋은 것으로 평가되었으며, 다음으로 Baseline방법, 제안한 방법, 그리고 템플릿을 이용한 방법 순으로 평가되었다.
평가하도록 하였다. 우선, 문장의 문법성 측면에서는 단어 간의 확률 정보를 이용한 방법이나 템플릿을 이용한 방법보다 문법적으로 적합하다고 분석되었으며, 중요 정보의 유지도 측면에서도 본 논문에서 제안한 방법이 기존의 방법과 비교하여 효과적으로 유지하고 있음을 확인하였다. 그러나 압축률 측면에서는 Baseline 방법이나 전문가에 의한 방법보다는 낮은 결과를 나타내고 있었다.
평가 결과이다. 우선, 제안한 방법의 결과는 다른 방법들과 비교하여 원본 문장의 중요 정보를 적절하게 유지하고 있음을 알 수 있으며, 더불어 전문가가 작성한 축소 문장과 유사한 결과를 보여주고 있다. 그러나 Baseline 방법을 통해서 나타난 결과는 다른 방법에 비해서 비교적 낮은 정보 유지도로 평가되었는데, 이것은 높은 압축률로 인해서 나타난 결과로 판단된다.
그러나 압축률 측면에서는 Baseline 방법이나 전문가에 의한 방법보다는 낮은 결과를 나타내고 있었다. 이러한 결과는 제안한 방법이 압축률보다는 문법적으로 적합하고 의미적으로 적절한 문장을 생성하는 것에 중점을 두었기 때문으로 분석되었으며, 이것은 T-검정을 통해서 타당성을 증명하였다.
이와 같은 실험결과를 통해서 제안한 방법은 중요정보 유지도 측면과 문법성 측면에서 기존의 문장 축소 방법인 Baseline 방법이나 템플릿 방법과 비교하여 우수한 성능을 나타낸다고 분석된다. 그러나 압축률 측면에서는 Baseline 방법이나 전문가의 방법보다는 낮은 결과를 나타내고 있다.
후속연구
적절한 정보를 제공해 줄 수 있다. 더불어 본 논문의 방법을 구현하기 위해서 수집된 대량의 학습 말뭉치는 오디오-스캐닝 서비스나 뉴스 요약 서비스와 같은 다양한 응용 분야에서도 유용하게 활용될 수 있다. 향후 연구로는 본 논문에서 제안한 방법을 여러 국가의 언어에 적용시키기 위한 연구가 필요하며, 또한 문서 요약의 성능을 향상시키기 위해서 문장 결합이나 문장 편집에 대한 연구 및 단락 단위의 정보를 압축하는 기술에 대한 연구가 필요하다.
더불어 본 논문의 방법을 구현하기 위해서 수집된 대량의 학습 말뭉치는 오디오-스캐닝 서비스나 뉴스 요약 서비스와 같은 다양한 응용 분야에서도 유용하게 활용될 수 있다. 향후 연구로는 본 논문에서 제안한 방법을 여러 국가의 언어에 적용시키기 위한 연구가 필요하며, 또한 문서 요약의 성능을 향상시키기 위해서 문장 결합이나 문장 편집에 대한 연구 및 단락 단위의 정보를 압축하는 기술에 대한 연구가 필요하다.
참고문헌 (12)
J. Kupiec, J. Pedersen, and F. Chen, "A trainable document summarizer," in Proceedings of ACM- SIGR, pp. 68-73, 1995
H. Jing, "Using hidden markov modeling to decompose human-written summaries," CL, Vol.28, No.4, pp. 527-543, 2002
K. Knight and D. Marcu, "Summarization beyond sentence extraction: A probabilistic approach to sentence compression," Artificial Intelligence, Vol. 139, pp. 91-107, 2002
S. Riezler, T. H. King, R. Crouch and A. Zaenen, "Statistical sentence condensation using ambiguity packing and stochastic disambiguation methods for lexical-functional grammar," HCL-NAACL 2003, pp. 197-204, 2003
J. M. Withbrock and O. V. Mittal, "Ultra-summarization: a statistical approach to generating highly condensed non-extractive summaries," In Proceedings of the 22nddddddd International Conference on Research and Development in Information Retrieval (SIGR'99, Berkeley, CA). Poster session, pp. 315-316, 1999
M. L. Nguyen, et al., "Probabilistic sentence reduction using support vector machines," Proceedings of The 20th International Conference on Computational Linguistics, pp. 23-27, 2004
M. Nagao, "Framework of a mechanical translation between Japanese and English by analogy principle," Artif. Human Intell., pp. 173-180, North- Holland, Edinburgh, 1984
I. Cicekli and H. A. Guvenir, "Learning translation rules from a bilingual corpus," In Proceedings of the Second International Conference on New Methods in Language Processing, pp. 90-97, 1996
I. Cicekli and H. A. Guvenir, "Learning translation templates from bilingual translation examples," Applied Intelligence, Vol.15, pp. 57-76, 2001
L. R. Rabiner, "A tutorial on hidden markov models and selected applications in speech recognition," Proceedings of IEEE, Vol.77, No.2, February 1989
K. S. Han, D. H. Baek, and H. C. Rim, "Automatic text summarization using query expansion," Proc. of the 27th Korean Information Science Society Spring Conference, pp. 339-341, 2000
M. L. Nguyen, S. Horiguchi, A. Shimazu, and B.T. Ho, "Example-Based Sentence Reduction Using the Hidden Markov Model," ACM Transactions on Asian Language Information Processing, Vol.3, No.2, pp. 146-158, 2004
※ AI-Helper는 부적절한 답변을 할 수 있습니다.