[논문]육하원칙 활성화도를 이용한 신문기사 자동추출요약

윤재민; 정유진; 이종혁

문제 정의

넷째, 지나치게 짧거나긴 문장이 중요 문장으로 선택되는 경우를 배제하기 위해, 문장 길이에 기반한 페널티값올 문장 가중치 함수에 반영함으로써 요약문의 가독성올 높이고자 하였다.
이와 비슷한 개념으로 육하원칙 범주의 개수가 아닌 육하원칙 요소 개수의 많고 적음에 따라 문장의 중요도를 판별할 수도 있겠지만“포함하고 있는 육하원칙요소의 개수가 많더라도 이들이 모두 WVHO'에 해당하는 정보라든지 또는 "WHEN'에 해당하는 정보일 경우 등 한두 범주에 치우친 정보만을 제공하는 경우도 존재할 수 있기 때문에 현재 문장이 제공하는 정보의 양에 대한 객관적인 기준으로 사용되기엔 한계가 있다. 따라서 본 연구에서는 육하원칙 요소의 개수가 아닌 범주의 개수로 문장이 제공하는 정보량을 평가하였다. 아래의 수식에서 Neat은 현재 문장에 포함된 육하원칙 범주의 개수를 의미하며, 분모에 사용된 8은 육하원칙 범주의 총 개수이다WHO, WHEN, WHERE, WHAT, WHY, HOW, SE, PE).
본 논문에서는 기존 연구에서의 문제점을 극복하기 위해 신문기사의 구조적 특성을 반영한 육하원칙 활성화도 계산 기법을 제안하고자 한다.
즉, 문장의 중요도는 그 문장 안에 기사가 강조하고자 하는 육하원칙 성분이 얼마나 활성화되었는지에 따라 판단될 수 있다. 본 논문의 목적은 제목과 두문에 출현한 육하원칙 성분들올 그 기사가 전달하고자 하는 육하원칙 요소라고 간주한 후, 비교 분석을 통해 본문문장들로부터 제목과 두문에 출현하지 않은 육하원칙요소들까지도 추출해 내는 데 있다.
본 연구에서는 인간에 의한 신문기사 요약 실험을 통해, 일반적으로 인간에 의해 중요한 문장으로 판단되어 선택된 문장들은 대부분 10〜30어절 정도의 길이를 갖는다는 것을 경험적으로 학습하였으며 이러한 실험 결과를 문장의 가중치 계산에 반영하고자 하였다. 문장의 길이에 따른 페널티는 다음과 같이 설정하였다.
인식하여 '하객을 몰다'와 '눈을 쌓다'로 변형시키는 경우가 대부분이었다. 즉, 자동사와 타동사의 피동형 이동 일한 단어일 때 이들올 제대로 구분하지 못하기 때문에 발생하는 문제인데, 실험 결과 이러한 오류들의 빈도수가 그다지 높지 않으므로 본 연구에서는 무시하였다.

가설 설정

규칙 2 : 두문에도 동일한 단어가 출현해 있다면 그 단어의 육하원칙 범주로 할당한다.
규칙 4 : 단어가 무정명사이면 WVHAT'으로 할당한다.
규칙 5 : 단어가 서술성 명사이면 'PE'로 할당한다. 규칙 6 : 위의 조건에 하나도 일치하지 않으면 'SE'로 할당시킨다.
둘째, 신문기사의 모든정보는 육하원칙에 의거하여 기술된다. 따라서 문장 안에 다양한 범주의 육하원칙 정보를 포함하고 있는 문장알수록 정보량이 높은 문장이므로 중요도가 높다(Wnumqategwy).

제안 방법

'누가', '언제', '어디서', '무엇올', '어떻게', '왜로 구성되는 육하원칙은 사건올 기술하는데 있어서 가장 핵심이 되는 요소들이므로, 하나의 신문기사로부터 그 기사가 강조하고자 하는 육하원칙 요소들을 주출하여 나열하면 그 기사에 대한 가장 이상적인 요약문올 생성할 수 있다. 본 논문은 육하원칙 요소들올 충실하게 기술하는 신문기사의 특성에 주목하여 육하원칙 활성화도(activation degree of 5W1H information)6!] 기반한 신문기사 요약 방법론을 제안한다.
본 방법론에서는 우선 서로 결합된 제목과 두문으로부터 육하원칙 구성성분올 추출한 후, 제목과 두문에서 강조되고 있는 육하원칙 구성성분이 본문에서 어떻게 재사용되고 있는지를 분석하여 각 문장들의 육하원칙 활성화도를 계산하고, 그 문장에 사용된 육하원칙 범주의 개수, 문장의 길이 및 위치까지 반영시켜 최종적으로 그 문장의 중요도를 구한다. 그리고 이렇게 계산된 문장 중요도 수치에 기반하여 신문기사 본문으로부터 중요 문장들올 추출함으로써 요약문을 구성한다. 본 방법론은 각 언어별로 육하원칙 구성성분을 인식하기 위한 패턴만 추가하면 다른 언어를 대상으로도 방법론의 적용이 가능하다는 장점을 갖고 있다.
다음으로 기 구축된 패턴 정보와 가도카와 시소러스(Kadokawa thesaurus)를 이용하여 제목과 두문, 본문의 각 문장들로부터 육하원칙 구성요소를 추출한다. 그리고, 결합된 제목과 두문으로부터 추출된 육하원칙 요소와 본문의 각 문장으로부터 추출된 육하원칙 요소를 비교하여 문장 가중치를 계산한 후, 가중치가 큰 문장을 중요 문장으로 선택한다. 이들 각 단계에 대한 세부 기술은 아래에 제시되어 있다.
기존 시스템과의 성능의 비교를 위해 본 논문에서 제안하는 육하원칙 활성화도를 이용한 방법 외에 두문 기반 기법과 제목 기반 기법, 그리고 마이크로소프트사의 MS Word에서 제공하는 문서요약 시스템 각각에 대해 동일한 실험 문서 집합을 이용하여 요약 성능을 평가하였다. 일반적으로 요약 성능의 평가 척도로는 정확률과 재현율, 그리고 F-measure가 주로 사용되는데, 본 연구에서는 사람에 의해 구축된 요약문의 개수와 위에서 언급한 각각의 방법들에 의해 추출될 문장의 개수를 3개로 동일하게 설정했기 때문에 정확률과 재현율, F-measure 값은 동일하다.
신문기사가 입력되면 우선 품사 태깅과 구묶음(chunking)을 수행한 후, 전처리 단계로써 육하원칙 구성성분올 추출할 때 행위자를 보다 정확하게 인식할 수 있도록 피동형 문장을 능동형 문장으로 변환시키는 작업과 불필요한 단어(stop words)들을 제거하는 작업을 수행한다. 다음으로 기 구축된 패턴 정보와 가도카와 시소러스(Kadokawa thesaurus)를 이용하여 제목과 두문, 본문의 각 문장들로부터 육하원칙 구성요소를 추출한다. 그리고, 결합된 제목과 두문으로부터 추출된 육하원칙 요소와 본문의 각 문장으로부터 추출된 육하원칙 요소를 비교하여 문장 가중치를 계산한 후, 가중치가 큰 문장을 중요 문장으로 선택한다.
둘째, 제목과 두문에 출현한 육하원칙 요소들과 본문의 각 문장에서 출현한 육하원칙 요소들올 비교하여, 육하원칙 요소의 활성화 정도를 파악함으로써, 제목과 두문에서 강조하고 있는 육하원칙 요소가 다시 본문에서 재사용되면서 제목과 두문에서 주장하고 있는 내용을 뒷받침하는 중요 문장올 선택하도록 하였다.
따라서 기존의 두문 기반 기법의 특성올 최대한으로 반영하기 위해, 문장 가중치 계산 수식 (1)에서 다른 가중치들이 서로의 합으로 구성되는 것에 비해 문장위치에 따른 가중치는 전체 수식에 곱셈으로 적용되도록 함으로써 문장 위치에 따른 가중치가 가장 큰 영향력을 미치도록 수식을 구성하였다.
그러나 부사격 조사가 붙어있는 '처음으로'와 문장의 술어로 사용된 '수입한다'는 표 2에 제시된 육하원칙의 범주들 중 어느것에도 해당되지 않기 때문에, 위 문장에 출현한 모든 정보를 활용할 수 있도록 하기 위해서는 기존의 육하원칙 범주에 대한 정의를 확장할 필요성이 존재한다. 따라서 본 연구에서는 기존의 육하원칙 범주에 *SE(supplementary element)'^]- *PE(predicate element)'라는 새로운 범주들을 추가한 '확장된 육하원칙(extended 5W1H) 범주'를 정의하여 사용하였다. 새로이 추가된 'SE'와 'PE' 요소는 기존의 육하원칙 범주에 할당되지 못하는 문장 성분들에도 범주 할당을 가능하게 함으로써 향후 단계에서 수행되는 육하원칙 활성화도 계산이 보다 세밀하게 이루어질 수 있도록 기여한다.
또한 문장 가중치 함수의 구성에 따른 성능 비교를 위해 아래와 같은 세 종류의 문장 가중치 함수를 설정한 후 이들 각각의 성능을 평가하였으며, 그 결과가 표 6에 제시되어 있다. Case 1은 앞서 제시된 문장 가중치함수를 그대로 사용한 경우이며, Case 2는 가중치 계산시 문장 위치에 의한 영향올 배제시킨 경우, 마지막으로 Case 3은 단지 육하원칙 활성화도만을 가중치에 반영한 경우이다.
구성하였다. 본 방법론에서는 우선 서로 결합된 제목과 두문으로부터 육하원칙 구성성분올 추출한 후, 제목과 두문에서 강조되고 있는 육하원칙 구성성분이 본문에서 어떻게 재사용되고 있는지를 분석하여 각 문장들의 육하원칙 활성화도를 계산하고, 그 문장에 사용된 육하원칙 범주의 개수, 문장의 길이 및 위치까지 반영시켜 최종적으로 그 문장의 중요도를 구한다. 그리고 이렇게 계산된 문장 중요도 수치에 기반하여 신문기사 본문으로부터 중요 문장들올 추출함으로써 요약문을 구성한다.
본 연구에서는 우선 가장 중요한 문장인 두문을 디폴트로 선택한 후, 요약문을 구성할 나머지 문장들은 육하원칙 활성화도에 기반하여 계산된 문장 가중치 순위에 따라 추가시키는 방식으로 요약문을 구성한다. 이 때 문장의 중요도 평가에 사용되는 문장 가중치 수식 (1)은 아래에 제시된 네가지 요소를 반영하여 계산되도록 설정하였다.
7개의 문장으로 구성되어 있으며, 그 중 두문이 존재하는 기사는 총 96건이었다. 정답으로 사용될 요약문은 기사 요약율을 30%로 설정하여 연구원 3명의 합의에 의해 각 기사로부터 중요 문장 3개를 추출하는 방식으로 구축하였다.
제안하는 방법론은 추출 요약 기법 중 가장 우수한 방법으로 알려진 두문 기반 기법(頭文; lead-based method)^ 제목 기반 기법(title-based method)의 문제점올 극복하기 위해, 제목과 두문의 정보를 결합시킴으로써 충분한 어휘정보를 확보하고 서로 부족한 부분을 보완하도록 구성하였다. 본 방법론에서는 우선 서로 결합된 제목과 두문으로부터 육하원칙 구성성분올 추출한 후, 제목과 두문에서 강조되고 있는 육하원칙 구성성분이 본문에서 어떻게 재사용되고 있는지를 분석하여 각 문장들의 육하원칙 활성화도를 계산하고, 그 문장에 사용된 육하원칙 범주의 개수, 문장의 길이 및 위치까지 반영시켜 최종적으로 그 문장의 중요도를 구한다.

대상 데이터

본 논문에서 사용한 실험데이타는 조선일보 웹사이트에서 제공하는 경성기사4) 중에서 총 100건의 신문기사를 무작위로 선택하였다. 선택된 신문기사는 평균 약 9.
무작위로 선택하였다. 선택된 신문기사는 평균 약 9.7개의 문장으로 구성되어 있으며, 그 중 두문이 존재하는 기사는 총 96건이었다. 정답으로 사용될 요약문은 기사 요약율을 30%로 설정하여 연구원 3명의 합의에 의해 각 기사로부터 중요 문장 3개를 추출하는 방식으로 구축하였다.

이론/모형

본 연구에 사용되는 한국어 분석 사전은 한일기계 번역 시스템$을 위해 구축된 사전으로써, 사전에 표 3 확장된 육하원칙 범주 인식을 위한 패턴 정보수록된 모든 표제어들은 가도카와 시소러스[28]의 의미 코드가 부착되어 있다. 가도카와 시소러스는 총 1,110개의 개념과 4단계의 계층구조를 가지고 있으며, LI, L10, L100 레벨에 속해 있는 개념들은 각각 10개의 하위 개념들로 나뉜다(그림 3).

성능/효과

넷째, 앞서 기술했듯이신문기사는 중요한 문장일수록 기사의 상위에 배치시키는 경향이 있다. 따라서 전체 기사 상에서 현재 문장이 배치되어 있는 위치가 앞부분일수록 문장의 중요도가 높다(Wpo如S).
다섯째, 기사의 상위에위치한 문장일수록 높은 가중치를 부여받게 함으로써, 중요한 내용일수록 기사의 앞부분에 배치시키는 신문기사의 톡성을 적극 반영할 수 있도록 하였다.
가도카와 시소러스는 총 1,110개의 개념과 4단계의 계층구조를 가지고 있으며, LI, L10, L100 레벨에 속해 있는 개념들은 각각 10개의 하위 개념들로 나뉜다(그림 3). 따라서 가도카와 시소러스의 의미코드에 의해 유정명사, 무정명사의 구분 뿐만 아니라 사람, 동물, 단체, 지명, 장소, 시간성 단어 등의 세분화된 의미 구분까지 가능하기 때문에 단어의 표충형태(surface form) 수준의 패턴 매칭이 아닌 의미코드 수준의 패턴 매칭을 수행함으로써 시스템의 성능을 높였다.
셋째, 문장 내에 포함된 육하원칙 범주의 개수롤 고려함으로써 보다 다양한 정보를 갖고 있는 문장이 중요한 문장으로 선택될 수 있도록 문장 가중치 함수에 반영하였다.
셋째, 비록 문장 안에 많은 양의 정보를 담고 있더라도 지나치게 긴 문장은 요약문으로 적절하지 않다. 따라서 지나치게 길거나 짧은 문장은 음의 가중치(penalty)를 부여하여 중요한 문장으로 선택되는 것올 배제한다(W_{length_penalty ) .}
신문 기사에 있어서 가장 중요한 특성은 중요 문장의 역피라미드형 배치이며, 이는 기존 연구들에서 두문 기반 기법의 성능이 가장 우수했다는 점으로 충분히 입증되었다. 따라서 기존의 두문 기반 기법의 특성올 최대한으로 반영하기 위해, 문장 가중치 계산 수식 (1)에서 다른 가중치들이 서로의 합으로 구성되는 것에 비해 문장위치에 따른 가중치는 전체 수식에 곱셈으로 적용되도록 함으로써 문장 위치에 따른 가중치가 가장 큰 영향력을 미치도록 수식을 구성하였다.
표 5에 각방법론들에 의한 요약실험 결과가 정리되어있다. 실험 결과, 본 논문에서 제안하는 방법은 74.7%로써 가장 높은 정확률을 기록했으며, 다음으로 두문 기반 기법과 제목 기반 기법이 우수한 성능을 보였다. 그러나 상용 소프트웨어인 MS Word는 다른 방법론들에 비해 월등하게 저조한 성능을 보여 대조를 이루었다.
Case 1은 앞서 제시된 문장 가중치함수를 그대로 사용한 경우이며, Case 2는 가중치 계산시 문장 위치에 의한 영향올 배제시킨 경우, 마지막으로 Case 3은 단지 육하원칙 활성화도만을 가중치에 반영한 경우이다. 실험 결과, 육하원칙 활성화도만을 이용해도(Case 3) 두문 기반 기법의 성능(70.0%)에 근접하는 좋은 요약 성능을 보였으나(69.7%), 설정된 모든 요소를 가중치 함수에 반영했을 때 (Case 1) 가장 좋은 성능을 보임을 알 수 있었다.
실험 대상으로 선정된 100개의신문기사에서 제목으로 출현한 총 456개의 단어를 대상으로 육하원칙 범주 할당 성능을 평가한 결과, 잘못 할당된. 단어는 총 67개로써 85.
여섯째, 각 언어별로 육하원칙 구성성분올 인식하기 위한 패턴만 추가하면 다른 언어를 대상으로도 방법론의 적용이 가능하다.
제안된 방법론의 정확률은 74.7%로서 기존의 두문 기반 기법보다 우수한 성능을 보였으며, 신문기사를 자동요약하는데 있어서 충분히 효과적으로 사용될 수 있는 방법론임을 실험올 통해 입증하였다.
본 방법론은 각 언어별로 육하원칙 구성성분을 인식하기 위한 패턴만 추가하면 다른 언어를 대상으로도 방법론의 적용이 가능하다는 장점을 갖고 있다. 제안된 방법론의 정확률은 74.7%로서 신문기사를 자동 요약하는데 있어서 충분히 효과적으로 사용될 수 있는 방법론임을 실힘을 통해 입증하였다.
첫째, 제목과 두문에 출현한 육하원칙 구성성분이 현재의 문장에서 얼마나 활성화되었는지의 정도를 고려한다. 제목과 두문은 신문기사에서 가장 강조하고자 하는 내용을 배치한 것이므로 제목과 두문에서 출현했던 육하원칙 요소가 다시 출현한 문장일수록 중요도가 높다activation) .

후속연구

첫째, 제목과 두문에 출현한 육하원칙 요소들을 서로 결합시킴으로써 문서 요약의 중요한 단서가 될 수 있는 충분한 어휘 정보를 확보할 수 있도록 하였으며, 이를 통해 기존의 두문 기반 기법과 제목 기반 기법이 갖는 한계점을 보완하였다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

육하원칙 활성화도를 이용한 신문기사 자동추출요약
Automatic Extractive Summarization of Newspaper Articles using Activation Degree of 5W1H 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

참고문헌 (29)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

육하원칙 활성화도를 이용한 신문기사 자동추출요약 Automatic Extractive Summarization of Newspaper Articles using Activation Degree of 5W1H 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

참고문헌 (29)

이 논문을 인용한 문헌

저자의 다른 논문 :

이종혁 (24)

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

육하원칙 활성화도를 이용한 신문기사 자동추출요약
Automatic Extractive Summarization of Newspaper Articles using Activation Degree of 5W1H 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper