[논문]작은 화면 기기에서의 출력을 위한 신문기사 헤드라인 형식의 문장 축약 시스템

이공주

doi:10.3745/kipstb.2005.12b.6.691

문제 정의

표 3]의 결과만으로는 본 논문의 제안 모델이 기본 모 델에 비해 월등히 뛰어난 성능을 발휘한다고 주장할 수 없 다. 그렇기 때문에 축약된 문장의 성능을 평가자에 의해 평 가해 보고자 한다. 평가자에게 본 논문이 제안한 시스템에 의해 생성된 축약문장과 기본 모델이 생성해 낸 축약문장을 원 입력 문장과 함께 제시하였다.
본 논문에서 제안하는 시스템은 입력 문장을 신문기사의 헤드라인과 같은 스타일로 축약하는 것이다. 축약문장은 표 지 정보를 갖고 있는 표지트리(marked tree)로부터 생성된 다.
본 논문에서 제안한 문장 축약 시스템과 비교하기 위한 기본 모델을 설정하고자 한다. 기본 모델은 마찬가지로 입 력 문장에서 K개의 노드를 표지하여 축약문장을 생성해 내 는데, K개의 노드는 학습 코퍼스의 헤드라인에서 가장 자주 사용된 단어로 선정한다.
본 논문에서는 신문기사의 헤드라인과 선두문장의 쌍으로 부터 자동으로 문장을 축약할 수 있는 방법을 학습하는 시 스템을 제안하였다. 이렇게 축약된 문장은 신문기사의 헤드 라인 형식을 갖고 있기 때문에 가장 간결한 형태의 축약이 라고 할 수 있다.
본 논문에서는 헤드라인을 선두문장의 축약문장으로 간주 하고, 선두문장과 그 헤드라인을 모아놓은 신문기사 코퍼스 로부터 문장을 축약하는 방법을 자동으로 학습할 수 있는 시스템을 제안하고자 한다. 이와 같은 시스템에 의해 축약 된 문장은 신문기사의 헤드라인의 형태를 띠고 있기 때문에 비교적 간결한 형태의 축약이 될 수 있으며, 동시에 작은 크기의 화면을 갖는 기기에서의 출력에 가장 적합할 것이다.
기본적으로 선 두문장과 그 헤드라인에 동시에 포함된 단어들은 그렇지 못 한 단어에 비해 중요 단어로 간주된다. 본 논문의 시스템은 선두문장의 구문 분석 결과로부터 축약에 포함될 단어와 그 렇지 않은 단어들을 자동으로 학습함으로써 문장 축약을 수 행하고자 한다.

가설 설정

각 노드의 중요도는 학습 코퍼스에서 그 노드가 헤드라인에 얼마나 자주 포함되었는. 가, 그 노드의 중심노드가 포함되어진 상태에서 그 노드가 헤드라인에 얼마나 포함되어졌는가와 그 노드의 구문 트리 에서의 노드 깊이의 반비례로 계산되어진다. 각 노드의 중 요도 MS)는 수식 ⑶과 같이 정의한다.
c<wrf(x) 는 코퍼스에서 X의 출현 빈도를 의 미 한다. 수식 ⑴의 계산을 간단히 하기 위하여 우선 입력 문장에 대한 구문 트리의 결과는 항상 한 개라고 가정한다. 입력 문장의 구문 트리가 N개의 노드를 갖고 있다고 가정할 때, 仔개의 표지트리가 가능하다.
문장 (la)는 신문기사로부터 추출한 선두문장이며, (lb)는 같은 신문기사의 헤드라인이다. 헤드라인 (lb)가 선두문장 (la)로부터 추출되었다고 가정해 보자. 우선 상대적으로 덜 중요한 단어들이 생략된 후, ①, ④, ⑤, ⑧번 단어들만이 헤 드라인에 포함되었다.

제안 방법

본 논문의 버전에서는 '대치하기'는 구현하지 않았으며, 대치하기'는 단순히 '그대로 생성하기'로 하였다. 결정 트리 C₄.5를 이용하여 축약문장 생성하기를 구현하였다. C₄.
본 논문의 버전에서는 '대치하기'는 구현하지 않았으며, 대치하기'는 단순히 '그대로 생성하기'로 하였다. 결정 트리 C₄.
표지트리를 입력으로 받아 형태소 문제를 해결한 후, 축 약문장을 생성해 낸다. 본 논문의 시스템은 원문장의 어순 과 동일한 축약문장을 생성해 내도록 되어 있다 축약문장 을 생성해 내는 방법은 '그대로 생성하기(as-is)', '축약하기 (omission)', 대치하기 (replacement)' 등 세 가지로 나누어 볼 수 있다. '그대로 생성하기'는 원문장의 단어에 아무런 변화도 가하지 않은 상태로 축약문장에 사용하는 것이며, '축약하기'는 원문장의 단어에서 조사와 같은 기능어를 생략 하는 것이다.
한국어 확률 구문 분석기 [9]을 이용하여 입력 문장을 분 석한다. 본 시스템이 사용하는 구문 분석기는 의존트리를 출력으로 내지 않고, 구구조 형식의 트리를 출력으로 낸다. 두 구조는 서로 상호 호환적이며, 한 구조를 다른 구조로 변환시키는 작업이 용이하다고 알려져 있다[4, 5].
두 구조는 서로 상호 호환적이며, 한 구조를 다른 구조로 변환시키는 작업이 용이하다고 알려져 있다[4, 5]. 원래의 구 문 분석기를 조금 수정하여 (그림 1)과 같은 의존 트리를 출력하였다.
수식 ⑴ 의 확률 Pr(舛 = 11 e>) = Pr(OTf = 11 m, rt, nh(i)) 의 값은 최우추정법 (maximum likelihood estimation)[10]으로 계산할 수 있다. 이후의 실험에서는 데이터 부족 문제를 완화시키 기 위해 이 확률 값을 수식 (2)와 같이 평탄화한다.
[15]에서는 일본어를 대상으로 문장 내지 문서를 한눈에 파악할 수 있도록 요약하는 시스템을 구축하였다. 입력 문 장 내지 입력 문서에 대해 구문분석을 통해서 각 단어 사이 의 구문관계를 파악하고, 그 중 가장 중요한 구문 관계들만 을 모아서 불필요한 단어들을 제거한 후, 요약 문장을 생성 하였다. 이 시스템의 경우, 요약 문장의 질은 구문관계 분석 의 정확도에 따라 많은 차이가 나게 된다.
[2]에서는 수동으로 작성된 휴리스틱 규칙을 이용하여 신 문기사의 헤드라인을 직접 생성하고자 하였다. 입력 문장을 구문 분석 한 후, “NP와 VP를 갖고 있는 가장 왼쪽 하위 (lowest leftmost) S를 선택하라”와 같은 휴리스틱 규칙을 이용하여 구문 트리에서 불필요한 요소를 제거하였다. 이와 같은 방법은 매우 효율적이나 휴리스틱을 작성하는데 많은 시간이 소요되며 또한 다른 나라 언어로의 적용이 불가능해 진다 1).
그렇기 때문에 축약된 문장의 성능을 평가자에 의해 평 가해 보고자 한다. 평가자에게 본 논문이 제안한 시스템에 의해 생성된 축약문장과 기본 모델이 생성해 낸 축약문장을 원 입력 문장과 함께 제시하였다. 평가자는 두 개의 서로 다른 축약문장에 대해 좀더 나은 축약문장에는 1점을 나머 지 문장에는。점을 할당하였다.
표지트리를 입력으로 받아 형태소 문제를 해결한 후, 축 약문장을 생성해 낸다. 본 논문의 시스템은 원문장의 어순 과 동일한 축약문장을 생성해 내도록 되어 있다 축약문장 을 생성해 내는 방법은 '그대로 생성하기(as-is)', '축약하기 (omission)', 대치하기 (replacement)' 등 세 가지로 나누어 볼 수 있다.
평가의 공정성을 기하기 위해 3명의 평가자가 동시에 평가를 수행하였다. 한 문장에 대한 3명의 평 가자의 의견이 서로 상충될 경우, 다수의 의견에 따라 평가 를 수행하였다. 1, 304개의 평가 문장 중, 16개의 문장은 두 시스템이 똑같은 문장을 축약문장으로 생성해 냈기 때문에, 실질적인 평가는 1, 288문장에 대해서 수행하였다.

대상 데이터

한 문장에 대한 3명의 평 가자의 의견이 서로 상충될 경우, 다수의 의견에 따라 평가 를 수행하였다. 1, 304개의 평가 문장 중, 16개의 문장은 두 시스템이 똑같은 문장을 축약문장으로 생성해 냈기 때문에, 실질적인 평가는 1, 288문장에 대해서 수행하였다. 실험 결과 가 [표 4]에 제시되고 있다.
앞에서 살펴 본 예제문장 (la)와 (lb)는 위의 4가지 조건을 모두 만족한다. 신문기사 코퍼스!工]로부터 위의 4가지 조건을 모두 만족하는 1, 304 쌍 의 헤드라인과 선두문장을 추출하였으며, 이를 이용하여 학 습데이터로 사용하고자 한다.
77 단 어였다. 교차 검증(cross validation)을 위해 학습 코퍼스를 10등분하였으며, 9등분을 학습으로 나머지 한 등분을 실험 데이터로 사용하였다.
실험 코퍼스로는 신문 기사 헤드라인과 그에 해당하는 선 두문장으로 구성된 1, 304 쌍의 데이터를 사용하였다. 이 데 이터는 신문기사 코퍼스[1]로부터 추출한 기사의 헤드라인과 그 선두문장 중에서 3.
이러한 방법은 대조적 평가 방법으로써 어떤 시스템이 다른 시스템에 비해 월등히 뛰어난지를 명확히 비 교해 볼 수 있다. 평가의 공정성을 기하기 위해 3명의 평가자가 동시에 평가를 수행하였다. 한 문장에 대한 3명의 평 가자의 의견이 서로 상충될 경우, 다수의 의견에 따라 평가 를 수행하였다.

이론/모형

시스템 평가 기준은 정확률(precision)과 재현율(recall)을 사용한다. 정확률과 재현율은 아래와 같이 계산하였다.
입력 문장의 구문 트리가 N개의 노드를 갖고 있다고 가정할 때, 仔개의 표지트리가 가능하다. 입력 문장이 길어짐에 따라 2村의 수 는 기하급수적으로 증가할 수 있으므로 수식 (1)의 계산을 효율적으로 수행하기 위해 Greedy 방법을 이용한다. 이 방 법에서는 각 노드의 중요도(significance)를 정의하고 이 값 이 가장 높은 노드부터 우선적으로 선택하여 표지한다.
한국어 확률 구문 분석기 [9]을 이용하여 입력 문장을 분 석한다. 본 시스템이 사용하는 구문 분석기는 의존트리를 출력으로 내지 않고, 구구조 형식의 트리를 출력으로 낸다.

성능/효과

5가 출력한 생성 방법-생략하기, 그대 로 생성하기-에 대한 정확률만을 의미한다. 본 연구에서는 문장 생성의 규칙을 단순하게 적용했기 때문에, 각각 94.5% 와 95.1%의 높은 결과를 얻을 수 있었다.
실험 결과 가 [표 4]에 제시되고 있다. 비록 두 모델 사이의 정확률과 재현율은 큰 차이를 보이지 않았지만, 평가자에 의한 축약 문장의 비교 평가에서는 본 논문에서 제안한 모델이 훨씬 좋은 결과를 보임을 알 수 있었다. 본 논문에서 제안한 모 델이 생성한 축약문장과 기본 모델이 생성한 축약문장에는 공통적으로 포함된 단어들이 많이 있다.

후속연구

이와 같은 시스템에 의해 축약 된 문장은 신문기사의 헤드라인의 형태를 띠고 있기 때문에 비교적 간결한 형태의 축약이 될 수 있으며, 동시에 작은 크기의 화면을 갖는 기기에서의 출력에 가장 적합할 것이다. 또한, 이와 같은 접근 방법은 신문기사 코퍼스만 있다면 다 른 언어에도 쉽게 적용해 볼 수 있을 것으로 기대된다.
.또한, 이와 같은 접근 방법은 신문기사의 헤드라인과 선두문장 쌍의 코퍼스만 존재한다면, 한국어뿐 만 아니라 다른 언어에도 쉽게 적용해 볼 수 있을 것으로 기대된다.
축약문장의 표층 표현 생성 단계는 축약문장 생성을 위한 노드를 선택하는 단계 못지 않게 중요하다. 차후 연구과제 중 하나는 다소 길고 복잡한 표현을 좀더 간결한 표현으로 바꿔 쓸 수 있도록 시스템을 개선하는 것이다. 이렇게 함으 로써 훨씬 효과적이며 자연스러운 문장 축약을 완성할 수 있을 것이다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

작은 화면 기기에서의 출력을 위한 신문기사 헤드라인 형식의 문장 축약 시스템
Sentence Compression of Headline-style Abstract for Displaying in Small Devices 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

참고문헌 (15)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

작은 화면 기기에서의 출력을 위한 신문기사 헤드라인 형식의 문장 축약 시스템 Sentence Compression of Headline-style Abstract for Displaying in Small Devices 원문보기

초록 AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

참고문헌 (15)

이 논문을 인용한 문헌

저자의 다른 논문 :

이공주 (40)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

작은 화면 기기에서의 출력을 위한 신문기사 헤드라인 형식의 문장 축약 시스템
Sentence Compression of Headline-style Abstract for Displaying in Small Devices 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper