$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

육하원칙 활성화도를 이용한 신문기사 자동추출요약
Automatic Extractive Summarization of Newspaper Articles using Activation Degree of 5W1H 원문보기

정보과학회논문지. Journal of KIISE. 소프트웨어 및 응용, v.31 no.4, 2004년, pp.505 - 515  

윤재민 ((주) 얄리) ,  정유진 (포항공과대학교 컴퓨터공학) ,  이종혁 (포항공과대학교 컴퓨터공학과)

초록
AI-Helper 아이콘AI-Helper

육하원칙은 신문기사를 기술하는데 있어서 가장 기본적인 요소로서 기사 내용 파악에 핵심적인 역할을 수행한다. 본 논문은 이러한 육하원칙에 기반 하여 기술되는 신문기사의 특성에 주목하여, 육하원칙 활성화도를 이용한 신문기사 요약 방법론을 제안한다. 제안하는 방법론은 기존의 요약 기법 중 가장 우수한 방법으로 알려진 두문 기반 기법(lead-based method)과 제목 기반 기법(title-based method)의 문제점을 극복하기 위해, 제목과 두문의 정보를 결합시켜 충분한 어휘정보를 확보하도록 하였다. 특히 육하원칙 활성화도, 육하원칙 범주 개수, 문장 길이, 문장의 위치 둥과 같은 다양한 요소들을 문장 중요도 계산에 반영함으로써 보다 중요한 정보를 포함하면서도 가독성이 높은 문장들이 요약문으로 선택될 수 있도록 고려하였다. 제안된 방법론의 정확률은 74.7%로서 기존의 두문 기반 기법보다 우수한 성능을 보였으며, 신문기사를 자동 요약하는데 있어서 충분히 효과적으로 사용될 수 있는 방법론임을 실험을 통해 입증하였다.

Abstract AI-Helper 아이콘AI-Helper

In a newspaper, 5W1H information is the most fundamental and important element for writing and understanding articles. Focusing on such a relation between a newspaper article and the 5W1H, we propose a summarization method based on the activation degree of 5W1H. To overcome problems of the lead-base...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 넷째, 지나치게 짧거나긴 문장이 중요 문장으로 선택되는 경우를 배제하기 위해, 문장 길이에 기반한 페널티값올 문장 가중치 함수에 반영함으로써 요약문의 가독성올 높이고자 하였다.
  • 이와 비슷한 개념으로 육하원칙 범주의 개수가 아닌 육하원칙 요소 개수의 많고 적음에 따라 문장의 중요도를 판별할 수도 있겠지만“포함하고 있는 육하원칙요소의 개수가 많더라도 이들이 모두 WVHO'에 해당하는 정보라든지 또는 "WHEN'에 해당하는 정보일 경우 등 한두 범주에 치우친 정보만을 제공하는 경우도 존재할 수 있기 때문에 현재 문장이 제공하는 정보의 양에 대한 객관적인 기준으로 사용되기엔 한계가 있다. 따라서 본 연구에서는 육하원칙 요소의 개수가 아닌 범주의 개수로 문장이 제공하는 정보량을 평가하였다. 아래의 수식에서 Neat은 현재 문장에 포함된 육하원칙 범주의 개수를 의미하며, 분모에 사용된 8은 육하원칙 범주의 총 개수이다WHO, WHEN, WHERE, WHAT, WHY, HOW, SE, PE).
  • 본 논문에서는 기존 연구에서의 문제점을 극복하기 위해 신문기사의 구조적 특성을 반영한 육하원칙 활성화도 계산 기법을 제안하고자 한다.
  • 즉, 문장의 중요도는 그 문장 안에 기사가 강조하고자 하는 육하원칙 성분이 얼마나 활성화되었는지에 따라 판단될 수 있다. 본 논문의 목적은 제목과 두문에 출현한 육하원칙 성분들올 그 기사가 전달하고자 하는 육하원칙 요소라고 간주한 후, 비교 분석을 통해 본문문장들로부터 제목과 두문에 출현하지 않은 육하원칙요소들까지도 추출해 내는 데 있다.
  • 본 연구에서는 인간에 의한 신문기사 요약 실험을 통해, 일반적으로 인간에 의해 중요한 문장으로 판단되어 선택된 문장들은 대부분 10〜30어절 정도의 길이를 갖는다는 것을 경험적으로 학습하였으며 이러한 실험 결과를 문장의 가중치 계산에 반영하고자 하였다. 문장의 길이에 따른 페널티는 다음과 같이 설정하였다.
  • 인식하여 '하객을 몰다'와 '눈을 쌓다'로 변형시키는 경우가 대부분이었다. 즉, 자동사와 타동사의 피동형 이동 일한 단어일 때 이들올 제대로 구분하지 못하기 때문에 발생하는 문제인데, 실험 결과 이러한 오류들의 빈도수가 그다지 높지 않으므로 본 연구에서는 무시하였다.

가설 설정

  • 규칙 2 : 두문에도 동일한 단어가 출현해 있다면 그 단어의 육하원칙 범주로 할당한다.
  • 규칙 4 : 단어가 무정명사이면 WVHAT'으로 할당한다.
  • 규칙 5 : 단어가 서술성 명사이면 'PE'로 할당한다. 규칙 6 : 위의 조건에 하나도 일치하지 않으면 'SE'로 할당시킨다.
  • 둘째, 신문기사의 모든정보는 육하원칙에 의거하여 기술된다. 따라서 문장 안에 다양한 범주의 육하원칙 정보를 포함하고 있는 문장알수록 정보량이 높은 문장이므로 중요도가 높다(Wnumqategwy).
본문요약 정보가 도움이 되었나요?

참고문헌 (29)

  1. Mani, I., Automatic summarization, John Benjamin Publishing Company, 2001 

  2. Edmundson, H. P., 'New Methods in Automatic Extracting,' Journal of the ACM, Vol.16, No.2, pp.264-285, 1969 

  3. Teufel, S. and Moens, M. 'Sentence Extraction as a Classification Task,' In Proceedings of the ACL'97/EACL'97 Workshop on Intelligent Scalable Text Summarization, pp.58-65, 1997 

  4. Marcu, D., 'Building Up Rhetorical Structure Trees,' In Proceedings of the 13th National Conference on Artificial Intelligence, Vol.2, pp.1069-1074, 1996 

  5. Marcu, D., 'The Rhetorical Parsing of Natural Language Texts,' In Proceedings of the 35th Annual Meeting of the Association for Computational Linguistics(ACL'97;EACL'97), pp.96-103, 1997 

  6. Marcu, D., 'Discourse trees are good indicators of importance in text,' In Inderjeet Mani and Mark Maybury, eds, Advances in Automatic Text Summarization, pp.123-136, The MIT Press, 1999 

  7. Brazilay, R. and Elhadad, M., 'Using Lexical Chains for Text Summarization,' In Inderjeet Mani and Mark Maybury, eds, Advances in Automatic Text Summarization, pp.111-121, The MIT Press, 1999 

  8. Salton, G. and Singhal, A., 'Automatic Text Theme Generation and the Analysis of Text Structure,' Cornell U. Technical Report TR 94-1438, 1994 

  9. Salton, G. et al., 'Automatic Text Decomposition Using Text Segments and Text Themes,' '96 ACM Conference on Hypertext, pp.53-65, 1996 

  10. Salton, G. et al., 'Automatic Text Structuring and Summarization,' Information Processing and Management, Vol.33, No.2, pp.193-207, 1997 

  11. Lin, C. Y. and Hovy, E., 'Identifying Topics by Position,' In Proceedings of the 5th Conference on Applied Natural Language Processing(ANLP'97), pp.283-290, 1997 

  12. Hovy, E. and Lin, C. Y., 'Automated Text Summarization in SUMMARlST,' In Inderjeet Mani and Mark Maybury, eds, Advances in Automatic Text Summarization, pp.81-94, The MIT Press, 1999 

  13. Brandow, R., Mitze, K. and Rau, L. F., 'Automatical condensation of electronic publications by sentence selection,' Information Processing and Management, Vol.31, No.5, pp.675-685, 1995 

  14. 고혜련, 신문 취재와 기사작성, 중앙M&B, 2001 

  15. Kupiec, J., Pedersen, J. and Chen, F., 'A Trainable Document Summarizer,' In Proceedings of ACM-SIGIR'95, pp.68-73, 1995 

  16. 이현주, 김계성, 구상욱, 이상조, '신문기사에서 육하원칙 중심의 정보추출', 한국정보과학회 춘계 학술발표 논문집, pp.361-363, 2001 

  17. Okumura, A., Ikeda, T. and Muraki, K., 'Text Summarization based on Information Extraction and Categorization Using 5W1H,' Journal of Natural Language Processing, Vol.6, No.6, pp.27-44, 1999 

  18. Marcu, D., 'Improving Summarization through Rhetorical Parsing Tuning,' In Proceeding of the COLING ACL Workshop on Very Large Corpora, Montreal, Canada, 1998 

  19. 김재훈, 김준흥, '도합유사도를 이용한 한국어 추출문서 요약', 제10회 한글 및 한국어 정보처리 학술발표 논문집, pp.238-244, 2000 

  20. 이행원, 취재보도의 실제, 나남출판, 1999 

  21. 김지용, 현장신문론, 도서출판 쟁기, 1996 

  22. Hohenberg, J., The Professional Journalist, Henry Holt and Company Inc., New York, 1960 

  23. 윤석흥, 김춘옥, 신문방송, 취재와 보도, 나남출판, 2000 

  24. Brooks, B. et al., The Missouri Group : News Reporting and Writing, St. Martin's Press, 1996 

  25. 조용철 외, 취재와 기사작성, 도서출판 양지, 1999 

  26. 국립국어연구원, 한국신문의 문체, 1997 

  27. 윤만근, Chomsky 생성문법의 변천, 경진문화사, 2001 

  28. Ohno, S. and Hamanishi, M., 'New Synonym Dictionary,' Kadokawa Shoten, Tokyo, 1981 (Written in japanese) 

저자의 다른 논문 :

관련 콘텐츠

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로