$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

초록
AI-Helper 아이콘AI-Helper

인터넷에서 사용 가능한 수많은 정보로 인해서 대용량의 문서를 다루는 기술은 점차 그 필요성이 증가되어 왔지만, 효과적으로 문서 내 정보를 처리하기 위한 기술의 문제는 여전히 풀어야 할 과제로 남아 있다. 자동문서 요약 기술은 문서 내 중요한 부분을 유지하고, 중복된 내용을 제거함으로써 이러한 대용량의 문서를 처리하는 데 중요한 방법으로 인식되어 왔다. 본 논문에서는 이러한 요약문을 만들 때 중요도를 결정하는 문제를 해결하기 위해서 퍼지 이론을 이용한 문서 요약 기술을 제안한다. 제안된 요약 기술은 중요도를 결정하는 여러 특징들의 애매모호한 문제를 해결하고, 그 실험결과는 기존의 다른 방법과 비교해서 전반적으로 높은 결과를 보인다.

Abstract AI-Helper 아이콘AI-Helper

With the very large quantity of information available on the Internet, techniques for dealing with the abundance of documents have become increasingly necessary but the problem of processing information in the documents is still technically challenging and remains under study. Automatic document sum...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 본 논문에서는 Annie Louis가 사용한 측정 방법들을 사용하였다. Kullback Leibler (KL) 발산[17]은 두 개의 확률 분포 사이의 차이점을 측정하기 위해 사용되는 비대칭 방법으로 이를 위해서 본 논문에서는 두 확률 분포를 가지는 원본 문서와 요약문서 사이에 낭비되는 용어의 수의 평균으로 발산을 측정하였다. 또한 KL 발산은 대칭이 아니기 때문에 본 논문에서는 반대의 경우도 고려하였다.
  • ⋅ 문장의 길이: 문장의 길이 역시 문서 요약에 많은 영향을 줄 수 있다. 본 논문에서는 문서의 길이에 따른 문장의 중요도를 측정하기 위해서 문장의 길이에 따른 정규화를 정의하였다. 즉 문장의 길이가 길어질수록 그 문장의 중요도는 낮아진다고 가정한다.
  • 그녀는 입력 문서와 특정한 요약문을 비교해서 평가된 연관성에 기반해서 인간을 이용한 방법과 비교하였고, 그 결과 개인과 거의 비슷한 결과를 보여주었다. 본 논문에서는 이 평가방법을 사용해서 원본 문서와 요약문을 비교하도록 한다.
  • 퍼지 이론에서 각 집합은 소속 함수(membership function)로 나타낼 수 있는데 각각 그 집합에 해당하는 정도를 수학적으로 나타낼 수 있다. 본 논문에서는 이러한 퍼지 이론의 특징을 이용해서 자동문서 요약 기술을 구현하였다. 일반적으로 퍼지 시스템의 입력 값은 퍼지집합이라고 불리는 소속 함수로 변환될 수 있고, 확실한(crisp) 입력 값은 퍼지화(fuzzification) 작업 동안 퍼지 값으로 변환될 수 있다.
  • 본 논문에서는 퍼지이론을 사용한 자동문서 요약 기술을 제안했다. 제안된 기술은 원본 문서로부터 주제어를 추출하기 위해서 LDA 모델을 사용해서 원본 문서의 각 문장에 대한 중요도를 계산해서 퍼지 시스템에서 규칙 기반 모델을 통해서 최종 문장의 중요도를 결정했다.

가설 설정

  • ⋅ 문장의 위치: 문장의 위치별 중요도는 문서에서 나타난 첫 헤드라인이 문장의 중요도에 긍정적인 영향을 끼치고, 주제어가 한 문서에서 가장 일찍 혹은 가장 늦게 나타난다는 가정을 한다.
  • 본 논문에서는 문서의 길이에 따른 문장의 중요도를 측정하기 위해서 문장의 길이에 따른 정규화를 정의하였다. 즉 문장의 길이가 길어질수록 그 문장의 중요도는 낮아진다고 가정한다. 일반적으로 용어의 수가 클 때 중요도는 적어지고, 용어의 수가 적을 때 중요도는 높아진다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
가장 많이 알려진 자동문서 요약의 평가 방법은 무엇인가? 둘째, 제안된 문서 요약 시스템은 컴퓨터 평가방법을 사용한다. 현재 가장 많이 알려진 자동문서 요약의 평가 방법은 Recall-Oriented Understudy for Gisting Evaluation (ROUGE)[5] 방법으로 특정한 사람들이 요약한 문서(Gold Model)와 컴퓨터가 요약한 문서(System Model)를 비교해서 Precision과 Recall을 0과 1 사이의 값으로 정한 후 1에 가까울수록 좋은 요약문이라고 결정하는 방법이다. 하지만 기존의 방법은 개인의 평가방법에 의존했기 때문에 요약에 참여하는 개인의 관심 분야나 전공분야가 다를 때 결과 역시 변하는 문제를 가지고 있다.
퍼지 이론이 말하는 불확실성 문제는 무엇인가? 일반적으로 문서를 요약하는 기술은 요약하고자 하는 용어나 문장을 선택할 때 문장의 길이, 용어 빈도수, 문장의 위치 등 여러 가지 특징들을 고려해야 하는데, 이러한 특징들을 함께 사용할 때 최종 문장의 중요도를 어떻게 반영해야 하는지가 애매모호한 문제로 제기되어 왔다. 퍼지 이론은 이러한 불확실성의 문제를 모델링하는 데 장점을 가지고 있다.
전처리 단계는 어떻게 구성되는가? 전처리 단계는 문장 영역 구분(Sentence Boundary Detection), 불필요한 단어 제거(Stop-word Removing), 제거된 단어의 어근 추출(Stemming)의 세 부분으로 구성된다. 본 논문에서는 문장 영역을 구분하기 위해서 발견법(Heuristic)을 사용하지 않고 문장 영역을 구분하는 지도 학습 시스템(Supervised Learning System)을 이용하였다.
질의응답 정보가 도움이 되었나요?

참고문헌 (22)

  1. R. Witte and S. Bergler, "Fuzzy coreference resolution for Summarization," In Proceedings of International Symposium on Reference Resolution and Its Applications to Question Answering and Summarization (ARQAS). Venice, Italy: Universit Ca Foscari, pp.43-50, 2003. 

  2. L. Suanmali, N. Salim, and M. S. Binwahlan, "Fuzzy Logic Based Method for Improving Text Summarization," International Journal of Computer Science and Information Security (IJCSIS), Vol.2, No.1, pp.65-70, 2009. 

  3. G. Ravindra, N. Balakrishnan, and K.R. Ramakrishnan, "Automatic Evaluation of Extract Summaries Using Fuzzy F-score Measure," In Proceedings of 5th International Conference on Knowledge Based Computer Systems, pp. 487-497, 2004. 

  4. D. M. Blei, A. Y. Ng, and M. I. Jordan, "Latent Dirichlet Allocation," Journal of Machine Learning Research, Vol.3, pp.993-1022, 2003. 

  5. C.Y. Lin, "ROUGE: A Package for Automatic Evaluation of Summaries", In Proceedings of Workshop on Text Summarization of ACL, Spain, 2004. 

  6. D. Gillick, "Sentence Boundary Detection and the Problem with the U.S," The Association for Computational Linguistics, pp.241-244, 2009. 

  7. J. C. Reynar and A. Ratnaparkhi, "A Maximum Entropy Approach to Identifying Sentence Boundaries," In Proceedings of 5th Conference on Applied Natural Language Processing, pp.16-19, 1997. 

  8. M. F. Porter, "An Algorithm for Suffix Stripping," Program, Vol.14, No.3, pp.130-137, 1980. 

  9. D. Newman, Topic modeling tool, Available in: . 

  10. K. McKeown, R. Barzilay, J. Chen, D. K. Elson, D. K. Evans, J. Klavans, A. Nenkova, B. Schiffman, and S. Sigelman, "Columbia's Newsblaster: New Features and Future Directions," HLT-NAACL, pp.15-16, 2003. 

  11. G. Salton and C. Buckley, "Term-weighting Approaches in Automatic Text Retrieval," Information Processing and Management, Vol.24, pp.513-523, 1988. Reprinted in: Sparck Jones K. and Willet P. (eds.), Readings in Information Retrieval, Morgan Kaufmann, pp.323-328, 1997. 

  12. I. Dhillon, S. Mallela, and R. Kumar, "Enhanced word clustering for hierarchical classification," In Proceedings of 8th ACM Intl. Conf. on Knowledge Discovery and Data Mining, 2002. 

  13. P. Jaccard, "Etude comparative de la distribution florale dans une portion des Alpes et des Jura," Bulletin de la Socit Vaudoise des Sciences Naturelles, Vol.37, pp.547-579, 1901. 

  14. L. A. Zadeh, "Fuzzy Sets," Information and Control 8, Vol. 8, No.3, pp.338-353, 1965. 

  15. A. Louis and A. Nenkova, "Summary Evaluation without Human Models," Text Analysis Conference, 2008. 

  16. D. R. Timothy, T. Allison, S. Blair-goldensohn, J. Blitzer, A. Celebi, S. Dimitrov, E. Drabek, A. Hakim, W. Lam, D. Liu, J. Otterbacher, H. Qi, H. Saggion, S. Teufel, A. Winkel, and Z. Zhang, "MEAD a platform for multidocument multilingual text summarization," In Proceedings of International Conference on Language Resources and Evaluation, pp.1-4, 2004. 

  17. S. Kullback and R. A. Leibler, "On Information and Sufficiency," Annals of Mathematical Statistics, Vol.22, No.1, pp.79-86, 1951. 

  18. T. M. Cover and J. A. Thomas, Elements of Information Theory, Wiley, New York, NY, 1991. 

  19. L. A. Zadeh, "The Concept of a Linguistic Variable and Its Application to Approximate Reasoning," Information Sciences, Vol.8, pp.199-249, 1975. 

  20. C. W. Kim and S. Park, "Document Summarization using Pseudo Relevance Feedback and Term Weighting," Journal of Korea Institute of Information and Communication Engineering(JKIICE), Vol.16, No.3, pp.533-540, 2012. 

  21. R. L. Summerscales, S. Argamon, S. Bai, J. Huperff, and A. Schwartzff, "Automatic Summarization of Results from Clinical Trials," BIBM, pp.372-377, 2011. 

  22. S. Kiritchenko, B. Bruijn, S. Carini, J. Martin, and I. Sim, "Exact: automatic extraction of clinical trial characteristics from journal publications," BMC Med Inform Decis Mak, Vol.10, No.1, pp.56-17, 2010. 

저자의 다른 논문 :

관련 콘텐츠

오픈액세스(OA) 유형

BRONZE

출판사/학술단체 등이 한시적으로 특별한 프로모션 또는 일정기간 경과 후 접근을 허용하여, 출판사/학술단체 등의 사이트에서 이용 가능한 논문

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로