[논문]문서 분석 기반 주요 요소 추출 시스템

이종원; 여일연; 정회경

doi:10.6109/jkiice.2019.23.4.401

문서 분석 기반 주요 요소 추출 시스템
Document Analysis based Main Requisite Extraction System 원문보기

한국정보통신학회논문지 = Journal of the Korea Institute of Information and Communication Engineering, v.23 no.4, 2019년, pp.401 - 406

이종원 (Department of Computer Engineering, Paichai University) , 여일연 (Department of Computer Engineering, Paichai University) , 정회경 (Department of Computer Engineering, Paichai University)

초록
AI-Helper

본 논문에서는 XML 형태의 논문이나 보고서로 작성된 문서를 분석하는 시스템을 제안한다. 논문이나 보고서에서 지정한 키워드를 추출하고 이를 사용자에게 보여준 뒤 사용자가 해당 문서 내에서 검색을 원하는 키워드를 입력하면 각 키워드들을 포함하고 있는 문단들을 추출한다. 시스템은 사용자가 입력한 키워드들의 빈도수를 확인하고 가중치를 계산한 뒤 가중치가 가장 낮은 키워드만을 포함한 문단들을 제거한다. 또한, 정제된 문단들을 10개의 영역으로 나눈 뒤 영역별 문단들의 중요도를 계산하고 각 영역들의 중요도를 비교하여 가장 높은 중요도를 갖는 주요 영역을 사용자에게 알려준다. 이러한 특징들로 인해 제안하는 시스템을 활용할 경우 기존의 문서 분석 시스템을 활용하여 논문이나 보고서를 분석하는 것보다 압축률이 높은 형태로 주요 문단들을 제공받을 수 있다. 이로 인해 문서를 이해하는데 필요한 시간을 줄일 수 있을 것으로 사료된다.

Abstract ▼ AI-Helper

In this paper, we propose a system for analyzing documents in XML format and in reports. The system extracts the paper or reports of keywords, shows them to the user, and then extracts the paragraphs containing the keywords by inputting the keywords that the user wants to search within the document. The system checks the frequency of keywords entered by the user, calculates weights, and removes paragraphs containing only keywords with the lowest weight. Also, we divide the refined paragraphs into 10 regions, calculate the importance of the paragraphs per region, compare the importance of each region, and inform the user of the main region having the highest importance. With these features, the proposed system can provide the main paragraphs with higher compression ratio than analyzing the papers or reports using the existing document analysis system. This will reduce the time required to understand the document.

주제어

표/그림 (8)

그림 Fig. 1 System Architecture
그림 Fig. 2 System Flowchart
그림 Fig. 3 Screen of Insert Keyword
그림 Fig. 4 Screen of System Result
그림 Fig. 5 Screen of Analysis Processing
그림 Fig. 6 Screen of Centrality Output
그림 Fig. 7 Test Result Graph 1
그림 Fig. 8 Test Result Graph 2

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

이러한 구조적인 이유로 인해 해당 시스템들의 주 기능은 문서 작성에 사용된 키워드들을 분류하고 해당 키워드들의 빈도수를 확인하는 것이었다. 또한 사용자가 입력한 검색어가 해당 문서 작성에 사용되었는지 확인하기 위해 사용하였다. 기존 시스템들은 검색어의 사용 여부를 확인하는 것이 주목적이었기 때문에 구조적인 이유로 인해 기능적 한계가 발생할 수밖에 없었다.
사용자가 키워드의 입력을 완료하면 시스템은 해당 키워드들이 포함되어 있는 문단들을검색하고 이를 추출한다. 추출한 문단들을 해당 문서의 원래 순서에 맞게 정렬하고 중복된 문단들이 있는지 확인한다. 중복된 문단들이 있을 경우 이를 제거하여 1번만 출력되도록 한다.

제안 방법

압축률을 높이기 위한 시스템의 동작이 끝나면 도출된 문단들을 10개의 영역으로 분할한다. 각 영역 내에 있는 문단들의 키워드 빈도수를 계산하여 영역들의 중요도를 계산한다. 그리고 가장 높은 중요도를 가진 영역을 선정하여 사용자에게 알려준다.
압축률을 높이기 위한 시스템의 작업이 완료되면 도출된 문단들을 10개의 영역으로 분할한다. 그리고 영역 내 문단들이 포함하고 있는 키워드의 빈도수를 계산하여 해당 영역의 중요도를 계산한다. 그림 3과 4는 사용자가 문서 분석을 진행하기 위해 키워드를 입력한 화면과 중복 문단을 제거한 화면이다.
시스템은 사용자가 입력한 키워드들이 포함되어 있는 문단들을 검색하고 추출한다. 그리고 키워드들의 빈도수를 확인하고 해당 키워드들의 빈도수를 기반으로 키워드 가중치를 계산한다. 키워드 가중치 계산이 완료되면 키워드들의 가중치를 비교하여 다른 키워드가 포함되어있지 않고 가장 낮은 키워드 가중치의 키워드만을 포함하고 있는 문단들을 제거한다.
첫째, 형태소 분석기를 기반으로 개발된 키워드 중심 분석 시스템이 제공했던 키워드 정보를 제공한다. 둘째, 형태소 분석기를 기반으로 개발된 문단 중심분석 시스템이 제공했던 문단 정보를 제공한다. 셋째, 추출한 문단들을 10개의 영역으로 분할하고 각 영역의 중요도를 계산하고 주요 영역을 알려줌으로써 문서 이해에 필요한 정보를 제공한다.
중복된 문단들이 있을 경우 이를 제거하여 1번만 출력되도록 한다. 또한 시스템은 키워드들의 빈도수를 확인하고 가중치를 계산한 뒤 키워드들의 가중치를 비교하여 가장 낮은 가중치를 갖는 키워드 만을 포함한 문단들을 제거한다. 압축률을 위한 작업이 완료되면 시스템은 문단들을 10개의 영역으로 분할하고 각 영역의 중요도를 계산한다.
사용자가 입력한 파일명의 XML 형태 문서를 불러온 뒤 해당 문서 내에 있는 키워드 태그를 검색한다. 그리고 키워드 태그의 태그 값인 키워드들을 불러온 뒤 키워드들을 사용자에게 보여주고 사용자는 검색을 원하는 키워드를 입력한다.
둘째, 형태소 분석기를 기반으로 개발된 문단 중심분석 시스템이 제공했던 문단 정보를 제공한다. 셋째, 추출한 문단들을 10개의 영역으로 분할하고 각 영역의 중요도를 계산하고 주요 영역을 알려줌으로써 문서 이해에 필요한 정보를 제공한다.
이는 가중치가 높은 키워드가 포함되어 있는 문단을 제거할 경우 압축률은 상승하지만 문서 내용의 흐림이 어긋날 수 있기 때문이다. 압축률을 높인 뒤 시스템은 도출한 문단들을 10개의 영역으로 분할하여 각 영역의 중요도를 계산하고 주요 영역을 선정하여 사용자에게 알려준다.
이러한 문제점들을 해결하기 위해 제안하는 시스템은 사용자가 입력한 키워드가 포함되어 있는 문단들을 추출하고 추출된 문단들의 순서를 유지하며 중복된 문단들을 제거한다. 그리고 키워드들의 빈도수를 확인하고 가중치를 계산하여 사용자에게 이를 보여준다.
TF-IDF 모델 기반의 기존 문서 분석 시스템들은 문서의 내용 중에서 핵심 영역을 분석하고 이를 사용자에게 알려줄 수 있는 기능의 미흡하였다. 이에 반해 제안하는 시스템은 특정 문서의 작성자가 해당 문서의 주요 키워드로 선택한 키워드들을 추출하고 이를 사용자에게 보여주고 사용자가 검색을 위해 키워드를 입력하면 시스템은 해당 키워드들을 포함하고 있는 문단들을 추출한다. 또한 문단들의 순서를 유지하고 중복으로 도출된 문단들을 제거하며 시스템은 키워드의 가중치를 계산하여 가장 낮은 가중치를 갖는 키워드가 포함되어 있는 문단들을 제거한다.
이에 본 논문에서 제안하는 시스템은 사용자가 XML형태의 보고서나 논문 등의 문서를 효율적으로 이해할 수 있도록 해당 문서의 내용을 압축하고 정렬하고 추출하는 시스템을 제안한다. TF-IDF 모델 기반의 기존 문서 분석 시스템들은 문서의 내용 중에서 핵심 영역을 분석하고 이를 사용자에게 알려줄 수 있는 기능의 미흡하였다.
이러한 시스템의 구조적인 특징으로 인해 사용자는 형태소 분석기 기반의 기존 시스템들이 제공했던 기능들을 모두 제공받을 수 있다. 첫째, 형태소 분석기를 기반으로 개발된 키워드 중심 분석 시스템이 제공했던 키워드 정보를 제공한다. 둘째, 형태소 분석기를 기반으로 개발된 문단 중심분석 시스템이 제공했던 문단 정보를 제공한다.
제안하는 시스템을 설계할 때 요구되는 기능들은 사용자가 입력한 XML 형태 문서를 불러오는 기능과 해당 문서 내에서 키워드 태그를 검색하고 태그 값인 키워드를 추출하는 기능, 사용자가 입력한 키워드를 포함한 문단들을 검색하고 추출하는 기능, 추출한 문단들의 순서를 원래대로 유지하는 기능, 추출한 문단들의 중복을 확인하고 이를 제거하는 기능, 사용자가 입력한 키워드들의 빈도수를 확인하고 가중치를 계산하여 비교하는 기능, 키워드 가중치 비교 후 가장 낮은 가중치의 키워드 만을 포함한 문단들을 제거하는 기능, 문단들을 10개의 영역으로 분할하고 영역들의 중요도를 계산하여 비교하는 기능 등이 필요하다. 해당 기능들을 구현하기 위해 시스템은 3개의 계층 구조로 설계하고 Java로 구현하였다. 그림 2는 시스템의 흐름도이다.

대상 데이터

제안하는 시스템의 효율성을 검증하기 위해 TF-IDF모델 기반의 문서 분석 시스템과 제안하는 시스템의 정확도 비교 실험을 진행하였다. 실험 대상은 정규화 된XML 형태 문서이고 주제 구분 없이 선정한 XML 형태문서 6개와 주제별로 정리된 XML 형태 문서 7개로 진행하였다.
그림 7은 주제 구분 없이 선정한 XML 형태 문서들로 진행한 실험의 결과를 그래프로 정리한 것이다. 총 6차례의 실험을 진행하였으며 기존 시스템은 총 437개의 문단을 도출하였다. 제안하는 시스템은 총 302개의 문단을 도출하였고 이는 TF-IDF 모델 기반의 기존 시스템에 비해 135개의 문단을 적게 도출하여 사용자에게 제공했다는 뜻이 된다.
그림 8은 주제별로 정리된 XML 형태 문서들로 진행한 실험의 결과를 그래프로 정리한 것이다. 총 7차례의 실험을 진행하였으며 기존 시스템은 총 361개의 문단을 도출하였다. 제안하는 시스템은 총 269개의 문단을 도출하였고 이는 TF-IDF 모델 기반의 기존 시스템에 비해 92개의 문단을 적게 도출하여 사용자에게 제공했다는 뜻이 된다.

데이터처리

제안하는 시스템의 효율성을 검증하기 위해 TF-IDF모델 기반의 문서 분석 시스템과 제안하는 시스템의 정확도 비교 실험을 진행하였다. 실험 대상은 정규화 된XML 형태 문서이고 주제 구분 없이 선정한 XML 형태문서 6개와 주제별로 정리된 XML 형태 문서 7개로 진행하였다.

성능/효과

제안하는 시스템은 총 302개의 문단을 도출하였고 이는 TF-IDF 모델 기반의 기존 시스템에 비해 135개의 문단을 적게 도출하여 사용자에게 제공했다는 뜻이 된다. 수치로 나타낼 경우 제안하는 시스템은 기존 시스템이 도출한 문단에 비해 69.1 퍼센트 정도의 문단을 도출하였고 사용자는 기존 시스템이 비해 약 30퍼센트 적은 수의 문단으로 문서를 이해할 수 있게 된다.
제안하는 시스템은 총 269개의 문단을 도출하였고 이는 TF-IDF 모델 기반의 기존 시스템에 비해 92개의 문단을 적게 도출하여 사용자에게 제공했다는 뜻이 된다. 수치로 나타낼 경우 제안하는 시스템은 기존 시스템이 도출한 문단에 비해 74.5 퍼센트 정도의 문단을 도출하였고 사용자는 기존 시스템이 비해 약 25퍼센트 적은 수의 문단으로 문서를 이해할 수 있게 된다.
이러한 기능들로 인해 제안하는 시스템은 기존 시스템들에 비해 향상된 압축률과 정확도를 보였다. 이로 인해 사용자가 기존 시스템들보다 효율적으로 문서를 이해하는 데 도움을 줄 수 있을 것이고 또한 문서를 관리하고 분석하는 분야에서 사용될 경우 파급 효과를 클 것으로 사료된다.
총 7차례의 실험을 진행하였으며 기존 시스템은 총 361개의 문단을 도출하였다. 제안하는 시스템은 총 269개의 문단을 도출하였고 이는 TF-IDF 모델 기반의 기존 시스템에 비해 92개의 문단을 적게 도출하여 사용자에게 제공했다는 뜻이 된다. 수치로 나타낼 경우 제안하는 시스템은 기존 시스템이 도출한 문단에 비해 74.
총 6차례의 실험을 진행하였으며 기존 시스템은 총 437개의 문단을 도출하였다. 제안하는 시스템은 총 302개의 문단을 도출하였고 이는 TF-IDF 모델 기반의 기존 시스템에 비해 135개의 문단을 적게 도출하여 사용자에게 제공했다는 뜻이 된다. 수치로 나타낼 경우 제안하는 시스템은 기존 시스템이 도출한 문단에 비해 69.
제안하는 시스템을 설계할 때 요구되는 기능들은 사용자가 입력한 XML 형태 문서를 불러오는 기능과 해당 문서 내에서 키워드 태그를 검색하고 태그 값인 키워드를 추출하는 기능, 사용자가 입력한 키워드를 포함한 문단들을 검색하고 추출하는 기능, 추출한 문단들의 순서를 원래대로 유지하는 기능, 추출한 문단들의 중복을 확인하고 이를 제거하는 기능, 사용자가 입력한 키워드들의 빈도수를 확인하고 가중치를 계산하여 비교하는 기능, 키워드 가중치 비교 후 가장 낮은 가중치의 키워드 만을 포함한 문단들을 제거하는 기능, 문단들을 10개의 영역으로 분할하고 영역들의 중요도를 계산하여 비교하는 기능 등이 필요하다. 해당 기능들을 구현하기 위해 시스템은 3개의 계층 구조로 설계하고 Java로 구현하였다.
총 13차례 실험 데이터를 기반으로 사용자는 기존 시스템에 비해 보다 높은 압축률과 다양한 정보들을 제안하는 시스템으로부터 제공 받을 수 있었고 이로 인해 제안하는 시스템이 기존 시스템에 비해 사용자의 효율적인 문서 이해를 위한 도움을 줄 수 있을 것으로 사료된다.

후속연구

이러한 기능들로 인해 제안하는 시스템은 기존 시스템들에 비해 향상된 압축률과 정확도를 보였다. 이로 인해 사용자가 기존 시스템들보다 효율적으로 문서를 이해하는 데 도움을 줄 수 있을 것이고 또한 문서를 관리하고 분석하는 분야에서 사용될 경우 파급 효과를 클 것으로 사료된다.
향후 연구로는 시스템의 처리 결과를 직관적으로 표현될 수 있도록 사용자 인터페이스의 수정 보완과 문서 분석 결과를 가시화 및 그래프로 출력하기 위한 추가 연구를 진행하여야 한다.

질의응답

핵심어	질문	논문에서 추출한 답변
	문서 분석 시스템의 역할은 무엇인가?	본 연구에서 제안하는 문서 분석 시스템은 문서 내에 있는 키워드를 추출하여 사용자에게 보여준다. 사용자는 시스템이 보여준 키워드들 중에서 검색을 원하는 키워드 3개를 입력한다.
	기존의 사용되었던 문서 분석 시스템은 어떤 분석기 기반으로 구현되었는가?	기존의 사용되었던 문서 분석 시스템들은 대부분이 형태소 분석기를 기반으로 구현되었고 활용한 알고리즘은 TF-IDF 모델이다. 이러한 구조적인 이유로 인해 해당 시스템들의 주 기능은 문서 작성에 사용된 키워드들을 분류하고 해당 키워드들의 빈도수를 확인하는 것이었다.
	가장 낮은 가중치의 키워드가 1개가 아닐 경우 문단 제거 기능을 수행하지 않는 이유는?	해당 과정에서 가장 낮은 가중치의 키워드가 1개가 아닐 경우 문단 제거 기능을 수행하지 않는다. 그 이유는 2개 이상의 키워드가 포함되어있는 문단들을 제거할 경우 문서 이해에 대해 도움을 주는 시스템의 본래 목적을 달성하기 어려워지기 때문이다. 압축률을 높이는 것은 사용자가 읽어야 하는 문단의 수를 줄이기 때문에 사용자가 문서를 이해하는데 필요한 시간을 줄일 수 있다.

참고문헌 (9)

J. R. Li, E. H. Lee, and J. H. Lee, "Sequence-to-sequence based Morphological Analysis and Part-Of-Speech Tagging for Korean Language with Convolutional Features," Journal of Korean Institute of Information Scientists and Engineering, vol. 44, no. 1, pp. 57-62, Jan. 2017.
K. S. Shim, "Cloning of Korean Morphological Analyzers using Pre-analyzed Eojeol Dictionary and Syllable-based Probabilistic Model," Journal of Korean Institute of Information Scientists and Engineering, vol. 22, no. 3, pp. 119-126, Mar. 2016.
J. W. Lee, I. S. Kang, and H. K Jung, "XML Document Keyword Weight Analysis based Paragraph Extraction Model," Journal of the Korea Institute of Information and Communication Engineering, vol. 21, no. 11, Nov. 2017.
U. S. Gim, S. H. Choi, and J. H. Cho, "An impact analysis of FMD news on pork demand in korea," Journal of The Korean Journal of Community Living Science, vol. 26, no. 1, pp. 75-85, Feb. 2015.

원문보기 상세보기
J. H. Lee, K. S. Song, J. A. Kang, and J. R. Hwang, "A study on the efficient extraction method of SNS data related to crime risk factor," Journal of The Korea Society of Computer and Information, vol. 20, no. 1, pp. 255-263, Jan. 2015.

원문보기 상세보기
H. Y. Lee, J. S. Lee, B. D. Kang, and S. W. Yang, "Functional Expansion of Morphological Analyzer Based on Longest Phrase Matching For Efficient Korean Parsing," Journal of Digital Contents Society, vol. 17, no. 3, pp. 203-210, Jun. 2016.

원문보기 상세보기
J. Y. Lee, J. H. Lee, and Y. H. Park, "A design and implementation of the management system for number of keyword searching results using Google searching engine," Journal of the Korea Institute of Information and Communication Engineering, vol. 20, no. 5, pp. 880-886, May. 2016.

원문보기 상세보기
S. H. Na, J. I. Kim, E. J. Lee, and P. K. Kim, "A Study on the Short Text Categorization using SNS Feature Informations," Journal of Korean Institute of Information Technology, vol. 14, no. 6, pp. 159-165, Jun. 2016.
J. W. Lee, I. S. Kang, and H. K. Jung "XML Document Keyword Weight Analysis based Paragraph Extraction Model," Journal of the Korea Institute of Information and Communication Engineering, vol. 21, no. 11, pp. 2133-2138, Nov. 2017.

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증