[논문]문서구조 정보 기반의 유사도 측정

신미해; 고방원; 김영철; 정진영

문서구조 정보 기반의 유사도 측정
A Similarity Evaluation using Structural Information of Documents 원문보기

신미해 (공주대학교 컴퓨터과학과) , 고방원 (숭실대학교 IT 대학 컴퓨터학과) , 김영철 (유한대학 e-비즈니스과) , 정진영 (대전보건대학 바이오정보과)

인터넷의 발달로 인한 수많은 정보의 공유는 지식 정보사회의 발전을 가져왔다. 이러한 정보사회의 발전과 동시에 표절과 같은 새로운 지식 범죄도 급증하고 있다. 표절은 연구의 정직성과 창의성을 떨어뜨리고 학문의 발전을 저해하는 요소이다. 이러한 표절을 근절하기 위해서 그동안 많은 방법들과 시스템들이 제시되었다. 이중 자연어로 구성된 구조가 없는 일반 문서의 표절을 검사하는 방법은 지문법을 이용하였다. 지문법과 같이 통계적인 방법을 이용한 유사도 검사 방법은 문서 대 문서 전체를 비교하기 때문에 부분적 유사성, 즉 문장이나 문단 단위의 비교를 할 수 없는 단점이 있다. 본 논문에서 제시하는 시스템은 자연어로 이루어진 일반문서 중 특별한 문서의 구조 정보를 가질 수 있는 일반 텍스트 문서를 대상으로 유사도를 측정하였다. 즉 텍스트 문서 구조를 AST 형태의 자료구조로 표시하고 이를 이용하여 사용자가 원하는 부분 또는 전체 유사도 측정 방법을 제시한다.

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

또한 본 논문의 실험에서와 같이 한쪽 논문의 크기가 커지게 되면 매우 낮은 유사도 결과를 보이는 단점이 있음을 보였다. 이러한 통계적 분석 방법의 단점을 극복하기 위해서 본 논문에서는 논문마다 제시된 특별한 양식을 구조적인 형태로 나타내기 위해서 XML 스키마를 이용하여 표현 하였다. 또한 생성된 XML 스키마를 이용하여 논문을 XML문서로 변환하였고 이를 AST의 자료 구조로 형태로 표현하였다.

가설 설정

둘째, 시퀀스 A, B에서 일치된 서브 시퀀스를 마크하는 단계이다. 이 단계는 이전에 찾은 서브 시퀀스를 다시 검사하지 않도록 마크하는 것이 목적이다.
유사도 평가 알고리즘은 일치하는 서브 시퀀스 찾기(search), 마킹(marking), 유사도 측정(measure)의 세 단계로 구성된다. 첫째, 일치하는 시퀀스 찾기에서는 두 시퀀스 A, B에서 일치하는 서브 시퀀스를 찾는 것이다. 이 때 일치하는 여러 서브 시퀀스가 있다면 가장 긴 서브 시퀀스를 찾는 것이 목적이다.

제안 방법

AST 생성과정이 끝나면 비교하려는 두 문서의 AST를 이용하여 유사도를 측정한다. 유사도를 측정하기 위해서는 AST 자료구조를 선형의 자료 구조로 변환해야 한다.
이렇게 변환된 XML문서를 구조적으로 분석하기 위해서 파싱 과정을 거친다. 그리고 마지막으로 본 시스템에서 제안하는 유사도 알고리즘을 이용하여 유사도를 측정한다.
하지만 SAX는 DOM과 같이 트리 형태의 자료구조를 만들어 주지는 않는다. 따라서 SAX API와 stack을 이용하여 AST(abstract syntax tree)를 구성하였다. AST는 파스 트리와는 달리 모든 심볼에 대하여 노드를 만들지 않고 최소한의 노드를 만드는 트리를 말한다.
이중 DOM은 메모리를 차지하는 크기나 수행속도가 느린 단점이 있다. 따라서 본 논문에서는 SAX를 이용하여 XML 문서를 파싱한다. 하지만 SAX는 DOM과 같이 트리 형태의 자료구조를 만들어 주지는 않는다.
예를 들면 논문과 같은 문서는 일정한 양식을 가지고 있는 문서로써, 학회, 학술, 학위 등 그 종류에 따라 다양한 형태의 구조를 띄고 있다. 또한 각각의 구조를 나타내는 메뉴 디스크립션(Menu Description)을 제공하고 있으며, 논문 제출자는 메뉴 디스크립션의 형태에 맞게 작성하여 제출하도록 되어있다. 문서 변환기는 이러한 구조적 정보를 XML 스키마 형태로 표현하고 이를 이용하여 일반 문서를 XML 문서로 변환하는 기능을 한다.
이러한 통계적 분석 방법의 단점을 극복하기 위해서 본 논문에서는 논문마다 제시된 특별한 양식을 구조적인 형태로 나타내기 위해서 XML 스키마를 이용하여 표현 하였다. 또한 생성된 XML 스키마를 이용하여 논문을 XML문서로 변환하였고 이를 AST의 자료 구조로 형태로 표현하였다. 이렇게 생성된 AST를 이용하여 구조적인 분석 방법으로 유사도 측정방법을 제시하였다.
또한 서로 다른 문서임에도 불구하고 우연히 동일한 단어가 많이 등장했을 때 유사성이 높게 나오는 단점을 가지고 있다[2]. 본 논문에서 제시하는 방법은 일반 텍스트 문서 중 일정 형식을 가지고 있는 논문을 구조화 시켜 XML 문서로 표현한 후 트리를 비교하는 방법을 제시한다. 이 방법은 기존의 통계적 분석 방법과는 달리 문서를 구조화 시켜서 분석할 수 있다는 장점이 있으며 구조 분석을 통하여 어느 부분이 실제로 일치하는지 알 수 있고 우연히 동일한 단어가 등장하더라도 구조가 다르기 때문에 유사하지 않은 것으로 판단할 수 있다.
본 논문에서 제안 하는 유사도 평가 시스템의 전체 구조는 그림 1과 같이 문서 변환, 문서 구조 분석(parsing), 유사도 측정 과정으로 크게 세 부분으로 나눌 수 있다.
또한 생성된 XML 스키마를 이용하여 논문을 XML문서로 변환하였고 이를 AST의 자료 구조로 형태로 표현하였다. 이렇게 생성된 AST를 이용하여 구조적인 분석 방법으로 유사도 측정방법을 제시하였다. 또한 구조적인 분석 방법을 이용하면 기존의 통계적 분석 방법처럼 논문 전체만을 비교 하는 것이 아니라 논문을 구성단위별로 비교 할 수 있는 장점이 있음을 보였다.
자동 색인은 “색인어로 선택될 가능성이 있는 모든 용어를 추출하여 후보 색인어를 생성하는 과정” 과 “후보 색인어로부터 불용어를 제거하고 색인어를 선별하는 과정” 으로 이루어진다[7]. 즉 형태소 분석을 끝낸 후 모든 용어를 색인하는 것이 아닌 실제로 의미가 있는 용어만을 추출하는 과정으로, 본 논문에서는 부분적인 형태소 분석 기법을 사용하여 자동 색인을 구성하였다. 부분적인 형태소 분석 기법은 문서내의 명사만을 추출하는 것으로 명사 이외의 조사, 형용사, 동사를 불용어로 간주하고 색인 후보에서 제외한다.

성능/효과

이렇게 생성된 AST를 이용하여 구조적인 분석 방법으로 유사도 측정방법을 제시하였다. 또한 구조적인 분석 방법을 이용하면 기존의 통계적 분석 방법처럼 논문 전체만을 비교 하는 것이 아니라 논문을 구성단위별로 비교 할 수 있는 장점이 있음을 보였다. 즉 논문의 요약, 서론 ,본론 등 어떤 부분이 매우 유사한지를 알 수 있었고 이를 통해 두 논문의 관계까지도 유추할 수 있었다.
그러나 문서의 부분적인 유사도, 즉 문장과 문장, 문단과 문단간의 유사도를 측정할 수 없고 전체 유사도만 평가할 수 있는 단점이 있다. 또한 본 논문의 실험에서와 같이 한쪽 논문의 크기가 커지게 되면 매우 낮은 유사도 결과를 보이는 단점이 있음을 보였다. 이러한 통계적 분석 방법의 단점을 극복하기 위해서 본 논문에서는 논문마다 제시된 특별한 양식을 구조적인 형태로 나타내기 위해서 XML 스키마를 이용하여 표현 하였다.
셋째, 시퀀스 A, B에서 minMatchLength 이상의 일치가 발생 할 때까지 위의 두 단계를 반복한다. minMatchLength 보다 작은 일치만 발생하면 서브시퀀스 찾는 단계를 종료하고 유사도 값을 계산하여 반환한다.
또한 구조적인 분석 방법을 이용하면 기존의 통계적 분석 방법처럼 논문 전체만을 비교 하는 것이 아니라 논문을 구성단위별로 비교 할 수 있는 장점이 있음을 보였다. 즉 논문의 요약, 서론 ,본론 등 어떤 부분이 매우 유사한지를 알 수 있었고 이를 통해 두 논문의 관계까지도 유추할 수 있었다. 하지만 기존의 통계적 분석 방법에 비해서 속도가 느린 단점을 가지고 있다.

후속연구

향후 연구에는 본 시스템의 성능저하의 주원인인 패턴을 찾는 방법의 개선이 필요하다. 이러한 패턴을 빠르게 찾기 위해서 패턴의 정보를 해시 함수에 저장하여 패턴 탐색을 좀 더 빠르게 수행할 예정이다.
이러한 단점은 일치하는 패턴을 찾는 시간이 많이 걸리기 때문인데 개선해야할 부분이다. 향후 연구에는 본 시스템의 성능저하의 주원인인 패턴을 찾는 방법의 개선이 필요하다. 이러한 패턴을 빠르게 찾기 위해서 패턴의 정보를 해시 함수에 저장하여 패턴 탐색을 좀 더 빠르게 수행할 예정이다.

핵심어

질문

논문에서 추출한 답변

지문법은 어떤 방법인가?

일반적으로 문서 표절 검사를 할 때, 구조적인 특징보다는 통계적인 특징을 추출하여 유사도를 검사하며 이러한 기법을 지문법(fingerprint)이라 한다. 지문법을 쓰는 이유는 보통의 일반 텍스트 문서들은 인공 언어와는 달리 구조를 지니고 있지 않은 문서이기 때문이다[1].

지문법을 사용하는 이유는 무엇인가?

일반적으로 문서 표절 검사를 할 때, 구조적인 특징보다는 통계적인 특징을 추출하여 유사도를 검사하며 이러한 기법을 지문법(fingerprint)이라 한다. 지문법을 쓰는 이유는 보통의 일반 텍스트 문서들은 인공 언어와는 달리 구조를 지니고 있지 않은 문서이기 때문이다[1]. 따라서 지문법은 문서 내에 등장하는 단어들의 빈도수와 가중치를 이용하여 유사도를 구하는 방법이다.

지문법의 단점은 무엇인가?

따라서 지문법은 문서 내에 등장하는 단어들의 빈도수와 가중치를 이용하여 유사도를 구하는 방법이다. 하지만 통계적인 수치만을 이용했을 경우 두 문서의 전체적인 유사도만을 알 수 있기 때문에 실제로 문서의 어느 부분이 유사한지를 알기 어렵다는 단점이 있다. 또한 서로 다른 문서임에도 불구하고 우연히 동일한 단어가 많이 등장했을 때 유사성이 높게 나오는 단점을 가지고 있다[2].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

문서구조 정보 기반의 유사도 측정
A Similarity Evaluation using Structural Information of Documents 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

문서구조 정보 기반의 유사도 측정 A Similarity Evaluation using Structural Information of Documents 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

문서구조 정보 기반의 유사도 측정
A Similarity Evaluation using Structural Information of Documents 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper