[논문]문장 및 어절 유사도를 이용한 표절 탐지 시스템 구현

맹주수; 박지수; 손진곤

doi:10.3745/ktsde.2019.8.3.109

문장 및 어절 유사도를 이용한 표절 탐지 시스템 구현
Implementation of A Plagiarism Detecting System with Sentence and Syntactic Word Similarities 원문보기

정보처리학회논문지. KIPS transactions on software and data engineering. 소프트웨어 및 데이터 공학, v.8 no.3, 2019년, pp.109 - 114

맹주수 (한국방송통신대학교 이러닝학과) , 박지수 (동국대학교 융합소프트웨어교육원) , 손진곤 (한국방송통신대학교 컴퓨터과학과)

초록
AI-Helper

기존 표절 탐지 시스템은 형태소 분석을 기반으로 공통 단어의 빈도수를 이용해 문서의 유사도를 측정한다. 그러나 주제가 같아 유사 단어가 많이 쓰인 경우, 문장 단위로 일부만 발췌 표절한 경우, 그리고 조사와 어미의 유사성이 있는 경우는 공통 단어의 빈도수만으로는 정확한 유사도를 측정하는데 한계가 있다. 따라서 본 논문에서는 공통 단어 빈도수 기반의 유사도 측정 외에 문장 유사도와 어절 유사도를 추가적으로 측정해 유사도의 정확성을 높일 수 있는 표절 탐지 시스템을 설계하고 구현하였다. 실험 결과, 문장 유사도를 측정함으로써 문장 단위로 표절이 이루어진 경우를 발견할 수 있었고, 어절 유사도를 추가로 측정함으로써 부분표절이 일어난 경우라도 조사나 어미까지 그대로 사용한 표절의 경우 등을 발견할 수 있었다.

Abstract ▼ AI-Helper

The similarity detecting method that is basically used in most plagiarism detecting systems is to use the frequency of shared words based on morphological analysis. However, this method has limitations on detecting accurate degree of similarity, especially when similar words concerning the same topics are used, sentences are partially separately excerpted, or postpositions and endings of words are similar. In order to overcome this problem, we have designed and implemented a plagiarism detecting system that provides more reliable similarity information by measuring sentence similarity and syntactic word similarity in addition to the conventional word similarity. We have carried out a comparison of on our system with a conventional system using only word similarity. The comparative experiment has shown that our system can detect plagiarized document that the conventional system can detect or cannot.

주제어

표/그림 (13)

그림 Fig. 1. The Entire System Chart
그림 Fig. 2. Similarity Analysis based on the Frequency of Shared Words
그림 Fig 3. Similarity Analysis based on the Frequency of Shared Syntactic Words
표 Table 1. Similarity Analysis based on the Frequency of Shared Sentences
표 Table 2. Syntactic Word Similarity and Final Point
그림 Fig. 4. Database Structure
그림 Fig. 5. The Examples of Detecting Similar Sentences
그림 Fig. 6. The Examples of Detecting the Same Sentences
표 Table 3. System Environment
표 Table 4. Similarities of Matched Documents
표 Table 5. Word Similarity Result Comparison
표 Table 6. Sentence Similarity
표 Table 7. Syntactic Word Similarity

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

그러나 불용어에 가중치를 두어 유사도를 측정하면, 기존의 공통 단어 빈도수 기반 유사도 측정에 비해 성능이 12% 향상된다[9]. 따라서 본 연구에서는 불용어인 조사와 어미가 사용된 문장에서 어절 단위의 유사도를 추가적으로 조사한다.
본 연구는 기존의 문제점을 보완하고자 공통 단어 빈도수와 함께 공통 문장 빈도수 측정을 통해 문장 단위의 부분표절 사례에 대한 추가 발견을 할 수 있고, 공통 어절 빈도수를 추가적으로 측정해 조사나 어미를 그대로 사용한 사례 등을 발견함으로써 기존 방법보다 정확한 유사도를 도출할 수 있는 표절 탐지 시스템을 구현한다.

제안 방법

M 솔루션과 제안 시스템 간 유사도 측정의 결과를 비교하기 위해 원본 문서와 10개의 대응문서 사례를 만들어 각각 적용한다. 사례는 Table 4와 같다.
공통 단어 빈도수에 따른 유사도 분석은 입력된 원본 문서와 대응 문서에서 각각 형태소 분석을 통해 색인어를 추출한다. 색인어 추출 시, 각 단어의 품사를 조사하고 단어에 붙은 조사와 어미는 원형으로 복원한다[8].
공통 어절 빈도수에 따른 유사도 분석은 조사와 어미를 그대로 사용한 어절 단위의 유사도 분석을 위해 원본 문서와 대응문서를 각각 문장 단위로 나눈다. 각 문장을 다시 어절 단위로 분리하여 원본 문장의 어절이 대응 문장에 얼마나 나타나는지 빈도수를 측정한다.
이 시스템은 형태소를 기반으로 단어 유사도를 이용하며, 본 논문의 공통 단어 빈도수에 따른 유사도 분석 방식과 차이점이 없다. 그러나 제안 시스템에서는 공통 문장 유사도와 공통 어절 유사도를 추가적으로 측정하고 유사도 측정의 신뢰도를 높이고, 표절 판별을 위해 정확한 정보를 제공한다.
저장된 원문 데이터에서 형태소를 추출하여 형태소 분석 결과 테이블에 저장한 뒤, 형태소의 유사도를 분석한 결과를 형태소 유사도결과 테이블에 저장한다. 다음으로 문서 테이블에 저장된 본문 데이터를 문장 단위로 분리하여, 문장 테이블에 저장하고, 저장된 문장들을 비교하여 얻어낸 문장 유사도 결과는 문장 유사도 결과 테이블에 저장한다.
첫 번째는 루씬을 이용하여 각 파일에서 글 데이터를 추출한다. 두 번째는 추출한 원문 데이터에서 형태소를 추출하여 색인 작업을 하고, 세 번째로 대응 문서와 비교하여 유사도를 측정하여 판별한다.
대응문서 1, 2, 3, 7은 양쪽의 단어 유사도 결과에서 모두 유사율이 80% 이상으로 측정되어 표절 의심 문서로 분류된다. 따라서 이를 제외한 대응문서 4, 5, 8, 9, 10을 대상으로 문장 유사도와 어절 유사도를 추가적으로 측정한다.
또한 한 문장 단위로 발췌한 곳에서 표절이 일어난 경우에는 전체 문서의 유사도가 낮게 측정될 수 있기 때문에, 정확한 표절 판단을 위해서는 단어 빈도수 기반 유사도 측정 외에 공통 문장이 몇 개 존재하는지 확인할 수 있는 문장 유사도 또한 측정이 필요하다. 문서를 문장단위로 분리하여, 대상문서의 문장들과 문장단위로 비교하여 유사율을 구하고, 포인트를 부여한다. 이 부여된 포인트에 의해서 유사 문장이 결정되고, 유사문장이 존재하는 경우 앞서 측정한 유사율들과 같이 유사 문장을 표현해 줌으로써 표절을 판별하는데 있어 부분적인 문장표절에 대해서도 인지할 수 있게 한다.
본 논문에서는 원본 문서 일(一) 대(對) 대응문서 다(多)의 구조로 문서 간의 공통 단어 빈도수를 이용해 유사도를 측정한다. 그 결과, 유사도가 80%이상인 문서는 표절 의심 문서로 분류되고, 유사도가 80% 미만인 대응문서들은 다시 문장 및 어절 단위의 비교를 통해 추가적으로 표절 의심 문서를 구분해 내는 과정을 거친다.
본 논문에서는 일차적으로 단어 빈도수 기반 유사도를 측정해, 기준보다 높은 유사도를 보이는 문서에 대해서는 표절 의심 문서로 분류한다. 그 다음 기준보다 낮은 유사도를 보이는 문서에 대해서는 다시 문장 유사도 분석과 어절 유사도 분석을 추가적으로 실시하여 보다 신뢰성 있는 유사도를 도출할 수 있도록 한다.
색인어 추출 시, 각 단어의 품사를 조사하고 단어에 붙은 조사와 어미는 원형으로 복원한다[8]. 원본 문서 기준으로 추출된 색인어들은 대응 문서에서 각각 몇 번의 빈도로 사용되었는지를 단순 TF 방식으로 계산해 단어 빈도수에 따른 유사도를 측정한다. 공통 단어 빈도수에 따른 유사도 분석은 Fig.
본 논문에서 설정한 80%는 임의 설정 값으로, 유사도 판단 정책에 따라 변경 가능하다. 유사율이 80% 미만으로 측정된 대응문서는 공통 문장 빈도수 분석과, 공통 어절 빈도수 분석을 병렬적으로 시행한다. 표절 탐지 시스템의 전체적인 흐름은 Fig.
그 중 이진 TF는 단어가 출현한 경우를 모두 1로 지정하여 가중치를 주는 방법이고, 단순 TF는 단어 빈도를 나타내는 TF를 보정 계수 적용 없이 그 횟수만큼 더하여 가중치로 사용하는 것을 의미한다[8]. 이외에도 다양한 가중치와 유사도를 구하는 방법이 존재하나, 본 연구에서는 어절의 어미등을 활용하여 유사도를 구하는데 중점을 두고 있기에, 형태소 분석 및 어절 분석 과정에서 단순 TF를 적용한다.
4에서 문서 테이블은 원문 데이터를 추출하여 저장하는 테이블이다. 저장된 원문 데이터에서 형태소를 추출하여 형태소 분석 결과 테이블에 저장한 뒤, 형태소의 유사도를 분석한 결과를 형태소 유사도결과 테이블에 저장한다. 다음으로 문서 테이블에 저장된 본문 데이터를 문장 단위로 분리하여, 문장 테이블에 저장하고, 저장된 문장들을 비교하여 얻어낸 문장 유사도 결과는 문장 유사도 결과 테이블에 저장한다.
측정한 빈도수를 이용하여 대응 문장의 유사율을 계산한다. 대응 문장 중 최대의 유사율을 보인 문장을 유사 문장으로 선정하고 이 선정된 유사 문장에 원본 문장의 어절수와 동일한 포인트를 부여한다.
표절 탐지 시스템에서는 공통 단어 빈도수에 따른 유사도 분석을 일차적으로 수행한 후, 공통 문장 빈도수와 공통 어절 빈도수를 추가적으로 조사해 유사도의 정확성을 높인다. 일차적으로 이뤄지는 공통 단어 빈도수 분석에서 유사율이 80% 이상으로 측정된 대응 문서는 표절 의심 문서로 분류된다.

대상 데이터

사례는 Table 4와 같다. 대략 200개정도의 단어로 구성된 한 문서는 비교 기준이 되는 본 문서와 형태소가 유사한 문서, 문장 단위로 유사한 문서, 어절단위로 유사한 문서를 임의로 작성하여 실험한다.

성능/효과

이와 같이 세 가지 유사도 검사를 실시한 결과, 단어 빈도수에 따른 유사도를 통해 표절 의심 문서로 분류된 4개의 문서 외에도 추가적으로 표절 의심 문서로 분류할 수 있는 문서를 3개 더 탐지해 낼 수 있다는 것을 확인하였다.
M 솔루션의 경우는 형태소 분석에 따른 단어 유사도만 제시되며, 대응문서 7이 유사도가 가장 높고(99%) 대응문서 10이 유사도가 가장 낮다(36%). 제안 시스템의 결과는 대응문서 7이 유사도가 가장 높고(99%) 대응문서 6이 유사도가 가장 낮은(45%) 것으로 측정됐다. 대응문서 2의 유사도(M 솔루션 94%, 표절 탐지 시스템 81%)를 제외하면 큰 차이는 없다.

후속연구

본 논문에서는 일차적으로 단어 빈도수 기반 유사도를 측정해, 기준보다 높은 유사도를 보이는 문서에 대해서는 표절 의심 문서로 분류한다. 그 다음 기준보다 낮은 유사도를 보이는 문서에 대해서는 다시 문장 유사도 분석과 어절 유사도 분석을 추가적으로 실시하여 보다 신뢰성 있는 유사도를 도출할 수 있도록 한다. 그 결과 기존시스템으로는 찾아내지 못했던 표절 의심 문서를 추가적으로 발견한다.
향후 연구 과제로 유사도 측정의 정확성을 향상시키기 위한 구문분석, 의미 분석이 가능한 시스템의 개발이 필요하다. 또 유사어, 동의어, 상의어, 하의어 등 단어 간 포함관계를 반영한 사전 구축 및 복문을 인식할 수 있는 알고리즘 개발이 요구된다[4, 8, 12].

질의응답

핵심어	질문	논문에서 추출한 답변
	표절은 어떤 행위인가?	표절은 타인의 독창적인 아이디어 또는 창작물을 적절한 출처 표시 없이 활용하여 자신의 창작물인 것처럼 인식하게 하는 행위이다[1]. 표절에 대한 문제의식이 확대되면서 노골적인 복사 수준의 표절은 더 이상 찾아보기 어렵다.
	표절검사를 위해 개발된 기존의 유사도 측정 시스템은 무엇을 이용해 유사도를 측정하는가?	표절검사를 위해 개발된 기존의 유사도 측정 시스템들은 대부분 형태소 분석을 통한 공통 단어의 빈도수를 이용해 유사도를 측정한다. 그러나 주제가 같아 유사 단어가 많이 사용된 경우, 해당 분야의 전문 용어가 공통적으로 많이 사용된 경우에는 공통 단어의 빈도수만으로는 정확한 유사도를 측정하는데 한계가 있다[3].
	표절 탐지 시스템의 전체 흐름은 형태소 분석 후 문장과 어절 분석을 병렬적으로 실행하는 것으로 어떤 순서로 검사가 진행되는가?	표절 탐지 시스템의 전체 흐름은 형태소 분석 후 문장과 어절 분석을 병렬적으로 실행하는 것으로 다음과 같은 순서로 검사한다. 첫 번째는 루씬을 이용하여 각 파일에서 글 데이터를 추출한다. 두 번째는 추출한 원문 데이터에서 형태소를 추출하여 색인 작업을 하고, 세 번째로 대응 문서와 비교하여 유사도를 측정하여 판별한다.

참고문헌 (12)

Ministry of "Education, Instructions to Securing Research Ethics," 2015.
Jun, M. J, Park, S. D., Park W., Heo, J. Y., and Cho, H. G., "Plagiarised Reports Detection System using Characteristcs of Korean Language and Local alignment Algorithm," Journal of KIISE, Vol.31, No.02, pp.727-729, 2004.
Seung-hee Yoo, Yil-hyeong Mun, and Dong-sub Cho, "Similarity Measurement of Korean Documents using the Specified Particles and Major Keywords," Journal of Korea Multimedia Society, Vol.2007, No.1, pp.0686-0688, 2007.
Sang Wook Park, Jeong Yoon Kim, Tae Hoon Lee, Seung Beom Hong, Jin Sook Lim, and Won Seog Kang, "Development of Document Plagiarism Detection Algorithm using Syntactic Analysis Method," The Korean Association of Computer Education, Vol.17, No.1, pp.89-93, 2013.
Bang-Won Ko and Young-Chul Kim, "A Similarity Valuating System using The Pattern Matching," Journal of the Korea Society of Computer and Information, Vol.15, No.1, pp.185-192, 2010.
J. H. Choi and S. J. Lee, "A Method for Reducing Dictionary Access with Bidirectional Longest Match Strategy in Korean Morphological Analyzer," Journal of KIISE, Vol.20, No.10, pp.1497-1507, 1993.
Kang Seung-Shik, "Multi-level Morphological Analysis Model for Korean," Journal of KIISE, Vol.1994, No.10, pp.140-145, 1994.
Lee Mi-suk, "A copy detection system," Ph.D. dissertation, University of Dongguk, Seoul, Korea, 2005.
Won Ji Hur and Yong Gyu Jung, "A Study on Improved Measurement of Similarity Between Documents," Journal of KIISE, Vol.38, No.2, pp.122-124, 2011.
Erik Hatcher, Otis Gospodnetic, and Mike McCandless, "Lucene in Action," pp.68-69, 2010.
Diquest Mariner2 [internet], http://cfile248.uf.daum.net/image/2509DF40552DACBE05C48A. 2018. 11. 18
Go Eun-byeol, "String and Sentence Similarity Measurement Methods Using Set-based POI Search Algorithm," Ph.D. dissertation, Sookmyung Women's University, Seoul, Korea, 2014.

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증