[논문]웹 검색을 활용한 기사 표절 탐지 시스템

조정현; 김유섭

웹 검색을 활용한 기사 표절 탐지 시스템
A Plagiarism Detection System for Newspaper Articles by using Web Search 원문보기

한국정보과학회 2008년도 한국컴퓨터종합학술대회논문집 Vol.35 No.1 (C), 2008 June 30, 2008년, pp.420 - 424

조정현 (한림대학교 컴퓨터공학과) , 김유섭 (한림대학교 컴퓨터공학과)

초록
AI-Helper

최근 문서 저작권에 대한 관심과 중요도가 높아지고 있고 문서 표절에 관한 연구도 지속적으로 이루어지고 있다. 최근 기사의 표절 또는 무단도용 문제가 적지 않게 발생하고 있다. 현재까지의 문서 표절 연구는 실시간 특성이 매우 강한 신문 기사의 표절 문제에 적용하기 어려웠다. 따라서 현재는 이러한 표절 기사를 가려내기 위해 수 많은 신문사에서 하루 수천 건씩 올라오는 기사들을 눈으로 일일이 가려내는 상황이다. 본 논문에서는 이러한 시간과 비용의 문제를 줄이기 위해 네이버와 다음에서 제공하는 웹 검색 OpenAPI를 활용해 표절 가능성이 있는 기사들을 자동으로 탐지해 내는 시스템을 제안한다. 제안하는 시스템은 하나의 원본 기사에서 5개의 문장을 랜덤으로 추출하고 각각의 문장을 검색어(query)로 사용해 연동된 OpenAPI를 사용하여 웹에서 기사를 검색한다. 또한 5번의 검색에서 추출되는 URL의 검색 빈도를 계산하여 해당 기사의 표절 가능성을 사용자가 쉽게 예측 할 수 있도록 하였다.

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

연합뉴스는 크래딧을 통하여 기사의 저작권이 자사에 있음을 명시한다는 조건에서 해당 기사의 전재 또는 부분 전재를 허용한다. 따라서 본 연구에서는 크래딧을 통하여 원저작권자를 명시하지 않고 무단으로 전체 및 부분 전재를 한 신문 기사를 탐지하는 것을 그 목적으로 한다.
또한 기사뿐만 아니라 블로그의 표절 탐지에도 적용해 본다. 마지막으로 현재 탐지 시스템의 결과에서 더 나아가 탐지된 기사의 표절 정도를 자동으로 판단할 수 있는 시스템 구현을 목표로 한다.
본 논문에서는 기사의 표절을 효율적으로 탐지해 내기 위한 웹 검색을 활용한 기사 표절 탐지 시스템을 제안하였다. 기사의 특성을 반영하기 힘든 기존연구에 비해 인터넷의 장점을 이용, OpenAPI를 활용해 기사를 찾아낸다.
본 논문에서는 수많은 신문사에서 하루 수천 건씩 실시간으로 올라오는 신문 기사의 특성을 활용하기 위하여 기존의 웹 검색 업체에서 제공하는 OpenAPI를 기반하여 개발되었다. 본 연구에서 제안된 시스템의 전체 구조는 그림 3에서 볼 수 있다.
본 연구에서는 연합뉴스 3 에서 새로이 게재된 기사를 이후 게재된 타 신문사의 기사들이 단순히 참조를 했는지 아니면 표절을 했는지를 판단하는 시스템을 제안하였다. 이를 위하여 연합뉴스의 기사 중에서 랜덤하게 5개의 구문을 추출하여 OpenAPI의 검색 질의로 선정하였다.
특히, 블로그나 신문 기사 등에서 문서의 표절또는 무단도용이 자주 발생되고 있다. 이에 본 논문에서는 신문 기사 표절을 탐지할 수 있는 방법을제시하고자 한다. 그러나, 본 연구의 방법론은 블로그 표절 탐지에 있어서도 동일하게 적용될 수 있다.
이에 본 논문에서는 현재 인터넷으로 거의 모든 신문 기사를 볼 수 있고 또한 매일 실시간으로 기사가 업데이트 되고 있는 점을 고려하여 효율적인 표절 기사의 탐지를 위해 네이버(Naver)¹와 다음(Daum)²에서 제공하는 OpenAPI(Open Application Program Interface)를 활용한 표절 기사 탐지 시스템을 제안한다. 또한 표절 기사 탐지 정확성과 효율성을 입증하기 위해 실제 여러 원본의 기사들을 정해놓고 검색되는 표절 기사를 확인하는 실험을 통해 성능을 측정한다.

제안 방법

본 논문에서는 기사의 표절을 효율적으로 탐지해 내기 위한 웹 검색을 활용한 기사 표절 탐지 시스템을 제안하였다. 기사의 특성을 반영하기 힘든 기존연구에 비해 인터넷의 장점을 이용, OpenAPI를 활용해 기사를 찾아낸다. 본 시스템에서 탐지된 표절 가능성이 있는 기사의 약 48.
본 연구에서는 질의 문장을 원본 기사에서 랜덤하게 추출하는 것을 원칙으로 하였다. 또한 추출된 문장의 처음에서 6번째 어절까지를 따로 추출하여 질의어로 하였다. 본 연구에서 질의어의 길이를 6개로 정한 이유는 최근 논문 표절의 기준에 6개의 연속된 어절이 동일하다는 조건이 공식적으로 포함되었기 때문이다.
에서 제공하는 OpenAPI(Open Application Program Interface)를 활용한 표절 기사 탐지 시스템을 제안한다. 또한 표절 기사 탐지 정확성과 효율성을 입증하기 위해 실제 여러 원본의 기사들을 정해놓고 검색되는 표절 기사를 확인하는 실험을 통해 성능을 측정한다.
본 시스템은 입력된 하나의 원본 기사에서 5개의 구문을 추출하고 추출된 각각의 구문을 질의어(query)로 사용해 OpenAPI로 각각 검색하여 검색된 문서들의 URL을 추출한다. 그리고 검색된 URL의 중복 횟수를 계산하여 해당 URL과 중복 횟수를 보여줌으로써 해당 문서의 표절 가능성을 가늠할 수 있도록 한다.
웹 검색과 관련한 OpenAPI는 주로 구글 4 , 네이버, 다음과 같은 검색 포탈사이트에서 제공되고 있다. 본 연구에서는 AJAX 기반의 구글API와는 달리 간단한 URL 조작에 기반한 네이버 및 다음 API를 활용하였다. 이러한 검색 API는 지식, 블로그, 웹문서, 뉴스 등등 여러 종류의 문서들에 대한검색 기능 제공하고 있는데, 본 논문에서는 네이버와 다음의 OpenAPI 중에서 뉴스 검색 API를 사용하였다.
본 연구에서는 질의 문장을 원본 기사에서 랜덤하게 추출하는 것을 원칙으로 하였다. 또한 추출된 문장의 처음에서 6번째 어절까지를 따로 추출하여 질의어로 하였다.
시스템을 통해 나온 결과인 표절 가능성이 있는 사를 표절유형1, 2, 3 기준으로 원본기사와 직접 비교하여 표절기사 인지 판별하고 표절기사와 표절이 아닌 기사를 얼마나 탐지했는지를 비교해 웹 검색을 활용한 기사 탐지 시스템을 평가한다.
본 연구에서는 AJAX 기반의 구글API와는 달리 간단한 URL 조작에 기반한 네이버 및 다음 API를 활용하였다. 이러한 검색 API는 지식, 블로그, 웹문서, 뉴스 등등 여러 종류의 문서들에 대한검색 기능 제공하고 있는데, 본 논문에서는 네이버와 다음의 OpenAPI 중에서 뉴스 검색 API를 사용하였다.

대상 데이터

표 1에서 원본 기사 항목은 원본 기사가 탐지된 것이거나 출처를 알리는 크래딧을 달아놓은 기사이다. 30개의 원본기사를 통해 시스템에서 탐지한 기사는 총 127(표 2)개 이다. 이 중 원본기사를 제외한 101(표 2)개의 기사 중 표절 기사는 50(표 2)개로 전체의 49.
본 시스템의 실험을 위한 원본 기사는 연합뉴스에서 발췌하여 사용하였다. 이 원본 기사는 다양한 분야에서 무작위로 선택한 것이고 개수는 총 30개 이다.
본 시스템의 실험을 위한 원본 기사는 연합뉴스에서 발췌하여 사용하였다. 이 원본 기사는 다양한 분야에서 무작위로 선택한 것이고 개수는 총 30개 이다. 이 30개의 기사를 네이버 검색, 다음 검색으로 각각 나누어 실험하였다.
본 연구에서는 연합뉴스 3 에서 새로이 게재된 기사를 이후 게재된 타 신문사의 기사들이 단순히 참조를 했는지 아니면 표절을 했는지를 판단하는 시스템을 제안하였다. 이를 위하여 연합뉴스의 기사 중에서 랜덤하게 5개의 구문을 추출하여 OpenAPI의 검색 질의로 선정하였다. 그리고 5번의 검색을 실행하여 검색된 기사들의 URL을 수집하였으며 이 URL 중에서2번 이상 검색된 기사들을 표절 가능성이 높은 기사로
표 3과 표 4는 다음 검색을 선택한 실험 결과 이다. 탐지된 총106(표 3)개의 기사 중 원본기사를 제외한 76개(표 3)의 기사 중 표절기사는 36개(표 3)로 전체의 47.3%(표 4)이다. 역시 네이버 검색 시와 비슷하게 절반 정도의 표절 기사를 탐지하는 것을 볼 수 있고 표 4에서와 같이 중 횟수가 증가할수록 표절기사의 비율이 높아지는 것을 볼 수 있다.

성능/효과

기사의 특성을 반영하기 힘든 기존연구에 비해 인터넷의 장점을 이용, OpenAPI를 활용해 기사를 찾아낸다. 본 시스템에서 탐지된 표절 가능성이 있는 기사의 약 48.4%가 절기사였다. 이는 간단하게 한번의 탐지로 짧은 시간에 많은 표절 기사를 찾아줌으로써 시간, 인력, 비용을 크게 단축할 수 있는 것이다.
본 연구에서 질의어의 길이를 6개로 정한 이유는 최근 논문 표절의 기준에 6개의 연속된 어절이 동일하다는 조건이 공식적으로 포함되었기 때문이다. 본 연구에서 직접 실험을 한 결과, 어절의 수가 지나치게 많으면 탐지될 수 있는 기사의 수가 지나치게 줄어들고, 반대로 어절의 수가 지나치게 적으면 표절과 상관없는 기사들이 과다하게 탐지되었다.

후속연구

향후 연구는 표절 기사를 더 정확하게 탐지하기 위해서 원본 기사에서 문장을 추출하는 방법을 개선하고 Google의 OpenAPI도 적용하여 앞서 사용한 다른 OpenAPI와 비교해 본다. 또한 기사뿐만 아니라 블로그의 표절 탐지에도 적용해 본다. 마지막으로 현재 탐지 시스템의 결과에서 더 나아가 탐지된 기사의 표절 정도를 자동으로 판단할 수 있는 시스템 구현을 목표로 한다.
향후 연구는 표절 기사를 더 정확하게 탐지하기 위해서 원본 기사에서 문장을 추출하는 방법을 개선하고 Google의 OpenAPI도 적용하여 앞서 사용한 다른 OpenAPI와 비교해 본다. 또한 기사뿐만 아니라 블로그의 표절 탐지에도 적용해 본다.

질의응답

핵심어	질문	논문에서 추출한 답변
	표절또는 무단도용이 자주 발생되는 곳은 어디인가?	특히 인터넷 정보의 양이 기하급수적으로 늘어나고 개인이 운영하는 홈페이지, 블로그 등의 수가 급격히 증가함에 따라 인터넷상에서의 표절도 많아지고 있다. 특히, 블로그나 신문 기사 등에서 문서의 표절또는 무단도용이 자주 발생되고 있다. 이에 본 논문에서는 신문 기사 표절을 탐지할 수 있는 방법을제시하고자 한다.
	기사의 표절 유형은 어떻게 분류되는가?	본 논문에서는 기사의 표절 유형을 다음 4가지로 분류하였다. 첫째, 원본기사의 내용을 그대로 가져와 표절하는 유형이다. 이 유형은 출처를 알리는 크래딧 없이 원래 기사와 똑 같은 내용을 무단전재 하는 것으로 작성된 기사가 마치 표절한 기자에 의하여전적으로 게재된 것처럼 오인하도록 한다. 두 번째는 원본기사 중에 몇 개의 문장을 가져와 조합한 유형이다. 예를 들면 원본기사의 내용을 별도의 수정 없이 몇 개의 문장 만으로 축소하는 것이다. 보통은 마지막 문장 몇 개 또는 중간의 문장을 몇 개를 뺀다. 세 번째는 원본기사 중에 몇 개의 문장을 조금씩 고쳐서 사용하거나 기존 문장에 자신이 새로운 어휘를 조금씩 추가하는 유형이다. 그림 1은 원본 기사를 그리고 그림 2는 이 유형의 예시 문장을 보여준다. 그림 2의 문장들을 보면 원본 기사를 약간씩 수정하여 작성했음을 알 수 있다. 그림 1 기사 원본 그림 2 세 번째 유형의 표절 사례 마지막 네 번째는 원본기사의 부분 부분을 개조하고 자신이 쓴 내용과 섞어서 쓰는 유형이다. 그러나 이러한 유형은 실제 표절 여부를 판단하는데 있어 매우 전문적인 지식과 경험이 필요하기 때문에 본 연구에서는 이 유형의 표절 여부는 판단하지 않는다.
	OpenAPI는 어떤 프로그램인가?	OpenAPI는 사용자 및 개발자가 다양한 웹 서비스 및 응용을 개발할 수 있도록 기술과 서비스를 공유하는 프로그램이다. 웹 검색과 관련한 OpenAPI는 주로 구글 4 , 네이버, 다음과 같은 검색 포탈사이트에서 제공되고 있다.

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

웹 검색을 활용한 기사 표절 탐지 시스템
A Plagiarism Detection System for Newspaper Articles by using Web Search 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

웹 검색을 활용한 기사 표절 탐지 시스템 A Plagiarism Detection System for Newspaper Articles by using Web Search 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

웹 검색을 활용한 기사 표절 탐지 시스템
A Plagiarism Detection System for Newspaper Articles by using Web Search 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper