토렌트 및 P2P 사이트나 웹 하드는 쉽고 편리하게 무료로 다운로드 받거나 가격을 저렴하게 이용할 수 있다는 이유만으로 사용자들은 자주 이용하지만 국내 토렌트 및 P2P 사이트나 웹 하드는 저작권과 관련되어 매우 민감하기 때문에 저작권 보호를 위한 기술들이 연구되고 적용 되어지고 있다. 이 중에서 파일의 제목이나 주요 단어의 조합 등 경우의 수를 금칙어로 설정하여 차단하는 제목 및 문자열 비교방식필터링 기술은 제목 변경, 띄어쓰기 등을 통해 우회가 용이하다. 저작권 보호를 위한 불법저작물을 검색하고 차단하기 위해서는 변형된 파일 제목을 정규화 하는 기술이 필수적이다. 본 논문에서는 불법저작물의 변형된 파일 제목을 정규화 하는 기법과 파일 제목을 정규화를 진행 전과 후에 따른 검색에 의한 탐지율을 비교하였다. 정규화를 진행하기 전 탐지율은 77.72%로 아쉬운 탐지율이 보인 반면에 정규화를 진행한 후 90.23%로 정규화가 필수적이라고 말할 수 있다. 향후, 공통으로 나타나는 날짜와 화질 표시 같은 무의미한 용어들을 처리하면, 더욱 좋은 결과가 산출될 것으로 기대한다. 국문 요약입니다.
토렌트 및 P2P 사이트나 웹 하드는 쉽고 편리하게 무료로 다운로드 받거나 가격을 저렴하게 이용할 수 있다는 이유만으로 사용자들은 자주 이용하지만 국내 토렌트 및 P2P 사이트나 웹 하드는 저작권과 관련되어 매우 민감하기 때문에 저작권 보호를 위한 기술들이 연구되고 적용 되어지고 있다. 이 중에서 파일의 제목이나 주요 단어의 조합 등 경우의 수를 금칙어로 설정하여 차단하는 제목 및 문자열 비교방식 필터링 기술은 제목 변경, 띄어쓰기 등을 통해 우회가 용이하다. 저작권 보호를 위한 불법저작물을 검색하고 차단하기 위해서는 변형된 파일 제목을 정규화 하는 기술이 필수적이다. 본 논문에서는 불법저작물의 변형된 파일 제목을 정규화 하는 기법과 파일 제목을 정규화를 진행 전과 후에 따른 검색에 의한 탐지율을 비교하였다. 정규화를 진행하기 전 탐지율은 77.72%로 아쉬운 탐지율이 보인 반면에 정규화를 진행한 후 90.23%로 정규화가 필수적이라고 말할 수 있다. 향후, 공통으로 나타나는 날짜와 화질 표시 같은 무의미한 용어들을 처리하면, 더욱 좋은 결과가 산출될 것으로 기대한다. 국문 요약입니다.
Although torrents and P2P sites or web hard are frequently used by users simply because they can be easily downloaded freely or at low prices, domestic torrent and P2P sites or web hard are very sensitive to copyright. Techniques have been researched and applied. Among these, title and string compar...
Although torrents and P2P sites or web hard are frequently used by users simply because they can be easily downloaded freely or at low prices, domestic torrent and P2P sites or web hard are very sensitive to copyright. Techniques have been researched and applied. Among these, title and string comparison method filtering techniques that block the number of cases such as file titles or combinations of key words are blocked by changing the title and spacing. Bypass is easy through. In order to detect and block illegal works for copyright protection, a technique for normalizing modified file titles is essential. In this paper, we compared the detection rate by searching before and after normalizing the modified file title of illegal works and normalizing the file title. Before the normalization, the detection rate was 77.72%, which was unfortunate while the detection rate was 90.23% after the normalization. In the future, it is expected that better handling of nonsense terms, such as common date and quality display, will yield better results.
Although torrents and P2P sites or web hard are frequently used by users simply because they can be easily downloaded freely or at low prices, domestic torrent and P2P sites or web hard are very sensitive to copyright. Techniques have been researched and applied. Among these, title and string comparison method filtering techniques that block the number of cases such as file titles or combinations of key words are blocked by changing the title and spacing. Bypass is easy through. In order to detect and block illegal works for copyright protection, a technique for normalizing modified file titles is essential. In this paper, we compared the detection rate by searching before and after normalizing the modified file title of illegal works and normalizing the file title. Before the normalization, the detection rate was 77.72%, which was unfortunate while the detection rate was 90.23% after the normalization. In the future, it is expected that better handling of nonsense terms, such as common date and quality display, will yield better results.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 논문에서는 불법저작물 탐지 시 정규화 작업의 중요성에 대해 검증하기 위해 정규화 처리를 하지 않은 데이터와 정규화 처리를 진행한 데이터로 Simhash기반 유사 게시글 검색을 통한 불법 저작물 탐지 실험을 진행하였다.
하지만 끊임없이 쏟아지는 불법저작물들은 점점 더 필터링되는 과정을 우회하기 위하여 제목에 불필요한 특수문자나 공백을 삽입하거나 영숫자를 변형하거나 음절을 무시한 채 분리하거나 변형시키는 방법을 사용한다. 본 논문에서는 불법저작물들의 필터링 우회를 방지하기 위하여 제목 문장을 정규화하는 과정과 불법저작물을 탐지하는 방법을 제안하였다. 위디스크라는 P2P 사이트에서 크롤링을 진행하였더니 이름, 날짜, 화질, 인코딩 닉네임을 포함한 제목이 대부분이었다.
제안 방법
P2P Crawling 작업을 통하여 데이터를 생성하고 제목을 정규화한다. Simhash를 통해 0과 1로 vector화를 진행하고 Hamming Distance를 통해 유사한 파일을 검색하여 불법저작물을 탐지한다.
본 논문에서는 불법저작물의 정규화 처리된 제목을 활용하여 Feature를 추출하고 Hash Funciton을 적용하여 Simhash 값을 산출한다. bit로 표현된 Simhash값 간의 Hamming distance 비교를 통해 유사한 정도를 확인 할 수 있으며 사전에 생성한 Simhash값을 기반으로 분석대상과 유사한 데이터 검색을 진행한다.
각 Feature에 Hash Funciton을 적용하여 50bit의 Simhash값을 추출하였다. 분석 대상에 대한 50bit의 Simhash값과 사전에 생성한 Train 데이터들의 50bit Simhash값을 비교하여 Hamming distance 5이내의 데이터를 유사한 게시글로 판단한다.
Simhash기반 알고리즘 적용시 텍스트 데이터에 대해 Vector화 처리가 가능하며, 유사한 텍스트 데이터에 대해서는 유사한 Hash값을 가지게 되는 특징이 존재한다. 본 논문에서는 불법저작물의 정규화 처리된 제목을 활용하여 Feature를 추출하고 Hash Funciton을 적용하여 Simhash 값을 산출한다. bit로 표현된 Simhash값 간의 Hamming distance 비교를 통해 유사한 정도를 확인 할 수 있으며 사전에 생성한 Simhash값을 기반으로 분석대상과 유사한 데이터 검색을 진행한다.
정규화된 문장을 가지고 다양한 방식으로 실험을 진행할 수 있다. 본 실험은 정규화 처리된 제목을 활용하여 Simhash기반 유사 검색을 진행하였다. Feature를 추출하기 위해 문자열 데이터에 2-gram을 적용하였으며,
파일 ID를 정규화하여 불법저작물을 등록을 차단하는 기술이 필요하다. 본 연구에서는 연구 [7,8]처럼 스팸 문자를 정규화하는 과정과 달리 불법저작물은 한글 뿐만 아니라 영어로 된 제목도 존재하고 날짜나 화질을 나타내는 숫자도 변형하기 때문에 영숫자 정규화 처리와 한글 정규화 처리를 나누어 진행하였다. 이후 연구[9,10,11,12]처럼 텍스트에 대한 TF-IDF나 워드 임베딩 딥러닝 기법을 이용하여 불법저작물 검색 및 탐지가 가능하다.
분석대상 컨텐츠와 유사한 컨텐츠만 유사 게시글로 검색된 경우에 정탐하였다고 판단하였다. 분석대상 데이터의 경우 Train 데이터셋에 존재하는 관계로 유사 게시글에 분석대상 데이터와 동일한 데이터가 포함되게 되는데 이를 포함하여 판단한 실험과 제거하여 판단한 실험, 두 가지 조건에서 결과를 산출하였다. 아래 표 5는 수집된 원문에 정규화 처리를 하지 않은 데이터에 대한 결과를 나타내고, 표 6은 정규화 처리를 진행한 데이터에 대한 결과를 나타낸다.
유사 게시글 검색을 통한 불법저작물 탐지를 위해 수집된 원문에 정규화 처리를 하지 않은 데이터와 사전에 정규화 처리를 한 데이터간의 비교를 진행하였다. 분석대상 컨텐츠와 유사한 컨텐츠만 유사 게시글로 검색된 경우에 정탐하였다고 판단하였다.
변형된 제목은 사용자는 쉽게 어떤 콘텐츠를 포함하는지를 알 수 있지만 컴퓨터는 어떤 콘텐츠를 포함하는지 알 수 없어 자동 필터링 적용이 어려움을 격는다. 이 연구에서 변형된 제목 문장을 복원하기 위하여 한글 자음, 모음과 유사한 문자를 한글로 변환하거나, 한글 자음과 모음으로 구성된 문자열을 음절로 결합하는 방법을 적용한다.
앞서 P2P 사이트나 웹 하드에서 불법저작물들은 특정 단어 기반으로의 검색과 탐지되는 것을 우회하기 위해 제목을 변경한다고 하였다. 이번 장에서는 변경된 제목을 컴퓨터가 학습할 수 있게 제목 문장을 정규화하는 기법을 소개하고 정규화한 문장을 이용하여 Simhash를 거쳐 Hamming 거리 기반 유사 파일 검색을 통하여 불법저작물을 탐지한다.
제목만을 가지고 가장 먼저 불필요한 특수문자를 제거하였고, 영숫자 먼저 정규화를 진행하였다. 이후 한글 정규화를 하기 전에 공백을 제거 해주고 한글 정규화를 진행하였다. 한글 정규화는 변형된 한글 자음과 모음이 Dictionary1을 통해 하나씩 대치 될 때마다 한글 자음과 모음을 조합하여 음절로 변환해주는 Dictionary2와 영문에 영향을 미치지 못하게 하기 위하여 Dictrion1 역변환을 통해 총 3단계로 진행하였다.
위디스크라는 P2P 사이트에서 크롤링을 진행하였더니 이름, 날짜, 화질, 인코딩 닉네임을 포함한 제목이 대부분이었다. 제목만을 가지고 가장 먼저 불필요한 특수문자를 제거하였고, 영숫자 먼저 정규화를 진행하였다. 이후 한글 정규화를 하기 전에 공백을 제거 해주고 한글 정규화를 진행하였다.
데이터 셋 모두 제목을 가지고 정규화를 진행한다. 제목에는 영숫자와 한글 모두 포함하기 때문에 영숫자를 먼저 처리하고 변형된 한글에 대해 정규화를 진행하였다. 변형되지 않은 문장도 불필요한 특수문자를 제거하고 공백이 존재 하지 않는 문자열 형태로 정규화가 진행된다.
이후 한글 정규화를 하기 전에 공백을 제거 해주고 한글 정규화를 진행하였다. 한글 정규화는 변형된 한글 자음과 모음이 Dictionary1을 통해 하나씩 대치 될 때마다 한글 자음과 모음을 조합하여 음절로 변환해주는 Dictionary2와 영문에 영향을 미치지 못하게 하기 위하여 Dictrion1 역변환을 통해 총 3단계로 진행하였다. 또한, 여전히 한글 자음과 모음이 모두 변형되었거나 이중 모음을 갖거나 종성을 분리하여 표현한 정규화 되지 않은 문장이 존재하여 Dictionary3를 통해 변환한다.
대상 데이터
불법 저작물 탐지를 위해 구성한 데이터 셋은 P2P 사이트에서 수집한 10만개 데이터를 활용해 실험을 진행하였다. 유사 게시글 검색시 기준이 되는 Train 데이터 셋은 100,000개로 구성하였고, 그중 300개를 선별하여 분석하고자 하는 대상이 되는 Test 데이터로 구성하였다.
사용할 데이터는 P2P 사이트에서 크롤링을 진행하여 100,000개로 구성된 제목, 용량을 표시하는 사이즈, 거래되는 가격(캐시), 드라마나 영화 등 콘텐츠 종류, 배포자의 아이디를 포함하는 데이터셋을 생성한다. 이 중에서 본 연구는 제목만을 가지고 실험을 진행한다.
불법 저작물 탐지를 위해 구성한 데이터 셋은 P2P 사이트에서 수집한 10만개 데이터를 활용해 실험을 진행하였다. 유사 게시글 검색시 기준이 되는 Train 데이터 셋은 100,000개로 구성하였고, 그중 300개를 선별하여 분석하고자 하는 대상이 되는 Test 데이터로 구성하였다. 데이터 셋 모두 제목을 가지고 정규화를 진행한다.
이론/모형
P2P 환경에서 파일 공유를 할 때 발생할 수 있는 보안 위협도 존재한다.[3] 또한 P2P 환경에서 DHT기반 다중 키워드 검색시 발생되는 노드간의 전송되는 역리스트의 양을 효과적으로 줄이기 위해 Bloom-fiter기법을 적용하였다[4].
저작권 보호를 위한 기술적 조치로 검색어 기반 필터링 방법을 사용한다. 불법저작물은 이러한 저작권 위반 및 처벌을 우회하기 위해서 불필요한 기호들을 추가하거나 문자를 변경하는 방법을 사용한다.
성능/효과
첫째, 숫자가 변형한 형태여야 한다. 둘째, 영어로 된 제목이나 제목에 영어 단어가 존재하면 대문자 O와 I에 대하여 0과 1로 변환되어지면 안된다. 예를 들어 ‘OCN’, WITH 같이 영어 단어를 포함하는 제목들은 ‘0CN’, ‘W1TH’로 변환되어 본래의 제목을 잃어버리게 된다.
예를 들어 ‘OCN’, WITH 같이 영어 단어를 포함하는 제목들은 ‘0CN’, ‘W1TH’로 변환되어 본래의 제목을 잃어버리게 된다. 셋째, 대문자 O와 I가 한글 자음 ㅇ과 모음 ㅣ를 변형시킨 것은 0과 1로 변환되어지면 안된다. 예를 들어 ‘Oㅣ‘나 ’ㄱI‘처럼 한글을 변형한 형태가 ’0ㅣ’나‘ㄱ1‘처럼 변형되어지면 안되고 대문자 O와 I가 한글자음 ㅇ과 모음 ㅣ로 변경되어져야 하기 때문이다.
2%를 차지한 것으로 조사되었다. 온라인 불법복제물 이용에 대한 유통 경로별 비중을 살펴보면, 토렌트가 28.8%, 모바일 21.9%, 웹 하드 17.9% , 포털 16.9%, P2P 9.8%, 스트리밍 전문 서비스 5.8% 순으로 집계되었다. 콘텐츠별 침해율은 영화 22.
그리하여 보편적인 스팸 문자 메시지 필터링 시스템에서는 이러 한 왜곡된 단어들을 “첫가입”, “카지노”, “가입즉시”와 같은 정규화 과정을 거처 스팸 문자 메시지 필터링을 위한 어휘 사전과의 비교를 통해 스팸 문자 메시지를 차단하고 있다. 이 방법을 적용하면 변형된 문자열을 정규화함으로써 스팸 문자 차단 효과를 17% 향상시키는 효과를 보였다.[7,8] 현재 텍스트에 대한 백터의 표현 방식으로 TF-IDF가 가장 널리 사용되고 있지만, 단어 수가 증가함에 따라 차원의 수도 같이 증가하여 대용량 단어들을 처리하는데 어려움이 있다.
정규화 처리후 진행한 실험에서 탐지하지 못한 5.67%에 해당하는 데이터를 살펴보면 ‘720P’, ‘1080P’, ‘NEXT’, ‘HANrel’ 등과 같이 영상의 화질이나 인코딩 닉네임을 나타내는 공통의 키워드가 포함되어 있는 것을 확인할 수 있다.
또한, 여전히 한글 자음과 모음이 모두 변형되었거나 이중 모음을 갖거나 종성을 분리하여 표현한 정규화 되지 않은 문장이 존재하여 Dictionary3를 통해 변환한다. 최종 정규화된 문장을 이용하여 유사 콘텐츠 검색 시 제목을 정규화하기 전 탐지율은 77.72%이고, 정규화를 진행한 후 탐지율은 90.23%로 높은 탐지율을 보여주었다. 제목에 담고 있는 콘텐츠는 다르지만 ‘190808’, ‘1080P’, ‘NEXT’, ‘HANrel’ 등 일치할 수 있기 때문에 변형된 파일 제목을 더 이상 정규화를 통해 탐지율을 향상시키는 것은 불가능하다.
표 5에서 보이는 것처럼 정규화 처리를 하지 않은 환경에서 불법저작물 탐지율은 77.72%로 낮은 탐지율을 보인 반면에 표 6은 정규화를 처리한 후 불법저작물을 탐지한 결과는 90.23%로 12.51%가 증가한 것으로 보인다. 정규화 처리후 진행한 실험에서 탐지하지 못한 5.
후속연구
향후 연구에는 P2P 사이트 제목에 포함되는 ‘190808’, ‘1080P’, ‘NEXT’, ‘HANrel’ 등 독립적으로 화이트 리스트를 이용하거나 메타 데이터로 처리한다면 더 좋은 탐지율을 보일 것이다.
이는 변형된 제목을 정규화하는 작업과는 다른 관점에서 불법저작물 탐지를 혼탁하게 만드는 경향이 존재한다. 향후 연구에서 공통의 키워드 및 표현에 대해 사전에 조정한다면 검색 결과에 대한 개선이 가능할 것이다.
질의응답
핵심어
질문
논문에서 추출한 답변
저작권 보호를 위한 기술적 조치로 사용하는 필터링 기법은?
저작권 보호를 위한 기술적 조치로 검색어 기반 필터링 방법을 사용한다. 불법저작물은 이러한 저작권 위반 및 처벌을 우회하기 위해서 불필요한 기호들을 추가하거나 문자를 변경하는 방법을 사용한다.
불법저작물 단속이 어려운 이유는 어떤 방법때문인가?
저작권 보호를 위한 기술적 조치로 검색어 기반 필터링 방법을 사용한다. 불법저작물은 이러한 저작권 위반 및 처벌을 우회하기 위해서 불필요한 기호들을 추가하거나 문자를 변경하는 방법을 사용한다. 따라서, 검색어 기반 필터링 작업이 어려운 문제이다.
김병룡 "DHT 기반 P2P 네트워크에서 효과적인 다중 키워드 검색 기법 연구" 한국정보과학회 학술발표논문집 , 2014.6, 1236-1237(2 pages)
윤효근, 이상용 "협력적 필터링 기법을 이용한 P2P 모바일 에이전트 기반 사용자 컨텍스트 인식 및 서비스 처리 구조" 한국지능시스템학회논문지 15(1), 2005.2, 104-109(6 pages)
Changbin Lee, Kwangwoo Lee, Dongho Won and Seungjoo Kim "Weaknesses and Improvements of P2P File-sharing Filtering System"
강승식, 장두성, "SMS 변형된 문자열의 자동 오류 교정 시스템," 정보과학회논문지, 제35권, 제6호, 386-391쪽, 2008년 6월
강승식, "스팸 문자 필터링을 위한 변형된 한글 SMS 문장의 정규화 기법," 정보처리학회논문지, 제3권, 제7호, 271-276쪽, 2014년 7월
이현영, 강승식 "워드 임베딩과 딥러닝 기법을 이용한 SMS 문자 메시지 필터링" (No.NRF-2017M3C4A7068186)
Mikolov, T., Sutskever, I., Chen, K., Corrado, G. S., & Dean, J., "Distributed Representations of Words and Phrases and their Compositionality," In Advances in neural information processing systems, Lake Tahoe, the United States, pp.3111-3119, Dec. 2013
Mikolov, Tomas, et al., "Recurrent neural network based language model," Eleventh Annual Conference of the International Speech Communication Association, Makuhari, Chiba, Japan, pp. 1045-1048, Sep. 2010
Mikolov, T., Yih, W. T., & Zweig, G., "Linguistic Regularities in Continuous Space Word Representations," In Proceedings of the 2013 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Atlanta, Georgia , the United States, pp. 746-751, Jun. 2013
M. S. Charikar, "Similarity estimation techniques from rounding algorithms," in Proceedings of the 34th Annual ACM Symposium on Theory of Computing, pp. 380-388, ACM, New York, ,NY, USA, 2002
DATAR, Mayur, et al. Locality-sensitive hashing scheme based on p-stable distributions. In: Proceedings of the twentieth annual symposium on Computational geometry. ACM, 2004. p. 253-262.
Manku, Gurmeet Singh, Arvind Jain, and Anish Das Sarma. "Detecting near-duplicates for web crawling." Proceedings of the 16th international conference on World Wide Web. ACM, pp. 141-150, 2007.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.