음란 동영상, 마약, 개인정보, 해킹 도구 유포사이트 등을 포함하는 유해 사이트는 최근 사회적으로 심각한 문제를 초래하고 있다. 하지만 누구나 자유롭게 사용할 수 있는 인터넷환경의 특성상 접속자를 효과적으로 통제하기 어렵고, 사이트 운영자는 차단을 우회하기 위해 도메인을 변경하면서 운영한다. 따라서, 한번 확인된 사이트라 하더라도 그 지속성은 낮다. 본 논문에서는 이와 같은 유해 사이트의 변화를 추적하여 동일 또는 유사한 콘텐츠를 포함한 유해 사이트의 도메인 주소가 변경되는 것을 효과적으로 추적할 수 있는 기술인 다채널 도메인 추적기술을 제안한다. 제안하는 기술은 OSINT 기술을 이용하여 도메인의 정보를 지속적으로 추적할 수 있는 기술이다. 우리는 실험을 통해 90.4%의 추적률(실험대상 73개의 도메인 중 66개의 변경을 감지)로 제안한 기술이 도메인추적에 효과가 있음을 검증하였다.
음란 동영상, 마약, 개인정보, 해킹 도구 유포사이트 등을 포함하는 유해 사이트는 최근 사회적으로 심각한 문제를 초래하고 있다. 하지만 누구나 자유롭게 사용할 수 있는 인터넷환경의 특성상 접속자를 효과적으로 통제하기 어렵고, 사이트 운영자는 차단을 우회하기 위해 도메인을 변경하면서 운영한다. 따라서, 한번 확인된 사이트라 하더라도 그 지속성은 낮다. 본 논문에서는 이와 같은 유해 사이트의 변화를 추적하여 동일 또는 유사한 콘텐츠를 포함한 유해 사이트의 도메인 주소가 변경되는 것을 효과적으로 추적할 수 있는 기술인 다채널 도메인 추적기술을 제안한다. 제안하는 기술은 OSINT 기술을 이용하여 도메인의 정보를 지속적으로 추적할 수 있는 기술이다. 우리는 실험을 통해 90.4%의 추적률(실험대상 73개의 도메인 중 66개의 변경을 감지)로 제안한 기술이 도메인추적에 효과가 있음을 검증하였다.
Recently, Harmful sites, including pornographic videos, drugs, personal information and hacking tool distribution sites, have caused serious social problems. However, due to the nature of the Internet environment where anyone can use it freely, it is difficult to control the user effectively. And th...
Recently, Harmful sites, including pornographic videos, drugs, personal information and hacking tool distribution sites, have caused serious social problems. However, due to the nature of the Internet environment where anyone can use it freely, it is difficult to control the user effectively. And the site operator operates by changing the domain to bypass the blockage. Therefore, even once identified sites have low persistence. In this paper, we propose multi-channel domain tracking technology, a technique that can effectively track changes in the domain addresses of harmful sites, including the same or similar content, by tracking changes in these harmful sites. Proposed technology is a technology that can continuously track information in a domain using OSINT technology. We tested and verified that the proposed technology was effective for domain tracking with a 90.4% trace rate (sensing 66 changes out of 73 domains).
Recently, Harmful sites, including pornographic videos, drugs, personal information and hacking tool distribution sites, have caused serious social problems. However, due to the nature of the Internet environment where anyone can use it freely, it is difficult to control the user effectively. And the site operator operates by changing the domain to bypass the blockage. Therefore, even once identified sites have low persistence. In this paper, we propose multi-channel domain tracking technology, a technique that can effectively track changes in the domain addresses of harmful sites, including the same or similar content, by tracking changes in these harmful sites. Proposed technology is a technology that can continuously track information in a domain using OSINT technology. We tested and verified that the proposed technology was effective for domain tracking with a 90.4% trace rate (sensing 66 changes out of 73 domains).
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 논문에서는 지속적으로 변경되는 유해 사이트를 추적하기 위한 기술을 제안한다. 제안하는 기술은 OSINT Framework를 기반으로 하여 유해 사이트 정보를 수집하고, domain tools, Whois 등 공개된 정보 사이트와 연동을 통해 기존 등록자의 유사 사이트를 추적하여, 형태로 클러스터링을 통해 웹사이트를 범주화하는 방법으로 유해 사이트 도메인을 수집하고 추적하는 멀티채널 도메인 추적기술이다.
본 논문에서는 불법 사이트 차단을 우회하는 다양한 방법에 대해 대응하기 위해 불법 사이트를 추적하는 기술을제안하였다. 최근 불법 사이트는 도메인 변경, 폐쇄 후 재개방 등 다양한 방법으로 운영을 지속하고 있다.
제안 방법
위한 기술을 제안한다. 제안하는 기술은 OSINT Framework를 기반으로 하여 유해 사이트 정보를 수집하고, domain tools, Whois 등 공개된 정보 사이트와 연동을 통해 기존 등록자의 유사 사이트를 추적하여, 형태로 클러스터링을 통해 웹사이트를 범주화하는 방법으로 유해 사이트 도메인을 수집하고 추적하는 멀티채널 도메인 추적기술이다.
있다. 이 시스템은 설문 및 인터넷 검색을 통해 실제 사용되는 비속어 5542개를 수집하였고, w-shingling 알고리즘을 사용하여 비속어를 추출하고 사용빈도 및 비속어의 가중치에 따라 웹페이지의 위험도를 계산하여 유해 사이트를 식별한다[5]. 실시간 크롤링을 이용한 유해 사이트 판별 시스템에서는 유/무해 사이트 정보, 사이트 간의 연관 관계정보 Database를 기준으로 1단계 판별한다.
또 다른 방법으로는 기존의 유해 사이트 수집 방법의 문제를 해결하기 위해 실증 데이터를 기반으로 화이트리스트를 생성하고 생성 알고리즘을 모듈화로 구현하였다. 초기 화이트 데이터베이스에 의해 유해판정을 받은 웹사이트로 후보군을 만들고 각 후보의 자식 중 유해 사이트가 존재하는지 검색한다. 후보의 자식 중 유해 사이트가 존재한다면 아무런 작업 없이 다음 후보로 넘어가고, 존재하지 않는다면 후보를 화이트리스트로 판별 후 화이트 데이터베이스에 저장한다.
후보의 자식 중 유해 사이트가 존재한다면 아무런 작업 없이 다음 후보로 넘어가고, 존재하지 않는다면 후보를 화이트리스트로 판별 후 화이트 데이터베이스에 저장한다. 유해 데이터베이스에 속한 각 웹사이트의 상위 10개 단어를 TF-IDF 벡터화 모델을 통하여 추출하고 사전기반 검색을 통하여 결과가 참이면 유해로 분류하며, 데이터베이스를 확장한다[7]. 성인사이트를 분류하는 방법으로는 웹페이지에서 추출된 이미지들을 Open NSFW를 통해 성인물일 확률을 얻고 벡터화하여 SVM을 통해 해당 웹 페이지가 성인 콘텐츠를 포함하고 있는지를 분류하는 방법이 연구되었다.
이용하였다. 먼저 도메인 추적기를 설계하면서 방대한 수의 웹사이트 및 도메인을 효과적으로 처리하기 위해 클라우드 플랫폼을 활용하였다. 연구에서 활용한 클라우드 플랫폼은 구글 클라우드[12]로 구글의 데이터 센터인프라를 기반으로 스토리지, 네트워킹, 빅데이터, 머신러닝 등의 서비스를 제공하는 글로벌 클라우드이며, 단순 웹사이트에서부터 복잡한 애플리케이션에 이르는 일련의 프로그램을 빌드하기 위한 환경을 제공한다.
먼저 도메인 추적기를 설계하면서 방대한 수의 웹사이트 및 도메인을 효과적으로 처리하기 위해 클라우드 플랫폼을 활용하였다. 연구에서 활용한 클라우드 플랫폼은 구글 클라우드[12]로 구글의 데이터 센터인프라를 기반으로 스토리지, 네트워킹, 빅데이터, 머신러닝 등의 서비스를 제공하는 글로벌 클라우드이며, 단순 웹사이트에서부터 복잡한 애플리케이션에 이르는 일련의 프로그램을 빌드하기 위한 환경을 제공한다. 또한, 웹사이트내의 문자열을 분석하기 위해 Komoran[13], Noir[14] 등의 형태소 분석기를 사용하였다.
Site Extractor는 웹사이트에 접속하고 DOM(Document Object Model)을 추출, 링크와 텍스트를 분석한다. 분석한 내용을 일래스틱서치에저장하고 자식 도메인을 생성하여 새로운 Seed Domain 을 확보한다.
3과 같이 키워드 분류점수를 산정한다. 이후 엘라스틱 서치의 Nori형태소 분석기로 키워드를 추출, 데이터 색인/역색인 기능으로 불법 사이트와 연관 관계를 추출한다.
각 키워드는 앞서 분류된 카테고리와 매핑한다. 즉 본 시스템 아키텍쳐에서 도메인 추적을 위한 알고리즘으로는 TF-IDF와 PageRank알고리즘을 사용하며, 구글 클라우드 플랫폼 문서 분류기를 사용하여 웹사이트를 분류하고, 일래스틱서치 데이터베이스와 파이썬 형태소 분석기 등을 활용하여 문서 키워드를 추출하고, 불법 키워드 색인을 추출하게 된다.
종합적으로는 이와 같은 방법은 OSINT의 범위 내에 포함되며, 이러한 정보를 활용하여 도메인 정보를 추적하고프로파일링한다.
실험은 불법 도메인에 대한 식별이 가능한지 아닌지를확인하는 도메인 분석과 분석된 불법 도메인의 변경 여부를 식별하여 추적하는 도메인 추적 성능에 대해 실험을 진행하였다. 실험 환경은 2.
최근 불법 사이트는 도메인 변경, 폐쇄 후 재개방 등 다양한 방법으로 운영을 지속하고 있다. 제안하는기술은 도메인 주소 패턴 추적, 사이버 범죄 키워드 추적, 레퍼런스 도메인 역추적, OSINT 도메인 정보 추적 등 4가지 추적기술을 사용하여 불법 사이트를 식별하고 불법 사이트의 주소가 변경되는 것을 추적하여 사이버 범죄 예방및 불법 사이트로 인한 사회적 피해를 예방하기 위한 기술이다. 또한, 제안한 방법의 효과를 검증한 결과 도메인 추적률은 90.
대상 데이터
시스템은 GO 모듈과 일래스틱서치, 키바나, 구글 클라우드와 연결되어 있다. 제안하는 시스템 엔트리 포인트는 “DomainTracker”, “KeywordTracker” 모듈을 실행하며 구글 클라우드 플랫폼의 클라우드 스케줄러를 통해 시스템 실행을 제어하고 데이터는 일래스틱서치에 저장, 인터페이스는 키바나를 사용한다.
실험 환경은 2.3GHz 8Core I9 CPU와 16Gbyte RAM이 설치된 노트북 컴퓨터를 활용하였다.
확인된다. 실험에 활용한 초기 시작 도메인은 https://darkgg6.com, https://podo11.com, https:// avsee11.tv 등 3개이며, Fig. 7과 같이 이 3개의 부모 도메인에서 각각 5개, 32개, 3개 등 총 40개의 자식 도메인을 추출하였다.
수집된 도메인을 기반으로 하여 도메인 탐색, 웹사이트분류 모듈을 실행한 결과 도메인 탐색 모듈은 각 웹사이트의 링크를 순서대로 추가하게 되어 단일 프로세스상에서 Fig. 8과 같이 총 1, 717개의 새로운 도메인을 수집하였다.
수집한 도메인에 대해 약 30분간 불법 유해 사이트 여부를 분석한 결과 같이 제안하는 Fig. 9와 같이 시스템은 29개의 웹사이트를 불법 유해 사이트로 식별하였다. 실제 해당 사이트를 접속하여 분석한 결과 시스템이 식별한 불법 유해 사이트가 실제 불법 유해 사이트임을 확인할 수 있었다.
이러한 방법으로 수집한 도메인 100개에 대해 도메인추적 기능을 실험하였다. 실험결과 전체 Fig.
데이터처리
Xiang Tian[10]은 라지스케일 비디오 트래픽에서 불법 도메인을 검출하는 VegaStar 시스템을 제안하였다. 이 시스템은 VegaStar를 사용하여 비디오 트래픽에서 도메인 네임을 추출 후 분석, 불법 도메인을 검출하는 방식으로 5백만 개의 URL을 분석하였다.
이론/모형
본 연구에서는 효과적인 유해도메인 추적을 위해 오픈소스를 이용하였다. 먼저 도메인 추적기를 설계하면서 방대한 수의 웹사이트 및 도메인을 효과적으로 처리하기 위해 클라우드 플랫폼을 활용하였다.
연구에서 활용한 클라우드 플랫폼은 구글 클라우드[12]로 구글의 데이터 센터인프라를 기반으로 스토리지, 네트워킹, 빅데이터, 머신러닝 등의 서비스를 제공하는 글로벌 클라우드이며, 단순 웹사이트에서부터 복잡한 애플리케이션에 이르는 일련의 프로그램을 빌드하기 위한 환경을 제공한다. 또한, 웹사이트내의 문자열을 분석하기 위해 Komoran[13], Noir[14] 등의 형태소 분석기를 사용하였다. Komorane Korean Morphological Analyzer의 약자로 Java로 구현한 한국어 형태소 분석기이며, 파이썬 환경에서 쉽게 사용이 가능하다.
Nori는 루신 프로젝트에서 공식제공하는 한글 형태소 분석기로 일래스틱서치에서 공식적으로 배포되었다. 그리고 자료수집과 관리, 시각화를 위해 ELK[15]를 활용하였다. ELK의 구성 요소인 일래스틱서치(Elasticsearch)는아파치 루씬을 기반으로 하는 검색엔진이며, 정형 및 비정형의 데이터를 위한 분산형 검색 및 분석 엔진을 지원하고뛰어난 검색 능력과 대규모 분산 시스템을 구축할 수 있는기능을 제공한다.
ELK의 또 다른 구성 요소인 키바나(Kibana) 일래스틱서치를 위한 시각화 및 관리 도구로서 실시간 히스토그램, 선 그래프, 파이 차트, 지도 등을 제공하며 사용자가자신의 데이터를 기반으로 사용자 정의한 동적 인포그래픽을 만들 수 있는 캔버스, 위치기반 정보 데이터를 시각화하기 위한 일라스틱 맵 같은 고급 애플리케이션을 지원한다. 개발 언어로는 구글에서 개발한 GO Language[16] 를 사용하였다. GO는 2009년 구글에서 개발한 프로그래밍 언어로 가비지 컬렉션 기능이 있고, 병행성을 지원하는컴파일 언어이다.
또한, 애초에접속이 가능했던 도메인의 변경은 16개로 확인되었다. 도메인 변경을 추적한 방법은 OSINT 방법의 하나인 구글 레퍼런스와 트위터 레퍼런스를 활용하였다. 변경된 도메인 47개 중 변경의 주요 요인은 도메인의 숫자 패턴을 변경한방법이 31건으로 다수를 차지하고 있으며 전체주소를 변경하였거나, VPN을 사용하는 등 기타 방법이 확인되었다.
성능/효과
성인사이트를 분류하는 방법으로는 웹페이지에서 추출된 이미지들을 Open NSFW를 통해 성인물일 확률을 얻고 벡터화하여 SVM을 통해 해당 웹 페이지가 성인 콘텐츠를 포함하고 있는지를 분류하는 방법이 연구되었다. 이 연구는 실험 및 성능 평가를 Precision 및 Recall로서 진행하였으며, 이때 성인 사이트에 대한 분류에 대해서는 88.66%, 84.85%가 일반 웹사이트에 대한 분류에 대해서는 92.86%, 94.77%의 성능을 보였다[8]. Z Liu[9]는 DNS 트래픽의 특성상 데이터가 어느 한 도메인에 몰리는 만큼 불균형을 이룰 수밖에 없어 이러한 불균형 트래픽에서 유해 도메인을 검출하는 방법론을 연구하였다.
있는 웹사이트들을 검출하는 기법을 제안하였다. 이 연구에서는 1년간의 기간 동안 약 44만 개의 웹사이트를 분석하여, 개발된 검출기가 어느 정도 정확성을 가짐을 확인할 수 있었다.
먼저 도메인 식별 여부를 확인한 결과 단순 키워드인 “Adult”로만 분류한 기준으로 30분 동안 100개의 Seed 도메인을 수집하였으며, 그 중 성인사이트로 분류된 개수는 29개로 확인된다. 실험에 활용한 초기 시작 도메인은 https://darkgg6.
9와 같이 시스템은 29개의 웹사이트를 불법 유해 사이트로 식별하였다. 실제 해당 사이트를 접속하여 분석한 결과 시스템이 식별한 불법 유해 사이트가 실제 불법 유해 사이트임을 확인할 수 있었다.
기능을 실험하였다. 실험결과 전체 Fig. 10과 같이 100개의 도메인 중 접속이 가능한 도메인은 42개였으며, 도메인 변경이 감지된 도메인은 47개, 변경이 감지되지 않은 도메인은 19개였다. 이 중 접속이 불가능하였던 58개도메인이 변경된 것은 31개로 확인되었다.
도메인 변경을 추적한 방법은 OSINT 방법의 하나인 구글 레퍼런스와 트위터 레퍼런스를 활용하였다. 변경된 도메인 47개 중 변경의 주요 요인은 도메인의 숫자 패턴을 변경한방법이 31건으로 다수를 차지하고 있으며 전체주소를 변경하였거나, VPN을 사용하는 등 기타 방법이 확인되었다.
실험결과 Table. 1과 같이 100개의 실험 도메인 중 접속이 애초에 불가능하였던 58개의 도메인 중 변경 여부가 확인되지 않은 27개의 도메인을 제외한 73개의 도메인에 대해 변경 여부를 추적할 수 있었던 도메인의 수는 66개 (변경 47개, 변경되지 않음 19개)로 변경 추적률은 수치적으로 90.4%로 확인되었다.
제안하는기술은 도메인 주소 패턴 추적, 사이버 범죄 키워드 추적, 레퍼런스 도메인 역추적, OSINT 도메인 정보 추적 등 4가지 추적기술을 사용하여 불법 사이트를 식별하고 불법 사이트의 주소가 변경되는 것을 추적하여 사이버 범죄 예방및 불법 사이트로 인한 사회적 피해를 예방하기 위한 기술이다. 또한, 제안한 방법의 효과를 검증한 결과 도메인 추적률은 90.4%를 보여 실제 변경된 도메인을 잘 추적하고있음이 확인되었다. 본 논문에서 제안한 기술을 활용하면국가기관 등에서 사이버 범죄를 예방하기 위한 불법 유해사이트 차단의 효과가 증대될 것으로 기대된다.
후속연구
4%를 보여 실제 변경된 도메인을 잘 추적하고있음이 확인되었다. 본 논문에서 제안한 기술을 활용하면국가기관 등에서 사이버 범죄를 예방하기 위한 불법 유해사이트 차단의 효과가 증대될 것으로 기대된다. 향후 본연구를 지속적으로 확장하여 더욱 다양한 형태의 불법 사이트 변경 기술을 분석, 대응할 수 있는 연구를 지속적으로 할 계획이다.
본 논문에서 제안한 기술을 활용하면국가기관 등에서 사이버 범죄를 예방하기 위한 불법 유해사이트 차단의 효과가 증대될 것으로 기대된다. 향후 본연구를 지속적으로 확장하여 더욱 다양한 형태의 불법 사이트 변경 기술을 분석, 대응할 수 있는 연구를 지속적으로 할 계획이다. 또한, 개발한 시스템을 할용하여 장기간지속적인 실험을 통해 개발한 시스템의 한계점을 지속적으로 보완하고, 불법도메인 변경의 유형과 동향을 상시적으로 분석하는 플랫폼을 구축하여 보다 안전한 사이버 세상을 만들기 위해 노력할 것이다.
향후 본연구를 지속적으로 확장하여 더욱 다양한 형태의 불법 사이트 변경 기술을 분석, 대응할 수 있는 연구를 지속적으로 할 계획이다. 또한, 개발한 시스템을 할용하여 장기간지속적인 실험을 통해 개발한 시스템의 한계점을 지속적으로 보완하고, 불법도메인 변경의 유형과 동향을 상시적으로 분석하는 플랫폼을 구축하여 보다 안전한 사이버 세상을 만들기 위해 노력할 것이다.
Unlawful sites, enhanced blockage with blackouts, http://news.knue.ac.kr/news/articleView.html?idxno2197
2019 Internet censorship controversy, https://zdnet.co.kr/view/?no20190214091551
Server Name Indication, https://namu.wiki/w/SNI
Kim Jong Woo, Lee Sun Jeong, "Developing a Connection Restrictions Filtering System for Websites based on Swear Words Extraction", Journal of KIISE, Vol. 46, No. 12, pp. 1272-1278, 2019, 10.5626/JOK.2019.46.12.1272
SukYoon Kang, JooYoung Cho, GaHyun Joo, YountGu Lee, "Harmful Website Detection System Using Real-time Web Crawling", Korea Computer Congress 2018, pp. 1904-1906, Jul. 2018.
BoungJin Kim, SangJun Lee, "Improvement of Methods for Discriminating Harmful Web Sites by using Link Relations between Web Sites and Constructing Whitelist", KIISE Transactions on Computing Practices, Vol. 25, No. 10, pp. 506-510, 2019, 10.5626/KTCP.2019.25.10.506
KwangSu Shin, JinHa Song, HongHo Nang, "An Adult Web Site Classification Method using Analysis of Multiple Images in Web Page", Korea Computer Congress 2017, pp. 868-870, Dec, 2017.
LIU, Zhenyan, et al. An imbalanced malicious domains detection method based on passive dns traffic analysis. Security and Communication Networks, 2018, 2018.
TIAN, Xiang, et al. VegaStar: An Illegal Domain Detection System on Large-Scale Video Traffic. In: 2018 17th IEEE International Conference On Trust, Security And Privacy In Computing And Communications/12th IEEE International Conference On Big Data Science And Engineering (TrustCom/BigDataSE). IEEE, 2018. p. 783-789.
SOSKA, Kyle; CHRISTIN, Nicolas. Automatically detecting vulnerable websites before they turn malicious. In: 23rd {USENIX} Security Symposium ({USENIX} Security 14). 2014. p. 625-640.
Google Cloud Platform, https://console.cloud.google.com/getting-started?hlko&pli1
KOMORAN, https://github.com/shineware/KOMORAN
Korean Analysis Plugin, https://www.elastic.co/guide/en/elasticsearch/plugins/current/analysis-nori.html
ELK, https://www.elastic.co/kr/
GO, https://golang.org/
TF-IDF, https://ko.wikipedia.org/wiki/Tf-idf
이 논문을 인용한 문헌
활용도 분석정보
상세보기
다운로드
내보내기
활용도 Top5 논문
해당 논문의 주제분야에서 활용도가 높은 상위 5개 콘텐츠를 보여줍니다. 더보기 버튼을 클릭하시면 더 많은 관련자료를 살펴볼 수 있습니다.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.