[논문]Splunk 플랫폼을 활용한 유해 정보 탐지를 위한 빅데이터 분석 시스템 설계

이협건; 김영운; 김기영; 최종석

doi:10.17661/jkiiect.2018.11.1.76

Splunk 플랫폼을 활용한 유해 정보 탐지를 위한 빅데이터 분석 시스템 설계
Design of Splunk Platform based Big Data Analysis System for Objectionable Information Detection 원문보기

한국정보전자통신기술학회논문지 = Journal of Korea institute of information, electronics, and communication technology, v.11 no.1, 2018년, pp.76 - 81

이협건 (Department of Data Analysis, Seoul Gangseo Campus of Korea Polytech) , 김영운 (Department of Data Analysis, Seoil University) , 김기영 (Department of Computer, Soongsil University) , 최종석 (Department of Computer, Soongsil University)

초록
AI-Helper

미래 경제 성장 동력으로 부상하고 있는 사물인터넷은 이미 생활과 밀접한 분야에서는 도입이 활발하게 이루어지고 있으나, 잠재된 보안위협은 여전히 잔존하고 있다. 특히 인터넷 상의 유해 정보는 스마트홈 및 스마트시티의 활성화로 인해 폭발적으로 설치된 CCTV에 할당된 IP 정보 및 심지어 접속 포트 번호들이 포털 검색 결과 및 페이스북, 트위터와 같은 소셜 미디어 등에 공개되어 간단한 툴로도 보다 쉽게 해킹이 가능하다. 사용자들이 많이 사용하는 포털 검색 데이터 및 소셜 미디어 데이터의 보안취약점 및 불법 사이트 정보들을 데이터 분석하여, 보안취약성 같은 위험 요소가 내포된 데이터 및 사회적 문제를 야기하는 불법 사이트에 대한 대응을 신속하게 수행할 수 있게 지원하는 빅데이터 분석 시스템이 필요하다. 본 논문에서는 빅데이터 분석 시스템 설계를 위해 하둡 기반 빅데이터 분석 시스템과 스파크 기반 빅데이터 분석 시스템 연구를 통해 요구사항을 도출하여 요구사항에 맞게 Splunk 플랫폼을 활용한 유해 정보 탐지를 위한 빅데이터 분석 시스템을 설계하였다.

Abstract ▼ AI-Helper

The Internet of Things (IoT), which is emerging as a future economic growth engine, has been actively introduced in areas close to our daily lives. However, there are still IoT security threats that need to be resolved. In particular, with the spread of smart homes and smart cities, an explosive amount of closed-circuit televisions (CCTVs) have been installed. The Internet protocol (IP) information and even port numbers assigned to CCTVs are open to the public via search engines of web portals or on social media platforms, such as Facebook and Twitter; even with simple tools these pieces of information can be easily hacked. For this reason, a big-data analytics system is needed, capable of supporting quick responses against data, that can potentially contain risk factors to security or illegal websites that may cause social problems, by assisting in analyzing data collected by search engines and social media platforms, frequently utilized by Internet users, as well as data on illegal websites.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서는 Splunk 플랫폼을 활용한 유해 정보 탐지를 위한 빅데이터 분석 시스템 설계하였다. 제안하는 시스템은 인터넷 및 IT 기기의 기술이 발달함에 따라 증가되고 있는 보안취약성과 같은 위험 요소가 내포된 데이터 및 불법 사이트 데이터와 같은 유해 정보를 포털 사이트와 소셜 미디어로부터 빅데이터를 수집한 뒤, 그 데이터들을 빅데이터 분석하여 발견된 보안취약점 및 불법 사이트 정보에 대해 시각화를 수행한다.
이에 본 연구에서는 빅데이터 솔루션 중 세계 점유율 1위인 Splunk Enterprise를 이용하여 유해 정보 탐지를 위한 빅데이터 분석 시스템을 설계한다. 제안하는 빅데이터 분석 시스템은 인터넷 및 IT 기기의 기술이 발달함에 따라 증가되고 있는 보안취약성과 같은 위험 요소가 내포된 데이터 및 불법 사이트 데이터와 같은 유해 정보를 포털 사이트와 소셜 미디어로부터 빅데이터를 수집한 뒤, 그 데이터들을 빅데이터 분석하여 발견된 보안취약점 및 불법 사이트 정보에 대해 시각화를 수행한다.

가설 설정

Splunk Forwarder는 Collector Layer의 Data Link API로 전달받은 수집된 데이터를 Splunk Indexer에 적합한 데이터 형태로 변환하여 저장하는 역할을 수행한다. 제안하는 빅데이터 분석 시스템에서 포털 데이터와 소셜 미디어 데이터를 Splunk Forwarder를 이용하여 수집하지 않고 별도의 Collector Layer를 이용하여 구현한 이유는 Splunk는 Crawling을 지원하지 않으며, 기존 구축된 시스템에 수집 모듈을 설치하여 수집하는 방식이기 때문이다. Splunk Indexer는 Splunk가 데이터 분석을 수행하기 위한 데이터가 저장되는 저장소이다.

제안 방법

Splunk Search Head는 Splunk에서 데이터 분석을 수행하기 위해 사용되는 모듈로 Splunk에서 지원하는 SPL(Search Processing Language, 검색 처리 언어)를 이용하여 데이터 분석을 수행한다. Splunk의 처리 속도는 SPL의 작성 방식에 따라 성능 차이가 크게 발생하기 때문에 유해 정보 탐지를 위한 최적화된 SPL을 개발한다. 또한 Splunk의 처리 속도는 Splunk의 3가지 주요 검색 패널인 Source, Sourcetype과 Host에 따라 시스템을 적절하게 분리하여 사용해야만 요구하는 속도가 나타난다.
데이터 처리율은 수집된 유해 데이터를 수집하는 Collector Layer에서부터 Splunk Layer까지 빅데이터 처리과정을 측정한다. [표 1]은 데이터 처리율에 사용되는 변수를 나타낸다.
또한 분석된 빅데이터를 기반으로 구현‘한 시각화 프레임워크를 이용해 시각화를 수행한다.
본 논문에서의 성능평가는 제안하는 시스템이 데이터 처리율 및 타 시스템과의 연계 호환성에 적합한지 타당성 분석을 수행한다.
본 장에서는 기존에 사용되고 있는 하둡 기반의 빅데이터 분석 시스템과 스파크 기반 빅데이터 분석 시스템에 대해 살펴보고, 이 결과를 기반으로 빅데이터 분석 시스템에 필요한 요구사항을 도출한다.
Splunk Layer는 Splunk Enterprise를 이용하여 빅데이터 분석하는 영역으로 빅데이터 분석 기능과 외부 시스템 연동 기능을 수행한다. 빅데이터 분석 기능은 Splunk의 주요 모듈인 Splunk Forwarder, Splunk Indexer, Splunk Search Head를 이용하여 수행한다. 외부 시스템 연동 기능은 Splunk에서 제공하는 JAVA API를 이용하여 외부 시스템인 User Interface Layer와 연동하며 REST 방식을 통해 데이터 전달을 수행한다.
CCTV 해킹은 특정 사이트를 통해 해킹된 CCTV 내부의 영상이 공개되어, 개인 사생활 및 정보 보안에 큰 위협이 되고 있다. 뿐만 아니라, 해킹된 CCTV들은 디도스 공격하는 악성 좀비 PC 역할도 수행하였다. 이러한 CCTV 해킹은 구글과 같은 포털의 검색 데이터에서 CCTV의 IP 및 포트 정보 등 주요 정보 정보가 노출되어 간단한 프로그램으로 쉽게 해킹이 가능했다.
제안하는 빅데이터 분석 시스템은 앞서 설명한 빅데이터 분석 시스템의 요구사항에 맞춰 설계하며, 개발한 빅데이터 수집 알고리즘이 적용된 Crawling Manager를 이용하여 포털 사이트 및 소셜 미디어의 빅데이터를 수집하고, 그 수집된 빅데이터를 Splunk를 이용하여 빅데이터를 분석한다. 또한 분석된 빅데이터를 기반으로 구현‘한 시각화 프레임워크를 이용해 시각화를 수행한다.
이에 본 연구에서는 빅데이터 솔루션 중 세계 점유율 1위인 Splunk Enterprise를 이용하여 유해 정보 탐지를 위한 빅데이터 분석 시스템을 설계한다. 제안하는 빅데이터 분석 시스템은 인터넷 및 IT 기기의 기술이 발달함에 따라 증가되고 있는 보안취약성과 같은 위험 요소가 내포된 데이터 및 불법 사이트 데이터와 같은 유해 정보를 포털 사이트와 소셜 미디어로부터 빅데이터를 수집한 뒤, 그 데이터들을 빅데이터 분석하여 발견된 보안취약점 및 불법 사이트 정보에 대해 시각화를 수행한다. 제안하는 빅데이터 분석 시스템으로부터 생성된 시각화된 정보는 방송통신심의위원회, 사이버경찰청, 한국인터넷진흥원 및 관련 기업에게 활용되어 즉각적인 대응을 할 수 있도록 지원한다.
또한 분석된 빅데이터를 기반으로 구현‘한 시각화 프레임워크를 이용해 시각화를 수행한다. 제안하는 빅데이터 분석 시스템은 크게 Collector Layer, Splunk Layer와 User Interface Layer로 구성된다. [그림 1]은 제안하는 빅데이터 분석시스템의 구조를 나타낸다.
본 논문에서는 Splunk 플랫폼을 활용한 유해 정보 탐지를 위한 빅데이터 분석 시스템 설계하였다. 제안하는 시스템은 인터넷 및 IT 기기의 기술이 발달함에 따라 증가되고 있는 보안취약성과 같은 위험 요소가 내포된 데이터 및 불법 사이트 데이터와 같은 유해 정보를 포털 사이트와 소셜 미디어로부터 빅데이터를 수집한 뒤, 그 데이터들을 빅데이터 분석하여 발견된 보안취약점 및 불법 사이트 정보에 대해 시각화를 수행한다. 제안하는 빅데이터 분석 시스템으로부터 생성된 시각화된 정보는 방송통신심의위원회, 사이버경찰청, 한국인터넷진흥원 및 관련 기업에게 활용되어 즉각적인 대응을 할 수 있도록 지원한다.
타 시스템과의 연계 타당성은 앞서 설계한 Collector Layer와 Splunk Layer의 연계 타당성과 Splunk Layer와 User Interface Layer의 연계 타당성을 분석한다.

이론/모형

Collector Layer는 분석에 필요한 포털 사이트 및 소셜 미디어 데이터를 수집하는 영역으로 데이터 수집기능과 수집된 데이터 전달 기능을 수행한다. 데이터수집 기능은 연구 개발한 수집 알고리즘이 적용된 Web Crawling Agent와 Social Crawling Agent를 이용하여 수행한다. Web Crawling Agent는 포털 사이트의 데이터를 수집하는 역할을 수행하며, Social Crawling Agent는 페이스북의 데이터를 수집하는 역할을 수행한다.

성능/효과

1 감소하였다. 그러나 동시에 처리되는 데이터 수가 약 10,000개까지 증가되어도 데이터 처리율은 약 0.8로 데이터 처리율이 크게 감소하지 않았다. 따라서 빅데이터 분석 시스템의 특성상 많은 데이터를 수집, 저장, 분석함에 있어 제안하는 시스템은 데이터 처리율에 있어 적합함을 알 수 있다.
8로 데이터 처리율이 크게 감소하지 않았다. 따라서 빅데이터 분석 시스템의 특성상 많은 데이터를 수집, 저장, 분석함에 있어 제안하는 시스템은 데이터 처리율에 있어 적합함을 알 수 있다.
분석 결과, 데이터 처리율은 동시에 처리되는 데이터가 약 1,000개인 경우에는 0.9로 빅데이터 처리에 상당히 높은 데이터 처리율을 보였다. 또한 동시 처리되는 데이터가 약 1,600개부터 약 0.
셋째, 빅데이터 분석 시스템은 빠른 데이터 분석이 필요한 부분에 선택적인 실시간 분석 기능이 적용되어야 한다. 실시간 빅데이터 분석은 많은 인프라 환경 구축 비용이 발생하기 때문에 메모리를 기반으로한 빅데이터 분석이 필요한 경우에만 사용되어야만 한다.
첫째, 빅데이터 분석 시스템들이 처리하는 데이터의 양과 서버의 규모는 기존의 분석 시스템들과는 달리 그 규모가 매우 크다. 또한 빅데이터 분석 시스템의 대부분의 핵심적인 사항들은 비용적인 측면에서의 효율성, 지속적으로 증가하는 데이터들의 수용, 빈번하게 발생하는 장애에 대한 대처와 인프라 관리의 편리성이 요구된다.

후속연구

제안하는 빅데이터 분석 시스템으로부터 생성된 시각화된 정보는 방송통신심의위원회, 사이버경찰청, 한국인터넷진흥원 및 관련 기업에게 활용되어 즉각적인 대응을 할 수 있도록 지원한다. 향후 본 설계를 기반으로 시스템이 구현이 필요하다.

질의응답

핵심어	질문	논문에서 추출한 답변
	Collector Layer이 수행하는 기능은?	Collector Layer는 분석에 필요한 포털 사이트 및 소셜 미디어 데이터를 수집하는 영역으로 데이터 수집기능과 수집된 데이터 전달 기능을 수행한다. 데이터수집 기능은 연구 개발한 수집 알고리즘이 적용된 Web Crawling Agent와 Social Crawling Agent를 이용하여 수행한다.
	빅데이터 분석 시스템이 갖추어야 할 사항 중 데이터의 양과 관련된 부분은?	첫째, 빅데이터 분석 시스템들이 처리하는 데이터의 양과 서버의 규모는 기존의 분석 시스템들과는 달리 그 규모가 매우 크다. 또한 빅데이터 분석 시스템의 대부분의 핵심적인 사항들은 비용적인 측면에서의 효율성, 지속적으로 증가하는 데이터들의 수용, 빈번하게 발생하는 장애에 대한 대처와 인프라 관리의 편리성이 요구된다.
	스파크 기반 빅데이터 분석 시스템의 장점은?	스파크 기반 빅데이터 분석 시스템의 장점은 메모리를 활용하여 빅데이터 저장·처리를 수행하기 때문에 맵 리듀스를 활용하는 하둡 기반 빅데이터 분석 시스템에 비해 빅데이터 처리 성능은 약 30배 이상 차이난다. 스파크 기반 빅데이터 분석 시스템의 단점은 빅데이터를 분석하기 위해 원천 데이터를 RDD로 변경하여 메모리로 데이터를 처리하기 때문에 빅데이터 분석을 위해 인프라 구축하는 발생되는 비용이 매우 크다.

저자의 다른 논문 :

LOADING...

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증