빅데이터는 오늘날 가장 각광받고 있는 데이터 수집 및 분석기술의 경향으로, 대량의 비정형 데이터 분석을 요구하는 다양한 분야에 접목되어 효용성을 인정받고 있다. 네트워크 트래픽 분석 역시 대량의 비정형 데이터를 다루는 분야로, 빅데이터 접목시 그 효과가 극대화될 수 있다. 따라서 본 논문에서는 고도의 보안이 요구되는 군 C4I망과 같은 내부망 환경의 침해사고 및 이상행위를 실시간으로 탐지하기 위한 빅데이터 기반의 네트워크 트래픽 분석 플랫폼(RENTAP)을 소개한다. 빅데이터 분석 지원을 위해 최근 각광받고 있는 오픈소스 솔루션들을 대상으로 비교 분석을 수행하였으며, 선정된 솔루션을 기반으로 고안된 최종 설계에 대해서 설명한다.
빅데이터는 오늘날 가장 각광받고 있는 데이터 수집 및 분석기술의 경향으로, 대량의 비정형 데이터 분석을 요구하는 다양한 분야에 접목되어 효용성을 인정받고 있다. 네트워크 트래픽 분석 역시 대량의 비정형 데이터를 다루는 분야로, 빅데이터 접목시 그 효과가 극대화될 수 있다. 따라서 본 논문에서는 고도의 보안이 요구되는 군 C4I망과 같은 내부망 환경의 침해사고 및 이상행위를 실시간으로 탐지하기 위한 빅데이터 기반의 네트워크 트래픽 분석 플랫폼(RENTAP)을 소개한다. 빅데이터 분석 지원을 위해 최근 각광받고 있는 오픈소스 솔루션들을 대상으로 비교 분석을 수행하였으며, 선정된 솔루션을 기반으로 고안된 최종 설계에 대해서 설명한다.
Big data is one of the most spotlighted technological trends in these days, enabling new methods to handle huge volume of complicated data for a broad range of applications. Real-time network traffic analysis essentially deals with big data, which is comprised of different types of log data from var...
Big data is one of the most spotlighted technological trends in these days, enabling new methods to handle huge volume of complicated data for a broad range of applications. Real-time network traffic analysis essentially deals with big data, which is comprised of different types of log data from various sensors. To tackle this problem, in this paper, we devise a big data based platform, RENTAP, to detect and analyse malicious network traffic. Focused on military network environment such as closed network for C4I systems, leading big data based solutions are evaluated to verify which combination of the solutions is the best design for network traffic analysis platform. Based on the selected solutions, we provide detailed functional design of the suggested platform.
Big data is one of the most spotlighted technological trends in these days, enabling new methods to handle huge volume of complicated data for a broad range of applications. Real-time network traffic analysis essentially deals with big data, which is comprised of different types of log data from various sensors. To tackle this problem, in this paper, we devise a big data based platform, RENTAP, to detect and analyse malicious network traffic. Focused on military network environment such as closed network for C4I systems, leading big data based solutions are evaluated to verify which combination of the solutions is the best design for network traffic analysis platform. Based on the selected solutions, we provide detailed functional design of the suggested platform.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 논문에서는 군 내부 네트워크를 실시간으로 점검하고 감시하기 위한 빅데이터 기반의 실시간 네트워크 트래픽 분석 플랫폼, RENTAP의 특성 및 설계과정에 대해 소개 하였다. 플랫폼 설계 결과는 시제 구축에 적용되어 현재 시범운용을 실시중이다.
본 논문에서는 이러한 한계점을 보완하여 군 네트워크 환경에 맞게 개발된 실시간 네트워크 트래픽 분석 플랫폼(RENTAP) 및 그 구조에 대하여 소개한다. 구체적으로는, 먼저 주요 빅데이터 처리 솔루션에 대하여 소개하고, 플랫폼 개발에 적용된 주요 요구사항에 대하여 기술한다.
특히 최근에는 빅데이터 데이터 저장 및 분석을 지원하는 다양한 오픈소스 솔루션이 출시됨에 따라 이를 활용하도록 하였다. 본 절에서는 RENTAP 설계 시 고려된 다양한 빅데이터 기반 솔루션을 소개하고 각각의 특성및 장점을 소개한다.
가설 설정
∙ 기존 군 정보보호장비를 그대로 활용하면서도 정보보호 능력을 강화할 수 있다.
∙ 내부망 침해사고 발생시, 통신사실에 대한 로그의 전수 확보가 가능함에 따라 빠르고 정확한 분석이 가능하다.
제안 방법
다음으로, 빅데이터 솔루션들 간의 성능비교 및 선정과정에 대하여 기술한다. 그리고 마지막으로 RENTAP의 최종설계 및 개발결과를 소개한다.
데이터 삭제 성능의 경우 평가 요소 중 상대적으로 중요도는 떨어지지만 유지보수를 위한 필수기능이기 때문에 참고 수준에서 성능비교를 수행하였다. [그림 1.
데이터 입력 비교는 대용량 로그를 지속적으로 저장해야 하는 구축 시스템의 특성상 성능 비교시 가장 중요한 평가요소라고 볼 수 있다. 데이터 입력 비교는 100건의 로그 데이터부터 10,000,000건에 이르는 로그 데이터를 입력받아 처리하도록 하였다. [그림 1.
데이터 출력 역시 데이터 입력과 함께 구축 시스템의 주요 수행 작업 중 하나로서 중요한 평가요소라고할 수 있다. 데이터 출력 비교는 구축 시스템 특성상 빈번하게 사용되는 범위(Range) 검색 질의를 통해 전체 입력 데이터를 출력(Fetch)하는 형태의 작업을 수행하는 방식으로 수행하였다. 단, 100,000건 이상의 경우, 소요시간을 감안하여 출력 데이터를 100,000건으로 한정하여 진행하였다.
특히, Lucene/Solr는 1,000,000건 이상의 성능 비교에서 모두 수위를 차지하여 대용량 데이터를 빠르게 처리하는데 강점이 있음을 보여준다. 따라서 RENTAP 시스템 설계에는 Lucene/Solr를 적용하기로 결정하였으며 RENTAP의 시스템 설계는 해당 솔루션을 중심으로 수행하였다.
선정된 솔루션을 기반으로 시스템 설계를 수행하였다. 앞서 분석한 요구사항을 모두 반영할 수 있도록 설계를 수행하였으며, 담당 기능을 기준으로 소프트웨어 모듈별로 나누어 설계를 수행하였다.
선정된 솔루션을 기반으로 시스템 설계를 수행하였다. 앞서 분석한 요구사항을 모두 반영할 수 있도록 설계를 수행하였으며, 담당 기능을 기준으로 소프트웨어 모듈별로 나누어 설계를 수행하였다. 소프트웨어 모듈은 크게 탐지 모듈, 수집모듈, 분석모듈, 전시모듈로 구분되며, 각각의 모듈 간 데이터 흐름은 다음 다이어그램 [그림 2]와 같다.
위에서 알아본 빅데이터 솔루션들 중, 구축 시스템에 가장 적합한 솔루션을 선정하기 위하여 비교·분석을 수행하였다.
이벤트 분석 모듈은 필요시 수집모듈을 통해 로그 조회를 수행하여 미리 정의된 침해사고 이벤트 발생여부를 체크한다. 이벤트 분석 모듈은 미리 정의된 룰 이외에도 정규표현식 등을 통해 사용자가 구체적인 룰을 추가할 수 있도록 하였으며, 위험평가 모듈 역시 이벤트별 위험도를 사용자가 정의할 수 있게 하여 보호대상 네트워크 상황에 맞는 분석이 가능하게끔 설계하였다.
45초). 이에 따라 중요 평가요소인 입력성능에서 낮은 성능을 보여준 HBase는 선정 솔루션에서 제외하고 남은 두 솔루션으로 나머지 성능비교를 진행하였다.
31 버전을 사용하였다. 저장 데이터는 JSON 형식으로 [표 2]의 예시와 같이 필드를 지정하고 임의의 값으로 설정한 로그 파일(CSV 형식 텍스트 파일)로부터 입력을 받도록 하였다.
대상 데이터
데이터 출력 비교는 구축 시스템 특성상 빈번하게 사용되는 범위(Range) 검색 질의를 통해 전체 입력 데이터를 출력(Fetch)하는 형태의 작업을 수행하는 방식으로 수행하였다. 단, 100,000건 이상의 경우, 소요시간을 감안하여 출력 데이터를 100,000건으로 한정하여 진행하였다. [그림 1.
성능/효과
우선 100,000건 이하에서는 MongoDB 의 성능이 가장 뛰어남을 확인할 수 있으나 대용량이라고 볼 수 있는 1,000,000건 부터는 Lucene/Solr의 성능이 더 우수함을 확인할 수 있다. 10,000건을 제외하면 MongoDB와 Lucene에 비교하여 HBase/Hadoop의 입력성능이 가장 떨어짐을 확인할 수 있다. 특히, 저용량에서의 성능이 다른 두 솔루션에 비해 떨어지며 이는 시간축을 고려할 때, 평시(지속적인 저용량 입력) 환경에서 타 솔루션에 비해 매우 불리할 것으로 예상된다.
RENTAP의 설계를 위해 다양한 요구사항들이 고려되었으며, 최종적으로 군 네트워크 관리자 및 정보 보호 실무자 등의 의견을 수렴하여 개발에 적용될 주요 요구사항을 도출하였다.
상기에 소개한 설계를 바탕으로 RENTAP 시스템을 구현하였으며, 시범운용결과, 실제 기존 방화벽 및 침입탐지시스템만 적용한 경우와 비교하여 다양한 공격행위에 대한 효과적인 탐지가 가능함을 확인하였다. 특히, 다음과 같은 시나리오의 공격에 대한 탐지의 경우, RENTAP을 통한 탐지가 유리하다.
세 솔루션을 선정하여 비교한 결과, 전반적으로 구축 시스템에 적용하기에 가장 적합한 성능을 보여주는 것은 Lucene/Solr라고 볼 수 있다. 특히, Lucene/Solr는 1,000,000건 이상의 성능 비교에서 모두 수위를 차지하여 대용량 데이터를 빠르게 처리하는데 강점이 있음을 보여준다.
(가)]을 통해 세 솔루션의 데이터 입력 성능을 확인할 수 있다. 우선 100,000건 이하에서는 MongoDB 의 성능이 가장 뛰어남을 확인할 수 있으나 대용량이라고 볼 수 있는 1,000,000건 부터는 Lucene/Solr의 성능이 더 우수함을 확인할 수 있다. 10,000건을 제외하면 MongoDB와 Lucene에 비교하여 HBase/Hadoop의 입력성능이 가장 떨어짐을 확인할 수 있다.
위와 같이 요구사항을 종합한 결과, 구축 시스템은 다양한 형식을 지원하고 대용량 데이터에 대한 실시간 처리 기능이 탑재된 빅데이터 기반 플랫폼의 형태로 구축하는 것이 타당하다는 결론을 얻게 되었다. 특히 최근에는 빅데이터 데이터 저장 및 분석을 지원하는 다양한 오픈소스 솔루션이 출시됨에 따라 이를 활용하도록 하였다.
세 솔루션을 선정하여 비교한 결과, 전반적으로 구축 시스템에 적용하기에 가장 적합한 성능을 보여주는 것은 Lucene/Solr라고 볼 수 있다. 특히, Lucene/Solr는 1,000,000건 이상의 성능 비교에서 모두 수위를 차지하여 대용량 데이터를 빠르게 처리하는데 강점이 있음을 보여준다. 따라서 RENTAP 시스템 설계에는 Lucene/Solr를 적용하기로 결정하였으며 RENTAP의 시스템 설계는 해당 솔루션을 중심으로 수행하였다.
후속연구
군 정보보호 분야에서 빅데이터 활용은 이제 시작에 불과한 단계라고 볼 수 있다. 따라서 RENTAP의 사례를 참고하여 향후 다른 국방정보체계 구축 시 빅데이터 기술을 적용한다면 다양한 시너지 효과가 있을 것으로 기대된다.
이러한 군 네트워크의 특수성 때문에, 군 내부의 모든 단말의 상태 및 발생 트래픽의 수집이 가능하다. 따라서 이러한 트래픽을 전수 수집하여 대용량 로그를 만들고 이에 대해 실시간으로 처리 및 분석할 수 있는 기술이 있다면, 군 네트워크 내부에 침입한 사이버 공격에 대한 탐지율을 극대화할 수 있을 것이다.
따라서 구축 시스템은 적게는 기가바이트에서 많게는 테라바이트급에 이르는 데이터를 지속적으로 저장하고 분석할 수 있어야 한다. 또한, 최대한 다양한 데이터를 분석에 활용할 수 있게끔 다양한 데이터 형식을 지원하는 유연한 파일 포맷을 사용해야 할 것이다.
기존의 보안장비 및 소프트웨어에 대한 지원을 통해 호환성 및 확장성을 지원해야 한다. 특히 지원 로그형태 및 프로토콜 사용 간 표준 기술의 적극적인 활용을 통해 호환성을 확보해야 할 것이다. 저장되는 로그 정보의 상세를 정보보호와 관련된 항목으로 제한하여 과도한 사생활 침해의 여지가 없어야 한다.
[6]의 경우, 클라우드화와 이에 따른 대용량 로그에 대한 관심이 높아짐에 따라 빅데이터 솔루션(Hadoop)을 적용한 대용량 로그수집 시스템의 구조를 처음으로 제안하였다. 하지만, 해당 연구의 경우, 로그수집구조 제시에 중점을 두어 로그 분석을 위한 검색 기능에 대한 고려가 없는 점, 적용 가능한 다른 빅데이터 솔루션과의 비교분석이 이루어지지 않았다는 점이 한계로 지적될 수 있다. 이후 역시 Hadoop 솔루션을 활용한 시스템 상태 정보 수집 구조에 관한 연구[7]는 있었으나, 트래픽 로그에 대한 전수수집 및 분석 구조에 대하서는 이제까지 소개된 바가 거의 없다.
질의응답
핵심어
질문
논문에서 추출한 답변
HBase는 무엇인가?
HBase [9]는 ASF(Apache Software Foundation)의 지원을 받아 개발된 오픈소스 NoSQL 솔루션이다. HBase는 구글의 분산-클러스터링 구조 데이터베이스인 BigTable을 모델로 하여 개발되었으며, ASF의 지원을 받아 개발된 분산파일 처리 솔루션인 Hadoop [10]을 기반으로 하여 구동된다.
MongoDB는 무엇을 지원하는가?
현재 빠른 시장 선점을 통해 NoSQL 분야 점유율 1위에 올라있다. 자체 개발 파일 포멧인 BSON(Binary JSON)을 통해 데이터를 저장하고 관리하는 것이 특징이며, 이를 통해 자유로운 스키마 설정을 지원한다. 자체적으로 Sharding을 통한 분산파일 처리 및 클러스터링을 지원하고 분산-클러스터링 구조에 적합한 정합 및 정렬 기능인 Map-Reduce 기능 역시 지원한다. C++로 개발되었으며 Windows, Linux, Solaris 등 다양한 운영체제를 지원한다.
HBase는 무엇을 모델로 하여 개발되었는가?
HBase [9]는 ASF(Apache Software Foundation)의 지원을 받아 개발된 오픈소스 NoSQL 솔루션이다. HBase는 구글의 분산-클러스터링 구조 데이터베이스인 BigTable을 모델로 하여 개발되었으며, ASF의 지원을 받아 개발된 분산파일 처리 솔루션인 Hadoop [10]을 기반으로 하여 구동된다. 따라서 HBase는 기본적으로 분산-클러스터링 구조 및 Map-Reduce 기능을 지원하며 이러한 구조에 가장 최적화된 솔루션이라고 볼 수 있다.
참고문헌 (12)
A, Oliner, A. Ganapathi, and W Xu, "Advances and challenges in log analysis," ACM Queue, vol. 9, no. 12, pp. 30, Dec. 2011.
장희진, 이동환, 박찬일, 윤호상, "베이지안 네트워크를 이용한 내부자 사이버 위협 예보 시스템," 한국군사과학기술학회 종합학술대회 논문집, pp. 470-473, 6월, 2012.
C. Taylor and J. Alves-Foss, "NATE; Network analysis of anomalous traffic events, a low-cost approach," Proceedings of the 2001 ACM Workshop on New Security Paradigms, pp. 89-96 Sep. 2001.
P. Barford, J. Kline, D. Plonka, and A. Ron, "A signal analysis of network traffic anomalies," Proceedings of the 2nd ACM SIGCOMM Workshop on Internet Measurement. pp. 71-82, Nov. 2002.
C. Livadas, B. Walsh, D. Lapsely, and W. T. Strayer, "Using machine learning techniques to identify botnet traffic," Proceedings of the 31st IEEE Conference on Local Computer Networks, pp. 967-974, Nov. 2006.
A. Rabkin and R. Katz, "Chukwa: A systam for reliable large-scale log collection," Proceedings of the 24th USENIX International Conference on Large Installation System Administration, pp.1-15, Nov. 2010
M. S. Rehman, M. Hammoud, and M. F. Sakr, "VOtus: A flexible and scalable monitoring framework for virtualized clusters," (Poster Paper) Proceedings of the 3rd IEEE International Conference on Cloud Computing and Science, Dec. 2011.
Introduction to MongoDB, http://www.mongodb.org/about/introduction
※ AI-Helper는 부적절한 답변을 할 수 있습니다.