[논문]머신러닝 기반 보안데이터 분석 연구

이식; 김동훈; 조영훈; 명준우; 문다민; 이재구; 윤명근

머신러닝 기반 보안데이터 분석 연구 원문보기

이식 (국민대학교 컴퓨터공학과) , 김동훈 (국민대학교 컴퓨터공학과) , 조영훈 (국민대학교 컴퓨터공학과) , 명준우 (국민대학교 컴퓨터공학과) , 문다민 (국민대학교 컴퓨터공학과) , 이재구 (국민대학교 컴퓨터공학과) , 윤명근 (국민대학교 컴퓨터공학과)

최근 머신러닝 기술이 비약적으로 발전하고 있다. 하드웨어 성능이 향상되고 머신러닝 활용 도구가 오픈소스로 사용 편리하게 개발되어 대중화됨으로써 보안데이터 분석 분야에서도 머신러닝을 이용한 기술 개발이 활발히 진행되고 있다. 본 논문에서는 보안 분야의 악성코드 데이터와 보안관제 로그 데이터를 주요 대상으로 머신러닝 기술을 적용할 때 고려되어야 할 기술적 사항들과 최신 연구 동향, 데이터 셋 특징, 그리고 머신러닝 기반의 보안데이터 분석 기술의 기대 효과 및 현재 기술의 한계점 등을 다루도록 한다.

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서는 보안데이터 중 악성코드와 보안관제 로그 분석을 위하여 머신러닝과 딥러닝을 이용하는 최근 연구 동향과 국내외 주요 데이터 분석대회 동향을 소개했다. 보안데이터 분석은 학문적으로나 실용적으로 사이버보안에 있어서 중요한 영역이었으며, 인공지능 기술이 결합 되었을 때 가장 크게 발전할 수 있는 영역이기도 하다.
본 논문에서는 최근 머신러닝 기술을 이용한 보안데 이터 분석 분야의 연구 동향을 소개한다. 주요 연구 논문과 보안데이터 분석 대회를 소개한다.
머신러닝을 데이터 분석 기술로서 사용할 때는 머신 러닝 알고리즘 및 모델 최적화 기술만큼이나 데이터의 특성을 분석하는 것이 중요하다. 본 논문에서는 최근 악성코드 데이터의 특징을 소개하고 이러한 특징이 데이터 분석에 어떤 영향을 미치는지 살펴본다.
본 논문에서는 최근 머신러닝 기술을 이용한 보안데 이터 분석 분야의 연구 동향을 소개한다. 주요 연구 논문과 보안데이터 분석 대회를 소개한다. 그리고 주요 머신러닝 알고리즘과 보안데이터 분석에서 이용할 때의 주요 고려사항들을 다룬다.

제안 방법

주요 연구 논문과 보안데이터 분석 대회를 소개한다. 그리고 주요 머신러닝 알고리즘과 보안데이터 분석에서 이용할 때의 주요 고려사항들을 다룬다. 특히 보안데이터 분석 분야에 머신러닝 기술을 도입할 때의 장점과 현재 기술의 한계에 대해서도 다루도록 한다.
따라서 인공지능에 의한 자동 분석 기술 개발이 이제는 선택이 아닌 필수가 되었다. 본논문에서 악성코드 중 가장 많은 영역을 차지하고 있으며 최종적으로 타격을 가하는 실행파일에 대해서 주로 다루기로 한다[14].
보안데이터를 몇 개의 주제로 나누어 각 트랙별로 대회를 개최하는데, 그중 하나가 악성코드 탐지 트랙이다. 이 대회에서는 악성코드와 정상코드를 나누어 주고 이진 분류기 역할을 하는 머신러닝 모델을 학습시 키게 한 후 테스트 데이터로 정확도를 계산하여 우승자를 가리게 된다. 2018년도 대회에서 우승자는 Xgboost 모델을 사용하였으며 정확도 96.
그리고 주요 머신러닝 알고리즘과 보안데이터 분석에서 이용할 때의 주요 고려사항들을 다룬다. 특히 보안데이터 분석 분야에 머신러닝 기술을 도입할 때의 장점과 현재 기술의 한계에 대해서도 다루도록 한다.

대상 데이터

접속 레코드 5백만 건이 학습 데이터를 구성하며, 2백만 건이 테스트 데이터를 형성 한다. MIT Lincoln 연구소에서 미국 공군의 LAN을 시뮬레이션하기 위해서 데이터를 생성하였으며, 크게 4가지 범주의 공격(DoS, R2L, U2R, probing) 레코드들이 포함되어있다. Tavallaee 등은 일부 내용을 보완하여 NSL-KDD 데이터 셋을 공개하고 있으며[10], 참고로 해당 사이트에서는 다른 IPS/IDS 데이터셋, 봇넷 데이터 셋 등 다양한 보안데이터 셋을 오픈하고 있다[11].
KDD Cup 1999 데이터 셋은 이 분야에서 오래된 잘알려진 데이터이다[18]. 접속 레코드 5백만 건이 학습 데이터를 구성하며, 2백만 건이 테스트 데이터를 형성 한다. MIT Lincoln 연구소에서 미국 공군의 LAN을 시뮬레이션하기 위해서 데이터를 생성하였으며, 크게 4가지 범주의 공격(DoS, R2L, U2R, probing) 레코드들이 포함되어있다.
Du 등은 딥러닝을 이용해서 시스템 로그를 분석하여 이상징후를 탐지하는 연구를 발표했다[3]. 제안하는 아이디어를 검증하기 위해서 다양한 데이터 셋을 사용하였는데, 그중 하나가 VAST challenge 2011 대회 문제 에서 출제된 데이터 셋이었다[12]. 컴퓨터 네트워크 운영센터로부터 생성되는 로그로부터 시각화 기술을 이용 해서 의심 행위를 찾아내는 것이 대회의 취지였는데, Du 등은 제안하는 로그 분석 시스템의 우수성을 증빙 하기 위하여 동 데이터를 사용했다.
제안하는 아이디어를 검증하기 위해서 다양한 데이터 셋을 사용하였는데, 그중 하나가 VAST challenge 2011 대회 문제 에서 출제된 데이터 셋이었다[12]. 컴퓨터 네트워크 운영센터로부터 생성되는 로그로부터 시각화 기술을 이용 해서 의심 행위를 찾아내는 것이 대회의 취지였는데, Du 등은 제안하는 로그 분석 시스템의 우수성을 증빙 하기 위하여 동 데이터를 사용했다.

이론/모형

이 대회에서는 악성코드와 정상코드를 나누어 주고 이진 분류기 역할을 하는 머신러닝 모델을 학습시 키게 한 후 테스트 데이터로 정확도를 계산하여 우승자를 가리게 된다. 2018년도 대회에서 우승자는 Xgboost 모델을 사용하였으며 정확도 96.83을 달성했다. 마이크 로소프트 경진대회에서 배포한 데이터 셋의 악성코드는 헤더 정보가 없었지만, 데이터 챌린지 대회에서 배포한 데이터 셋은 모든 정보를 포함한다.
83의 정확도를 달성하며 차지했다. [그림 4]와 같이 opcode n-그램과 세그먼트 개수, 그리고 어셈블리 코드를 이미지화한 후 화소 강도(pixel intensity)를 구하여 주요 피처로 사용했으며, 머신러닝 모델은 Xgboost를 세 개 사용한 후 앙상블을 적용했다. 흥미로운 사실은 이 대회의 상위 세 개 팀이 모두 Xgboost를 사용했다는 점이며, 한정된 데이터 셋과 시간 안에 높은 정확도를 높이는데 있어서는 Xgboost 모델이 가장 적합할 수 있다는 것이 입증된 사례이다.

성능/효과

[표 1]는 대회에서 배포한 데이터 셋을 이용해서 헤더 정보로부터 단지 7개의 피처만 뽑아와서 부스팅 알고리 즘으로 학습을 시켰을 때 얻어지는 평가 지표이다. 7개라는 적은 개수와 최종 우승자의 정확도가 96.83임을 감안하면 정확도 89.92는 나쁘지 않은 수치이다. 실제로 여기에 몇 가지 헤더 정보 피처를 잘 가공해서 추가 하면 94 정도의 정확도까지는 얻어진다.
마이크로소프트 대회 우승은 보안 쪽 전문 지식이 없는 데이터분석가 팀이 99.83의 정확도를 달성하며 차지했다. [그림 4]와 같이 opcode n-그램과 세그먼트 개수, 그리고 어셈블리 코드를 이미지화한 후 화소 강도(pixel intensity)를 구하여 주요 피처로 사용했으며, 머신러닝 모델은 Xgboost를 세 개 사용한 후 앙상블을 적용했다.
본 논문의 저자들은 최근에 수집한 백만 개의 악성코드 데이터 셋을 분석한 결과, 절반 이상의 악성코드는 이전에 수집된 악성코드 중 적어도 하나 이상과 0.95 이상의 자카르드 인덱스를 가지는 것을 확인했다. 즉, 악성코드 사이의 유사한 관계를 분석하는 것만으로도 절반 이상의 데이터는 이전에 분석한 자료만으로 분석이 완료될 수 있으며, 이는 머신러닝 기반 악성코드 분석에서 주목해야 할 점이다.
보안데이터 분석가들은 헤더 정보가 포함된 사실을 적극적으로 활용할 수 있다. 첫째, 헤더 정보는 좋은 피처들을 많이 포함하고 있으므로 이 부분을 머신러닝 모델에 잘 보여주면 정확도를 높이는데 큰 도움이 된다. [표 1]는 대회에서 배포한 데이터 셋을 이용해서 헤더 정보로부터 단지 7개의 피처만 뽑아와서 부스팅 알고리 즘으로 학습을 시켰을 때 얻어지는 평가 지표이다.
[그림 4]와 같이 opcode n-그램과 세그먼트 개수, 그리고 어셈블리 코드를 이미지화한 후 화소 강도(pixel intensity)를 구하여 주요 피처로 사용했으며, 머신러닝 모델은 Xgboost를 세 개 사용한 후 앙상블을 적용했다. 흥미로운 사실은 이 대회의 상위 세 개 팀이 모두 Xgboost를 사용했다는 점이며, 한정된 데이터 셋과 시간 안에 높은 정확도를 높이는데 있어서는 Xgboost 모델이 가장 적합할 수 있다는 것이 입증된 사례이다.

후속연구

예를 들면 요즘 많이 유행하는 악성코드의 실행 영역에서 추출한 실행 명령 어를 2차원 이미지로 바꾼 후 CNN으로 학습시키는 방식이 대표적인데[2][13], 이는 E2E 딥러닝으로 보기 어렵다. 바둑에서 알파고가 인간이 생각하지 못했던 방식 으로 프로 기사들을 이겼던 것처럼, 보안데이터 분석에서도 기존 전문가들이 상상할 수 없었던 새로운 피처를 딥러닝이 발견할 수 있도록 하려면, 다시 말해서 딥러닝을 가장 딥러닝답게 잘 활용하기 위해서는 더 많은 연구가 필요하다.
머신러닝과 인공지능 기술이 급속히 발전하고 있으며, 자율 주행, 스마트팩토리, 의료 및 헬스케어 등 많은 분야에서 실용적인 기술로서 이미 활용되고 있다. 우리 주변의 사물인터넷 기기부터 데이터센터 클라우드에 이르기까지 다양한 컴퓨팅 환경에서 빅데이터가 생산되고 있으며 머신러닝을 위한 양질의 학습 데이터로 사용될 수 있을 것으로 기대된다. 데이터가 연료가 되고 인공지능 기술이 엔진 역할을 하는 소위 4차 산업혁명 시대가 개막된 것이다.
보안데이터 분석은 학문적으로나 실용적으로 사이버보안에 있어서 중요한 영역이었으며, 인공지능 기술이 결합 되었을 때 가장 크게 발전할 수 있는 영역이기도 하다. 특히 최근 이미지와 자연어 처리 분야에서 혁신적 발전을 주도하고 있는 딥러닝 기술을 보안데이터 분야에 활용하기 위한 본격적인 연구가 필요하며, 전통적 머신러닝 기술과 딥러닝 기술이 상호 보완적 역할을 해줄 것으로 기대된다.
하지만 인공지능 기술이 발전하더라도 여전히 보안전문가의 도메인 지식과 경험은 인공지능 기술 개발 과정에서 필수적이며, 완벽한 정확도가 달성되기 이전 에는 보안전문가의 개입은 필연적이다. 특히, 현재 보안 전문가의 시간을 대부분 차지하는 단순 반복적 업무를 많은 부분 인공지능 기술로 대체시키고, 보안전문가들은 창의력과 경험이 필요한 고도화된 사이버 공격에 대한 분석 업무에 치중하도록 하는 선순환 구조가 인공지능 기술에 의해서 가능해질 수 있을 것으로 기대된다.
딥러닝 기술이 이미지나 자연어 처리 분야에서 보여 주고 있는 탁월한 기술적 우위를 아직 보안데이터 분석 분야에서 보여주지는 못하고 있다. 하지만 기존 머신러닝 기반 기술의 한계를 극복하기 위해서는 대량의 데이 터로부터 사람의 직관으로 찾지 못했던 피처들을 추출 하는 것이 중요한 연구과제로 진행되어야 할 것이다. 머신러닝 기술과 딥러닝 기술의 상호 보완적 활용에 대한 본격적인 연구가 필요한 시점이다[15].

핵심어

질문

논문에서 추출한 답변

머신러닝 기반 악성코드 분석 연구 중 악성과 정상을 분류하는 문제에서는 일반적으로 정상 파일이 악성 파일보다 구하기 어려운 경우가 많은데, 이를 해결할 수 있는 방법으로 무엇이 있는가?

악성과 정상을 분류하는 문제에서는 일반적으로 정상 파일이 악성 파일보다 구하기 어려운 경우가 많다. 이 문제를 해결하기 위해서 부족한 파일을 확보된 데이터로부터 생성해내는 머신러닝 분야의 데이터 증강(data augmentation) 기술을 도입하여 사용할 수 있다[2]. 다른 대안으로는 카스퍼스키 보고서에서 소개된 방식처럼 일차적으로 악성코드들을 대분류해놓고 분류된 그룹별로 악성과 정상을 판별해주는 이진 분류기를 학습시키는 방식을 고려할 수 있다[15]. [그림 3]는 카스 퍼스키의 머신러닝 기반 악성코드 탐지 전략을 보여준다.

머신러닝을 이용한 보안데이터 분석은 어떤 과정을 통해 이루어지는가?

머신러닝을 이용한 보안데이터 분석 과정은 데이터 수집, 가공, 피처추출, 학습모델 구현 및 검증, 테스트 과정으로 이루어진다([그림 1] 참고). 딥러닝은 이 중에서 피처추출 부분을 자동으로 해준다는 장점이 있으며, 특히 원본 데이터(raw data)만을 입력으로 주면 알아서 피처추출과 학습까지 자동으로 완료해주는 경우를 E2E 딥러닝(end-to-end deep learning)이라고 한다.

보안관제 로그의 특징은 무엇인가?

보안관제 로그의 특징은 발생한 이벤트 중 정탐(true positive)의 비율이 전체 로그 대비 매우 적으며, 오탐 (false positive) 발생이 매우 많다는 점이다. 과거 보안 관제 로그 분석 연구는 정탐 비율을 높이고 오탐 비율을 낮추는 것을 주요 목표로 하였으며, 대다수의 보안관제 로그 분석을 수행하는 실무 기관에서는 발생한 공격 탐지 이벤트들을 내부적으로 한 번 더 거르는 규칙들을 보유하고 있다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

머신러닝 기반 보안데이터 분석 연구 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

저자의 다른 논문 :

연구과제 타임라인

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

머신러닝 기반 보안데이터 분석 연구 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

저자의 다른 논문 :

윤명근 (3)

연구과제 타임라인

전체(0) 논문(0) 특허(0) 보고서(0)

전체(0) 논문(0) 특허(0) 보고서(0)

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

초록
AI-Helper

AI 본문요약
AI-Helper