보안 취약점 자동 탐색 및 대응기술 동향 원문보기

情報保護學會誌 = KIISC review, v.28 no.2, 2018년, pp.33 - 42  

장대일 (한국인터넷진흥원 보안기술R&D2팀) ,  김태은 (한국인터넷진흥원 보안기술R&D2팀) ,  김환국 (한국인터넷진흥원 보안기술R&D2팀)

머신러닝인공지능 기술의 발전은 다양한 분야 활용되고 있고, 이는 보안 분야에서도 마찬가지로 로그 분석이나, 악성코드 탐지, 취약점 탐색 및 대응 등 다양한 분야에서 자동화를 위한 연구가 진행되고 있다. 특히 취약점 탐색 및 대응 분야의 경우 2016년 데프콘에서 진행된 CGC를 필두로 바이너리나 소스코드 내의 취약점을 정확하게 탐색하고 패치하기 위해 다양한 연구가 시도되고 있다. 이에 본 논문에서는 취약점을 탐색 및 대응하기 위해 각 연구 별 탐색 기술과 대응 기술을 분류 및 분석한다.

문제 정의

  • 은 기호실행을 활용하여 C++ 프로그램 대상의 자동화된 테스트케이스를 생성하는 방안을 제안했다[34]. C언어 기반의 기호실행 모듈을 C++로 확장하면서 C++의 예외처리, C++ RTTI, 메모리 모델 등을 특징으로 추가하여 테스트케이스 생성에 효율성을 높이고자 노력하였다. 또한 c++용 라이브러리 최적화와 개체 수준에서 실행 및 추론, 특정 유형의 효율적인 Solver를 구현하였다.
  • 본 논문에서는 지능형 취약점 탐색 및 대응을 위한연구 동향을 소개하였다. 지능형 취약점 탐색 연구는 크게 2가지로 분류할 수 있다.
  • Candea et al.은 마이크로 리부트 개념을 도입하면서세부적으로 재부팅이 가능한 계측정 구성요소를 통해 오류 발생 시 가장 작은 구성요소에서 가장 큰 구성요소로 재부팅 시도를 통해 상태를 패치하기 위한 연구를 수행하였다[30]. Smirnov et al.
  • Walden et al.은 소프트웨어 특성과 텍스트 마이닝을 기반으로 취약한 소프트웨어 구성 요소를 예측하기 위한 연구를 수행하였다. 이를 위해 223개의 취약점이 포함된 3개의 오픈소스를 대상으로 취약점 데이터를 생성한 후 12개의 코드 복잡도 메트릭을 선정하였고, 텍스트 마이닝을 위해 소스 파일을 먼저 토큰화한이후 토큰을 제거하거나 변경하여 최종 토큰의 빈도를 계산하였다.
  • younis et al.은 악용될 가능성이 더 높은 취약점을 포함하는 코드의 속성을 확인하기 위한 연구를 수행하였다[14]. 리눅스커널 및 아파치 웹 서버의 익스플로잇이 가능한 취약점 83개를 포함한 취약점 183개를 수집하여 취약점의 특성에 따라 4가지 카테고리로 나눈 후 소스코드 라인수, 패스 복잡도, 패스 수, 중첩도, 정보 흐름, 호출된 함수, 호출한 함수 및 호출 수 등 8개의 소프트웨어 메트릭을 선정하였다.
  • 취약점을 탐색하기 위해 머신러닝이나 딥러닝 알고리즘을 적용하여 취약점을 예측하거나 기존과 유사한 취약점의 패턴을 탐지하기 위한 연구들이 진행되고 있고, 탐색된 취약점에 자동으로 대응하기 위해 소프트웨어의 행위나 상태를 패치하기 위한 많은 연구가 진행되고 있다. 이에 본 논문에서는 소프트웨어를 분석하기 위한 기법들을 언급하고 자동으로 취약점을 찾고 대응하기 위한 지능형 취약점 탐색 및 대응 연구에 대한 동향을 분석하고자 한다.
  • 취약점 예측 모델은 알려진 소프트웨어 메트릭을 기반으로 한 예측 모델을 구축하고 소프트웨어 아티팩트의 취약 상태를 평가하기 위한 연구이다.
  • 퍼징 테스트는 소프트웨어 테스트 기법으로 테스트 대상에 다양하고 무작위의 데이터를 입력하여 소프트웨어 내부의 충돌, 검증 실패 및 메모리 누수 등의 예외를 발생시키는 것을 목적으로 한다. 이를 위해 화이트박스, 블랙박스, 그레이 박스 등 다양한 방법을 활용한다[4,5].

가설 설정

  • 은 소프트웨어 입력값의 제어를 통해 오류를 수정하기 위한 연구를 수행하였다[32]. 프로그램의 일부 입력이 실패하였을 때 상태를 변경하기 위한 방법 중 하나는 입력값을 수정하는 것으로, 수정된 입력값은 오류를 발생시키지 않는다는 것을 가정한다. Lewis et al.
핵심어 질문 논문에서 추출한 답변
동적 분석이란? 동적 분석은 통제 가능한 가상 환경에서 소스코드나 바이너리를 실행시켜 오류를 찾아내는 방법이다. 바이너리에서 사용하는 API, 네트워크 활동 정보, 접근하는 파일, 레지스트리, 메모리 정보 등 다양한 정보를 확인할 수 있다.
정적분석이란? 정적분석은 소프트웨어의 소스코드나 바이너리를 실행하지 않은 상태에서 대상에 맞는 분석을 수행하였을 때 나타나는 오류나 논리적인 문제 혹은 취약점을 찾아내는 방법이다. 이를 위해 대상 소프트웨어의 실행 가능한 경로, 변수가 가질 수 있는 값의 범위 등을 분석하고, 대상 내 탐색이 가능한 실행 경로나 값의 범위가 프로그램의 오류를 발생시키는 조건을 만족하는 지 검사하여 오류가 발생하는 소스코드나 바이너리의 인스트럭션을 찾아내는 기술이 정적 분석 기술이다.
지능형 취약점 탐색 연구에는 무엇이 있는가? 지능형 취약점 탐색 연구는 크게 2가지로 분류할 수 있다. 첫째는 취약점 예측 모델을 통해 취약점을 탐색하는 연구이고, 둘째는 기존 취약점을 활용하여 대상 소스코드나 바이너리 내에 동일한 패턴의 취약점이 존재하는지 탐색하는 연구이다. 지능형 취약점 대응에 관한 연구도 크게 2가지로 나눌 수 있는데, 첫 번째는 소프트웨어의 행위를 패치하는 연구이다.
