[논문]행위 유사도 기반 변종 악성코드 탐지 방법

조우진; 김형식

doi:10.30693/smj.2019.8.4.25

문제 정의

우리는 변종끼리는 높은 유사도를 가지고, 변종이 아닐 경우 낮은 유사도를 가지기 때문에 이를 구분 짓는 임계값을 결정할 수 있다면 변종을 탐지할 수 있다고 가정했다. 따라서 실험의 목표는 집합 C를 이용해 유사도를 측정할 때, 특정 임계값을 기준으로 변종인 경우와 그렇지 않은 경우를 구분할 수 있음을 보이는 것이다. 이를 검증하기 위해 하나의 집합 C에 대해 500개의 집합 T와의 유사도를 계산하여 내림차순으로 정렬한다.
본 논문에서는 변종이 대부분의 행위가 유사하다는 것에 착안하여 기존 악성코드와의 행위 유사성을 이용한 탐지 방법을 제안한다. 제안 방법은 변종들이 공통적으로 가지는 행위 대상과 유사한 행위 대상을 갖는 프로그램을 탐지하는 것이다.
그렇지만 임계값을 너무 높게 잡으면 미탐이 생길 수 있으며, 낮게 잡으면 오탐이 생길 수 있기 때문에 적절한 임계값을 설정하는 것이 중요하다. 본 논문에서는 실험을 통해 적절한 임계값을 어떻게 설정하는 지 보인다.
행위 유사도를 측정할 때 모든 행위를 비교하는 것은 많은 비용이 들기 때문에 식별성 있는 행위만 비교해야 한다. 본 논문에서는 표 2와 같이 8개의 행위 유형이 식별성이 있다고 판단하여 행위 유형별로 추출할 행위 대상을 정리했다. 우리는 쿠쿠 샌드박스와 Sysmon을 이용하여 행위 대상을 수집하였지만, Process Monitor 또한 아래 행위들을 모니터링 할 수 있기 때문에 Sysmon 대신 Process Monitor를 이용해도 된다.
본 논문에서는 프로그램 간에 행위 유사도를 측정하여 변종을 탐지하는 방법을 제안한다. 서로 다른 두 프로그램의 행위는 상이하기 때문에 유사도가 낮지만, 변종의 경우 대부분의 행위가 유사하기 때문에 높은 유사도를 가지게 된다.
본 논문에서는 행위 유사도를 측정하여 변종을 탐지하는 방법을 제안했다. 행위 일치 여부를 판단하기 위해 행위 대상만을 비교했으며, 정확도를 높이기 위해 변종들이 공통적으로 가지는 행위 대상을 이용했다.
본 논문에서는 행위에 관한 여러 데이터 중 행위 대상만을 비교해 행위 일치 여부를 판단한다. 행위 대상의 경우 프로그램의 실행 환경에 영향을 받지 않기 때문에 일치 여부를 판단하기 적합하다.

가설 설정

Zhang 외 3인은 패킹 기법을 적용한 변종 악성코드를 탐지하기 위해 악성코드가 주로 사용하는 API를 활용하는 방법을 제안했다[11]. 그들은 정상과 악성코드들이 호출하는 API에는 큰 격차가 존재하며, 특정 API들은 악성코드들이 자주 사용한다고 가정했다. 그리고 Principal component analysis를 적용하여 주요 API들의 특징값을 추출하고, 딥러닝을 적용하였다.
우리는 변종끼리는 높은 유사도를 가지고, 변종이 아닐 경우 낮은 유사도를 가지기 때문에 이를 구분 짓는 임계값을 결정할 수 있다면 변종을 탐지할 수 있다고 가정했다. 따라서 실험의 목표는 집합 C를 이용해 유사도를 측정할 때, 특정 임계값을 기준으로 변종인 경우와 그렇지 않은 경우를 구분할 수 있음을 보이는 것이다.

제안 방법

구간별 분포를 확인하기 위해 실험에서 변종 그룹별로 측정한 유사도를 합쳐 표 9에서 도수분포표를 만들었다. 실험 1의 경우 변종이 아닌 것은 0.
그들은 정상과 악성코드들이 호출하는 API에는 큰 격차가 존재하며, 특정 API들은 악성코드들이 자주 사용한다고 가정했다. 그리고 Principal component analysis를 적용하여 주요 API들의 특징값을 추출하고, 딥러닝을 적용하였다. 실험 결과 95.
행위 일치 여부를 판단하기 위해 행위 대상만을 비교했으며, 정확도를 높이기 위해 변종들이 공통적으로 가지는 행위 대상을 이용했다. 그리고 자카드 유사도를 이용해 행위 대상의 유사성을 측정했다. 1,000개의 악성코드로 실험한 결과 변종들끼리는 높은 유사도를 보이고, 변종이 아닌 경우 낮은 유사도를 보이는 것을 확인할 수 있었고, 변종인 경우와 변종이 아닌 경우를 구분할 수 있는 임계값이 존재함을 확인하였다.
유사도를 계산하는 과정을 보이기 위해 집합 C의 원소 개수와 집합 T의 원소 개수를 나타낸다. 그리고 집합 C와 집합 T의 합집합과 교집합의 원소 개수를 나타내어 자카드 유사도를 계산한다. 하나의 집합 C를 이용해 500개의 프로그램들을 검사하기 때문에 집합 C마다 500개의 유사도가 계산되며, 500개의 유사도 중 가장 높은 Top 5만 추출하여 보인다.
단계 1에서 추출한 집합 C와 단계 2에서 추출한 집합 T를 활용하여 유사도를 측정한다. 특정 집합 C와의 유사도가 높을 경우 집합 T에 해당하는 프로그램은 집합 C가 추출된 변종 그룹에 포함되는 변종이다.
또한 다수의 변종들이 공통적으로 가지는 행위 대상이 있다면, 이는 새로운 변종이 만들어지더라도 똑같이 공유할 가능성이 크다. 따라서 우리는 2개 이상의 변종이 포함된 변종 그룹에서 공통 행위 대상을 추출하여 행위 유사도를 측정하는데 이용한다.
변종의 경우 대부분의 행위 대상이 일치하므로 자카드 유사도가 거의 1에 근접하기 때문에 본 논문에서는 행위 유사도가 높은 프로그램을 변종으로 탐지한다. 변종을 탐지하기 위해서는 변종과 변종이 아닌 프로그램을 구분하기 위한 임계값을 설정해야 한다.
본 논문에서는 행위 대상을 비교함으로써 행위 유사도를 측정하고, 기존의 악성코드와 유사도가 높은 프로그램을 변종 악성코드로 탐지한다. 구체적으로는 변종들이 공통적으로 가지는 행위 대상과 유사한 행위 대상을 가진 프로그램을 탐지한다.
집합 1에서 변종 그룹을 찾을 때는 본 논문에서 제안하는 방법과 별개로 정적 및 동적 정보를 이용해 변종을 찾는다. 우리는 실험 결과에 대한 검증 목적으로 가능한 모든 수단을 활용하여 유사한 악성코드를 찾아서 변종으로 규정했다. 그리고 각 변종 그룹에 속한 변종들을 실행시켜 공통적으로 추출된 집합 C를 저장한다.
따라서 실험의 목표는 집합 C를 이용해 유사도를 측정할 때, 특정 임계값을 기준으로 변종인 경우와 그렇지 않은 경우를 구분할 수 있음을 보이는 것이다. 이를 검증하기 위해 하나의 집합 C에 대해 500개의 집합 T와의 유사도를 계산하여 내림차순으로 정렬한다. 변종일 경우 높은 유사도를 가지고 변종이 아닐 경우 낮은 유사도를 가지기 때문에 내림차순으로 정렬하면 특정 구간에서 큰 격차가 발생할 것이다.
프로세스가 행위를 수행할 때 수집할 수 있는 데이터는 행위 발생 시간, 행위를수행한 프로세스의 이름, 부모 프로세스 이름 등 다양하다. 이번 절에서는 기존의 동적 분석 기반 연구들이 모니터링한 행위와 수집한 데이터를 알아본다.
그나마 정적 정보와 동적 정보를 결합하여 변종 간에 유사도를 측정하려는 연구[9]는 있었지만, 실제 변종이 가지는 특성을 충분히 고려하지 못했다. 정적 정보는 DLL이나 API와 같이 쉽게 변형 가능한 정보였고, 동적 정보는 식별성이 없는 데이터를 비교했다. 또한 우리가 제안한 것처럼 변종 그룹에서 공통적으로 추출된 행위를 이용하지 않았기에, 임의의 값으로 설정되는 행위의 경우 같은 프로그램이어도 실행할 때 마다 다를 수 있다는 문제점을 해결하지 못한다.
본 논문에서는 변종이 대부분의 행위가 유사하다는 것에 착안하여 기존 악성코드와의 행위 유사성을 이용한 탐지 방법을 제안한다. 제안 방법은 변종들이 공통적으로 가지는 행위 대상과 유사한 행위 대상을 갖는 프로그램을 탐지하는 것이다. 1,000개의 악성코드로 실험한 결과 행위 대상만 이용하여 변종을 탐지할 수 있음을 보였다.
집합 1에서 변종 그룹을 찾을 때는 본 논문에서 제안하는 방법과 별개로 정적 및 동적 정보를 이용해 변종을 찾는다. 우리는 실험 결과에 대한 검증 목적으로 가능한 모든 수단을 활용하여 유사한 악성코드를 찾아서 변종으로 규정했다.
집합 2에서 변종을 탐지할 때는 우리가 제안한 행위 유사도 측정 방법을 이용하며, 이를 위해 집합 2에 속한 500개의 악성코드들을 모두 실행시켜 500개의 집합 T를 수집한다. 그리고 하나의 집합 C에 대해 모든 집합 T와 유사도를 측정하여 변종을 탐지한다.
총 2번의 실험을 진행하여 실험 1은 집합 1에서 추출한 집합 C를 이용해 집합 2에서 변종을 탐지하고, 실험 2는 반대로 집합 2에서 추출한 집합 C를 이용해 집합 1에서 변종을 탐지한다.
문대성 외 2인은 APT 공격을 탐지하기 위해 호스트에서 발생하는 행위 이벤트를 수집했다[10]. 총 39가지 행위 이벤트를 쿠쿠 샌드박스와 프로세스 모니터를 이용해 수집하였으며, 최종적으로는 프로그램별로 39가지 행위의 빈도를 재구성하였다. 그리고 악성과 정상을 분류하기 위해 결정 트리를 적용하여 2.
우리는 행위 유사도를 측정하여 변종을 탐지하는 방법을 제안했다. 행위 일치 여부를 판단하기 위해 행위 대상만을 비교했으며, 정확도를 높이기 위해 변종들이 공통적으로 가지는 행위 대상 집합(C)을 이용했다. 그리고 집합 C를 이용해 유사도를 측정했을 때 변종인 것은 유사도가 높은 반면, 변종이 아닌 것은 유사도가 낮은 것을 확인할 수 있었고, 특정 임계값을 기준으로 변종인 경우와 변종이 아닌 경우를 구분할 수 있음을 보였다.
본 논문에서는 행위 유사도를 측정하여 변종을 탐지하는 방법을 제안했다. 행위 일치 여부를 판단하기 위해 행위 대상만을 비교했으며, 정확도를 높이기 위해 변종들이 공통적으로 가지는 행위 대상을 이용했다. 그리고 자카드 유사도를 이용해 행위 대상의 유사성을 측정했다.

대상 데이터

그리고 Principal component analysis를 적용하여 주요 API들의 특징값을 추출하고, 딥러닝을 적용하였다. 실험 결과 95.6%의 탐지률과 0.048초의 분류 시간을 기록했지만, 학습을 위해 3167개의 악성코드와 2083개의 정상코드를 사용했다.
우리는 이러한 문제점을 극복하기 위해 2개 이상의 변종들이 공통적으로 가지는 행위 대상을 이용한다. 행위 대상이 임의의 값으로 결정될 경우 다수의 변종들이 공통적으로 가질 확률이 거의 없기 때문에 공통 행위 대상에 포함되지 않는다.
이번 절에서는 3절에서 제안한 행위 유사도 측정 방법을 이용해 변종을 탐지할 수 있음을 보인다. 행위 유사도를 측정하기 위해서는 집합 C와 집합 T가 필요하며, 우리는 이를 얻기 위해 특정 기관에서 제공받은 1,000개의 악성코드를 이용한다. 우선, 1,000개의 악성코드를 500개씩 나누어 집합 1과 집합 2를 만든다.

이론/모형

기존 방법으로는 정적 분석 도구인 ssdeep[13]과 PEImphash[14]라는 도구를 이용한다. ssdeep은 Fuzzy Hash를 사용하여 파일간의 유사도를 측정하는 도구이며, 최근에도 악성코드 탐지 연구에 활용되었다[15].

성능/효과

그리고 자카드 유사도를 이용해 행위 대상의 유사성을 측정했다. 1,000개의 악성코드로 실험한 결과 변종들끼리는 높은 유사도를 보이고, 변종이 아닌 경우 낮은 유사도를 보이는 것을 확인할 수 있었고, 변종인 경우와 변종이 아닌 경우를 구분할 수 있는 임계값이 존재함을 확인하였다.
제안 방법은 변종들이 공통적으로 가지는 행위 대상과 유사한 행위 대상을 갖는 프로그램을 탐지하는 것이다. 1,000개의 악성코드로 실험한 결과 행위 대상만 이용하여 변종을 탐지할 수 있음을 보였다.
총 39가지 행위 이벤트를 쿠쿠 샌드박스와 프로세스 모니터를 이용해 수집하였으며, 최종적으로는 프로그램별로 39가지 행위의 빈도를 재구성하였다. 그리고 악성과 정상을 분류하기 위해 결정 트리를 적용하여 2.0%의 오탐률과 5.8%의 미탐률을 보였다. 하지만 변종 악성코드는 대부분의 행위가 유사하기 때문에 39가지의 행위를 수집하는 것은 비효율적이라는 문제점이 있다.
행위 일치 여부를 판단하기 위해 행위 대상만을 비교했으며, 정확도를 높이기 위해 변종들이 공통적으로 가지는 행위 대상 집합(C)을 이용했다. 그리고 집합 C를 이용해 유사도를 측정했을 때 변종인 것은 유사도가 높은 반면, 변종이 아닌 것은 유사도가 낮은 것을 확인할 수 있었고, 특정 임계값을 기준으로 변종인 경우와 변종이 아닌 경우를 구분할 수 있음을 보였다.
하지만 딥러닝은 많은 학습 셋이 필요하다는 문제점이 있다. 본 논문에서 제안하는 행위 유사도 측정 방법은 2개 이상의 변종이 있으면 적용이 가능하다는 장점이 있다.
본 논문에서는 랜섬웨어에 대한 인식이 높아졌음에도 많은 피해가 발생하는 이유 중 하나로 시그니처 기반 탐지의 한계로 인해 변종 악성코드를 탐지하기 어렵다는 꼽았다. 시그니처 기반 탐지는 기존에 수집된 악성코드의 특징을 이용해 탐지하는 방법이다.
비교 결과 제안 방법의 경우 각 변종 그룹에 포함된 변종들을 1개의 그룹으로 묶을 수 있었지만, 기존 방법으로는 일부 변종 그룹에 대해 1개의 그룹으로 묶을 수 없었다. 예를 들어 그룹 1에는 4개의 변종이 포함되었는데, 제안 방법의 경우 4개의 변종이 서로 유사하다고 판단하여 1개의 그룹으로 묶을 수 있었지만, 기존 방법의 경우 일부를 유사하다고 판단하지 못해 3개의 그룹으로 나눠졌다.
실험 2의 경우 비록 0.8∼0.9 구간에 변종과 변종이 아닌 것이 섞여 있지만, 변종이 아닌 것은 0.833 이하, 변종인 것은 0.871 이상의 유사도를 보여 격리됨을 확인했다.
실험 결과 우리가 제안한 행위 유사도 측정 방법을 이용했을 때, 변종이 아닌 프로그램들은 유사도가 낮은 반면 변종인 프로그램들은 유사도가 높은 것을 확인할 수 있었다. 변종이 아닌 프로그램들은 실험 1의 경우 0.
예를 들어 그룹 1에는 4개의 변종이 포함되었는데, 제안 방법의 경우 4개의 변종이 서로 유사하다고 판단하여 1개의 그룹으로 묶을 수 있었지만, 기존 방법의 경우 일부를 유사하다고 판단하지 못해 3개의 그룹으로 나눠졌다. 즉, 기존 방법보다 제안 방법이 변종 탐지에 효과적임을 알 수 있다.
해당 그룹에 속한 변종들은 4가지 행위 유형(자식 프로세스 생성, DLL 적재, 프로세스간 통신, 파일 생성)을 수행했으며, 22개의 원소를 가진 집합 C가 추출되었다. 표 6은 집합 C를 이용해 집합 1에 속한 악성코드들과의 유사도를 측정한 결과인데, 추가 분석 결과 4위까지에 해당하는 악성코드가 변종임이 확실했다.
해당 그룹에 속한 변종들은 4가지 행위 유형(자식 프로세스 생성, DLL 적재, 프로세스간 통신, 파일 생성)을 수행했으며, 39개의 원소를 가진 집합 C가 추출되었다. 표 3은 집합 C를 이용해 집합 2에 속한 악성코드들과의 유사도를 측정한 결과인데, 추가분석 결과 2위까지에 해당하는 악성코드가 변종임이 확실했다.
해당 그룹에 속한 변종들은 5가지 행위 유형(DLL 적재, 프로세스간 통신, 파일 생성, 레지스트리 수정, 레지스트리 생성)을 수행했으며, 110개의 원소를 가진 집합 C가 추출되었다. 표 4는 집합 C를 이용해 집합 2에 속한 악성코드들과의 유사도를 측정한 결과인데, 추가 분석 결과 3위까지에 해당하는 악성코드가 변종임이 확실했다.
해당 그룹에 속한 변종들은 5가지 행위 유형(네트워크 연결, DLL 적재, 파일 생성, 레지스트리 수정, 레지스트리 생성)을 수행했으며, 98개의 원소를 가진 집합 C가 추출되었다. 표 7은 집합 C를 이용해 집합 1에 속한 악성코드들과의 유사도를 측정한 결과인데, 추가 분석 결과 3위까지에 해당하는 악성코드가 변종임이 확실했다.
해당 그룹에 속한 변종들은 6가지 행위 유형(자식 프로세스 생성, DLL 적재, 프로세스간 통신, 파일 생성, 레지스트리 수정, 레지스트리 생성)을 수행했으며, 61개의 원소를 가진 집합 C가 추출되었다. 표 8은 집합 C를 이용해 집합 1에 속한 악성코드들과의 유사도를 측정한 결과인데, 추가 분석 결과 4위까지에 해당하는 악성코드가 변종임이 확실했다.
해당 그룹에 속한 변종들은 6가지 행위 유형(자식 프로세스생성, DLL 적재, 프로세스간 통신, 파일 생성, 레지스트리 수정, 레지스트리 생성)을 수행했으며, 63개의 원소를 가진 집합 C가 추출되었다. 표 5는 집합 C를 이용해 집합 2에 속한 악성코드들과의 유사도를 측정한 결과인데, 추가 분석 결과 2위까지에 해당하는 악성코드가 변종임이 확실했다.

후속연구

따라서 임계값을 결정하는 방법에 대한 추가 연구가 필요하다. 또한 본 논문에서는 8가지 행위 유형에 대해 행위 대상을 수집했지만, 향후 더 많은 행위 유형으로 확대함으로써 탐지 정확도를 향상시키는 방안도 연구할 필요가 있다.

핵심어	질문	논문에서 추출한 답변
	동적 분석의 정의는 무엇인가?	동적 분석은 악성코드를 실제로 실행하여 수집한 데이터를 분석하는 방법이다. 동적 분석은 악성코드가 수행하는 행위나 시스템에 생기는 변화를 관찰하여 악성코드의 실제 기능을 분석할 수 있지만, 많은 양의 데이터가 수집되어 이를 활용하기 어렵다는 문제점이 있다.
	동적 분석시 수집하는 데이터는 무엇인가?	동적 분석을 위해서는 프로그램의 어떤 행위를 모니터링 할지와 어떤 데이터를 수집할지 정의해야 한다. 프로세스가 행위를 수행할 때 수집할 수 있는 데이터는 행위 발생 시간, 행위를수행한 프로세스의 이름, 부모 프로세스 이름 등 다양하다. 이번절에서는 기존의 동적 분석 기반 연구들이 모니터링한 행위와 수집한 데이터를 알아본다.
	동적 분석의 문제점은 무엇인가?	동적 분석은 악성코드를 실제로 실행하여 수집한 데이터를 분석하는 방법이다. 동적 분석은 악성코드가 수행하는 행위나 시스템에 생기는 변화를 관찰하여 악성코드의 실제 기능을 분석할 수 있지만, 많은 양의 데이터가 수집되어 이를 활용하기 어렵다는 문제점이 있다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

행위 유사도 기반 변종 악성코드 탐지 방법
A Malware Variants Detection Method based on Behavior Similarity 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (16)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

행위 유사도 기반 변종 악성코드 탐지 방법 A Malware Variants Detection Method based on Behavior Similarity 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (16)

이 논문을 인용한 문헌

저자의 다른 논문 :

김형식 (1)

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

행위 유사도 기반 변종 악성코드 탐지 방법
A Malware Variants Detection Method based on Behavior Similarity 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper