인터넷의 지속적인 발달에 따라 전 세계적으로 새로운 서비스가 제공되고 다양한 기술이 등장하고 있다. 그러나 이에 따른 부작용으로 사이버 해킹 공격이 증가하고 있으며, 동시에 지능적인 공격으로 진화하고 있다. 이러한 사이버 공격의 도구로 사용되고 있는 악성코드는 공격자들이 자동 제작 툴을 이용해 손쉽게 생성할 수 있기 때문에 그로 인한 악성코드의 수가 급증하고 있다. 그러나 수많은 악성코드를 모두 분석하기에는 많은 시간과 노력이 요구됨에 따라 신·변종 악성코드에 대한 별도의 분류가 필요한 상황이다. 따라서, 신·변종 악성코드에 대한 분석을 수행하고 분석 결과를 기반으로 악성코드를 분류하는 다양한 연구가 등장하고 있다. 기존 연구들은 악성코드 간 유사도 측정에 사용할 특징을 찾기 위하여 악성코드 분석을 통해 ...
인터넷의 지속적인 발달에 따라 전 세계적으로 새로운 서비스가 제공되고 다양한 기술이 등장하고 있다. 그러나 이에 따른 부작용으로 사이버 해킹 공격이 증가하고 있으며, 동시에 지능적인 공격으로 진화하고 있다. 이러한 사이버 공격의 도구로 사용되고 있는 악성코드는 공격자들이 자동 제작 툴을 이용해 손쉽게 생성할 수 있기 때문에 그로 인한 악성코드의 수가 급증하고 있다. 그러나 수많은 악성코드를 모두 분석하기에는 많은 시간과 노력이 요구됨에 따라 신·변종 악성코드에 대한 별도의 분류가 필요한 상황이다. 따라서, 신·변종 악성코드에 대한 분석을 수행하고 분석 결과를 기반으로 악성코드를 분류하는 다양한 연구가 등장하고 있다. 기존 연구들은 악성코드 간 유사도 측정에 사용할 특징을 찾기 위하여 악성코드 분석을 통해 악성 행위를 나타내는 다양한 정보(API 함수, String, Hash 등)를 추출하고, 이를 이용한 유사도 측정알고리즘 등을 제안하는 분류 연구를 수행하였다. 그 중, 대부분의 분류 연구들이 API 함수와 API 함수로부터 추출한 특정 길이의 API 시퀀스를 이용하여 악성코드를 분류하고 있지만 API 시퀀스의 길이는 악성코드 분류의 정확성에 영향을 미치기 때문에 적합한 API 시퀀스의 길이를 선택하는 것은 매우 중요하다. 따라서 본 논문은 API 함수를 2개씩 결합한 길이의 API 시퀀스가 가장 낮은 분류 오류율을 갖는 것을 검증함으로써 이를 악성코드 분류의 정확성을 향상시키기 위한 최적의 API 시퀀스로 도출하였다. 또한 효과적인 신·변종 악성코드 분류를 위해서는 분류의 정확성을 향상시키는 악성코드 특징을 추출하는 것뿐만 아니라, 이를 기반으로 악성코드를 정확하게 분류하기 위한 악성코드 간 유사도 측정 방법이 매우 중요하다. 따라서 본 논문은 앞서 도출한 API 시퀀스의 길이를 바탕으로, 신·변종 악성코드 분류를 위한 악성코드 유사도 측정 모델을 제안한다. 제안한 방법은 주성분분석(PCA) 기법을 활용하여 각 악성코드 그룹을 나타내는 대푯값을 추출하고, 이를 바탕으로 악성코드 간 유사도를 도출함으로써 악성코드 분류 정확성을 극대화한다. 본 논문에서는 과학기술사이버안전센터에서 수집한 실제 악성코드를 이용하여 제안한 악성코드 분류 방법론의 유효성을 검증하기 위한 실험을 수행하였으며, 제안한 방법론에 대한 성능 평가를 수행한 결과 기존 악성코드 분류 방법보다 분류 정확성을 획기적으로 높이는데 성공하였다.
인터넷의 지속적인 발달에 따라 전 세계적으로 새로운 서비스가 제공되고 다양한 기술이 등장하고 있다. 그러나 이에 따른 부작용으로 사이버 해킹 공격이 증가하고 있으며, 동시에 지능적인 공격으로 진화하고 있다. 이러한 사이버 공격의 도구로 사용되고 있는 악성코드는 공격자들이 자동 제작 툴을 이용해 손쉽게 생성할 수 있기 때문에 그로 인한 악성코드의 수가 급증하고 있다. 그러나 수많은 악성코드를 모두 분석하기에는 많은 시간과 노력이 요구됨에 따라 신·변종 악성코드에 대한 별도의 분류가 필요한 상황이다. 따라서, 신·변종 악성코드에 대한 분석을 수행하고 분석 결과를 기반으로 악성코드를 분류하는 다양한 연구가 등장하고 있다. 기존 연구들은 악성코드 간 유사도 측정에 사용할 특징을 찾기 위하여 악성코드 분석을 통해 악성 행위를 나타내는 다양한 정보(API 함수, String, Hash 등)를 추출하고, 이를 이용한 유사도 측정 알고리즘 등을 제안하는 분류 연구를 수행하였다. 그 중, 대부분의 분류 연구들이 API 함수와 API 함수로부터 추출한 특정 길이의 API 시퀀스를 이용하여 악성코드를 분류하고 있지만 API 시퀀스의 길이는 악성코드 분류의 정확성에 영향을 미치기 때문에 적합한 API 시퀀스의 길이를 선택하는 것은 매우 중요하다. 따라서 본 논문은 API 함수를 2개씩 결합한 길이의 API 시퀀스가 가장 낮은 분류 오류율을 갖는 것을 검증함으로써 이를 악성코드 분류의 정확성을 향상시키기 위한 최적의 API 시퀀스로 도출하였다. 또한 효과적인 신·변종 악성코드 분류를 위해서는 분류의 정확성을 향상시키는 악성코드 특징을 추출하는 것뿐만 아니라, 이를 기반으로 악성코드를 정확하게 분류하기 위한 악성코드 간 유사도 측정 방법이 매우 중요하다. 따라서 본 논문은 앞서 도출한 API 시퀀스의 길이를 바탕으로, 신·변종 악성코드 분류를 위한 악성코드 유사도 측정 모델을 제안한다. 제안한 방법은 주성분분석(PCA) 기법을 활용하여 각 악성코드 그룹을 나타내는 대푯값을 추출하고, 이를 바탕으로 악성코드 간 유사도를 도출함으로써 악성코드 분류 정확성을 극대화한다. 본 논문에서는 과학기술사이버안전센터에서 수집한 실제 악성코드를 이용하여 제안한 악성코드 분류 방법론의 유효성을 검증하기 위한 실험을 수행하였으며, 제안한 방법론에 대한 성능 평가를 수행한 결과 기존 악성코드 분류 방법보다 분류 정확성을 획기적으로 높이는데 성공하였다.
With the development of the Internet, the number of cyber threats is continuously increasing and their techniques are also evolving for the purpose of attacking our crucial systems. Since attackers are able to easily make exploit codes, i.e., malware, using dedicated generation tools, the number of ...
With the development of the Internet, the number of cyber threats is continuously increasing and their techniques are also evolving for the purpose of attacking our crucial systems. Since attackers are able to easily make exploit codes, i.e., malware, using dedicated generation tools, the number of malware is rapidly increasing. However, it is not easy to analyze all of malware due to an extremely large number of malware. Because of this, many researchers have proposed the malware classification methods that aim to identify unforeseen malware from the well-known malware. The existing malware classification methods used malicious information obtained from the static and the dynamic malware analysis as the criterion of calculating the similarity between malwares. Also, most of them used API functions and their sequences that are divided into a certain length. Thus, the accuracy of the malware classification heavily depends on the length of divided API sequences. In this paper, we propose an extraction method of optimized API sequence length and combination that can be used for improving the performance of the malware classification. We found that the length of optimized API sequence is 2 from the experimental results using malware samples collected from real environment. Also, In order to classify unforeseen malware from the well-known malware by using the length of optimized API sequence, we need to find the superior similarity computation method between malwares. To this end, we carry out the precise modeling of the noise and the expected data for each group. The classification accuracy of the proposed method is expected to be better than those of the existing methods.
With the development of the Internet, the number of cyber threats is continuously increasing and their techniques are also evolving for the purpose of attacking our crucial systems. Since attackers are able to easily make exploit codes, i.e., malware, using dedicated generation tools, the number of malware is rapidly increasing. However, it is not easy to analyze all of malware due to an extremely large number of malware. Because of this, many researchers have proposed the malware classification methods that aim to identify unforeseen malware from the well-known malware. The existing malware classification methods used malicious information obtained from the static and the dynamic malware analysis as the criterion of calculating the similarity between malwares. Also, most of them used API functions and their sequences that are divided into a certain length. Thus, the accuracy of the malware classification heavily depends on the length of divided API sequences. In this paper, we propose an extraction method of optimized API sequence length and combination that can be used for improving the performance of the malware classification. We found that the length of optimized API sequence is 2 from the experimental results using malware samples collected from real environment. Also, In order to classify unforeseen malware from the well-known malware by using the length of optimized API sequence, we need to find the superior similarity computation method between malwares. To this end, we carry out the precise modeling of the noise and the expected data for each group. The classification accuracy of the proposed method is expected to be better than those of the existing methods.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.