[논문]소스코드 취약성 분류를 위한 기계학습 기법의 적용

이원경; 이민주; 서동수

doi:10.13089/jkiisc.2020.30.4.735

소스코드 취약성 분류를 위한 기계학습 기법의 적용
Application of Machine Learning Techniques for the Classification of Source Code Vulnerability 원문보기

情報保護學會論文誌 = Journal of the Korea Institute of Information Security and Cryptology, v.30 no.4, 2020년, pp.735 - 743

이원경 (성신여자대학교) , 이민주 (성신여자대학교) , 서동수 (성신여자대학교)

초록
AI-Helper

시큐어코딩은 악의적인 공격 혹은 예상치 못한 오류에 대한 강인함을 제공해줄 수 있는 안전한 코딩 기법으로 정적분석도구의 지원을 통해 취약한 패턴을 찾아내거나 오염 데이터의 유입 가능성을 발견한다. 시큐어코딩은 정적기법을 적극적으로 활용하는 만큼 룰셋에 의존적이라는 단점을 가지며, 정적분석 도구의 복잡성이 높아지는 만큼 정확한 진단이 어렵다는 문제점을 안고 있다. 본 논문은 시큐어코딩을 지원하는 목적으로 기계학습 기법 중 DNN과 CNN, RNN 신경망을 이용하여 개발보안가이드 상의 주요 보안약점에 해당하는 패턴을 학습시키고 분류하는 모델을 개발하며 학습 결과를 분석한다. 이를 통해 기계학습 기법이 정적분석과 더불어 보안약점 탐지에 도움을 줄 수 있을 것으로 기대한다.

Abstract ▼ AI-Helper

Secure coding is a technique that detects malicious attack or unexpected errors to make software systems resilient against such circumstances. In many cases secure coding relies on static analysis tools to find vulnerable patterns and contaminated data in advance. However, secure coding has the disadvantage of being dependent on rule-sets, and accurate diagnosis is difficult as the complexity of static analysis tools increases. In order to support secure coding, we apply machine learning techniques, such as DNN, CNN and RNN to investigate into finding major weakness patterns shown in secure development coding guides and present machine learning models and experimental results. We believe that machine learning techniques can support detecting security weakness along with static analysis techniques.

주제어

표/그림 (16)

그림 Fig. 1. Comparison of Single Neural Networks and Deep Neural Networks
그림 Fig. 2. Structure of Convolutional Neural Network,
표 Table 1. Static Analysis Techniques
그림 Fig. 3. Use of Neural Networks for Static Analysis
그림 Fig. 4. Procedures for Machine Learning
표 Table 2. Data Size for Vulnerability Categories
그림 Fig. 5. Transformation of Source Code Tensor
그림 Fig. 6. Structure of Empirical DNN Model
그림 Fig. 7. Structure of Empirical CNN Model
그림 Fig. 8. Accuracy(a) and Loss(b) for DNN Sigmoid Function
그림 Fig. 9. Accuracy(a) and Loss(b) for DNN Tanh Function
표 Table 3. Accuracy Table for DNN
표 Table 4. Accuracy Table for CNN
그림 Fig. 10. Accuracy(a) and Loss(b) for CNN Default Function
그림 Fig. 11. Accuracy(a) and Loss(b) of LSTM for XSS
그림 Fig. 12. Accuracy and Loss of LSTM for Nullpointer Dereferencing

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서는 시큐어코딩 활동을 하는 과정에서 생성된 텍스트 데이터를 기계학습을 통해 학습시킴으로써 개발자의 시큐어코딩 활동이 기계학습을 통해 학습이 가능한지를 알아보고자 한다. 특히 빈번하게 발견되는 보안취약점 중 크로스사이트 스크립트 공격, 널 포인터 역참조 에러 등의 소스코드 내의 보안 취약점을 중심으로 기계학습을 진행하여 학습의 특성을 관찰하고 결과를 분석한다.
본 논문은 Russell, Kolosnjaji 등의 연구와 맥을 같이하여 소스코드에 내재되어 있는 기계학습을 기반으로 한 취약점 탐지의 목적을 두고 있으나, Ja va 코드를 대상으로 국내 실정에 맞도록 행정안전부 개발보안가이드에 나타난 주요 보안약점을 분류 대상으로 하는 차별화된 접근을 한다. 이는 국내 시큐어 코딩 및 개발보안 활동에 기계학습을 적용하는 실험적인 시도로 의미가 있으며 학습 과정에서 다양한 학습모델을 이용함으로써 취약성 패턴의 학습 가능여부를 살펴보고자 한다.
이미지 식별에 효과를 보이는 심층 신경망과 합성곱 신경망이 순환신경망과 유사하게 텍스트 형태의 데이터에 대해서도 효과적이라는 점은 여러 사례를 통해 보고되고 있다[11]. 본 논문의 실험에서는 소스코드와 같은 잘 정의된 구조를 갖는 텍스트 데이터에 대해서도 학습이 가능하다면 Fig. 3.과 같이 기계학습을 활용해서도 정적분석의 일정 부분기능을 수행할 수 있음을 보이고자 한다.
본 논문은 Russell, Kolosnjaji 등의 연구와 맥을 같이하여 소스코드에 내재되어 있는 기계학습을 기반으로 한 취약점 탐지의 목적을 두고 있으나, Ja va 코드를 대상으로 국내 실정에 맞도록 행정안전부 개발보안가이드에 나타난 주요 보안약점을 분류 대상으로 하는 차별화된 접근을 한다. 이는 국내 시큐어 코딩 및 개발보안 활동에 기계학습을 적용하는 실험적인 시도로 의미가 있으며 학습 과정에서 다양한 학습모델을 이용함으로써 취약성 패턴의 학습 가능여부를 살펴보고자 한다.
넷째, 가공되지 않은 데이터로 학습한 경우는 유의미한 수준의 정확도가 도출되지 않았다. 이를 개선하기 위한 본 연구에서는 토큰 단위의 구분을 통해 벡터화시키는 전처리를 수행하였으며, 결과적으로 의미있는 학습이 진행될 수 있음을 관찰하였다.

제안 방법

정적분석 도구는 방대한 양의 소스코드에 대해 내부의 구조를 검사하기 위해 전처리 작업을 필요로 하며, 전처리 작업으로 구문 분석과 구문트리 생성을 한다. 구문트리는 코드의 구문특성을 구조적으로 표현한 것으로 정적분석에서는 이를 대상으로 제어흐름 분석과 자료흐름분석 등을 통해 다양한 정보를 추출한다.
기계학습의 효율성을 검증하기 위한 지표로 본 논문에서는 학습 정확도, 검증정확도, 그리고 테스트 정확도 지표를 사용한다. 테스트 정확도는 훈련과 검증을 거쳐 만들어진 기계학습 모델의 정확도를 판별하기 위한 목적으로 훈련에 사용되지 않은 새로운 보안 취약점 데이터를 유형별로 100개 입력했을 때 정답일 확률로 정의한다.
본 논문은 취약성 패턴의 학습을 위해 비선형적인 예측이 가능한 세 가지 신경망으로서 심층 신경망과 합성곱 신경망, 순환신경망을 활용한다. 이를 통해 어떤 신경망 모델이 적절한지를 찾아내기 위해 다양한 지표들과 파라메터, 활성함수를 활용하여 실험하며 정확도를 중심으로 한 실험 결과를 제시한다.
심층신경망 구조에서는 어떤 활성화 함수를 사용하느냐에 따라 오류율과 정답률이 달라진다. 본 실험에서는 대표적인 비선형 활성화 함수인 Sigmoid, Tanh, 선형 활성함수인 Relu6를 적용하여 결과를 비교한다. 실험에서 설계된 합성곱 신경망은 48,289 x801개의 입력데이터에 대해 3x128의 구조를 갖는 합성곱층과 맥스 풀링층, 그리고 완전연결계층(fully conneted layer)과 분류기로 구성된다.
손실함수(loss function)는 학습모델로부터 생성된 예측과 정답사이의 차이를 판단하는 함수로 손실이 최소가 되는 부분을 찾아가도록 최적화되며 교차 엔트로피(corss-entropy) 함수를 이용해 정의된다. 실험에서는 6개의 은닉층을 정의하였으며 학습비율은 0.0001, 드롭아웃 계수는 0.3, Epoc은 10을 적용하였으며 Adam optimizer를 사용하였다.
심층 신경망을 이용한 보안 취약점 식별 실험에서 신경망은 총 3개의 은닉층으로 정의되었으며 각 은닉층은 512개의 노드로 설계되었다. 입력층은 가장 많은 토큰으로 이어진 소스코드의 개수를 기준으로 노드 개수가 결정된다.
본 실험은 내재되어 있는 보안 취약점의 유형을 탐지하고 분류하는 것이 목표인 만큼 주어진 이들 데이터 중에서 정탐으로 판별된 소스코드 데이터만을 사용하였다. 이 중에서 신경망의 훈련에 쓰일 수 있을 만큼의 충분한 개수를 가진 크로스 사이트 스크립트, 널 포인터 역참조, 부적절한 예외처리, 시스템 데이터 정보 노출 등 총 4 영역의 유형을 분류하여 실험하였다. 실험에 사용된 학습환경은 Google Brain Team의 텐서플로우이며, Python 2.
이를 위해 본 실험에서는 텐서에 해당하는 소스코드 문자열 스트림을 숫자로 변환해주기 위해 Fig. 5.와 같은 단계로 나누어 소스코드 스트림을 텐서로 변환한다.
본 논문은 취약성 패턴의 학습을 위해 비선형적인 예측이 가능한 세 가지 신경망으로서 심층 신경망과 합성곱 신경망, 순환신경망을 활용한다. 이를 통해 어떤 신경망 모델이 적절한지를 찾아내기 위해 다양한 지표들과 파라메터, 활성함수를 활용하여 실험하며 정확도를 중심으로 한 실험 결과를 제시한다.
텍스트 정보의 연속체로서 소스코드를 학습 데이터로 사용하기 위해서는 두 가지 경우가 가능하다. 첫째, 라인단위의 소스코드를 텍스트 형태로 학습에 사용하는 경우와, 둘째, 토큰 단위의 전처리를 거쳐 벡터데이터로 학습하는 경우이며, 본 실험에서는 학습 정확성 문제로 토큰단위의 학습을 수행한다.
본 논문에서는 시큐어코딩 활동을 하는 과정에서 생성된 텍스트 데이터를 기계학습을 통해 학습시킴으로써 개발자의 시큐어코딩 활동이 기계학습을 통해 학습이 가능한지를 알아보고자 한다. 특히 빈번하게 발견되는 보안취약점 중 크로스사이트 스크립트 공격, 널 포인터 역참조 에러 등의 소스코드 내의 보안 취약점을 중심으로 기계학습을 진행하여 학습의 특성을 관찰하고 결과를 분석한다.

대상 데이터

본 실험에서 사용하는 데이터는 정적분석기를 통해 보고된 리포트를 통해 추출하였으며 보안취약점이 발생 코드 부분(code fragment)과 취약성 카테고리가 포함된 정보를 활용한다. 주로 보안 취약점이 발견된 소스코드 라인의 부분과 그에 해당하는 보안 약점 유형을 결과는 정답 라벨로 활용할 수 있어 지도 학습 모델로 훈련시킬 수 있다 (Fig.
실험을 위해 사용된 데이터는 한국인터넷진흥원에 의해 수집되고 제공된 총 68,863개의 취약점 목록으로 해당 취약점이 발생한 소스코드를 포함한다. 본 실험은 내재되어 있는 보안 취약점의 유형을 탐지하고 분류하는 것이 목표인 만큼 주어진 이들 데이터 중에서 정탐으로 판별된 소스코드 데이터만을 사용하였다. 이 중에서 신경망의 훈련에 쓰일 수 있을 만큼의 충분한 개수를 가진 크로스 사이트 스크립트, 널 포인터 역참조, 부적절한 예외처리, 시스템 데이터 정보 노출 등 총 4 영역의 유형을 분류하여 실험하였다.
이 중에서 신경망의 훈련에 쓰일 수 있을 만큼의 충분한 개수를 가진 크로스 사이트 스크립트, 널 포인터 역참조, 부적절한 예외처리, 시스템 데이터 정보 노출 등 총 4 영역의 유형을 분류하여 실험하였다. 실험에 사용된 학습환경은 Google Brain Team의 텐서플로우이며, Python 2.7 버전을 사용하여 모델을 구현하였다.
본 실험에서는 대표적인 비선형 활성화 함수인 Sigmoid, Tanh, 선형 활성함수인 Relu6를 적용하여 결과를 비교한다. 실험에서 설계된 합성곱 신경망은 48,289 x801개의 입력데이터에 대해 3x128의 구조를 갖는 합성곱층과 맥스 풀링층, 그리고 완전연결계층(fully conneted layer)과 분류기로 구성된다.(Fig.
입력층은 가장 많은 토큰으로 이어진 소스코드의 개수를 기준으로 노드 개수가 결정된다. 실험에서는 가장 긴 토큰 개수인 801개를 기준으로 입력층의 노드 개수 정의되었다. 출력층 노드는 식별해야 하는 보안 취약점 유형을 나타내므로 4개로 구성되며, 각 노드는 크로스 사이트 스크립트, 널 포인터 역참조, 부적절한 예외 처리, 시스템 정보노출을 표현한다.
실험을 위해 사용된 데이터는 한국인터넷진흥원에 의해 수집되고 제공된 총 68,863개의 취약점 목록으로 해당 취약점이 발생한 소스코드를 포함한다. 본 실험은 내재되어 있는 보안 취약점의 유형을 탐지하고 분류하는 것이 목표인 만큼 주어진 이들 데이터 중에서 정탐으로 판별된 소스코드 데이터만을 사용하였다.

이론/모형

Russell[8]은 C와 C++ 소스코드를 대상으로 강화학습을 적용하여 취약성의 분류를 수행한 바 있다. 이 연구에서는 비교적 탐지가 수월한 버퍼 오버플로우 패턴을 탐지하였으며, 랜덤 포레스트 기법과 딥러닝 기법을 적용하였다.

성능/효과

RNN과 LSTM의 경우 의 경우 드롭아웃 0.3, 20 Epoc을 적용하여 실험한 결과 카테고리 분류에는 유의미한 실험결과를 얻지는 못하였으나 이진분류의 경우 XSS에 대해서는 95.1%, 널포인터 역참조 오류에 대해서는 97.3%의 정확성을 보이는 것을 관찰할 수 있다.
83의 정확도를 보였다. 결과적으로 Tanh는 4개의 활성화 함수에 대한 모델 중 가장 높은 테스트 정확도를 보인다.
넷째, 가공되지 않은 데이터로 학습한 경우는 유의미한 수준의 정확도가 도출되지 않았다. 이를 개선하기 위한 본 연구에서는 토큰 단위의 구분을 통해 벡터화시키는 전처리를 수행하였으며, 결과적으로 의미있는 학습이 진행될 수 있음을 관찰하였다.
둘째, 실험데이터가 충분한 크로스사이트 스크립트의 경우 학습과정에서 큰 문제는 없었지만 상대적으로 적은 양의 데이터로부터 출발한 부적절한 예외 처리, 시스템 데이터 정보노출 카테고리의 경우 과적합 문제가 발생할 수 있다고 판단된다. 실제 테이블 3의 테스트 정확도가 트레이닝 정확도를 넘어서는 경우가 그러한 이유인 것으로 생각된다.
첫째, 활성함수의 수준에 따라 학습결과는 차이가 있지만 취약성 분류에 있어 전반적으로 합성곱 신경망 모델이 심층 신경망 모델에 비해 우수한 결과를 보이고 있다.

후속연구

결론적으로 기계학습 기법 중에서 이미지 식별에 적합하다고 알려진 합성곱 신경망이 소스코드 취약점을 탐지하는 분야에도 적용이 가능하다는 점과 더불어 LSTM과 같은 순환모델을 활용한다면 다양한 측면의 접근이 가능하다고 볼 수 있다. 그럼에도 불구하고 알고리즘 기반인 기존의 정적분석과 비교해볼 때 아직은 대체할 수 있는 수준의 탐지 능력을 보여주지는 못한 것이 현재의 기계학습 모델의 한계라 생각한다.
그럼에도 불구하고 알고리즘 기반인 기존의 정적분석과 비교해볼 때 아직은 대체할 수 있는 수준의 탐지 능력을 보여주지는 못한 것이 현재의 기계학습 모델의 한계라 생각한다. 다만 앞으로 충분한 양의 학습데이터가 확보된다면 정교한 소스코드 취약성 탐지에 도움을 줄 수 있을 것으로 기대된다.
셋째, 충분한 양의 학습데이터가 제공된다면 4개 영역 뿐 아니라 다른 영역의 카테고리까지 확장하여 식별 가능할 것으로 판단된다.

질의응답

핵심어	질문	논문에서 추출한 답변
	기계학습의 핵심은 무엇인가?	최근 활발히 연구되고 있는 기계학습은 다양한 분야로 그 적용범위를 넓혀가고 있다. 기계학습의 핵심은 방대한 양의 데이터를 바탕으로 유의미한 수준의 학습을 수행함으로써 사람이 행하는 판단을 확률적으로 시뮬레이션 한다는 점이다. 특히 자율주행자동차[1], IoT, 스마트 팩토리[2] 등 이미지로부터 학습된 결과를 적용하는 분야에 효과적인 것으로 알려졌으며 대규모 데이터에 의존한 응용분야에 성공적으로 적용되고 있다.
	소스코드에 유입된 보안 약점 및 취약점을 자동 분석하는 기법으로 정적 분석이 활용되는 이유는 무엇인가?	정적분석은 프로그램 실행을 기반으로 오류를 탐지하는 테스팅 기법과는 달리 비실행 기반의 소스코드 특성분석 분석기법이다[10]. 그러한 이유로 정적 분석은 소스코드에 유입된 보안 약점 및 취약점을 자동 분석하는 기법으로 활용되고 있다.
	시큐어코딩의 단점은 무엇인가?	시큐어코딩은 악의적인 공격 혹은 예상치 못한 오류에 대한 강인함을 제공해줄 수 있는 안전한 코딩 기법으로 정적분석도구의 지원을 통해 취약한 패턴을 찾아내거나 오염 데이터의 유입 가능성을 발견한다. 시큐어코딩은 정적기법을 적극적으로 활용하는 만큼 룰셋에 의존적이라는 단점을 가지며, 정적분석 도구의 복잡성이 높아지는 만큼 정확한 진단이 어렵다는 문제점을 안고 있다. 본 논문은 시큐어코딩을 지원하는 목적으로 기계학습 기법 중 DNN과 CNN, RNN 신경망을 이용하여 개발보안가이드 상의 주요 보안약점에 해당하는 패턴을 학습시키고 분류하는 모델을 개발하며 학습 결과를 분석한다.

참고문헌 (17)

X. Chen, H. Ma, J. Wan, B. Li, and T. Xia, "Multi view 3D object detection network for autonomous driving," 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 6526-6534, July. 2017.
J. Wang, Y Ma, L. Zhang, R.X. Gao, and D. Wu, "Deep learning for smart manufacturing: methods and applications," Journal of Manufacturing Systems, vol. 48, part C, pp. 144-156, Jan. 2018.

상세보기
V.B. Livshits and M.S Lam, "Finding security vulnerabilities in java applications with static analysis," Proceedings of the 14th conference on USENIX Security Symposium, vol. 14, pp. 18-18, Aug. 2005.
Y.W. Huang, F. Yu, C. Hang, C.H. Tsai, D.T. Lee, and S.Y. Kuo, "Securing web application code by static analysis and runtime protection," Proceedings of the 13th international conference on World Wide Web, pp. 40-52, May. 2004.
A.M. Delaiter, B.C. Stivalet, P.E. Black, V. Okun, T.S. Cohen, and A. Ribeiro, "Sate v report: ten years of static analysis tool expositions," No. Special Publication, (NIST SP)-500-326, 2018
Ministry of the Interior and Safety and Korea Internet & Security Agency, "Development security guide for sw developers and operators of e-government," 11-1311000-000330-10, Jan. 2017
V. Barstad, M Goodwin, and T Gjoseter, "Predicting source code quality with static analysis and machine learning," Norsk IKT-konferanse for forskning og utdanning, Jan. 2015.
R. Russell, L. Kim, L. Hamilton, T. Lazovich, J. Harer, O. Ozdemir, P. Ellingwood, and M. McConley, "Automated vulnerability detection in source code using deep representation learning," 2018 17th IEEE International Conference on Machine Learning and Applications (ICMLA), IEEE, pp. 757-762, Dec. 2018
B. Kolosnjaji, A. Zarras, G. Webster, and C. Eckert, "Deep learning for classification of malware system call sequences," Australasian Joint Conference on Artificial Intelligence, Springer, Cham, pp. 137-149, Nov. 2016.
L. Zhen, Z. Deqing, X. Shouhuai, O. Xinyu, J. Hai, W. Sujuan, D. Zhijun, and Z. Yuyi, "Vuldeepecker : a deep learning-based system for vulnerability detection," Proceedings 2018 Network and Distributed System Security Symposium, 2018, Jan. 2018.
B. Chess, and J. West, Secure programming with static analysis, Pearson Education, Jun. 2007
Y. Kim, "Convolutional neural networks for sentence classification," Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNL), 2014, pp. 1746-1751, Aug. 2014
S. Christey, and R.A. Martin, "Vulnerability type distributions in cve," Mitre report, May. 2007
J. Williams, and D. Wichers, "The ten most critical web application security risks," rc1, OWASP Foundation, 2017
W.K. Lee, "A study on detection and classification of security vulnerabilities based on machine learning," MSc Thesis, Sungshin University, Aug. 2018
R. Nallapati, B. Zhou, C.N. santos , C. Gulcehre, and B. Xiang. "Abstractive text summarization using sequence-to-sequence rnns and beyond," Proceedings of The 20th SIGNLL Conference on Computational Natural Language Learning, 2016, pp. 280-290, 2016
Y. Tom, H. Devamanyu, P. Soujanya, and C. Erik, "Recent trends in deep learning based natural language processing," IEEE Computational Intelligence Magazine, vol. 13, no. 3, pp. 55-75, Aug. 2018

상세보기

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증