[논문]자연어 처리 기반 멀티 소스 이벤트 로그의 보안 심각도 다중 클래스 분류

서양진

doi:10.13089/jkiisc.2022.32.5.1009

[국내논문] 자연어 처리 기반 멀티 소스 이벤트 로그의 보안 심각도 다중 클래스 분류
A Multiclass Classification of the Security Severity Level of Multi-Source Event Log Based on Natural Language Processing 원문보기

情報保護學會論文誌 = Journal of the Korea Institute of Information Security and Cryptology, v.32 no.5, 2022년, pp.1009 - 1017

서양진 (이포즌)

초록
AI-Helper

로그 데이터는 정보 시스템의 주요 동작과 상태를 이해하고 판단하는 근거로 사용되어 왔으며, 여러 보안 분야 응용에서도 중요한 입력 데이터로 사용된다. 로그 데이터로부터 필요한 정보를 얻어 이를 근거로 의사 결정을 하고, 적절한 대응 방안을 취하는 것은 시스템을 보호하고 안정적으로 운영하는 데 있어 필수적인 요소이지만, 로그의 종류와 양이 폭발적으로 증가함에 따라 기존 도구들로는 효과적이고 효율적인 대응이 쉽지 않은 상황이다. 이에 본 연구에서는 자연어 처리 기반의 머신 러닝을 이용해 멀티 소스 이벤트 로그의 보안 심각도를 여러 단계로 분류하는 방법을 제안하였으며, 472,972건의 훈련 및 테스트 샘플을 이용하여 실험을 수행한 결과 99.59%의 정확도를 달성하였다.

Abstract ▼ AI-Helper

Log data has been used as a basis in understanding and deciding the main functions and state of information systems. It has also been used as an important input for the various applications in cybersecurity. It is an essential part to get necessary information from log data, to make a decision with the information, and to take a suitable countermeasure according to the information for protecting and operating systems in stability and reliability, but due to the explosive increase of various types and amounts of log, it is quite challenging to effectively and efficiently deal with the problem using existing tools. Therefore, this study has suggested a multiclass classification of the security severity level of multi-source event log using machine learning based on natural language processing. The experimental results with the training and test samples of 472,972 show that our approach has archived the accuracy of 99.59%.

Keyword

표/그림 (10)

그림 Fig. 1. Security event log example
그림 Fig. 2. Event log parsing example
그림 Fig. 3. Log messages of same template having different security levels each
그림 Fig. 4. Event log example with a long line or multiple lines and complex structure
표 Table 1. Samples' level distribution
그림 Fig. 5. Removal of the uninformative part in event log data
그림 Fig. 6. An example of tokenization and vectorization by scikit-learn CountVectorizer
표 Table 2. Confusion matrix for max token 5000
표 Table 3. Confusion matrix for max token 500
표 Table 4. Confusion matrix for max token 200

AI 본문요약
AI-Helper

제안 방법

실험에는 472,972건의 샘플 중 같은 내용의 로그에 두 개 이상의 다른 클래스가 부여된 경우를 찾아 제거한 후 남은 471,888건의 샘플을 절반씩 학습데 이터와 테스트 데이터로 사용하였다. 심각도 2, 4, 6의 이벤트 로그는 건수가 많지 않아 전체 샘플을 학습과 테스트 데이터로 절반씩 나눌 때 모든 클래스가 클래스별로 절반씩 학습과 테스트 데이터에 포함되도록 하였다. CV 적용 시 최대 토큰 수를 지정하게 되는데, 실험 1에서는 최대 토큰 수를 5,000으로적 용하여 실험을 수행하였다.

대상 데이터

실험에는 472,972건의 샘플 중 같은 내용의 로그에 두 개 이상의 다른 클래스가 부여된 경우를 찾아 제거한 후 남은 471,888건의 샘플을 절반씩 학습데 이터와 테스트 데이터로 사용하였다. 심각도 2, 4, 6의 이벤트 로그는 건수가 많지 않아 전체 샘플을 학습과 테스트 데이터로 절반씩 나눌 때 모든 클래스가 클래스별로 절반씩 학습과 테스트 데이터에 포함되도록 하였다.

데이터처리

먼저 2장에서는 본 연구가 다루고자 하는 문제와 연구에 사용된 데이터셋 및 보안과 관련된 이벤트 로그 특성에 관해 자세하게 설명한다. 3장은 대표적인 머신 러닝 분류 모델인 Random Forest를 이용해 멀티 소스 이벤트 로그의 보안 심각도 다중 클래스 분류를 수행하고 그 결과를 분석한다. 마지막으로 4장에서는 본 연구의 결론과 향후 연구에 대해 정리한다.

성능/효과

자연어 처리 기반의 방법을 사용하면 비정형 로그 원본 데이터를 정형 데이터로 바꿀 필요 없이 로그 분석을 수행하는 것이 가능하다. 자연어 처리 기반의 방법을 사용해도 로그 데이터를 컴퓨터 알고리즘이 처리할 수 있는 데이터 표현(representation)으로 바꾸어 주는 과정은 여전히 필요하지만, 여러 종류의 로그에 대해, 각 로그 종류별로 추가적인 작업 없이 해당 과정을 수행할 수 있기에 멀티 소스 이벤트 로그를 분석하는 과업에 있어서는 자연어 처리 기반의 방법이 전통적인 파싱이나 클러스터링 보다 효율적이다.
자연어 처리 기반의 방법을 사용하면 비정형 로그 원본 데이터를 정형 데이터로 바꿀 필요 없이 로그 분석을 수행하는 것이 가능하다. 자연어 처리 기반의 방법을 사용해도 로그 데이터를 컴퓨터 알고리즘이 처리할 수 있는 데이터 표현(representation)으로 바꾸어 주는 과정은 여전히 필요하지만, 여러 종류의 로그에 대해, 각 로그 종류별로 추가적인 작업 없이 해당 과정을 수행할 수 있기에 멀티 소스 이벤트 로그를 분석하는 과업에 있어서는 자연어 처리 기반의 방법이 전통적인 파싱이나 클러스터링 보다 효율적이다. 자연어 처리 기반의 방법에서 사용하는 데이터 표현은 머신 러닝이나 딥러닝 모델과 함께 적용돼 사람이 인지하거나 정의하기 어려운 로그 데이터 내의 복잡한 관계를 모델링할 수 있어 더욱 효과적인 로그 분석이 가능해진다.
따라서 최대 토큰 수를 5,000으로 지정하면 RF 분류기의 입력으로 235943 X 5000의 행렬이 주어진다. RF 모델에서 사용할 트리 수를 100으로 지정하고 학습을 수행한 후 테스트 데이터에 대해 추론을 수행한 결과 70.67%의 정확도를 달성하였는데, 이에 대한 혼동 행렬(confusion matrix)을 확인해 보면(Table 2) 사실상 분류가 제대로 이루어지지 않았음을 알 수 있다. 데이터셋에서 보안 심각도 레벨 0을 가지는 로그의 비율이 약 70%라는 사실과 혼동 행렬에 나타난 결과를 바탕으로 결과를 분석하면, 벡터화에 사용하는 출현 빈도 상위 토큰의 개수를 큰 값으로 정하면 전체 샘플 중 높은 비율을 가지는 클래스에 해당하는 로그에 속한 토큰들이 대거 사용되어 다른 클래스의 이벤트 로그까지도 해당 로그로 분류된 것으로 판단된다.
67%의 정확도를 달성하였는데, 이에 대한 혼동 행렬(confusion matrix)을 확인해 보면(Table 2) 사실상 분류가 제대로 이루어지지 않았음을 알 수 있다. 데이터셋에서 보안 심각도 레벨 0을 가지는 로그의 비율이 약 70%라는 사실과 혼동 행렬에 나타난 결과를 바탕으로 결과를 분석하면, 벡터화에 사용하는 출현 빈도 상위 토큰의 개수를 큰 값으로 정하면 전체 샘플 중 높은 비율을 가지는 클래스에 해당하는 로그에 속한 토큰들이 대거 사용되어 다른 클래스의 이벤트 로그까지도 해당 로그로 분류된 것으로 판단된다. 이를 확인하기 위해 실험 2와 3에서는 최대 토큰 수를 500과 200으로 제한하여 보안 심각도 분류를 수행하였고, 각각 정확도99.
데이터셋에서 보안 심각도 레벨 0을 가지는 로그의 비율이 약 70%라는 사실과 혼동 행렬에 나타난 결과를 바탕으로 결과를 분석하면, 벡터화에 사용하는 출현 빈도 상위 토큰의 개수를 큰 값으로 정하면 전체 샘플 중 높은 비율을 가지는 클래스에 해당하는 로그에 속한 토큰들이 대거 사용되어 다른 클래스의 이벤트 로그까지도 해당 로그로 분류된 것으로 판단된다. 이를 확인하기 위해 실험 2와 3에서는 최대 토큰 수를 500과 200으로 제한하여 보안 심각도 분류를 수행하였고, 각각 정확도99.59%와 98.94%를 달성하였다.
Table 3과 4는 실험 2와 3의 결과에 대한 혼동 행렬인데 정확도 상으로는 둘 사이에 큰 차이가 없지만, 상세 내용에는 주의 깊게 살펴볼 부분이 몇 가지 있다. 첫째, 전체 샘플 중 98.6%를 차지하고 있는 보안 심각도 0과 1을 제외한 샘플들의 분류 정확도를 보면 최대 토큰 수를 500으로 한 경우는 85.70%지만, 최대 토큰 수를 200을 한 경우는 54.91%이다. 사실 보안 심각도 2, 4, 6은 해당 건수가 매우 적어서 전체 정확도 계산에 미치는 영향이 미미할 수밖에 없기에 실험에 사용된 불균형 데이터셋에 대한 다중 클래스 분류의 성능 평가를 정확하게 하기는 쉽지 않다.
사실 보안 심각도 2, 4, 6은 해당 건수가 매우 적어서 전체 정확도 계산에 미치는 영향이 미미할 수밖에 없기에 실험에 사용된 불균형 데이터셋에 대한 다중 클래스 분류의 성능 평가를 정확하게 하기는 쉽지 않다. 조직 내에서 발생하는 이벤트 로그 중 높은 보안 심각도를 가지는 데이터의 수가 적을 수밖에 없는 현실에서 실험 1, 2, 3의 결과는 멀티 소스 이벤트 로그를 대상으로 자연어 처리 기반, 구체적으로는 토큰 출현 빈도 기반으로 다중 클래스 분류를 수행할 때 최대 토큰 수의 선택이 분류 성능에 중요한 요소가 됨을 보여준다. 둘째는 보안 심각도 2, 4, 6을 가지는 이벤트 로그의 분류 결과이다.
둘째는 보안 심각도 2, 4, 6을 가지는 이벤트 로그의 분류 결과이다. 최대 토큰 수를 500으로 한 경우는 해당 이벤트 로그를 여전히 한 건도 정확하게 분류해 내지 못하였지만, 최대 토큰 수를 200으로 한 경우는 좋은 분류 결과를 보였다. 해당 결과는 발생이 많지 않은 높은 보안 심각도의 이벤트 로그를 정확하게 분류하기 위한 목적이라면 벡터화에 사용될 최대 토큰 수를 적게 가져갈 필요가 있음을 보여준다.
로그 분석은 그 목적과 적용 분야에 따라 사용할 도구를 선택하게 되는데, 보안 단일 분야에서도 상세 목적이나 응용 분야에 따라 적용할 도구나 방법의 신중한 선택이 필요하다. 본 연구에서는 멀티 소스 이벤트 로그 레코드 각각이 가지는 보안 심각도를 여러 단계로 분류하는 과업을 다루었는데, 기존 도구들이 다양한 종류를 가지는 대량의 로그에 대해 다중 클래스 분류를 효율적으로 수행하지 못한다는 한계를 가져 이를 해결할 수 있는 도구로서 자연어 처리 기반 머신 러닝을 이용하는 방안을 제시하였고, 분류 정확도 99.59%라는 높은 성능을 달성하였다.
제안한 도구를 이용해 전체 로그 건수에 대해 높은 분류 정확도를 달성할 수 있는 것은 사실이나 문제 영역의 특성상 높은 심각도를 가지는 로그의 건수가 많지 않고 이러한 특성을 효과적으로 다루기 위해서는 벡터화에 사용될 토큰 수를 적게 제한할 필요가 있음을 확인하였다. 그러나 너무 작은 숫자를 선택하면 전체 로그 데이터 중 높은 비중을 차지하는 낮은 심각도를 가지는 로그를 제대로 분류하지 못하는 결과로 이어질 수 있어 적절한 숫자를 선택하는 방법에 관한 추가적인 연구가 필요하다.

후속연구

최대 토큰 수를 500으로 한 경우는 해당 이벤트 로그를 여전히 한 건도 정확하게 분류해 내지 못하였지만, 최대 토큰 수를 200으로 한 경우는 좋은 분류 결과를 보였다. 해당 결과는 발생이 많지 않은 높은 보안 심각도의 이벤트 로그를 정확하게 분류하기 위한 목적이라면 벡터화에 사용될 최대 토큰 수를 적게 가져갈 필요가 있음을 보여준다.
제안한 도구를 이용해 전체 로그 건수에 대해 높은 분류 정확도를 달성할 수 있는 것은 사실이나 문제 영역의 특성상 높은 심각도를 가지는 로그의 건수가 많지 않고 이러한 특성을 효과적으로 다루기 위해서는 벡터화에 사용될 토큰 수를 적게 제한할 필요가 있음을 확인하였다. 그러나 너무 작은 숫자를 선택하면 전체 로그 데이터 중 높은 비중을 차지하는 낮은 심각도를 가지는 로그를 제대로 분류하지 못하는 결과로 이어질 수 있어 적절한 숫자를 선택하는 방법에 관한 추가적인 연구가 필요하다. 또한 모델이 내린 결정의 근거를 보다 정확하고 자세하게 제시하는 방안이 필요한데, 이와 관련해서 설명 가능한 인공지능(XAI) 기술을 함께 적용하는 방안도 이어지는 연구로 수행하고자 한다.
그러나 너무 작은 숫자를 선택하면 전체 로그 데이터 중 높은 비중을 차지하는 낮은 심각도를 가지는 로그를 제대로 분류하지 못하는 결과로 이어질 수 있어 적절한 숫자를 선택하는 방법에 관한 추가적인 연구가 필요하다. 또한 모델이 내린 결정의 근거를 보다 정확하고 자세하게 제시하는 방안이 필요한데, 이와 관련해서 설명 가능한 인공지능(XAI) 기술을 함께 적용하는 방안도 이어지는 연구로 수행하고자 한다.

참고문헌 (17)

S. He, P. He, Z. Chen, T. Yang, Y.Su, and M.R. Lyu, "A survey on automated log analysis for reliability engineering," ACM Computing Surveys, vol. 54, no. 6, pp. 1-37, Jul.2021.

상세보기
Z. Chen, J. Liu, W. Gu, Y. Su, and M.R., Lyu, "Experience report: Deeplearning-based systemlog analysis for anomaly detection," arXiv preprintarXiv:2107.05908, Jul. 2021.
J. Zhu, S. He, J. Liu, P. He, Q. Xie,Z. Zheng, and M.R. Lyu, "Tools and benchmarks for automated log parsing," Proceedings of IEEE/ACM 41st International Conference on Software Engineering, pp. 121-130,May 2019.
M. Landauer, F. Skopik, M.Wurzenberger, and A. Rauber,"System log clustering approaches for cyber security applications: Asurvey," Computers & Security, vol. 92, pp.101739-101756, May 2020.

상세보기
P. He, J. Zhu, Z. Zheng, and M.R. Lyu, "Drain: An online log parsing approach with fixed depth tree," Proceedings of the 2017 IEEE International Conference on Web Services, pp. 33-40, Jun. 2017.
R. Yang, D. Qu, Y. Qian, Y. Dai, and S. Zhu, "An online log template extraction method based on hierarchical clustering," EURASIP Journal on Wireless Communications and Networking, vol. 2019, no. 1, pp. 882-895, Dec. 2019.
J. Raffety, B. Stone, J. Svacina, C. Woodahl, T. Cerny, and P. Tisnovsky, "Multi-source log clustering in distributed systems," Proceedings of the 11th International Conference on Information Science and Applications, pp. 31-41, Dec. 2020.
M. Du, F. Li, G. Zheng, and V. Srikumar, "Deeplog: Anomaly detection and diagnosis from system logs through deep learning," Proceedings of the 2017 ACM SIGSAC Conference on Computer and Communications Security, pp. 1285-1298, Oct. 2017.
W. Meng, Y. Liu, Y. Zhu, S. Zhang, D. Pei, Y. Liu, Y. Chen, R. Zhang, S. Tao, P. Sun, and R. Zhou, "LogAnomaly: Unsupervised detection of sequential and quantitative anomalies in unstructured logs," Proceedings of the 28th International Joint Conference on Artificial Intelligence, pp. 4739-4745, Aug. 2019.
"AI competition for predicting security risk level through log analysis", dacon.io/competitions/official/235717/overview/description, Aug. 2022
Z. Liu, T. Qin, X. Guan, H. Jiang, and C. Wang, "An integrated method for anomaly detection frommassivesystem logs," IEEE Access, vol. 6, pp.30602-30611, Jun. 2018.

상세보기
T. van Ede, H. Aghakhani, N. Spahn,R. Bortolameotti, M. Cova, A.Continella, M. van Steen, A. Peter,C. Kruegel, and G. Vigna,"DEEPCASE: Semi-supervised contextual analysis of securityevents," Proceedings of the 43rd IEEE Symposium on Security and Privacy,pp. 522-539, May 2022.
K. Erk, "Representing wordsasregions in vector space", Proceedingsof the 13th Conference on Computational Natural Language Learning, pp. 57-65, Jun. 2009.
Y. Liu, Y. Wang, and J. Zhang, "Newmachine learning algorithm: Randomforest," Proceedings of the 3rd International Conference on Information Computing and Applications, pp. 246-252, Sep. 2012.
Y. Zhang, R. Jin, and Z.H. Zhou,"Understanding bag-of-words model:Astatistical framework," International Journal of Machine Learningand Cybernetics, Vol. 1, no. 1, pp. 43-52,Dec. 2010.

상세보기
C. Wan, Y. Wang, Y. Liu, J. Ji, andG. Feng, "Composite feature extraction and selection for textclassification," IEEE Access, vol. 7,pp. 35208-35219, May 2019.

상세보기
"NLP based log analysis test", allaboutxai.github.io/ml_dl/2022/08/25/ml_dl-ml_LogAnalysis/, Aug. 2022

활용도 분석정보

상세보기

다운로드

내보내기

활용도 Top5 논문

해당 논문의 주제분야에서 활용도가 높은 상위 5개 콘텐츠를 보여줍니다.
더보기 버튼을 클릭하시면 더 많은 관련자료를 살펴볼 수 있습니다.

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증