[논문]통계 정보 기반 트래픽 분석 방법론의 성능 향상

안현민; 함재현; 김명섭

doi:10.3745/ktccs.2013.2.8.335

통계 정보 기반 트래픽 분석 방법론의 성능 향상
Performance Improvement of the Statistical Information based Traffic Identification System 원문보기

정보처리학회논문지. KIPS transactions on computer and communication systems 컴퓨터 및 통신 시스템, v.2 no.8, 2013년, pp.335 - 342

안현민 (고려대학교 컴퓨터정보학과) , 함재현 (고려대학교 컴퓨터정보학과, 국방과학연구소) , 김명섭 (고려대학교 컴퓨터정보학과)

초록
AI-Helper

네트워크의 고속화와 다양한 서비스의 등장으로 오늘날의 네트워크 트래픽은 복잡 다양해지고 있다. 효율적인 네트워크 관리를 위해서 QoS, SLA와 같은 정책을 적용하기 위해서는 트래픽 분석 중에서도 응용 트래픽 분류의 중요성이 크다. 현재까지 트래픽 분류에 관한 연구가 활발히 진행되어 왔는데 최근에는 플로우의 통계 정보를 이용한 트래픽 분류 방법론이 많이 연구되고 있다. 하지만 플로우의 통계 정보를 이용한 트래픽 분류 방법론에는 필히 고려해야 할 여러 문제점이 있다. 본 논문에서는 정답지 트래픽 분석을 통해 통계 정보 기반 트래픽 분석 방법론의 해결해야 하는 문제점들을 분석하고 그 해결방안에 대해 제안한다. 통계 정보 기반 트래픽 분석 방법론에서 필히 해결해야 할 문제점은 총 네 가지로 Feature들의 거리 측정 방법과 대표값 추출 방법, TCP 세션의 이상동작, 그리고 패킷 별 가중치이다. 제안하는 방법은 선정한 통계 시그니쳐 기반 트래픽 분석 시스템을 이용한 학내 망에서의 실험을 통해 그 성능을 검증한다.

Abstract ▼ AI-Helper

Nowadays, the traffic type and behavior are extremely diverse due to the growth of network speed and the appearance of various services on Internet. For efficient network operation and management, the importance of application-level traffic identification is more and more increasing in the area of traffic analysis. In recent years traffic identification methodology using statistical features of traffic flow has been broadly studied. However, there are several problems to be considered in the identification methodology base on statistical features of flow to improve the analysis accuracy. In this paper, we recognize these problems by analyzing the ground-truth traffic and propose the solution of these problems. The four problems considered in this paper are the distance measurement of features, the selection of the representative value of features, the abnormal behavior of TCP sessions, and the weight assignment to the feature. The proposed solutions were verified by showing the performance improvement through experiments in campus network.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

요즘과 같이 인터넷이 발달하여 분당 트래픽이 대량인 경우 실시간 분석에서 그 성능 차이가 드러날 수밖에 없다. 따라서 본 논문에서는 Feature의 대표값으로 최소/최대값을 사용해서 변위를 이용한 포함 범위 계산을 한 번만 하는 것을 제안한다.
본 논문에서는 기존 통계 정보 기반 트래픽 분류 방법의 분류 한계점들을 파악하고, 그 한계점을 극복하는 방법을 제시한다. 본 논문에서 다루는 한계점으로는 Feature 사이의 거리 측정 방법, Feature에서 대표값을 추출하는 방법, 트래픽 수집 지점에서의 TCP 세션의 이상동작, 그리고 패킷별 일정한 가중치가 있다.
본 논문에서는 패킷 크기 통계 정보 기반 트래픽 분류 방법론에서 고려해야 할 사항들을 분석하고 해결 방안을 제시하였다. 또한 실험을 통해 그 성능을 검증하였다.
분류 시 충돌 영역에 속하는 플로우는 2개 이상의 응용에 의해 분류 가능하므로, 이 중 하나의 응용으로 분류할 경우 잘못 분류할 가능성이 있기 때문에 이는 미확인 (unknown) 트래픽으로 분류한다. 본 논문에서는 해당 트래픽 분석 시스템에 제안하는 방법들을 적용하여 통계 정보 기반 트래픽 분석 방법의 성능 향상 방안을 제시한다.
본 절에서는 패킷 별 가중치를 이용하는 것의 타당성 입증 실험 결과를 분석한다. 실험은 학내 망에서 수집한 트래픽을 이용하여 진행하였고, 대상으로 하는 방법의 Feature인 패킷 크기, 전송 방향, 전송 순서 중 가중치를 할당하기 적합한 패킷 크기에 가중치를 할당하는 것이 타당한지 검증하기 위해 패킷의 전송 방향과 순서가 같은 플로우들을 그룹핑 하여 각 그룹별로 패킷 분포를 분석한다.
2에서 기술한 바와 같이 트래픽을 분석하기 위해서는 Feature를 표현하는 대표값을 산출해야 한다. 통계에서 자주 쓰이는 대표값은 여러 가지가 있는데 본 논문에서는 최소값, 혹은 최대값을 이용하는 것을 제안한다.

제안 방법

3.1절에서 Feature를 N차원으로 표현할 때, N차원 벡터와 N 차원 벡터의 거리를 측정하는 방법으로 두 점 사이의 거리를 하나의 값으로 나타내는, 벡터 단위 거리 측정 방법과두 점 사이의 거리를 N개의 값으로 나타내는 패킷 별 거리 측정 방법, 크게 두 가지에 대해 기술하였다.
패킷은 데이터의 흐름을 보기 위해 페이로드가 있는 패킷만을 사용하였으며 첫 패킷은 TCP의 경우 3-handshake 패킷 이후의 페이로드가 있는 패킷을 첫 패킷으로 정의한다. 같은 응용에서 발생하고, 패킷 전송 방향과 순서가 같은 플로우를 그룹으로 나누는 것을 그룹핑 조건으로 하였다.
본 논문에서는 패킷 크기 통계 정보 기반 트래픽 분류 방법론에서 고려해야 할 사항들을 분석하고 해결 방안을 제시하였다. 또한 실험을 통해 그 성능을 검증하였다. Feature 사이의 거리를 측정하는 방법으로는 패킷 별 거리 측정법을 사용해야 하며 Feature의 대표값으로는 중앙값, 혹은 평균값보다 최소/최대값을 사용하여야 한다.
본 절에서는 3.4절에서 가능성을 살펴 보았던 패킷 별 가중치 적용의 성능을 실험을 통해 검증한다.
[11]의 트래픽 분류 방법은 시그니쳐의 포함 범위와 분석 대상 플로우의 PSD 벡터의 비교를 통해 이루어진다. 분석 대상 플로우의 PSD 벡터가 시그니쳐의 포함범위에 존재할 때 분석 대상 플로우를 해당 시그니쳐의 응용으로 분류한다. Fig.
이러한 흐름 중, 고려해야 할 이상동작은 패킷 Retransmission과 패킷 Out-of-order이다. 수신 측에서 에러를 발견하면 에러가 발견된 데이터를 버리고 Ack를 하지 않음으로써 송신 측에 에러가 났음을 알리거나 최근 정상적으로 수신한 데이터에 대한 Ack를 반복하여 보냄으로써 송신 측이 Ack 이후의 데이터에서 에러가 발생한 것(또는 데이터그램이 분실된 것)을 알 수 있도록 하여 Fig. 8과 같이 해당 데이터를 Retransmission(재전송)하도록 한다. 이처럼 데이터에서 에러가 발생하면 (또는 데이터그램이 분실되면) 수신 측에서는 해당 데이터를 버리는 등의 동작을 하여 TCP의 바이트 스트림을 보장받는다.
본 절에서는 패킷 별 가중치를 이용하는 것의 타당성 입증 실험 결과를 분석한다. 실험은 학내 망에서 수집한 트래픽을 이용하여 진행하였고, 대상으로 하는 방법의 Feature인 패킷 크기, 전송 방향, 전송 순서 중 가중치를 할당하기 적합한 패킷 크기에 가중치를 할당하는 것이 타당한지 검증하기 위해 패킷의 전송 방향과 순서가 같은 플로우들을 그룹핑 하여 각 그룹별로 패킷 분포를 분석한다. 패킷은 데이터의 흐름을 보기 위해 페이로드가 있는 패킷만을 사용하였으며 첫 패킷은 TCP의 경우 3-handshake 패킷 이후의 페이로드가 있는 패킷을 첫 패킷으로 정의한다.
입력된 플로우를 PSD 벡터로 표현한 뒤 벡터 간 거리가 가까운 플로우들을 그룹핑하고, 그룹 당 하나의 시그니쳐를 추출한다. 시그니쳐는 응용 이름, 전송계층 프로토콜, 각 패킷 별 크기 및 패킷 별 크기 임계값을 가진다.
성능 검증을 위해 실험에 사용할 통계 시그니쳐 기반 트래픽 분류 시스템을 선정하고 해당 시스템에 제안하는 방법들의 적용 전후의 분석률 및 정확도를 분석하여 그 성능을 검증한다. 제안하는 방법은 학내망에 분석 시스템으로 구현하고 검증을 통해 실효성을 증명한다.
실험은 기본적으로 앞선 세 개의 문제를 해결한 시스템을 이용하였다. 즉 플로우 그룹핑과 트래픽 분석에서 패킷 별 거리측정법을 이용하였고, 추출하는 시그니쳐의 대표값을 그룹 내 플로우 벡터 각 요소의 최소값으로 계산하였으며 TCP세션의 이상동작을 개선한 트래픽을 사용하였다. 실험에 사용한 트래픽은 Table 1과 같다.
총 10일간 학내 망에서 수집한 트래픽을 대상으로 통계 정보 기반 트래픽 분류 방법론을 선정하여 문제점들의 해결 방안 적용 유무에 따른 분석 결과를 비교하였다. 트래픽 정보는 표 1과 같다.
하지만 본 논문에서는 패킷 별 거리 측정법을 제안한다. 패킷 별 거리 측정법은 패킷 각각 1차원의 계산을 하므로 City-Block distance와 계산속도가 같으며, 하나의 값이 아닌 N개의 값을 가짐으로써 Feture가 최대 N-1개까지 증가한다.

대상 데이터

본 논문에서 제안하는 방법의 대상은 통계 시그니쳐 기반 분석 방법, 머신 러닝 기반의 분석 방법이다. 통계 시그니쳐 기반 분석 방법은 플로우의 통계정보들을 이용해 응용 별 시그니쳐를 추출하고 이를 통해 트래픽을 응용 별로 분류하는 것이다.
구하여진 WeightVector를 이용하여 적용 전 후 실험을 하였다. 실험은 기본적으로 앞선 세 개의 문제를 해결한 시스템을 이용하였다. 즉 플로우 그룹핑과 트래픽 분석에서 패킷 별 거리측정법을 이용하였고, 추출하는 시그니쳐의 대표값을 그룹 내 플로우 벡터 각 요소의 최소값으로 계산하였으며 TCP세션의 이상동작을 개선한 트래픽을 사용하였다.
본 연구에서는 TMA-에이전트 기반의 정답지 생성 방법[13]을 이용하여 정확한 정답지를 학내 망에서 10일의 기간동안 수집하였다. 응용은 총 6가지로 Dropbox, KartRider, NateOn, Skype, Teamviewer, uTorrent 가 그것이다.

데이터처리

패킷 별 가중치 적용 실험에 앞서 패킷 별 가중치를 결정해야 한다. 3.4절의 실험 결과인 각 그룹의 패킷 별 분산을 이용하여 계산하였다. v(p_i)는 i번째 패킷의 분산이며 G_j(v(p_i))는 그룹 j의 i번째 패킷의 분산이다.
성능 검증을 위해 실험에 사용할 통계 시그니쳐 기반 트래픽 분류 시스템을 선정하고 해당 시스템에 제안하는 방법들의 적용 전후의 분석률 및 정확도를 분석하여 그 성능을 검증한다. 제안하는 방법은 학내망에 분석 시스템으로 구현하고 검증을 통해 실효성을 증명한다.

이론/모형

이러한 정답지는 매우 정확해야만 트래픽 분류 결과에 신뢰성을 보장해준다. 본 연구에서는 TMA-에이전트 기반의 정답지 생성 방법[13]을 이용하여 정확한 정답지를 학내 망에서 10일의 기간동안 수집하였다. 응용은 총 6가지로 Dropbox, KartRider, NateOn, Skype, Teamviewer, uTorrent 가 그것이다.

성능/효과

본 논문에서 제안한 해결방안들은 기존의 시스템의 성능을 향상시킨 결과를 나타내었다.
분석 방법론이 같더라도 결과에 영향을 끼치는 여러 문제들을 해결함으로써 더 좋은 성능을 내는 통계 기반 트래픽 분석 시스템이 된 것을 확인하였다.
표 3은 각각 선정한 통계 기반 트래픽 분석 시스템의 기존 알고리즘과 본 논문에서 제안하는 해결 방안들을 적용한 알고리즘의 성능을 비교한 표이다. 분석률 측면에선 적용 전 보다 후가 플로우 단위로 4.86%, 패킷 단위로 0.1%, 바이트 단위로 0.5% 증가하였다. 정확도 측면에서는 적용 전보다 후가 플로우 단위 0.
5% 증가하였다. 정확도 측면에서는 적용 전보다 후가 플로우 단위 0.02%, 패킷 단위 0.16% 증가하였고 바이트 단위로 소수 둘째 자리까지 같은 결과를 보였다.
패킷 별 가중치를 적용하였을 때가 적용하지 않았을 때보다 적게나마 모든 면에서 좋은 결과를 나타냈다. 패킷 별 가중치를 적용함으로써 플로우를 그룹핑 하는 거리 기준값을 더 크게 설정하여도 높은 정확도를 유지할 수 있었고 이로 인해 분석률의 증가를 보였다.
패킷 별 가중치를 적용하였을 때가 적용하지 않았을 때보다 적게나마 모든 면에서 좋은 결과를 나타냈다. 패킷 별 가중치를 적용함으로써 플로우를 그룹핑 하는 거리 기준값을 더 크게 설정하여도 높은 정확도를 유지할 수 있었고 이로 인해 분석률의 증가를 보였다.

후속연구

본 논문에서는 기존 통계 정보 기반 트래픽 분류 방법의 분류 한계점들을 파악하고, 그 한계점을 극복하는 방법을 제시한다. 본 논문에서 다루는 한계점으로는 Feature 사이의 거리 측정 방법, Feature에서 대표값을 추출하는 방법, 트래픽 수집 지점에서의 TCP 세션의 이상동작, 그리고 패킷별 일정한 가중치가 있다.
향후 연구에서는 응용 별로 패킷 별 가중치를 추출할 수 있는 방법과 통계정보 기반 트래픽 분류 방법론에 영향을 끼치는 다른 요소에 관한 연구를 계획 중이다.

질의응답

핵심어	질문	논문에서 추출한 답변
	효율적인 네트워크 관리를 위해서는 어떤 정책을 적용해야 하나요?	네트워크의 고속화와 다양한 서비스의 등장으로 오늘날의 네트워크 트래픽은 복잡 다양해지고 있다. 효율적인 네트워크 관리를 위해서 QoS, SLA와 같은 정책을 적용하기 위해서는 트래픽 분석 중에서도 응용 트래픽 분류의 중요성이 크다. 현재까지 트래픽 분류에 관한 연구가 활발히 진행되어 왔는데 최근에는 플로우의 통계 정보를 이용한 트래픽 분류 방법론이 많이 연구되고 있다.
	통계 시그니쳐 기반 분석 방법, 머신러닝 기반의 분석 방법에 대한 설명은?	본 논문에서 제안하는 방법의 대상은 통계 시그니쳐 기반 분석 방법, 머신러닝 기반의 분석 방법이다. 통계 시그니쳐 기반 분석 방법은 플로우의 통계정보들을 이용해 응용 별시그니쳐를 추출하고 이를 통해 트래픽을 응용 별로 분류하는 것이다. 플로우의 통계 정보로는 패킷의 헤더 정보(패킷 크기, 윈도우 크기 등)와 캡쳐 정보(캡쳐 시간, 캡쳐 순서 등)가 있다. 머신러닝 기반의 분석 방법은 응용 트래픽의 특징이 될 수 있는 항목(포트 번호, 플로우 duration, 패킷 간시간 간격, 패킷 크기 등)들을 머신러닝의 classification clustering기법을 이용하여 트래픽을 분류하는 방법이다. 두 방법은 패킷 크기, 전송 순서 및 방향 등을 사용하므로 본논문에서 다루는 문제점들을 안고 있다.
	플로우의 통계 정보를 이용한 분류 방법은 어떻게 이뤄지나요?	플로우의 통계 정보를 이용한 분류 방법은 패킷 크기, 패킷 간의 시간 간격, 윈도우 크기 등 플로우를 구성하는 패킷들로부터 얻어지는 다양한 통계적 특징을 이용하여 머신 러닝의 특정 알고리즘들을 사용하여 트래픽을 분류하는 방법이 주로 제안되어 왔다[6]. 또한, 특정 통계적 정보를 이용하여 자체적인 알고리즘을 개발한 연구들도 진행되었는데, 그 중 패킷 또는 페이로드 크기 분포를 이용한 분류 방법들 [4, 7, 8, 9, 10]이 많이 제안되고 높은 정확도를 나타내었다.

참고문헌 (13)

Myung-Sup Kim, Young J. Won, and James Won-Ki Hong, "Application-Level Traffic Monitoring and an Analysis on IP Networks," ETRI Journal, Vol.27, No.1, Feb., 2005, pp.22-42.

원문보기 상세보기
Jeffrey Erman, Martin Arlitt, Anirban Mahanti, "Traffic Classification Using Clustering Algorithms," Proc. of SIGCOMM Workshop on Mining network data, Pisa, Italy, Sep., 2006, pp.281-286.
Rentao Gu, Minhuo Hong, Hongxiang Wang, and Yuefeng Ji, "Fast Traffic Classification in High Speed Networks," Proc. of the Asia-Pacific Network Operations and Management Symposium (APNOMS) 2008, LNCS 5297, Beijing, China, Oct. 22-24, 2008, pp.429-432.
Ying-Dar Lina, Chun-Nan Lua, Yuan-Cheng Laib, Wei-Hao Penga and Po-Ching Lina, "Application classification using packet size distribution and port association" Proc. of the Journal of Network and Computer Applications, In Press, Corrected Proof, Available online, March. 20. 2009.
Huifang Feng and Yantai Shu, "Statistical Analysis of Packet Interarrival Times in Wireless LAN," Proc. of the Wireless Communications, Networking and Mobile Computing, 2007. WiCom 2007. International Conference, Shanghai, China, Sept. 21-25, 2007, pp.1888-1891.
Thuy T.T. Nguyen and Grenville Armitage, "A Survey of Techniques for Internet Traffic Classification using Machine Learning," IEEE Communications Surveys and Tutorials, to appear, 2008.
L.Bernaille, R. Teixeira, and K. Salamatian, "Early Application Identification," In: CoNext 2006. Conference on Future Networking Technologies, 2006.
Young T Han, Hong S Park, "Game Traffic Classification Using Statistical Characteristics at the Transport Layer," ETRI Journal, Vol.32, No.1, Feb., 2010, pp.22-32.

원문보기 상세보기
Gerhard Munz, Hui Dai, Lothar Braun, and Georg Carle, "TCP Traffic Classification Using Markov Models," In Proc. of Traffic Monitoring and Analysis Workshop (TMA) 2010, Zurich, Switzerland, April, 2010.
Valentin Carela-Espanol, Pere Barlet-Ros, Marc Sole-Simo, Alberto Dainotti, Walter de Donato, and Antonio Pescape, "K-dimensional trees for continuous traffic classification," In Proc. of Traffic Monitoring and Analysis Workshop (TMA) 2010, Zurich, Switzerland, April, 2010.
Jin-Wan Park, Myung-Sup Kim, "Performance Improvement of the Statistic Signature based Traffic Identification System", KIPSTC,.18C.4., Aug., 2011, pp.243-250.

원문보기 상세보기
Hyun-Min An, Myung-Sup Kim, "A Method to resolve the Limit of Traffic Classification caused by Abnormal TCP Session", KNOM Review, Vol.15, No.1, Dec., 2012, pp.31-39.
Byung-Chul Park, Young J. Won, Myung-Sup kim, James W. Hong, "Towards Automated Application Signature Generation for Traffic Identification", Proc. of the IEEE/IFIP Network Operations and Management Symposium(NOMS) 2008, Salvador, Bahia, Brazil, April. 7-11, 2008, pp.160-167.

저자의 다른 논문 :

LOADING...

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증