Traffic classification의 방법은 동적으로 변하는 application의 변화에 대처하기 위하여 페이로드나 port를 기반으로 하는 것에서 ML알고리즘을 기반으로 하는 것으로 변하여 가고 있다. 그러나 현재의 ML 알고리즘을 이용한 traffic classification 연구는 offline 환경에 맞추어 진행되고 있다. 특히, 현재의 기존 연구들은 testing 방법으로 cross validation을 이용하여 traffic classification을 수행하고 있으며, traffic flow를 기반으로 classification 결과를 제시하고 있다. 본 논문에서는 testing방법으로 cross validation과 split validation을 이용했을 때, traffic classification의 정확도 결과를 비교한다. 또한 바이트를 기반으로 한 classification의 결과와 flow를 기반으로 한 classification의 결과를 비교해 본다. 본 논문에서는 J48, REPTree, RBFNetwork, Multilayer perceptron, BayesNet, NaiveBayes와 같은 ML 알고리즘과 다양한 feature set을 이용하여 트래픽을 분류한다. 그리고 split validation을 이용한 traffic classification에 적합한 최적의 ML 알고리즘과 feature set을 제시한다.
Traffic classification의 방법은 동적으로 변하는 application의 변화에 대처하기 위하여 페이로드나 port를 기반으로 하는 것에서 ML 알고리즘을 기반으로 하는 것으로 변하여 가고 있다. 그러나 현재의 ML 알고리즘을 이용한 traffic classification 연구는 offline 환경에 맞추어 진행되고 있다. 특히, 현재의 기존 연구들은 testing 방법으로 cross validation을 이용하여 traffic classification을 수행하고 있으며, traffic flow를 기반으로 classification 결과를 제시하고 있다. 본 논문에서는 testing방법으로 cross validation과 split validation을 이용했을 때, traffic classification의 정확도 결과를 비교한다. 또한 바이트를 기반으로 한 classification의 결과와 flow를 기반으로 한 classification의 결과를 비교해 본다. 본 논문에서는 J48, REPTree, RBFNetwork, Multilayer perceptron, BayesNet, NaiveBayes와 같은 ML 알고리즘과 다양한 feature set을 이용하여 트래픽을 분류한다. 그리고 split validation을 이용한 traffic classification에 적합한 최적의 ML 알고리즘과 feature set을 제시한다.
The methodology of classifying traffics is changing from payload based or port based to machine learning based in order to overcome the dynamic changes of application's characteristics. However, current state of traffic classification using machine learning (ML) algorithms is ongoing under the offli...
The methodology of classifying traffics is changing from payload based or port based to machine learning based in order to overcome the dynamic changes of application's characteristics. However, current state of traffic classification using machine learning (ML) algorithms is ongoing under the offline environment. Specifically, most of the current works provide results of traffic classification using cross validation as a test method. Also, they show classification results based on traffic flows. However, these traffic classification results are not useful for practical environments of the network traffic monitoring. This paper compares the classification results using cross validation with those of using split validation as the test method. Also, this paper compares the classification results based on flow to those based on bytes. We classify network traffics by using various feature sets and machine learning algorithms such as J48, REPTree, RBFNetwork, Multilayer perceptron, BayesNet, and NaiveBayes. In this paper, we find the best feature sets and the best ML algorithm for classifying traffics using the split validation.
The methodology of classifying traffics is changing from payload based or port based to machine learning based in order to overcome the dynamic changes of application's characteristics. However, current state of traffic classification using machine learning (ML) algorithms is ongoing under the offline environment. Specifically, most of the current works provide results of traffic classification using cross validation as a test method. Also, they show classification results based on traffic flows. However, these traffic classification results are not useful for practical environments of the network traffic monitoring. This paper compares the classification results using cross validation with those of using split validation as the test method. Also, this paper compares the classification results based on flow to those based on bytes. We classify network traffics by using various feature sets and machine learning algorithms such as J48, REPTree, RBFNetwork, Multilayer perceptron, BayesNet, and NaiveBayes. In this paper, we find the best feature sets and the best ML algorithm for classifying traffics using the split validation.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
표 1을 보면 Protocol, 바이트 양, connection duration, packet size statistics 와 inter-packet arrival statistics-®- 기본적인 feature set으로 선택하여 필요에 의해 새로운 feature를 추가하여 트래픽을 분류하고 있다. ML 알고리즘을 이용한 traffic classification에 관련해서 진행된 많은 연구들이 offline 환경에서 tiaining과 testing 트래픽의 구분 없이 트래픽을 분류하는 것에 초점을 두고 있지만, 본 논문에서는 training과 testing 트래픽이 다른 환경인 실제 네트워크 모니터링 환경에서 네트워크 트래픽을 분류하는 것에 초점을 두고 있다.
또한 최적의 ML 알고리즘과 feature set 의 mafch에 대해서는 각 애플리케이션의 precision 과 recall도 살펴보아 분류의 정확도를 알아보고자 한다.
위한 평가 기준이다. 반면에 precision과 recalle 각 애플리케이션을 기준으로 분류가 얼마나 정확하게 되었는지에 대해서 알아보기 위한 평가 기* 준이다
대부분의 기존 연구 12, 4, 5, 6, 16] 에서는 source IP, destination IP, source number, destination port number 이 네 가지를 花atwm들을 선택하여 분류를 수행하고 있다. 본 논문에서는 feature set을 형성할 때에, feature중 IP address와 포트 번호를 선택하거나 혹은 선택하지 않은 다양한 set을 형성하여서 최적의 feature set을 구하려 한* 다 따라서 다음과 같이 5가지 종류의 feature set을 정의했으며, 이들 중 최적의 feature set을 찾고자 한다.
또한 classification의 정확도 표현에 있어서도 flow 기반으로 수집한 데이터에 대해서 성능을 나타내는 것이 아니라 각 패킷의 바이트 양을 기준으로 하는 바이트 기반으로 표현하는 것이 실제 네트워크 모니터링과 관리에 필요하다. 본 논문에서는 기존 연구에서 진행되어 온 cross validation과 flow 기반의 traffic 분류 방법에 대한 문제점을 찾아보고 split validation 과 바이트 기반 traffic classiHcation의 성능 평가 필요성을 제시한다. 이러한 필요성을 기반으로 split validation과 바이트 기반 정확도 관점에서 traffic classification을 위한 최적의 ML 알고리즘과 feature set을 실험을 통하여 제시하고자 한다.
본 논문에서는 기존의 연구 논문에서 찾아 볼 수 있는 cross vaHdation과 flow 기반의 traffic 房assificatioii의 문제점을 살펴보고 그것을 해결하기 위해 split validatioii과 바이트 기반의 traffic 机assification의 필요성을 제시하였다. 실제 네트워크상의 네트워크 트래픽의 분류를 위해서는 바이트 기반의 데이터를 split validation 방법으로 분석해야 한다.
즉, 기존 연구에서는 애플리케이션별로 분류한 결과가 정확하다는 보장이 없다. 본 논문에서는 데이터를 데스크톱에서 ethereal [10] 을이용하여 수집함으로써 각 애플리케이션에서 생성된 트래픽별로 데이터를 수집하고 분류를 수행함으로써 그 결과에 있어서 정확성이 보장된다. 또한 기존의 traffic classification 연구에서 많이 사용되지 않은 Neural Network 기반의 ML 알고리즘들로 적용해 봄으로써 기존 연구에서 많이 사용된 ML 알고리즘과의 분류 정확도 결과도 비교할 수 있다.
이 장에서는 5가지 feature set과 다양한 ML 알고리즘 중에서 주어진 traffic trace에 대하여 overall 정확도를 가장 높이는 최적의 feature set과 ML 알고리즘을 찾고자 한다. 본 논문에서는 다음과 같은 3가지 실험을 수행하였다.
본 논문에서는 기존 연구에서 진행되어 온 cross validation과 flow 기반의 traffic 분류 방법에 대한 문제점을 찾아보고 split validation 과 바이트 기반 traffic classiHcation의 성능 평가 필요성을 제시한다. 이러한 필요성을 기반으로 split validation과 바이트 기반 정확도 관점에서 traffic classification을 위한 최적의 ML 알고리즘과 feature set을 실험을 통하여 제시하고자 한다.
제안 방법
본 논문에서는 다음과 같은 3가지 실험을 수행하였다. Cross validation 과 split valida曲it 의 2가지 toting 기법에 따른 traffic 이as어fiction 결과를 비교하는 실험과, 바이트 기반으로 결과를 구한 것과, flow 기반으로 측정한 분류 결과를 비교하는 실험이다 마지막으로, split validation 에서 최적의 알고리즘과 최적의 feature s苴을 구하느실험을 수행하였다. 본 논문에서는 ML tool 중 하나인 Weka [1]를 이용하여 실험하였다.
데스크톱에서 ethereal을 써서 각 애플리케이션 별 packet을 캡처하여 필요한 feature 데이터를 추출하였다. 각 애플리케이션마다 tra宓ling과 test地을 위한 데이터가 각각 필요하기 때문에 packet 데이터도 두 번을 수집했다.
본 논문에서는 데이터를 데스크톱에서 ethereal [10] 을이용하여 수집함으로써 각 애플리케이션에서 생성된 트래픽별로 데이터를 수집하고 분류를 수행함으로써 그 결과에 있어서 정확성이 보장된다. 또한 기존의 traffic classification 연구에서 많이 사용되지 않은 Neural Network 기반의 ML 알고리즘들로 적용해 봄으로써 기존 연구에서 많이 사용된 ML 알고리즘과의 분류 정확도 결과도 비교할 수 있다.
통하여 제시하였다. 바이트 기반오로 값을 측정하여 classification의 overall accuracy 결과 값과 flow 기반의 결과 값이 어떻게 다른지를 비교하였다. Split validation에서의 최적의 알고리즘과 feature set 은 Neural Network 계열의 MLP (Multilayer perceptron)/} 최적의 overall accuracy을 갖는 성능을 보였으며, 최적의 feature s改은 IP를 제외한 feature set (3: without IP)이 가장 좋은 성능을 보였다.
비교한다. 본 논문에서 제시한 6개의 알고리즘을 모두 적용해 보았으며 사용한 feature sete 4.2에서 언급한 모든 feature들로 구성된 feature set (1: all)이다. 그리고 여기서 사용하는 알고리즘은 J48, REPTree, NaiveBayes, BayesNet, MLP, RBFNetwork 이다.
이 알고리즘을 선택한 이유는 기존 연구 [6, 8, 이에서 cross validation 방법으로 실험했을 때, J48 알고리즘이 traffic classificaticm에 있어서 뛰어난 성능을 보였기 때문이다. 이 실험에서 사용하는 feature sete cross validation과 split validation—J 분류 정도를 비교하기 위해 대표로 모든 feature (1: all) 를 사용했을 때와 전체 feature 에서 IP address# 사용하지 않았을 경우 (3: without IP) 2 가지를 살펴보았다.
대상 데이터
이 대표 애플리케이션은 POSTECH의 네트워크 현황을 모니터링 하고 있는 NG-MON [3]을 참조하여 사람들이 많이 사용하고 있다고 판단되는 애플리케이션들 중에 다양한 종류를 선택한 것이다. 7 개의 대표 애플리케이션으로 online으로 음악방송을 제공해주는 'alsong', online으로 방송을 제공받거나 제공할 수 있는 'afreeca', Web disk인 iclubbox\ ftp 를 이용해서 파일을 주고받을 수 있는 'aiftpl Microsoft 에서 제공하는 chatting 애플리케이션인 'MSN messenger', 여러가지 contents를 실시간으로 제공해주는 'Gom, , Web browser인 "iexplore, 를 선택하였다.
본 논문에서는 2.2장에서 언급한 기존 연구들의 backbone에서 데이터를 수집하여 포트 번호를 기반으로 애플리케이션을 분류한 방법의 정확성에 대한 문제 때문에 하나의 데스크톱에서 ethereal [10]을 이용하여서 7가지의 대표 애플리케이션의 data trace를 수집하였다. 이 대표 애플리케이션은 POSTECH의 네트워크 현황을 모니터링 하고 있는 NG-MON [3]을 참조하여 사람들이 많이 사용하고 있다고 판단되는 애플리케이션들 중에 다양한 종류를 선택한 것이다.
데이터처리
Cross validafig과 split validation 방법론의 각 경우에 적합한 최적의 M丄 알고리즘과 feature 蹌t을 실험을 통하여 제시하였다. 바이트 기반오로 값을 측정하여 classification의 overall accuracy 결과 값과 flow 기반의 결과 값이 어떻게 다른지를 비교하였다.
이론/모형
본 논문에서는 5.3장의 split validation 방법으로 얻은 결과를 기존 연구인 cross validation 방법을 통해 얻은 결과와 비교하기 위해서 5.3장에서 이용했던 알고리즘들과 feature set을 그대로 cross validation 방법을 통해 수행하였다.
Cross validation 과 split valida曲it 의 2가지 toting 기법에 따른 traffic 이as어fiction 결과를 비교하는 실험과, 바이트 기반으로 결과를 구한 것과, flow 기반으로 측정한 분류 결과를 비교하는 실험이다 마지막으로, split validation 에서 최적의 알고리즘과 최적의 feature s苴을 구하느실험을 수행하였다. 본 논문에서는 ML tool 중 하나인 Weka [1]를 이용하여 실험하였다.
4, 1장에서 설명한 방법으旦 traini血g과 testing을 수행하였다. 여기에서 사용한 ML 알고리즘은 Decision tree인 J48 알고리즘이다. 이 알고리즘을 선택한 이유는 기존 연구 [6, 8, 이에서 cross validation 방법으로 실험했을 때, J48 알고리즘이 traffic classificaticm에 있어서 뛰어난 성능을 보였기 때문이다.
성능/효과
있다. 먼저 모든 feature로 구성된 feature set을 적용할 때, cross validation의 경우 overall 정확도가 약 95.55% 로 측정된 반면에 split validation을 testing method로 사용하면 약 62.64%의 overall accuracy 값을 보인다, IP address를 제외한 feature들로 구성된 feature set을 적용할 떄에도 cross validation을 testing method로 사용하면 overall accuracy/} 약 95.76%값을 보였고, split validation 의 경우는 overall accuracy 가" 약 63.56%로 측정되었다.
Cross validatis을 이용하여 flow를 기준으로 하였을 때에 가장 높은 overall accuracy를 갖는 알고리즘과 feature sete REPTree 와 (3)번 feature set 이고 정확도는 96.12%를 보임을 알 수 있다. 바이트를 기준으로 하였을 때에 가장 높은 overall accuracy-1- 갖는 알고리즘과 feature sete J48과 (1)번 feature 訟 t이고 정확도는 99.
Multilayer Perceptron (MLP) 알고리즘에 4.2장의 (3)번 feature set을 적용했을 때가 89.48%로 overall accuracy가 가장 높게 나오는 것을 볼 수 있으며, BayesNet 알고리즘에 (1)번 feature set을 적용했을 때에 88.58%로 두 번째로 높게 나오는 것을 볼 수 있다. 그 다음은 MLP 알고리즘을 이용하여 (5)번 feature set을 사용하면 높은 overall accuracy가 나옴을 볼 수 있다.
Split validatig에서 MLP 알고리즘을 이용하면, cross validation을 이용해서 얻을 수 있는 overall accuracy 값에 미치지는 않지만, 실제 모니터링 환경상에서 적용 가능한 split validation 방법에서 적어도 MLP 알고리즘을 이용하면 cross vaEdation 수준의 충분히 좋은 결과를 얻을 수 있다는 것이다. 그러나 표 3에서 보았듯이 Wlsong, 과 같은 애플리케이션의 경우 MLP 알고리즘으로 사용한 경우 제대로 분류가 되지 않음을 볼 수 있다.
1%임을 알 수 있다. Split validation 을 이용하여 flow를 기준으로 하였을 때와 바이트를 기준으로 하였을 때에, 가장 좋은 overall accuracy# 가진 알고리즘과 feature sete MLP과 IP address 를제외한 (3: without IP) feature set이고 값은 각각 89.48%, 95.97%이* 다 즉 cross validatione- split vaKdatioH에서의 최적의 ML 알고리즘과 feature set이 다름을 알 수 있다.
바이트 기반오로 값을 측정하여 classification의 overall accuracy 결과 값과 flow 기반의 결과 값이 어떻게 다른지를 비교하였다. Split validation에서의 최적의 알고리즘과 feature set 은 Neural Network 계열의 MLP (Multilayer perceptron)/} 최적의 overall accuracy을 갖는 성능을 보였으며, 최적의 feature s改은 IP를 제외한 feature set (3: without IP)이 가장 좋은 성능을 보였다. 또한 바이트 기반의 값이 flow 기반의 데이터에 비해 traffic classification 에 있어서 더 좋은 overall accuracy를 보임을 알 수 있다.
결국 본 논문에서 가장 높은 overall accuracy를 보이는 ML 알고리즘과 feature sete MLP 알고리즘과 전체 feature에서 DP address를 사용하지 않았을 경우 (3: without IP) 임을 바이트 기반 (95%의 overall accuracy)에서나 flow 기반 (89%의 overall accuracy) 에서나 다름이 없음을 알 수 있다. 하지만, 그 다음으로 높거나 세 번째로 높은 ML 알고리즘과 feature set 은 바이트를 기반으로 했을 때와 flow를 기반으로 했을 때에 차이를 보였다.
그림 3의 결과를 살펴보면 바이트 기반으로 traffic classification을 수행했을 때에는 MLP 알고리즘을 이용하여 (3)번, (1)번, (5)번, (2)번 feature set을 이용하였을 경우에 각각 약 95%, 94%, 92%, 91%의 overall accuracy를 나타내었다. 그리고 J48 알고리즘을 이용하고 (5)번 feature set 을 이용하였을 경우에 약 91%의 overall accuracy 나옴을 알 수 있다.
정확도를 나타내고 있다. 그림 3의 결과를 살펴보면 바이트 기반으로 traffic classification을 수행했을 때에는 MLP 알고리즘을 이용하여 (3)번, (1)번, (5)번, (2)번 feature set을 이용하였을 경우에 각각 약 95%, 94%, 92%, 91%의 overall accuracy를 나타내었다. 그리고 J48 알고리즘을 이용하고 (5)번 feature set 을 이용하였을 경우에 약 91%의 overall accuracy 나옴을 알 수 있다.
두 가지 feature set 모두 cross validation을 적용하면 기존 논문과 같이 traffic classificatiori에 있어서 높은 overall accuracy# 가지고 있지만, split validation 을 하게 되면 그리 높지 않은 overall accuracy를 보임을 알 수 있다. 즉, 실제 네트워크상의 traffic classification에서는 split validation 이 이루어져야 함으로 기존의 cross validation의 traffic classificatione] 정확도 값을 그대로 받아들이기 어렵다.
또한 split validation 상에서의 최적의 ML 알고리즘과 feature set들 역시 기존의 cross validation 방법과 다를 수 있다. 따라서 본 논문에서는 실험을 통해 split validation에서의 최적의 ML 알고리즘과 feature set을 찾는 것은 의미가 있다.
그러나 RBFNetwork 알고리즘은 바이트를 기반으로 했을 때에는 약 78%이지만 flow률 기반으로 하면 약 81%의 정확도가 나온다. 또한 BayesNet 알고리즘도 바이트를 기반으로 했을 때에는 정확도 값이 약 77% 였지만 flow를 기반으로 하면 약 82%의 정확도가 나온다. 이와 같이 근소한 차이를 보이면서 flow 기반으로 분류했을 때에 ovoall 정확도 값이 더 높은 결과가 나오는 ML 알고리즘도 있다.
Split validation에서의 최적의 알고리즘과 feature set 은 Neural Network 계열의 MLP (Multilayer perceptron)/} 최적의 overall accuracy을 갖는 성능을 보였으며, 최적의 feature s改은 IP를 제외한 feature set (3: without IP)이 가장 좋은 성능을 보였다. 또한 바이트 기반의 값이 flow 기반의 데이터에 비해 traffic classification 에 있어서 더 좋은 overall accuracy를 보임을 알 수 있다.
알 수 있다. 또한 바이트 기반의 분석을 통해서 traffic classification에 있어서 전체적으로 overall 정확도가 높은 결과를 얻을 수 있다. 따라서 실제 네트워크 모니터 링 환경 에서 정확한 traffic classification을 수행하는 환경을 위해서는 바이트 기반의 분석이 필요하며 바이트 기반으로 분석시의 최적의 ML 알고리즘과 feature set을 구해야 한다.
또한, MLP 알고리즘을 적용하여 (3)번 feature set 으로 실험했을 때, flow 기반일 때 traffic classification의 overall accuracy-fe- 89%였고 바이트 기반일 때는 95%였다. 즉 바이트 기반일 때에 traffic classification의 결과가 더 좋게 나타남을 알 수 있는데 그 결과가 표 3에도 드러나고 있음을 볼 수 있다.
그림 5와 6에서 보듯이 cross validation 을 수행했을 때의 최적의 알고리즘은 J48과 REPTree 이다. 바이트 기반으로 측정한 값의 overall 정확도는 모든 feature set 에 대하여 세 개의 ML 알고리즘인 J48, REPTree, BayesNet 모두 비슷한 overall accuracy 를 보여줌을 알 수 있다. 특이한 점은 NaiveBayes 알고리즘의 경우 바이트 기반의 모든 feature 값을 가진 것 (1: all)의 경우 97% 정도의 정확도를 보인 반면 flow 기반의 경우 38% 정도의 정확도를 보였다.
별로 나타낸 것이다. 이 결과를 살펴보면, J48 은 바이트를 기반으로 분류를 수행하면 overall accuracy/} 약 85% 정도 이지만 flow 기반일 경우에는 약 63% 정도의 정확도를 보인다. 대부분의 알고리즘의 차이가 약 6%에서 많으면 약 20%까지 보이면서 바이트를 기반으로 했을 때에 정확도 결과가 더 높음을 알 수 있다.
이 실험 결과 바이트 기반의 분석에서는 최적의 ML 알고리즘이 MLP, REPTree, J48, RBFNetwork, BayesNet 등의 순서였지만 flow 기반의 분석에 있어서는 최적의 정확도를 보이는 ML 알고리즘이 MLP, BayesNet, RBFNetwork, REPTree, J48의 순서를 보임을 알 수 있다. 또한 바이트 기반의 분석을 통해서 traffic classification에 있어서 전체적으로 overall 정확도가 높은 결과를 얻을 수 있다.
따라서 split validation의 경우는 client 의 포트 번호는 적절한 feature set이 될 수 없다. 즉, cross validatioir을 이용한 분류를 기반으로 하는 기존의 연구 결과가 실제 네트워크 모니터링 환경에서의 네트워크 애플리케이션을 분류하는데 적용하기에 부적절한 면이 있다는 것을 알 수 있다.
가지 문제가 발생할 수 있다. 첫째, 각 flow가 전체 트래픽 양에서 차지하는 비중은 flow마다 다르다. 즉, flow가 가지고 있는 packet의 수가 다르고 전체 바이트 양도 다를 수 있다.
바이트 기반으로 측정한 값의 overall 정확도는 모든 feature set 에 대하여 세 개의 ML 알고리즘인 J48, REPTree, BayesNet 모두 비슷한 overall accuracy 를 보여줌을 알 수 있다. 특이한 점은 NaiveBayes 알고리즘의 경우 바이트 기반의 모든 feature 값을 가진 것 (1: all)의 경우 97% 정도의 정확도를 보인 반면 flow 기반의 경우 38% 정도의 정확도를 보였다.
Client 애플리케이션의 포트 번호는 특정한 seed 값에서 1씩 증가하면서 할당되는 특징은 가지고 있다. 특정 시간에 특정한 애플리케이신 , A, 만을 사용한 데스크톱에서 얻은 데이터를 산 피보니 client에서 할당한 포트 번호가 1000번부티 3000번까지 1씩 증가하는 것을 볼 수 있었다. 이 데이터를 cross validation 기법에 대입해 보면, '- 데이터 set 안에서 training을 위한 데이터와 testing 을 위한 데이터가 형성되므로, 이렇게 형성된 데이터들을 가지고 분류를 하게 되면 1~3000번에 있느포트 번호를 가지는 데이터는, A, 라는 애플리케이션에 의해서 발생된 것이라고 분류되기 쉽고 그 외의 포트 번호를 가지는 데이터는라는 애플리케이션에 의해서 발생된 것이라고 분류되기 어렵다.
후속연구
그리고 좀 더 나은 feature set을 선정하기 위해서, packet의 header 정보를 좀 더 가공하여 최적의 fgftg를 찾는 연구가 이루어져야 한다. 또한 분류하고자 하는 트래픽의 종류나 목적에 따라 최적의 ML 알고리즘과 feature를 찾는 연구도 진행되어야 한다.
그리고 좀 더 나은 feature set을 선정하기 위해서, packet의 header 정보를 좀 더 가공하여 최적의 fgftg를 찾는 연구가 이루어져야 한다. 또한 분류하고자 하는 트래픽의 종류나 목적에 따라 최적의 ML 알고리즘과 feature를 찾는 연구도 진행되어야 한다.
그러나 표 3에서 보았듯이 Wlsong, 과 같은 애플리케이션의 경우 MLP 알고리즘으로 사용한 경우 제대로 분류가 되지 않음을 볼 수 있다. 즉 split validation에서 overall accuracy 측면에서는 최적의 알고리즘이지만 특정 애플리케이션의 경우 제대로 분류를 하지 못하기 때문에 추후에 특정 애플리케이션을 분류하기 위해서는 각 애플리케이션별 최적의 ML 알고리즘과 feature set을 찾는 연구도 고려되어야 한다, 또한 실제 모니터링 환경에서는 flow가 아닌 바이트 기반의 정보를 수집하여 트래픽 분류의 overall 정확도 값을 높일 수 있다.
따라서 전체 overall 정확도를 높이는 최적의 ML 알고리즘과 각 애플리케이션별 최적의 알고리즘에는 차이가 있음을 알 수 있다. 추후 모든 애플리케이션의 recall과 precision을 높일 수 있는 방법에 대한 연구가 더 필요하다.
추후에 이루어져야 할 연구는, 데이터를 수집하는 것이 하나의 데스크톱이 아닌 다수의 데스크톱에서 얻은 데이터를 가지고 cla號ideation을 해봐야 할 것이다. 그리고 좀 더 나은 feature set을 선정하기 위해서, packet의 header 정보를 좀 더 가공하여 최적의 fgftg를 찾는 연구가 이루어져야 한다.
참고문헌 (16)
Machine Learning Lab in The University of Waikato, "Weka", [Online] Available: http://www.cs.waikato.ac.nz/ml
Jeffrey Erman, Martin Arlitt, Anirban Mahanti, "Traffic Classification Using Clustering Algorithms", SIGCOMM'06 Workshops, Pisa, Italy, Sep. 2006, pp.281-286
SeHee Han, MyungSup Kim, HongTaek Ju and James W. Hong, "The Architecture of NGMON: A Passive Network Monitoring System", IFIP/IEEE International Workshop on Distributed Systems: Operations and Management, LNCS 2506, Montreal, Canada, Oct. 2002, pp.16-27
Jeffrey Erman, Anirban Mahanti, Martin Arlitt, "Internet Traffic Identification using Machine Learning", IEEE Global Telecommunications Conference, California, USA, Nov.-Dec. 2006, pp.1-6
Thuy T. T. Nguyen, Grenville Armitage, "Training on multiple subflows to optimize the use of Machine Learning classifiers in real world IP networks", IEEE Conference on Local Computer Networks, Tampa, Florida, USA, Nov. 2006, pp. 369-376
N. Williams, S. Zander, G. Armitage, "A Preliminary Performance Comparison of Five Machine Learning Algorithms for Practical IP Traffic Flow Classification", SIGCOMM Computer Communication Review, Oct. 2006, pp.7-15.
Andrew W. Moore, Denis Zuev, "Internet Traffic Classification Using Bayesian Analysis Techniques", SIGMETRICS'05, Banff, Alberta, Canada, Jun. 2005, pp.50-60
Junghun Park, HsiaoRong Tyan, and C. C. Jay Kuo, "Inetnet Traffic Classification For Scalable QoS Provision", IEEE International Conference on Multimedia and Expo, Jul. 2006, pp.1221-1224
Junghun Park, HsiaoRong Tyan, C.C. Jay Kuo, "GABased Internet Traffic Classification Technique for QoS Provisioning", International Conference on Intelligent Information Hiding and Multimedia, Pasadena, California, USA, Dec. 2006, pp.251-254
Etheral, http://www.ethereal.com
Andrew Moore, Denis Zuev and Michael Crogan, "Discriminators for use in flowbased classification", Technical Report, Intel Research Cambridge, 2005
Jeffrey Erman, Anirban Mahanti, Martin Arlitt, "Byte Me: A Case for byte accuracy in Traffic Classification", MineNet'07, J San Diego, California, USA, Jun. 2007, pp.35-37
Ethem Alpaydin, "Introduction to Machine Learning", MIT Press, 2004
Lei Yu and Huan Liu, "Feature selection for high-dimensional data: A fast correlation-based filter solution", Proceedings of the International Conference on Machine Learning, Washington, DC, USA, Aug. 2003, pp.856-863
Sebastian Zander, Thuy Nguyen, Grenville Armitage, "Automated Traffic Classification and Application Identification using Machine Learning", Proceedings of the IEEE Conference on Local Computer Networks, Sydney, Australia, Nov. 2005, pp.250-257
※ AI-Helper는 부적절한 답변을 할 수 있습니다.