$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

실제 네트워크 모니터링 환경에서의 ML 알고리즘을 이용한 트래픽 분류
Traffic Classification Using Machine Learning Algorithms in Practical Network Monitoring Environments 원문보기

한국통신학회논문지. The Journal of Korea Information and Communications Society. 네트워크 및 서비스, v.33 no.8B, 2008년, pp.707 - 718  

정광본 (포항공과대학교 컴퓨터공학과) ,  최미정 (포항공과대학교 컴퓨터공학과) ,  김명섭 (고려대학교 컴퓨터정보학과) ,  원영준 (포항공과대학교 컴퓨터공학과) ,  홍원기 (포항공과대학교 컴퓨터공학과)

초록
AI-Helper 아이콘AI-Helper

Traffic classification의 방법은 동적으로 변하는 application의 변화에 대처하기 위하여 페이로드나 port를 기반으로 하는 것에서 ML 알고리즘을 기반으로 하는 것으로 변하여 가고 있다. 그러나 현재의 ML 알고리즘을 이용한 traffic classification 연구는 offline 환경에 맞추어 진행되고 있다. 특히, 현재의 기존 연구들은 testing 방법으로 cross validation을 이용하여 traffic classification을 수행하고 있으며, traffic flow를 기반으로 classification 결과를 제시하고 있다. 본 논문에서는 testing방법으로 cross validation과 split validation을 이용했을 때, traffic classification의 정확도 결과를 비교한다. 또한 바이트를 기반으로 한 classification의 결과와 flow를 기반으로 한 classification의 결과를 비교해 본다. 본 논문에서는 J48, REPTree, RBFNetwork, Multilayer perceptron, BayesNet, NaiveBayes와 같은 ML 알고리즘과 다양한 feature set을 이용하여 트래픽을 분류한다. 그리고 split validation을 이용한 traffic classification에 적합한 최적의 ML 알고리즘과 feature set을 제시한다.

Abstract AI-Helper 아이콘AI-Helper

The methodology of classifying traffics is changing from payload based or port based to machine learning based in order to overcome the dynamic changes of application's characteristics. However, current state of traffic classification using machine learning (ML) algorithms is ongoing under the offli...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 표 1을 보면 Protocol, 바이트 양, connection duration, packet size statistics inter-packet arrival statistics-®- 기본적인 feature set으로 선택하여 필요에 의해 새로운 feature를 추가하여 트래픽을 분류하고 있다. ML 알고리즘을 이용한 traffic classification에 관련해서 진행된 많은 연구들이 offline 환경에서 tiaining과 testing 트래픽의 구분 없이 트래픽을 분류하는 것에 초점을 두고 있지만, 본 논문에서는 training과 testing 트래픽이 다른 환경인 실제 네트워크 모니터링 환경에서 네트워크 트래픽을 분류하는 것에 초점을 두고 있다.
  • 또한 최적의 ML 알고리즘과 feature set 의 mafch에 대해서는 각 애플리케이션의 precision 과 recall도 살펴보아 분류의 정확도를 알아보고자 한다.
  • 위한 평가 기준이다. 반면에 precision과 recalle 애플리케이션을 기준으로 분류가 얼마나 정확하게 되었는지에 대해서 알아보기 위한 평가 기* 준이다
  • 대부분의 기존 연구 12, 4, 5, 6, 16] 에서는 source IP, destination IP, source number, destination port number 이 네 가지를 花atwm들을 선택하여 분류를 수행하고 있다. 본 논문에서는 feature set을 형성할 때에, feature중 IP address와 포트 번호를 선택하거나 혹은 선택하지 않은 다양한 set을 형성하여서 최적의 feature set을 구하려 한* 다 따라서 다음과 같이 5가지 종류의 feature set을 정의했으며, 이들 중 최적의 feature set을 찾고자 한다.
  • 또한 classification의 정확도 표현에 있어서도 flow 기반으로 수집한 데이터에 대해서 성능을 나타내는 것이 아니라 각 패킷의 바이트 양을 기준으로 하는 바이트 기반으로 표현하는 것이 실제 네트워크 모니터링과 관리에 필요하다. 논문에서는 기존 연구에서 진행되어 온 cross validation과 flow 기반의 traffic 분류 방법에 대한 문제점을 찾아보고 split validation 과 바이트 기반 traffic classiHcation의 성능 평가 필요성을 제시한다. 이러한 필요성을 기반으로 split validation과 바이트 기반 정확도 관점에서 traffic classification을 위한 최적의 ML 알고리즘과 feature set을 실험을 통하여 제시하고자 한다.
  • 본 논문에서는 기존의 연구 논문에서 찾아 볼 수 있는 cross vaHdation과 flow 기반의 traffic 房assificatioii의 문제점을 살펴보고 그것을 해결하기 위해 split validatioii과 바이트 기반의 traffic 机assification의 필요성을 제시하였다. 실제 네트워크상의 네트워크 트래픽의 분류를 위해서는 바이트 기반의 데이터를 split validation 방법으로 분석해야 한다.
  • 즉, 기존 연구에서는 애플리케이션별로 분류한 결과가 정확하다는 보장이 없다. 본 논문에서는 데이터를 데스크톱에서 ethereal [10] 을이용하여 수집함으로써 각 애플리케이션에서 생성된 트래픽별로 데이터를 수집하고 분류를 수행함으로써 그 결과에 있어서 정확성이 보장된다. 또한 기존의 traffic classification 연구에서 많이 사용되지 않은 Neural Network 기반의 ML 알고리즘들로 적용해 봄으로써 기존 연구에서 많이 사용된 ML 알고리즘과의 분류 정확도 결과도 비교할 수 있다.
  • 이 장에서는 5가지 feature set과 다양한 ML 알고리즘 중에서 주어진 traffic trace에 대하여 overall 정확도를 가장 높이는 최적의 feature set과 ML 알고리즘을 찾고자 한다. 본 논문에서는 다음과 같은 3가지 실험을 수행하였다.
  • 논문에서는 기존 연구에서 진행되어 온 cross validation과 flow 기반의 traffic 분류 방법에 대한 문제점을 찾아보고 split validation 과 바이트 기반 traffic classiHcation의 성능 평가 필요성을 제시한다. 이러한 필요성을 기반으로 split validation과 바이트 기반 정확도 관점에서 traffic classification을 위한 최적의 ML 알고리즘과 feature set을 실험을 통하여 제시하고자 한다.
본문요약 정보가 도움이 되었나요?

참고문헌 (16)

  1. Machine Learning Lab in The University of Waikato, "Weka", [Online] Available: http://www.cs.waikato.ac.nz/ml 

  2. Jeffrey Erman, Martin Arlitt, Anirban Mahanti, "Traffic Classification Using Clustering Algorithms", SIGCOMM'06 Workshops, Pisa, Italy, Sep. 2006, pp.281-286 

  3. Se­Hee Han, Myung­Sup Kim, Hong­Taek Ju and James W. Hong, "The Architecture of NG­MON: A Passive Network Monitoring System", IFIP/IEEE International Workshop on Distributed Systems: Operations and Management, LNCS 2506, Montreal, Canada, Oct. 2002, pp.16-27 

  4. Jeffrey Erman, Anirban Mahanti, Martin Arlitt, "Internet Traffic Identification using Machine Learning", IEEE Global Telecommunications Conference, California, USA, Nov.-Dec. 2006, pp.1-6 

  5. Thuy T. T. Nguyen, Grenville Armitage, "Training on multiple sub­flows to optimize the use of Machine Learning classifiers in real world IP networks", IEEE Conference on Local Computer Networks, Tampa, Florida, USA, Nov. 2006, pp. 369-376 

  6. N. Williams, S. Zander, G. Armitage, "A Preliminary Performance Comparison of Five Machine Learning Algorithms for Practical IP Traffic Flow Classification", SIGCOMM Computer Communication Review, Oct. 2006, pp.7-15. 

  7. Andrew W. Moore, Denis Zuev, "Internet Traffic Classification Using Bayesian Analysis Techniques", SIGMETRICS'05, Banff, Alberta, Canada, Jun. 2005, pp.50-60 

  8. Junghun Park, Hsiao­Rong Tyan, and C. C. Jay Kuo, "Inetnet Traffic Classification For Scalable QoS Provision", IEEE International Conference on Multimedia and Expo, Jul. 2006, pp.1221-1224 

  9. Junghun Park, Hsiao­Rong Tyan, C.­C. Jay Kuo, "GA­Based Internet Traffic Classification Technique for QoS Provisioning", International Conference on Intelligent Information Hiding and Multimedia, Pasadena, California, USA, Dec. 2006, pp.251-254 

  10. Etheral, http://www.ethereal.com 

  11. Andrew Moore, Denis Zuev and Michael Crogan, "Discriminators for use in flow­based classification", Technical Report, Intel Research Cambridge, 2005 

  12. Jeffrey Erman, Anirban Mahanti, Martin Arlitt, "Byte Me: A Case for byte accuracy in Traffic Classification", MineNet'07, J San Diego, California, USA, Jun. 2007, pp.35-37 

  13. Ethem Alpaydin, "Introduction to Machine Learning", MIT Press, 2004 

  14. Artificial Neural Network, http://en.wikipedia.org/wiki/Artificial_neural_n etwork 

  15. Lei Yu and Huan Liu, "Feature selection for high-dimensional data: A fast correlation-based filter solution", Proceedings of the International Conference on Machine Learning, Washington, DC, USA, Aug. 2003, pp.856-863 

  16. Sebastian Zander, Thuy Nguyen, Grenville Armitage, "Automated Traffic Classification and Application Identification using Machine Learning", Proceedings of the IEEE Conference on Local Computer Networks, Sydney, Australia, Nov. 2005, pp.250-257 

저자의 다른 논문 :

섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로