오늘 날 다양한 플랫폼을 기반으로 한 무선 네트워크 위에 실행되고 있는 수 많은 응용 프로그램은 서비스 운영자 입장에서 정확히 분류해내는 것은 중요하다. 이 연구는 WiBro 상용망에서 임의로 생성한 트래픽 데이터에서 다양한 응용프로그램들을 분류하는 것을 목적으로 한다. 분류기를 개발하는데 있어서 기존에 Flow기반으로 분류를 하는 대신 세션이라는 단위로 실험을 진행하였다. 이 단위를 사용하여 두 가지 분류 기법을 사용하였다. Classification and Regression Tree와 Support Vector Machine. 각 판별기는 생성된 변수들을 기반으로 판별을 시도하였을 때 CART의 경우 0.85%, SVM의 경우 0.94%의 오차를 보여 우수한 성능을 보였지만, 판별기의 구현과 결과 해석이 용이한 CART를 이용하여 판별시스템을 구축하는 것이 유리함을 보였다.
오늘 날 다양한 플랫폼을 기반으로 한 무선 네트워크 위에 실행되고 있는 수 많은 응용 프로그램은 서비스 운영자 입장에서 정확히 분류해내는 것은 중요하다. 이 연구는 WiBro 상용망에서 임의로 생성한 트래픽 데이터에서 다양한 응용프로그램들을 분류하는 것을 목적으로 한다. 분류기를 개발하는데 있어서 기존에 Flow기반으로 분류를 하는 대신 세션이라는 단위로 실험을 진행하였다. 이 단위를 사용하여 두 가지 분류 기법을 사용하였다. Classification and Regression Tree와 Support Vector Machine. 각 판별기는 생성된 변수들을 기반으로 판별을 시도하였을 때 CART의 경우 0.85%, SVM의 경우 0.94%의 오차를 보여 우수한 성능을 보였지만, 판별기의 구현과 결과 해석이 용이한 CART를 이용하여 판별시스템을 구축하는 것이 유리함을 보였다.
It is a challenging work for service operators to accurately classify different services, which runs on various wireless networks based upon numerous platforms. This works focuses on design and implementation of a classifier, which accurately classifies applications, which are captured horn WiBro Ne...
It is a challenging work for service operators to accurately classify different services, which runs on various wireless networks based upon numerous platforms. This works focuses on design and implementation of a classifier, which accurately classifies applications, which are captured horn WiBro Network. Notion of session is introduced for the classifier, instead of commonly used Flow to develop a classifier. Based on session information of given traffic, two classification algorithms are presented, Classification and Regression Tree and Support Vector Machine. Both algorithms are capable of classifying accurately and effectively with misclassification rate of 0.85%, and 0.94%, respectively. This work shows that classifier using CART provides ease of interpreting the result and implementation.
It is a challenging work for service operators to accurately classify different services, which runs on various wireless networks based upon numerous platforms. This works focuses on design and implementation of a classifier, which accurately classifies applications, which are captured horn WiBro Network. Notion of session is introduced for the classifier, instead of commonly used Flow to develop a classifier. Based on session information of given traffic, two classification algorithms are presented, Classification and Regression Tree and Support Vector Machine. Both algorithms are capable of classifying accurately and effectively with misclassification rate of 0.85%, and 0.94%, respectively. This work shows that classifier using CART provides ease of interpreting the result and implementation.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
이 기법은 모든 패킷들을 직접 분석하여 분류를 하는 방식이기 때문에 시스템 자원을 많이 소모하는 가장 큰 단점이 있다. 본 연구에서는 데이터 마이닝 기법을 이용하여 WiBro 무선망에서의 서비스별 트래픽 패턴의 분류를 하고자 한다. 모든 서비스들은 실시간성이나 신뢰성의 보장과 같이 다른 요구 조건들을 갖고 있다.
본 연구에서는 서비스 분류를 위하여 세션 단위의 트래픽 분류를 시도하였고, CART와 SVM을 이용한 트래픽 판별 함수를 개발하여 성능 검증을 하였다. 두 종류의 다른 판별 함수의 오판별율은 CART가 0.
더 나아가 서비스 및 네트워크 개발 시 필요한 네트워크 시뮬레이션과 사용자의 과금 체계를 위한 기초 자료를 제공할 수 있다. 본 연구에서는 세션 단위 트래픽의 서비스 별 성공적인 판별 가능성을 보여줬다. 그러나 본 연구에서 사용된 트래픽 자료는 실제 네트워크에서 고객들에 의해 생성된 트래픽이 아닌 기획된 트래픽 임을 간과해서는 안된다.
2에서 정의되었다. 본 연구에서의 목적은 무선망에서 수집된 세션을 보고 이 세션이 어떠한 응용 프로그램에 해당하는지 판별할 수 있는 판별함수를 만드는 것이다. 따라서 본 연구에서는 제공받은 패킷 자료를 이용하여 세션을 구성하고 구성된 세션으로부터 여러 가지 통계량, 즉, 하나의 세션에 포함된 패킷 수, 세션 의 지속시간, 패킷들의 크기에 대한 평균, 표준편차, 변동계수 패킷간 도착 간격에 대한 평균, 표준편차, 세션을 이루는 업링크, 다운링크 패킷간의 통계량의 비율 등의 변수를 생성하였으며 이들을 판별분석에 이용하였다.
데이터의 설명 변수들을 이용하여 오차가 최소가 되도록 하는데 분할 반복 횟수는 미리 정해논 최소 문턱값이 될 때까지 반복한다, 최소문턱 값까지 반복하여 더 나눌 수 없을 때 각 터미널노드에 놓안 변수들이 적합하게 분류가 되었다고 한다. 이 방법의 목적은 분할을 한 결과드이 서로 동차가 되도록 만드는 것이다.
제안 방법
이러한 과정을 거치멸서 정확도를 높이기 위해서 학습 데이터를 갖고 CART의 세 단계를 수행하기 위해서 데이터를 K등분을 한다. N등분올 즁 하나로 학습을 하고 나머지 kT등분의 데이터를 통해서 검증하는 과정을 k번 시도하여 정확도를 측정한다.
CART를 통해서 얻은 최종 결과 정보를 판별기에 적용한다. 그리고 새로생성되는 패킷 흐름 자료를 이 판별기를 통과 시켜 사용된 서비스의 종류를 판단해 낸다. 이렇게 구현된 트래픽 판별 시스템은 주기적으로 갱신이 가능하도록 설계하였다.
본 연구에서의 목적은 무선망에서 수집된 세션을 보고 이 세션이 어떠한 응용 프로그램에 해당하는지 판별할 수 있는 판별함수를 만드는 것이다. 따라서 본 연구에서는 제공받은 패킷 자료를 이용하여 세션을 구성하고 구성된 세션으로부터 여러 가지 통계량, 즉, 하나의 세션에 포함된 패킷 수, 세션 의 지속시간, 패킷들의 크기에 대한 평균, 표준편차, 변동계수 패킷간 도착 간격에 대한 평균, 표준편차, 세션을 이루는 업링크, 다운링크 패킷간의 통계량의 비율 등의 변수를 생성하였으며 이들을 판별분석에 이용하였다.
WiBro 망의 서비스별 트래픽 분류를 통하여 각 서비스별 비율 정보를 이용하여트래픽의 예측과 망의 배분 등의 전략 수립에 필요한 도구를 제공할 수 있다. 또한 트래픽의 서비스별 분류 연구를 통하여 가입자별 서비스 이용 패턴을 분석을 가능하게 하고 이것을 통해 트래픽 공학과 자원 용량계획을 효율적으로 할 수 있는 기반을 제공한다. 더 나아가 패킷 스케쥴링, 정책 기반의 네트워크 관리의 기술개발과 서비스 개발과정에서의 네트워크 영향의 분석그리고 서비스 별 무선망 과금 체계의 기초자료를 제공할 수 있다.
약 900개의 패킷 흐름 자료 파일을 분석을 위해 제공받았다. 본 연구를 위한 자료의 생성은 여섯 가지 서비스 군으로 나누어서 진행하였다. 서비스 군은 각각 Download, Game, Streaming, Upload, VoD, VoIP, Web 별로 이루어졌으며, 각 서비스별 사용된 응용 프로그램의 종류는 표 2에 나타나 있다.
데이터 마이닝 기법을 이용을 하면 각 서비스들이 갖고 있는 통계적 특성을 군집 지을 수가 있다. 본 연구에서는 WiBro 망을 사용하는 서비스들의 통계적 특성을 Classi fication and Regression Tree(CART[5, 6])와 Support Vector Machine(SVM[7])에 적용하여 분류한다. 본 연구를 통하여 얻을 수 있는 몇 가지 장점은 다음과 같다.
하지만, 트래픽 분류에선 하나의 모니터링 지점에서 수집한 플로우 데이터를 사용하고 있기 때문에 사용자 패턴과 응용 서비스 그리고 프로토콜 차원에서 사용되는 세션에 대한 분석은 진행되지 않았다[9, 38]. 본 연구에서는 세션 정보를 활용하여 트래픽 분류를 한다.
대한 판별분석을 행하였다. 본 연구에서는 이를 위하여 데이터 마이닝 기법들 중에서 널리 쓰이고 성능이 우수하다고 얄려진 CARTE5.6] 기법과 SVME7] 기법을 이용하여 판별함수를 만들고 이를 통한 판별결과에 대한 성능 검증을 행하였다. 분류를 위해서 사용된 기법은 CART와 Support Vector M.
사용하여 주기적으로 갱신이 되도록 설계가 되었다. 이 트리가 신장을 하는데 불필요하게 많이 신장하지 않도록 하는 것과 가지를 잘라내었을 때 문턱값을 넘지 않도록 하는 최적화 과정이 둘째와 셋째 단계이다.
여러 분류 기법을 분석하고 장단점을 서로 비교한 연구가 있다[16〕. 이 연구에서는 각 분류 기법들을 체계적으로 그리고 특징 별로 나누어 구분해 놓았고, 특히 트리 기반의 판별 함수들을 심도 있게 다루었다.
그리고, 표 6과 표 8은 검사의 신뢰성을 높이기 위하여 스플릿 검증 또는 K-Fold 교차 검증이라 불리는 방법을 사용하였다 [41], 이 방법은 데이터를 K 등분을 한 후 K-1 등분의 데이터는 학습에 사용하고, 나머지 하나는 검증을 위하여 사용을 하였다. 총 K번 K-Fold 교차 검증을 반복시행하여 정확도를 높였다. 모든 테이블의 가로축의 내용은 서비스의 종류를 나타내고 세로 축은 각 서비스를 정확히 구분을 했는가를 확인을 위한 서비스 이름 표기이다.
대상 데이터
온라인 거임 서비스로 3D 액션 게임인쿵파[21]와 MMORPG 게임인 메이플 스토리[22]를 사용하였고, 업로드는 웹 기반 메일 서비스와 넷폴더를 이용하여 대용량 파일 업로드를 하였다. VoD 서비스의 경우 다음 UCCI23] 와 YouTube[24] 그리고 FM 라디외25]를 사용하였다. Gil Et al.
본 연구에서 분석한 자료의 수집은 그림 1에 나타나있고 각 서비스 별로 SKT에서 임의로 생성한 패킷 흐름 자료(packet trace) 자료를 이용하였다. 자료의 생성일시는 표 1과 같다.
하루에 여섯 번 트래픽을 생성하였다. 약 900개의 패킷 흐름 자료 파일을 분석을 위해 제공받았다. 본 연구를 위한 자료의 생성은 여섯 가지 서비스 군으로 나누어서 진행하였다.
데이터처리
생성된 변수를 이용하여 각 세션에 해당하는 응용 프로그램에 대한 판별분석을 행하였다. 본 연구에서는 이를 위하여 데이터 마이닝 기법들 중에서 널리 쓰이고 성능이 우수하다고 얄려진 CARTE5.
이론/모형
검증을 한 것을 나타낸 것이다. 그리고, 표 6과 표 8은 검사의 신뢰성을 높이기 위하여 스플릿 검증 또는 K-Fold 교차 검증이라 불리는 방법을 사용하였다 [41], 이 방법은 데이터를 K 등분을 한 후 K-1 등분의 데이터는 학습에 사용하고, 나머지 하나는 검증을 위하여 사용을 하였다. 총 K번 K-Fold 교차 검증을 반복시행하여 정확도를 높였다.
패킷 흐름 자료는 패킷단위의 정보이기 때문에 연구에서 사용된 한 사용자의 연속적 행동의 집합인 세션 단위의 정보로 변환을 한다. 모델링을 위해서는 R 패키지[42]를 이용하여 구현하였다. 그러나 실제 시스템 설계 때에는 C 언어로 작성이 되었다’ CART의 구현은 4.
본 연구에서의 분석 결과를 바탕으로 서비스의 판별을 위한 시스템에서는 CART를 이용한 판별함수를 사용한다. 판별 시스템의 구조는 그림 6에서 보인다.
또한, 실제로 서비스를 제공하는 사업자의 경우 무선망에서의 과금 체계의 확립을 위한 기초 자료를 제공하기 위하여 서비스 별 분류 기법의 개발과 무선망에서의 분석 기본 단위의 정립이 필요하다. 초기에는 패킷 기반 분류 기법[3, 4]을 사용하였다. 이 기법은 모든 패킷들을 직접 분석하여 분류를 하는 방식이기 때문에 시스템 자원을 많이 소모하는 가장 큰 단점이 있다.
성능/효과
81%의 오차율을 나타내었지만 학습과 판별을 나누어 진행했을 때에는 그 오판율이 CART가 더 작음을 알 수 있다. CART의 경우 ().85%이고 SVM의 경우 0.94%이匸上 수치상으료는 CART 기법은 학습과 판별을 위한 데이터를 구분하지 않아도 성능의 차이가 크지 않았던 반면 SVM의 경우 성능이 크계 차이가 나고 있음을 알 수 있다. 二렇지만 분류를 하는데 있어서 오차율이 1% 미만으로 두 경우에 나타났기 때문에 구현 단계에서 발생할 수 있는 문제들을 다루지 않을 수가 없다.
이를 통해서 두방법 모두 매우 우수한 성능으로 분류를 할 수 있음을 보였다. 두 방법이 모두 우수하기는 하나 연산량, 판별함수의 결과에 대한 이해력, 그리고 사후 변화 적응력에 대해서 비교를 해본다면 CART를 사용하는 것이 더 용이하다는 것을 보였다. 이러한 연구 결과는 다음의 분야등에서 활용될 수 있다.
이것은 매우 큰 장점으로 인지적으로 이해력을 도와 쉬운 해석을 가능하게 하기 때문이다. 두 번째로 빠른 연산처리속도를 보면 SVM은 정교한 판별식으로 높은 복잡도의 연산을 통해야만 정확한 판별을 할 수가 있다. 또한 서비스들의 관계와 특성이 복잡하게 중첩이 될수록 연산의 복잡도는 증가를 하게 된다.
1개의 세션은 Web(S6) 세션으로 오판하였다. 모든 표에서는대각 행렬에 있는 수가 높을수록 판별함수의 성능이 좋게 나타난 것을 알려준다. 모든 표에서 마지막 열은 비교를 위하여 해당 서비스의 총 세션 개수를 표현한다.
1%에 불과하였다. 이를 통해서 두방법 모두 매우 우수한 성능으로 분류를 할 수 있음을 보였다. 두 방법이 모두 우수하기는 하나 연산량, 판별함수의 결과에 대한 이해력, 그리고 사후 변화 적응력에 대해서 비교를 해본다면 CART를 사용하는 것이 더 용이하다는 것을 보였다.
이러한 연구 결과는 다음의 분야등에서 활용될 수 있다. 지능적 트래픽 분석 솔루션의 개발과, 서비스별 트래픽 모델링 및 서비스 사용 패턴데이터 제공에 사용될 수 있으며 트래픽 발생 패턴 및 발생량 그리고 그 발생된 트래픽으로 인한 네트워크에 미치는 영향도 분석을 가능하게 하고 서비스를 이용하는 사용자 패턴의 이해를 도울 수 있다. 더 나아가 서비스 및 네트워크 개발 시 필요한 네트워크 시뮬레이션과 사용자의 과금 체계를 위한 기초 자료를 제공할 수 있다.
있다. 판별 분석의 오차는 전체 트래픽을 이용해 판별을 한것에서는 CART가 0.83% 그리고 SVM이 0.81%의 오차율을 나타내었지만 학습과 판별을 나누어 진행했을 때에는 그 오판율이 CART가 더 작음을 알 수 있다. CART의 경우 ().
후속연구
먼저 간단한 결과 해석 가능 여부에 대해서 보면 CART는 분류 항목의 크고 작음에 대하여 이원 분배를 통한 파티션을 한다. 그리고 최종적으로 파티션을 마치게 되면 정확하게 분류된 결과를 얻을 수 있을 뿐 만 아니라 도식적으로 그 분류를 확인할 수가 있다. 이것은 매우 큰 장점으로 인지적으로 이해력을 도와 쉬운 해석을 가능하게 하기 때문이다.
지능적 트래픽 분석 솔루션의 개발과, 서비스별 트래픽 모델링 및 서비스 사용 패턴데이터 제공에 사용될 수 있으며 트래픽 발생 패턴 및 발생량 그리고 그 발생된 트래픽으로 인한 네트워크에 미치는 영향도 분석을 가능하게 하고 서비스를 이용하는 사용자 패턴의 이해를 도울 수 있다. 더 나아가 서비스 및 네트워크 개발 시 필요한 네트워크 시뮬레이션과 사용자의 과금 체계를 위한 기초 자료를 제공할 수 있다. 본 연구에서는 세션 단위 트래픽의 서비스 별 성공적인 판별 가능성을 보여줬다.
또한 트래픽의 서비스별 분류 연구를 통하여 가입자별 서비스 이용 패턴을 분석을 가능하게 하고 이것을 통해 트래픽 공학과 자원 용량계획을 효율적으로 할 수 있는 기반을 제공한다. 더 나아가 패킷 스케쥴링, 정책 기반의 네트워크 관리의 기술개발과 서비스 개발과정에서의 네트워크 영향의 분석그리고 서비스 별 무선망 과금 체계의 기초자료를 제공할 수 있다. 본 논문의 2장에서는 관련 연구들을 다루고 3장에서는 데이터의 수집과 사용된 테이블의 설명 그리고 세션의 정의에 대해서 소개한다.
그러나 본 연구에서 사용된 트래픽 자료는 실제 네트워크에서 고객들에 의해 생성된 트래픽이 아닌 기획된 트래픽 임을 간과해서는 안된다. 따라서 본 연구 결과의 실제 네트워크 상에서 응용 가능성에 대해서는 사후 검증이 필요할 것이다. 실제 트래픽은 시간대 별, 요일 별, 계절 별, 그리고 이벤트에 등 여러 요인에 따라 다양한 패턴을 가질 수 있다는 것을 예상할 수 있으며 이에 대한 연구도 이루어져야 할 것이다.
실제 트래픽은 시간대 별, 요일 별, 계절 별, 그리고 이벤트에 등 여러 요인에 따라 다양한 패턴을 가질 수 있다는 것을 예상할 수 있으며 이에 대한 연구도 이루어져야 할 것이다. 따라서 향후 지능형 트래픽 분석 솔루션 시스템의 구축을 위해서는 다음의 연구가 필요할 것이다. 먼저는 실제 네트워크에서의 데이터의 추출과 연구결과의 적용 및 성능 분석이 이루어져야 하고 두 번째로 서비스 어플리케이션 별 실제 트래픽의 패턴 분석과 트래픽의 샘플링 방안 연구와 샘플링 자료를 이용한 전체 네트워크의 분석 및 예측 방안 연구가 팔요로 하다.
따라서 본 연구 결과의 실제 네트워크 상에서 응용 가능성에 대해서는 사후 검증이 필요할 것이다. 실제 트래픽은 시간대 별, 요일 별, 계절 별, 그리고 이벤트에 등 여러 요인에 따라 다양한 패턴을 가질 수 있다는 것을 예상할 수 있으며 이에 대한 연구도 이루어져야 할 것이다. 따라서 향후 지능형 트래픽 분석 솔루션 시스템의 구축을 위해서는 다음의 연구가 필요할 것이다.
참고문헌 (42)
D. Halma, V. Sandrinc, and R. David. "A markovian signature- based approach to IP traffic classification," in Proceedings of the 3rd annual ACM, workshop on Mining network data. San Diego, California, ACM: 2007
C. Manuel, D. :Maurizio, G. Francesco, and S. Luca, "Traffic classification through simple statistical fingerprinting," SIGCMM Comput. Commuln. Rev., Vol.37, pp. 5-16, 2007
V. Paxson, "Bro: a system for detecting network intruders in real-time," pp. 3-3, 1998
M. Roesch, "Snort: Lightweight Intrusion Detection for Networks."
L. Breiman, Classification and Regression Trees: Chapman &: Hall/CRC. 1998
T. Hastie, R Tibshirani. and J. H. Friedman, The Elements of Statistical Learning: Springer, 2001
N. Cristianini and J. Shawe-Taylor, An Introduction to Support Vector Machines: Cambridge University Press, 2000
E. Jeffrey, A. Martin, and M. Anirban, "Traffic classification using clustering algorithms," in Proceedings of the 2006 SIGCOMM workshop on Mining network data, Pisa, Italy: ACM, 2006
W. M. Andrew and Z. Denis, "Internet traffic classification using bayesian analysis techniques," in Proceedings of the 2005 ACM SIGMETRICS international conference on Measurement and modeling of computer systems Banff, Alberta, Canada: ACM. 2005
W. Nigel, Z. Sebastian, and A. Grenville, "A preliminary performance comparison of five machine learning algorithms for practical IP traffic Flow
H. Patrick, S. Subhabrata, S. Oliver, and W. Dongmei, "ACAS: automated construction of application signatures," in Proceeding of the 2005 ACH SIGCOMM workshop on Mining network data, Philadelphia, Pennsylvania, USA: ACM, 2005
X. Kuai, Z. ZhiLi. and B. Supratik "Profiling internet backbone traffic: behavior models and applications," in Proceedings of the 2005 conference on Applications. technologies, architectures. and protocols for computer communications Philadelphia, Pennsylvania, USA: ACM, 2005
M. Roughan, S. Sen, O. Spatscheck, and N. Duffield, "Class of Service Mapping for QoS: A Statistical Signature based Approach to IP Traffic classification," in IMC'04 Taormina. Sicily', Italy, 2004
K. Thomas. P. Konstantina. and F. Michalis, "BLIINC multilevel traffic classification in the dark" SIGCOMM Comput. Commun. Rev., VoI.35, pp. 229-240 ,2005
E. Jeffrey, ;\1. Anirban, and A. Martin, "Byte me: a case for byte accuracy in traffic classification," in Proceedings of the 3rd annual ACM workshop on AIilllng network data San Diego, California, USA: ACM, 2007
E. T. David, "Survey and taxonomy of packet classification techniques," ACM Comput. Surv., Vol.37, pp. 238-275, 2005
P. Gill, M. Arlitt, Z. Li, and A. Mahanti, "Youtube traffic characterization: a view from the edge," pp.15-28, 2007
M. Cha, H. Kwak, P. Rodriguez, Y. Ahn, and S. Moon, "I tube, you tube, everyhody tubes: analyzing the world's largest user generated content
http//www.skype.com. SkyPe
http//nateonweh.nate.com/en/, NateOn Messenger
D. Bonfiglio, M. Mellia, M. Meo, D. Rossi. and P. Tofanelli, "Revealing skype traffic: when randorness plays with you," pp. 37-48, 2007
http//www.naver.com. Naver
http//www.daum.net. Daum
http://www.empas.com. Empas.
D. Tang and M. Baker, "Analysis of a local-area wireless network," pp.1-10, 2000
H. Kang, M. Kim, and J. Hong, "Streaming Media and Multimedia Conferencing Traffic Analysis Using Payload Examination," ETRI Journal, Vol.26, pp. 203-217, 2004
A. Lakhina, K. Papagiannaki, M. Crovella, C. Diot. L Kolaczyk, and N. Taft, "Structural analysis of net work traffic flows," pp, 61-72, 2004,
X. Li, F. Bian, M. Crovella, C. Diot, R. Govindan, G. Iannaccone, and A. Lakhina, "Detection and identification of network anomalies using sketch subspaces," pp. 147-152, 2006
S. Zander, T. Nguyen, and G. Armitage:, "Selflearning IP Traffic Classification based on Statistical Flow Characteristics," 2005
R. Lewis, "An Introduction to Classification and Regression Tree (CART) Analysis," pp 1-14 2000
c. Burges, "A Tutorial on Support Vector Machines for Pattern Recognition," Data Mining and Knowledge Discovery, Vol 2, pp. 121-167, 1998
※ AI-Helper는 부적절한 답변을 할 수 있습니다.