본 논문은 온톨로지(ontology)에 기반 한 자동화된 웹 페이지 분류 시스템을 제안한다. 웹 페이지의 분류를 위하여 첫 번째 단계에서는 각 웹 페이지가 속한 범주(category)를 대표할 수 있는 단어를 선정하며, 이를 위하여 단어빈도와 문서빈도를 곱한 값을 계산한다. 두 번째 단계에서는 첫 번째 단계에 의해 선택된 단어의 정보이득(information gain)을 계산해 분류 확률이 높은 단어를 우선적으로 선정한다. 두 단계를 통하여 선정된 단어들과 웹 페이지의 분류 정보를 가지고, 기계학습에 의하여 컴파일 된 규칙(compiled rules)을 생성한다. 생성된 규칙은 임의의 웹 페이지들을 도메인 온톨로지에 의해 정의된 범주 별로 분류할 수 있도록 한다. 본 논문의 실험에서는 주어진 웹 페이지 집합에서 각 범주 별로 평균 240개의 단어로부터 78개의 단어를 결과적으로 선정하였으며, 이를 바탕으로 웹 페이지 분류 규칙을 생성하였다. 실험 결과에서 제안한 시스템의 평균 분류 정확도는 약 83.52%로 측정되었다.
본 논문은 온톨로지(ontology)에 기반 한 자동화된 웹 페이지 분류 시스템을 제안한다. 웹 페이지의 분류를 위하여 첫 번째 단계에서는 각 웹 페이지가 속한 범주(category)를 대표할 수 있는 단어를 선정하며, 이를 위하여 단어빈도와 문서빈도를 곱한 값을 계산한다. 두 번째 단계에서는 첫 번째 단계에 의해 선택된 단어의 정보이득(information gain)을 계산해 분류 확률이 높은 단어를 우선적으로 선정한다. 두 단계를 통하여 선정된 단어들과 웹 페이지의 분류 정보를 가지고, 기계학습에 의하여 컴파일 된 규칙(compiled rules)을 생성한다. 생성된 규칙은 임의의 웹 페이지들을 도메인 온톨로지에 의해 정의된 범주 별로 분류할 수 있도록 한다. 본 논문의 실험에서는 주어진 웹 페이지 집합에서 각 범주 별로 평균 240개의 단어로부터 78개의 단어를 결과적으로 선정하였으며, 이를 바탕으로 웹 페이지 분류 규칙을 생성하였다. 실험 결과에서 제안한 시스템의 평균 분류 정확도는 약 83.52%로 측정되었다.
In this paper, we present an automated Web page classification system based upon ontology. As a first step, to identify the representative terms given a set of classes, we compute the product of term frequency and document frequency. Secondly, the information gain of each term prioritizes it based o...
In this paper, we present an automated Web page classification system based upon ontology. As a first step, to identify the representative terms given a set of classes, we compute the product of term frequency and document frequency. Secondly, the information gain of each term prioritizes it based on the possibility of classification. We compile a pair of the terms selected and a web page classification into rules using machine learning algorithms. The compiled rules classify any Web page into categories defined on a domain ontology. In the experiments, 78 terms out of 240 terms were identified as representative features given a set of Web pages. The resulting accuracy of the classification was, on the average, 83.52%.
In this paper, we present an automated Web page classification system based upon ontology. As a first step, to identify the representative terms given a set of classes, we compute the product of term frequency and document frequency. Secondly, the information gain of each term prioritizes it based on the possibility of classification. We compile a pair of the terms selected and a web page classification into rules using machine learning algorithms. The compiled rules classify any Web page into categories defined on a domain ontology. In the experiments, 78 terms out of 240 terms were identified as representative features given a set of Web pages. The resulting accuracy of the classification was, on the average, 83.52%.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
그러나 Riboni의 방법은 특성추출을 위해 사용한 각각의 방법을 개별적으로 사용하였기 때문에 결합된 방법이 분류 성능에 미칠 영향에 대해서는 연구가 미흡했다. 따라서 본 논문에서는 특성들의 크기를 조절하여 사용할 수 있게 한 점에 대해서는 방법을 같이 하되, 분류의 정확도를 높이기 위하여 문서빈도, 단어빈도, 그리고 엔트로피 계산을 결합한 메커니즘을 제안한다.
본 논문에서는 온톨로지에 기반한 자동화된 웹 페이지 분류 시스템을 제안하였다. 이러한 시스템을 개발하기 위하여, 온톨로지의 각 분류 범주에 속하는 단어들이 가져야 할 두 가지 속성을 (1) 각 분류 범주를 대표할 수 있으며, (2) 각 분류 범주를 다른 분류 범주와 뚜렷이 구분할 수 있는 특성으로 구체화 하였다.
실험에서는 본 논문이 제안한 웹 페이지 분류 시스템의 분류 정확도에 대한 성능을 측정하였다. 그 결과 제안된 방법이 기계학습의 입력값으로 쓰이는 단어의 수를 효과적으로 줄일 수 있음을 알 수 있었다.
때문에 많은 기업들은 업무에 적합하지 않은 웹 페이지들을 탐지하고 차단하기 위한 방법들에 대한 관심을 가지게 되었다. 본 논문에서는 일반적인 네트워크 환경을 통해 사내망과 같은 지역 네트워크 안으로 전달되는 스트림들로부터 부적합한 웹 페이지들을 판별하여 온톨로지(ontology)[10, ll] 에 기반한 클래스로 분류하는 방법을 소개한다.
제안 방법
본 논문이 제안하는 웹 페이지 분류 시스템은 크게 세 개의 모듈로 구성되어 있다. 그 세 개의 모듈은 패킷 수집 모듈, 프로토콜 분석 모듈, 콘텐트 분류 모듈이다.
웹 페이지의 내용을 식별하기 위해서 본 논문에서는 단어빈도 (Term Frequency : TF)와 문서 빈도(Document Frequency : DF)[1, 18]를 곱한 값과 정보이득(information gain) 계산 방법 [20]을 결합한 방법을 제안한다. 그리고 제안된 방법론에 의해 선택된 단어를 기반으로 하여 임의의 웹 페이지를 도메인 온톨로지 내에 있는 범주로 분류한다.
결합한 방법을 제안한다. 그리고 제안된 방법론에 의해 선택된 단어를 기반으로 하여 임의의 웹 페이지를 도메인 온톨로지 내에 있는 범주로 분류한다. 이 과정에서 실질적인 분류는 기계학습(machine learning)에 의해 생성된 분류 규칙을 사용하여 웹 페이지와 미리 정의된 범주 간의 관련성을 식별함으로써 가능하게 되는 것이다.
웹 페이지의 분류를 위하여는 웹 페이지가 속하는 범주를 우선적으로 정의해야 하며, 이를 위하여 본 논문에서는 온톨로지(ontology)를 구성한다. 온톨로지는 객체와 특성들을 계층적으로 구조화시켜 모델링하는 특징이 있으며, 개념의 확장이나 진행을 지속적으로 유지시켜 줄 수 있다.
그러나, 변화되는 온톨로지 구성 요소를 자주 갱신하지 않으면 웹 페이지 분류에 대한 정확도가 낮아지는 문제가 발생한다. 따라서 제안하는 시스템은 보다 정확한 온톨로지를 유지하기 위하여, 웹 페이지들의 범주를 계층적으로 구성하고 각 범주를 대표할 수 있는 단어들을 계속적으로 갱신한다.
그러나 본 논문은 문서빈도뿐만 아니라 단어빈도를 사용하여 각 범주를 대표하면서도 중요한 의미를 갖는 단어들을 선별할 수 있었다. 주목할 사항은 기존의 정보 검색에서 단어의 가중치를 계산하기 위해서 단어빈도(TF)와 역문서 빈도0DF)를 이용하여 계산하나 본 시스템은 이를 변형한 TF/DF로써 각 단어의 가중치를 계산한다. TF/IDF가 각 문서마다 고유한 단어들에 가중치를 부여하는 반면 TFZQF는 각 문서 집합에 고유한 단어들에 가중치를 부여한다.
본 논문에서는 개념에 대한 계층적 구조를 갖는 온톨로지를 이용하여 웹 페이지를 모델링하고 분류하였다. 제안한 웹페이지 분류 시스템의 온톨로지는 전체 개념의 계층구조에서 각각의 분류 범주를 정의하고 각 분류 범주를 대표하는 단어들을 포함한다.
이용하여 웹 페이지를 모델링하고 분류하였다. 제안한 웹페이지 분류 시스템의 온톨로지는 전체 개념의 계층구조에서 각각의 분류 범주를 정의하고 각 분류 범주를 대표하는 단어들을 포함한다. 따라서, 시스템의 분류 범주 각각이 주어진 웹 페이지를 어떤 기준(또는 단어)으로 분류하는지를 제시하며, 온톨로지의 분류 범주에 포함된 단어를 이용하여 기계 학습 규칙을 생성한다.
제안한 웹페이지 분류 시스템의 온톨로지는 전체 개념의 계층구조에서 각각의 분류 범주를 정의하고 각 분류 범주를 대표하는 단어들을 포함한다. 따라서, 시스템의 분류 범주 각각이 주어진 웹 페이지를 어떤 기준(또는 단어)으로 분류하는지를 제시하며, 온톨로지의 분류 범주에 포함된 단어를 이용하여 기계 학습 규칙을 생성한다. 그러므로 주어진 도메인의 온톨로지를 정의하기 위하여 특정 범주(category)에 연관된 단어의 집합을 어떻게 선택하는가가 중요한 요인이 된다.
또한 유사 범주들간에는 같은 단어가 많이 나타나기 때문에 각 범주를 잘 설명하는 단어가 곧 해당 범주를 다른 범주와 잘 구분하는 단어가 될 가능성 또한 작아진다. 따라서 본 논문은 웹 페이지의 분류를 위해서 [20] 에서 제안된 방법을 통해 단어의 엔트로피를 계산하는 방식을 도입한다. 단어의 엔트로피는 정확한 분류를 하는데 필요한 정보의 기대 값을 제공한다.
두 번째로 첫 번째 과정을 통해 선정된 단어들의 정보이득을 계산한 값을 이용하여 속성들의 우선순위를 정해 튜플을 구성한다. 세 번째로 구성된 튜플을 가지고 여러 기계학습 알고리즘[5, 9]에 대입해 분류 규칙의 집합을 만든다.
데이터 집합은 은행과 금융, 프로그래밍언어, 과학, 스포츠로 총 네 개의 범주로 구성되어 있다. 주어진 데이터 집합에서 각 범주를 계층구조로 하는 온톨로지를 정의하기 위하여, (그림 4)와 같은 온톨로지 생성기(ontology builder)를 설계 및 구현하였다. 온톨로지 생성기를 이용하여 각 분류 범주에 속한 단어들을 정의하고 유지하며, 온톨로지에 정의된 단어들을 이용하여 기계학습 규칙을 생성한다.
주어진 데이터 집합에서 각 범주를 계층구조로 하는 온톨로지를 정의하기 위하여, (그림 4)와 같은 온톨로지 생성기(ontology builder)를 설계 및 구현하였다. 온톨로지 생성기를 이용하여 각 분류 범주에 속한 단어들을 정의하고 유지하며, 온톨로지에 정의된 단어들을 이용하여 기계학습 규칙을 생성한다.
본 논문에서 제안한 단어 선택 방법의 유용성을 검증하기 위해 (1) 전체 범주의 분류를 위하여 각 범주 하위 클래스 중 하나씩만을 선택하여 분류성능을 테스트 하였으며, 또한 (2) 유사 범주의 분류를 위하여 은행과 금융 범주의 하위의 세 개의 클래스간의 분류 성능을 테스트 하였다. 마지막으로, (3) 종합적인 분류 성능의 테스트를 위해, 전체 범주와 유사범주에 사용한 여섯 개의 클래스를 모두 포함하는 통합 범주의 분류 성능을 테스트 하였다.
마지막으로, (3) 종합적인 분류 성능의 테스트를 위해, 전체 범주와 유사범주에 사용한 여섯 개의 클래스를 모두 포함하는 통합 범주의 분류 성능을 테스트 하였다. 전체 범주의 분류를 위하여 'Commercial Bank', 'Java', 'Astronomy', 'Soccer' 클래스를 선택하였으며, 유사 범주의 분류를 위하여 'Commercial Bank', 'Building Societies', 'Insurance agencies' 클래스를 선택하였다.
마지막으로, (3) 종합적인 분류 성능의 테스트를 위해, 전체 범주와 유사범주에 사용한 여섯 개의 클래스를 모두 포함하는 통합 범주의 분류 성능을 테스트 하였다. 전체 범주의 분류를 위하여 'Commercial Bank', 'Java', 'Astronomy', 'Soccer' 클래스를 선택하였으며, 유사 범주의 분류를 위하여 'Commercial Bank', 'Building Societies', 'Insurance agencies' 클래스를 선택하였다. 이들 클래스들은 (그림 3)에서 각각 굵은 선으로 표시되었다.
최종 분류정확도를 측정하기 위하여, 위에서 생성한 규칙을 3, 6師개의 웹 페이지에 적용해 (그림 3)에서 제시한 네 개의 범주 중 하나로 분류하는 실험을 하였다. (그림 9)는 각각의 기계학습 알고리즘에 의해 생성된 분류 규칙이 갖는 분류정확도 성능 측정값을 그래프로 나타낸 것이다.
시스템을 제안하였다. 이러한 시스템을 개발하기 위하여, 온톨로지의 각 분류 범주에 속하는 단어들이 가져야 할 두 가지 속성을 (1) 각 분류 범주를 대표할 수 있으며, (2) 각 분류 범주를 다른 분류 범주와 뚜렷이 구분할 수 있는 특성으로 구체화 하였다. 따라서, 첫 번째 속성을 위하여 단어들의 가중치를 계산하여 각 분류 범주에 속하는 문서 집합을 대표하는 단어들을 선택하였으며, 두 번째 속성을 구현하기 위하여 선택된 단어들의 정보이득 값을 계산하여 우선순위를 결정하였다.
이러한 시스템을 개발하기 위하여, 온톨로지의 각 분류 범주에 속하는 단어들이 가져야 할 두 가지 속성을 (1) 각 분류 범주를 대표할 수 있으며, (2) 각 분류 범주를 다른 분류 범주와 뚜렷이 구분할 수 있는 특성으로 구체화 하였다. 따라서, 첫 번째 속성을 위하여 단어들의 가중치를 계산하여 각 분류 범주에 속하는 문서 집합을 대표하는 단어들을 선택하였으며, 두 번째 속성을 구현하기 위하여 선택된 단어들의 정보이득 값을 계산하여 우선순위를 결정하였다. 그리고 추출된 특성 즉, 이와 같이 선정된 단어들을 가지고 기계학습 알고리즘을 적용하여 분류 규칙을 생성하였다.
따라서, 첫 번째 속성을 위하여 단어들의 가중치를 계산하여 각 분류 범주에 속하는 문서 집합을 대표하는 단어들을 선택하였으며, 두 번째 속성을 구현하기 위하여 선택된 단어들의 정보이득 값을 계산하여 우선순위를 결정하였다. 그리고 추출된 특성 즉, 이와 같이 선정된 단어들을 가지고 기계학습 알고리즘을 적용하여 분류 규칙을 생성하였다.
그들의 연구는 문서빈도에 의존적이어서 특성으로 선택된 단어들이 웹 페이지들의 특정 범주에서 자주 발견되기는 하지만, 그것을 다른 범주와 그것이 속한 문서의 범주를 구분하는 요소로 사용할 수는 없다. 그러나 본 논문은 문서빈도뿐만 아니라 단어빈도를 사용하여 각 범주를 대표하면서도 중요한 의미를 갖는 단어들을 선별할 수 있었다. 주목할 사항은 기존의 정보 검색에서 단어의 가중치를 계산하기 위해서 단어빈도(TF)와 역문서 빈도0DF)를 이용하여 계산하나 본 시스템은 이를 변형한 TF/DF로써 각 단어의 가중치를 계산한다.
대상 데이터
그 세 개의 모듈은 패킷 수집 모듈, 프로토콜 분석 모듈, 콘텐트 분류 모듈이다. 패킷 수집 모듈은 TCP 기반의 네트워크에서 서버와 클라이언트 간의 세션으로부터 패킷을 수집한다. 프로토콜 분석 모듈은 수집된 패킷의 헤더 정보를 분석하고 패킷이 사용되는 응용 프로그램에 적합한 형태로 재구성한다.
우리는 자동화된 웹 페이지 분류 시스템의 분류 정확도에 대한 성능을 검증하기 위하여 Sinka[21]의 연구에서 제공하는 데이터 집합을 사용하였다. Sinka[21]가 사용한 데이터 집합은 웹 페이지 클러스터링 알고리즘을 평가하기 위해 제안한 평가 문서 집합으로 본 시스템의 웹 페이지 분류의 평가에도 적합하다고 판단된다.
Sinka[21]가 사용한 데이터 집합은 웹 페이지 클러스터링 알고리즘을 평가하기 위해 제안한 평가 문서 집합으로 본 시스템의 웹 페이지 분류의 평가에도 적합하다고 판단된다. 실험을 위하여 1.6GHz의 펜티엄 IV PC를 사용하였다.
3)과 같다. 데이터 집합은 은행과 금융, 프로그래밍언어, 과학, 스포츠로 총 네 개의 범주로 구성되어 있다. 주어진 데이터 집합에서 각 범주를 계층구조로 하는 온톨로지를 정의하기 위하여, (그림 4)와 같은 온톨로지 생성기(ontology builder)를 설계 및 구현하였다.
자동화된 웹 페이지 분류 시스템을 구현하기 위해서 위에서 생성한 튜플들을 기계학습의 학습 데이터로 사용한다. 본 논문에서 사용한 기계학습 알고리즘은 C4.
이론/모형
본 논문에서 사용한 기계학습 알고리즘은 C4.5E14], 베이지언 분류법 (naive Bayesian classifier)[4], CN2[2], 역 전파(back- propagation) 신경망[24] 알고리즘으로 총 네 개이다. 이들 알고리즘에 의해 생성된 규칙들은 실시간으로 임의의 웹 페이지들을 분류하는데 사용된다.
성능/효과
Riboni는 정보이득, 단어 수, 문서빈도 각각에 의해 추출된 특성의 수를 변경하면서 기계학습 알고리즘을 적용하였다. 그 결과 정보이득에 의한 특성추출 방법이 분류 성능에 가장 좋은 영향을 미쳤다. 그러나 Riboni의 방법은 특성추출을 위해 사용한 각각의 방법을 개별적으로 사용하였기 때문에 결합된 방법이 분류 성능에 미칠 영향에 대해서는 연구가 미흡했다.
데이터 집합을 사용하였다. Sinka[21]가 사용한 데이터 집합은 웹 페이지 클러스터링 알고리즘을 평가하기 위해 제안한 평가 문서 집합으로 본 시스템의 웹 페이지 분류의 평가에도 적합하다고 판단된다. 실험을 위하여 1.
이들에게 식 (1)을 적용한 결과는<표 2>와<표 3>에 있다. 결과를 살펴보면 전체 범주 분류의 경우, 은행과 금융 범주에서의 'account', 프로그래밍 언어에서의 'java', 과학의 'galaxi', 스포츠의 'cup'이 각각의 범주에서 가장 높은가 중치 값을 가졌다. 유사 범주 분류의 경우 상업 은행 범주에서 'account', 주택 금융 조합에서 'mortgag', 보험 대리점에서 'insuieF 각각의 범주에서 가장 높은 가중치 값을 가졌다.
위 결과를 정리해 보면 무조건 많은 단어를 선택하는 것이 좋은 분류성능을 가져오지 않음을 알 수 있다. 이와 같은 현상을<표 10>과 (그림 8)에 정리하였다.
11 로 정하고, 임계값보다 큰 정보이득 값을 갖는 단어들을 선택한다. 그 결과 범주 당 13개, 총 78개의 단어가 선택되었다. 마지막으로 선택된 단어들로 조합을 만들어 각각의 조합이 어떤 범주에 해당하는지 파악해 기계학습에 사용될 수 있게 만든다.
(그림 9)는 각각의 기계학습 알고리즘에 의해 생성된 분류 규칙이 갖는 분류정확도 성능 측정값을 그래프로 나타낸 것이다. CN2의 성능은 89.05%로 네 개의 알고리즘 중에 가장 좋은 성능을 보여줬고, 가장 나쁜 성능을 보인 베이지언 분류법도 73.11%의 분류 성능을 보였다. 따라서 3, 600개의 웹 페이지에 대해 실시한 분류 실험은 평균적으로 8352%의 분류 성능을 가졌다고 할 수 있다.
11%의 분류 성능을 보였다. 따라서 3, 600개의 웹 페이지에 대해 실시한 분류 실험은 평균적으로 8352%의 분류 성능을 가졌다고 할 수 있다.
정확도에 대한 성능을 측정하였다. 그 결과 제안된 방법이 기계학습의 입력값으로 쓰이는 단어의 수를 효과적으로 줄일 수 있음을 알 수 있었다. 분류된 웹 페이지들의 집합으로부터 대표성을 갖는 단어를 추출하는 실험에서, 평균적으로 25贝개의 단어들로부터 분류 범주를 대표하는 78개의 단어를 선정할 수 있었다.
그 결과 제안된 방법이 기계학습의 입력값으로 쓰이는 단어의 수를 효과적으로 줄일 수 있음을 알 수 있었다. 분류된 웹 페이지들의 집합으로부터 대표성을 갖는 단어를 추출하는 실험에서, 평균적으로 25贝개의 단어들로부터 분류 범주를 대표하는 78개의 단어를 선정할 수 있었다. 이때의 분류 정확도에 대한 성능은 약 83.
후속연구
제안하는 웹 페이지 분류 시스템은 실시간으로 웹 페이지를 분류하여 검사 중인 웹 페이지가 지역 네트워크에 부적합한 범주에 속할 경우 별도의 보고서를 생성할 수 있을 것으로 기대한다. 또한 웹 페이지 분류 시스템은 향후에 네트워크의 사용이 안전하게 되고 있음을 보증하는데 필수 불가결한 요소가 될 것임을 확신한다.
또한 웹 페이지 분류 시스템은 향후에 네트워크의 사용이 안전하게 되고 있음을 보증하는데 필수 불가결한 요소가 될 것임을 확신한다.
본 연구의 결과를 다양한 도메인의 웹 페이지 분류를 위하여 적용할 수 있다고 판단한다. 특성을 추출할 때 HTML 문서의 구조적 특징이나 하이퍼링크와 같은 웹 페이지의 특징을 부가하여 이 특징들에 의한 성능 향상을 실험해 볼 수 있으며, 여러가지 다른 도메인의 웹 페이지 분류를 수행할 수 있을 것으로 기대한다.
적용할 수 있다고 판단한다. 특성을 추출할 때 HTML 문서의 구조적 특징이나 하이퍼링크와 같은 웹 페이지의 특징을 부가하여 이 특징들에 의한 성능 향상을 실험해 볼 수 있으며, 여러가지 다른 도메인의 웹 페이지 분류를 수행할 수 있을 것으로 기대한다. 또한 분류 시스템에 새로운 웹 페이지들이 지속적으로 尘력될 때, 이에 의한 온톨로지와 분류규칙의 갱신 및 성능 변화를 실험해 볼 수 있을 것이다.
특성을 추출할 때 HTML 문서의 구조적 특징이나 하이퍼링크와 같은 웹 페이지의 특징을 부가하여 이 특징들에 의한 성능 향상을 실험해 볼 수 있으며, 여러가지 다른 도메인의 웹 페이지 분류를 수행할 수 있을 것으로 기대한다. 또한 분류 시스템에 새로운 웹 페이지들이 지속적으로 尘력될 때, 이에 의한 온톨로지와 분류규칙의 갱신 및 성능 변화를 실험해 볼 수 있을 것이다.
본 연구를 토대로 향후에는 다양한 도메인에 대한 웹 페이지 분류를 해볼 계획이며, 특히 자체적으로 수집한 30, 000 개의 웹 페이지들에 대하여 웹 페이지의 유해성 여부를 분류하여 시스템의 유용성을 분석할 계획이다. 또한 새로운 웹페이지들을 이용하여 분류 人':스템의 규칙을 갱신할 때, 본 논문에서 제안한 단어 선택 방법의 유용성을 검증해 볼 것이다.
시스템의 유용성을 분석할 계획이다. 또한 새로운 웹페이지들을 이용하여 분류 人':스템의 규칙을 갱신할 때, 본 논문에서 제안한 단어 선택 방법의 유용성을 검증해 볼 것이다. 즉, 제안된 방법을 사용하여 갱신된 분류 규칙이 새로운 웹 페이지의 특성을 어느 정도 반영하는지 분석하며, 갱신된 규칙을 기존의 웹 페이지 집합에 적용하여 성능을 평가할 계획이다.
또한 새로운 웹페이지들을 이용하여 분류 人':스템의 규칙을 갱신할 때, 본 논문에서 제안한 단어 선택 방법의 유용성을 검증해 볼 것이다. 즉, 제안된 방법을 사용하여 갱신된 분류 규칙이 새로운 웹 페이지의 특성을 어느 정도 반영하는지 분석하며, 갱신된 규칙을 기존의 웹 페이지 집합에 적용하여 성능을 평가할 계획이다.
참고문헌 (24)
R. Baeza-Yates and B. Ribeiro-Neto, Modern Information Retrieval, ACM Press/Addison-Wesley, New York, 1999
P. Clark and T. Niblett, 'The CN2 Induction algorithm,' Machine Learning Journal, Vol.3, No.4, pp.261-283, 1989
C. Ding, C. Chi, J. Deng and C. Dong, 'Centralized content-based Web filtering and blocking: how far can it go?,' Proc. of 1999 IEEE International Conference on Systems, Man and Cybernetics, Vol.2, pp.115-119, October, 1999
R. Hanson, J. Stutz and P. Cheeseman, Bayesian Classification Theory, Technical Report FIA-90-12-7-01, NASA Ames research Center, AI Branch, 1991
L. Holder, ML v2.0, Machine Learning Program Evaluator, available on-line, http://ranger.uta.edu/-holder/courses/cse6363/ml2.0.tar.gz
C. Jenkins, M. Jackson, P. Burden and J. Wallis, 'Automatic RDF metadata generation for resource discovery,' Proc. of 8th International WWW Conference, Toronto, pp.11-14, May, 1999
Lawrence Berkeley National Labs Network Research Group, libpcap, available on-line, http://ftp.ee.lbl.gov
Y. Ng, J. Tang and M. Goodrich, 'A binary-categorization approach for classifying multiple-record Web documents using application ontologies and a probabilistic model,' Proc. of 7th International Conference on Database Systems for Advanced Applications, pp.58-65, April, 2001
S. Noh, C. Lee, K. Choi and G. Jung, 'Detecting Distributed Denial of Service(DDoS) Attacks Through Inductive Learning,' Lecture Notes in Computer Science 2690, pp.286-295, Springer, 2003
S. Noh, H. Seo, J. Choi, K. Choi and G. Jung, 'Classifying Web Pages Using Adaptive Ontology,' Proc. of the IEEE International Conference on Systems, Man and Cybernetics, pp.2144-2149, Washington, D.C., October, 2003
N. F. Noy and D. L. Mcguinness, 'Ontology development 101 : A guide to creating your first ontology,' Knowledge Systems Laboratory(KSL), Department of Computer Science, Stanford: Technical report, KSL-01-05, 2001
S. Parent, B. Mobasher and S. Lytinen, 'An adaptive agent for web exploration based on concept hierarchies,' Proc. of 9th International Conference on Human Computer Interaction, New Orleans, August, 2001
R. Prabowo, M. Jackson, P. Burden and H. Knoell, 'Ontology-Based Automatic Classification for the WEB Pages : Design, Implementation an Evaluation,' Proc. of 3rd International Conference, Singapore, pp.182-191, 2002
J. R. Quinlan, C4.5: Programs for Machine Learning, Morgan Kaufmann, 1993
J. Reynolds and J. Postel, 'Assigned Numbers,' STD 2, RFC 1700, October, 1994
D. Riboni, 'Feature Selection for Web Page Classification,' EURASIA - ICT 2002 Proc. of the Workshops, Shiraz, Iran, October 2002
S. M. Ruger and S. E. Gauch, Feature Reduction for Document Clustering and Classification, Technical report, Computing Department, Imperial College, London, 2000
G. Salton, and C. Buckley, 'Term weighting approaches in automatic text retrieval,' Information Processing and Management, Vol.24, No.5, pp. 513-523, 1988
M. P. Sinka and D. W. Corne, 'A large benchmark dataset for web document clustering,' Soft Computing Systems : Design, Management and Applications, Frontiers in Artificial Intelligence and Applications, Vol.87, pp.881-890, 2002
N. Soonthornphisaj, P. Chartbanchachai, T. Pratheeptham, and B. Kijsirikul, 'Web page categorization using hierarchical headings structure,' Proc. of 24th International Conference on Information Technology Interfaces, Vol.1 pp.37-42, 2002
A. Sun, E. Lim and W. Ng, 'Web classification using support vector machine,' WlDM'02, Virginia, November, 2002
D. R. Tveter, Backprop Package, available on-line, http://www.dontveter.com/nnsoft/bp042796.zip, 1996
※ AI-Helper는 부적절한 답변을 할 수 있습니다.