이상치 탐지는 데이터 마이닝을 기반으로 한 데이터 분석 기법 중의 하나로서, “어떤 데이터 안에서 다른 관측값들과 다른 방법에 의해 생성되었다고 의심되는 관측값”(Hawkins, 1980)인 이상치를 탐지하는 기법이다. 이상치 탐지는 IT 보안, 의료진단, 제조공정에서의 ...
이상치 탐지는 데이터 마이닝을 기반으로 한 데이터 분석 기법 중의 하나로서, “어떤 데이터 안에서 다른 관측값들과 다른 방법에 의해 생성되었다고 의심되는 관측값”(Hawkins, 1980)인 이상치를 탐지하는 기법이다. 이상치 탐지는 IT 보안, 의료진단, 제조공정에서의 모니터링 등 다양한 산업분야에 적용되고 있으며 최근 데이터의 생산량이 늘어남과 함께 그 활용분야가 점차 확대되고 있다. 최근 이상치 탐지에 관한 기존 연구들은 지도학습(supervised learning)에 기반하여 제안된 알고리즘의 성능을 비교하거나 특정 데이터셋에 맞는 알고리즘 추천에 관한 연구가 주를 이루고 있다. 주어진 데이터의 이상치 유무를 알 수 없는 경우 일반적으로 비지도 학습(unsupervised learning) 기반의 이상치 탐지 기법이 적용된다. 비지도학습 이상치 탐지에서 모델 성능 평가는 연구자의 주관에 상당부분 의존할 수밖에 없으며(Aggarwal, 2013), 어떤 데이터셋에 실제로 이상치가 포함되어있는지, 또 얼마나 포함되어있는지를 객관적으로 증명하는 외부지표(external measure)에 대한 필요성이 커지고 있지만 이에 관련된 연구는 아직까지 미흡한 실정이다. 본 연구는 이러한 한계점을 극복하고자 데이터의 이상정도(outlierness)를 측정할 수 있는 두 가지 지표의 활용방안을 제안하고자 한다. 데이터 불순도를 측정하는 지표인 엔트로피(entropy)와 데이터 분포의 불평등을 측정하는 지니계수(Gini index)를 이용하여 인공적으로 생성한 데이터셋에 대해 실험을 진행한 후 두 지표가 데이터의 이상 정도를 객관적으로 판단할 수 있는 지표임을 확인하였다. UCI machine learning repository에서 수집한 10개의 실제 데이터셋에도 실험을 진행하여 지표의 실제 효용성을 확인하였다. 엔트로피와 지니계수 모두 데이터의 이상 정도를 측정할 수 있는 지표임을 확인했으며, 제안된 지표를 이용하여 데이터의 이상정도를 정량화 할 수 있음을 보였다. 본 연구는 이상치 탐지 단에 앞서 주어진 데이터가 이상치를 포함하고 있는지를 확인할 수 있는 새로운 지표를 제안했다는 점에서 그 의의가 있으며, 추후 이를 활용하여 다양한 산업분야에서 응용이 가능할 것으로 기대된다.
이상치 탐지는 데이터 마이닝을 기반으로 한 데이터 분석 기법 중의 하나로서, “어떤 데이터 안에서 다른 관측값들과 다른 방법에 의해 생성되었다고 의심되는 관측값”(Hawkins, 1980)인 이상치를 탐지하는 기법이다. 이상치 탐지는 IT 보안, 의료진단, 제조공정에서의 모니터링 등 다양한 산업분야에 적용되고 있으며 최근 데이터의 생산량이 늘어남과 함께 그 활용분야가 점차 확대되고 있다. 최근 이상치 탐지에 관한 기존 연구들은 지도학습(supervised learning)에 기반하여 제안된 알고리즘의 성능을 비교하거나 특정 데이터셋에 맞는 알고리즘 추천에 관한 연구가 주를 이루고 있다. 주어진 데이터의 이상치 유무를 알 수 없는 경우 일반적으로 비지도 학습(unsupervised learning) 기반의 이상치 탐지 기법이 적용된다. 비지도학습 이상치 탐지에서 모델 성능 평가는 연구자의 주관에 상당부분 의존할 수밖에 없으며(Aggarwal, 2013), 어떤 데이터셋에 실제로 이상치가 포함되어있는지, 또 얼마나 포함되어있는지를 객관적으로 증명하는 외부지표(external measure)에 대한 필요성이 커지고 있지만 이에 관련된 연구는 아직까지 미흡한 실정이다. 본 연구는 이러한 한계점을 극복하고자 데이터의 이상정도(outlierness)를 측정할 수 있는 두 가지 지표의 활용방안을 제안하고자 한다. 데이터 불순도를 측정하는 지표인 엔트로피(entropy)와 데이터 분포의 불평등을 측정하는 지니계수(Gini index)를 이용하여 인공적으로 생성한 데이터셋에 대해 실험을 진행한 후 두 지표가 데이터의 이상 정도를 객관적으로 판단할 수 있는 지표임을 확인하였다. UCI machine learning repository에서 수집한 10개의 실제 데이터셋에도 실험을 진행하여 지표의 실제 효용성을 확인하였다. 엔트로피와 지니계수 모두 데이터의 이상 정도를 측정할 수 있는 지표임을 확인했으며, 제안된 지표를 이용하여 데이터의 이상정도를 정량화 할 수 있음을 보였다. 본 연구는 이상치 탐지 단에 앞서 주어진 데이터가 이상치를 포함하고 있는지를 확인할 수 있는 새로운 지표를 제안했다는 점에서 그 의의가 있으며, 추후 이를 활용하여 다양한 산업분야에서 응용이 가능할 것으로 기대된다.
Outlier detection is a data analysis method based on data mining technique to find an outlier in given dataset. Hawkins (Hawkins, 1980) defines an outlier as an observation that deviates so much from other observations as to arouse suspicion that it was generated by a different mechanism. Outlier de...
Outlier detection is a data analysis method based on data mining technique to find an outlier in given dataset. Hawkins (Hawkins, 1980) defines an outlier as an observation that deviates so much from other observations as to arouse suspicion that it was generated by a different mechanism. Outlier detection has been widely used in industry as the amount of data rises rapidly. Previous research focused on applying eminent outlier detection algorithms to multiple datasets and detecting outliers subjectively. Consequently the evaluation of the models also depends on researcher as well(Aggarawal, 2013). In this regard, the need of external measure has been highlighted over time but it has not been addressed yet. This study proposes two objective Outlierness metrics: Entropy and Gini index. To examine the effectiveness of proposed metrics, experiments have been conducted on both artificial and real-world datasets. As a result, both metrics are proved as legit external metrics that can be used in unsupervised outlier detection. The result also showed both metrics can quantify given dataset's outlierness.
Outlier detection is a data analysis method based on data mining technique to find an outlier in given dataset. Hawkins (Hawkins, 1980) defines an outlier as an observation that deviates so much from other observations as to arouse suspicion that it was generated by a different mechanism. Outlier detection has been widely used in industry as the amount of data rises rapidly. Previous research focused on applying eminent outlier detection algorithms to multiple datasets and detecting outliers subjectively. Consequently the evaluation of the models also depends on researcher as well(Aggarawal, 2013). In this regard, the need of external measure has been highlighted over time but it has not been addressed yet. This study proposes two objective Outlierness metrics: Entropy and Gini index. To examine the effectiveness of proposed metrics, experiments have been conducted on both artificial and real-world datasets. As a result, both metrics are proved as legit external metrics that can be used in unsupervised outlier detection. The result also showed both metrics can quantify given dataset's outlierness.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.