데이터의 분류를 위해 k-최근접 이웃 알고리즘(k-Nearest neighbor algorithm, k-NN)을 이용할 수 있다. 주어진 데이터에 대해 기존의 학습 데이터와의 유사도(Similarity)를 측정한 후, 높은 유사도 수치를 가진 데이터와 동일 클래스로 분류하는 방법이다. 즉, 어떤 두 데이터의 유사도 수치가 높을수록 우리는 두 데이터가 유사하다 또는 해당 유사도 공간에서 두 데이터의 거리가 가깝다고 판단하게 되고 두 데이터는 동일 클래스로 분류한다. 하지만 동일 클래스인 데이터임에도 불구하고 유사도 수치가 낮아 다른 클래스로 분류되는 경우가 존재한다. 이러한 한계점을 보완하기 위해 본 연구에서는 데이터를 여러 개의 다양한 형태로 표현하여 ...
데이터의 분류를 위해 k-최근접 이웃 알고리즘(k-Nearest neighbor algorithm, k-NN)을 이용할 수 있다. 주어진 데이터에 대해 기존의 학습 데이터와의 유사도(Similarity)를 측정한 후, 높은 유사도 수치를 가진 데이터와 동일 클래스로 분류하는 방법이다. 즉, 어떤 두 데이터의 유사도 수치가 높을수록 우리는 두 데이터가 유사하다 또는 해당 유사도 공간에서 두 데이터의 거리가 가깝다고 판단하게 되고 두 데이터는 동일 클래스로 분류한다. 하지만 동일 클래스인 데이터임에도 불구하고 유사도 수치가 낮아 다른 클래스로 분류되는 경우가 존재한다. 이러한 한계점을 보완하기 위해 본 연구에서는 데이터를 여러 개의 다양한 형태로 표현하여 유사도 측정을 시행하고 분류하는 실험을 수행했다. 변형된 데이터 표현형에서 유사도 측정을 시행하고, 각각의 유사도 측정 결과를 결합하여 새로운 데이터를 분류함으로써 오분류율을 감소시키고자 하였다. 만약 두 데이터가 동일 클래스에 속한다면 두 데이터가 변형된 후에도 높은 유사도 수치를 가질 것이라고 가정하였다. 또한, 다양한 표현형으로 측정한 유사도를 조합하여 이용할 경우 분류 정확도의 향상을 기대하였다. 본 논문에서 제안한 방법을 다양한 데이터 셋에 대한 실험을 통해 분류 정확도 향상을 증명하였고 기존의 방법들과 비교 분석함으로써 분류 성능의 우수성을 확인하였다.
데이터의 분류를 위해 k-최근접 이웃 알고리즘(k-Nearest neighbor algorithm, k-NN)을 이용할 수 있다. 주어진 데이터에 대해 기존의 학습 데이터와의 유사도(Similarity)를 측정한 후, 높은 유사도 수치를 가진 데이터와 동일 클래스로 분류하는 방법이다. 즉, 어떤 두 데이터의 유사도 수치가 높을수록 우리는 두 데이터가 유사하다 또는 해당 유사도 공간에서 두 데이터의 거리가 가깝다고 판단하게 되고 두 데이터는 동일 클래스로 분류한다. 하지만 동일 클래스인 데이터임에도 불구하고 유사도 수치가 낮아 다른 클래스로 분류되는 경우가 존재한다. 이러한 한계점을 보완하기 위해 본 연구에서는 데이터를 여러 개의 다양한 형태로 표현하여 유사도 측정을 시행하고 분류하는 실험을 수행했다. 변형된 데이터 표현형에서 유사도 측정을 시행하고, 각각의 유사도 측정 결과를 결합하여 새로운 데이터를 분류함으로써 오분류율을 감소시키고자 하였다. 만약 두 데이터가 동일 클래스에 속한다면 두 데이터가 변형된 후에도 높은 유사도 수치를 가질 것이라고 가정하였다. 또한, 다양한 표현형으로 측정한 유사도를 조합하여 이용할 경우 분류 정확도의 향상을 기대하였다. 본 논문에서 제안한 방법을 다양한 데이터 셋에 대한 실험을 통해 분류 정확도 향상을 증명하였고 기존의 방법들과 비교 분석함으로써 분류 성능의 우수성을 확인하였다.
K-nearest neighbor (k-NN) computation can be used for classification. k-NN classification classifies a given time-series into the class of the most similar training instance in a given train dataset. It is based on an assumption that two time-series are highly similar if they belong to the same clas...
K-nearest neighbor (k-NN) computation can be used for classification. k-NN classification classifies a given time-series into the class of the most similar training instance in a given train dataset. It is based on an assumption that two time-series are highly similar if they belong to the same class. Recently, it has been suggested that representing each time-series into a set of cells is efficient and effective way of classifying time-series. However, If given time-series has low similarity value with another time-series having same class, then it is possible that they are classified into different classes. In order to solve for the limit of the algorithm, we propose transforming the data to many different representations for higher classification accuracy. We tried to reduce the number of misclassified instances by merging the results obtained from each model grid. If both time-series are same class, they would still have a high similarity value even after the two data were transformed. and when the time-series are represented many times, they will get high similarity value generally. we could improve the classification accuracy by using multiple grids. In this paper, we analyze the impact of multiple representations through extensive experiments and compare our results with those of other methods.
K-nearest neighbor (k-NN) computation can be used for classification. k-NN classification classifies a given time-series into the class of the most similar training instance in a given train dataset. It is based on an assumption that two time-series are highly similar if they belong to the same class. Recently, it has been suggested that representing each time-series into a set of cells is efficient and effective way of classifying time-series. However, If given time-series has low similarity value with another time-series having same class, then it is possible that they are classified into different classes. In order to solve for the limit of the algorithm, we propose transforming the data to many different representations for higher classification accuracy. We tried to reduce the number of misclassified instances by merging the results obtained from each model grid. If both time-series are same class, they would still have a high similarity value even after the two data were transformed. and when the time-series are represented many times, they will get high similarity value generally. we could improve the classification accuracy by using multiple grids. In this paper, we analyze the impact of multiple representations through extensive experiments and compare our results with those of other methods.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.