현대 사회는 사람의 행동 하나가 데이터가 되며 이는 곧 엄청난 데이터의 흐름을 만든다. 20년 전 인터넷 속 전체 데이터의 양이 현대 사회 속에서는 1초마다 저장된다. 이러한 추세는 앞으로 더욱 더 심화될 것이며 이러한 빅데이터를 활용하기에 따라서 엄청난 이점을 줄 수 있을 것으로 판단된다. 이러한 데이터의 분석을 위해서는 편향되지 않은 데이터가 필요한데 대부분의 빅데이터는 한쪽으로 편향인 불균형 상태며 이는 분석의 정확도를 떨어뜨리는 원인 중 하나이다. 또한 2종 오류의 비용이 큰 분야에서는 불균형 데이터를 사용한 분석을 믿을 수 없는 실정이기 때문에 이러한 문제점을 해결하는 것은 매우 중요하다. ...
현대 사회는 사람의 행동 하나가 데이터가 되며 이는 곧 엄청난 데이터의 흐름을 만든다. 20년 전 인터넷 속 전체 데이터의 양이 현대 사회 속에서는 1초마다 저장된다. 이러한 추세는 앞으로 더욱 더 심화될 것이며 이러한 빅데이터를 활용하기에 따라서 엄청난 이점을 줄 수 있을 것으로 판단된다. 이러한 데이터의 분석을 위해서는 편향되지 않은 데이터가 필요한데 대부분의 빅데이터는 한쪽으로 편향인 불균형 상태며 이는 분석의 정확도를 떨어뜨리는 원인 중 하나이다. 또한 2종 오류의 비용이 큰 분야에서는 불균형 데이터를 사용한 분석을 믿을 수 없는 실정이기 때문에 이러한 문제점을 해결하는 것은 매우 중요하다. 정형 데이터 분야에서는 이러한 문제점을 해결하기 위해서 전통적인 방식의 오버샘플링이 발전해왔고 비정형 데이터에서는 딥러닝의 발전과 더불어 발전한 생성 모델이 불균형 문제의 해결책으로 떠올랐다. 기업에서 현재 상황을 이용하여 미래를 예측하는 일은 매우 중요하고 어려운 일이다. 이러한 문제를 해결하기 위해 대부분의 기업에서는 통계기반의 머신러닝을 이용하고 있다. 통계기반의 머신러닝을 이용한 예측에서 중요한 점은 편향되지 않은 양질의 정형데이터이다. 본 연구에서는 비정형 데이터에서 오버샘플링을 하기 위해 자주 사용하는 생성 모델인 CycleGAN을 정형 데이터에 맞게 변형시켜 TDOGAN을 만들었다. 오버샘플링과 TDOGAN을 이용해 편향되지 않은 양질의 정형 데이터를 만들어 냈다. PCA를 사용하여 개인정보를 가린 실제 금융사기 데이터에 본 논문에서 제안하는 하이브리드오버샘플링 기법을 적용하였다.
현대 사회는 사람의 행동 하나가 데이터가 되며 이는 곧 엄청난 데이터의 흐름을 만든다. 20년 전 인터넷 속 전체 데이터의 양이 현대 사회 속에서는 1초마다 저장된다. 이러한 추세는 앞으로 더욱 더 심화될 것이며 이러한 빅데이터를 활용하기에 따라서 엄청난 이점을 줄 수 있을 것으로 판단된다. 이러한 데이터의 분석을 위해서는 편향되지 않은 데이터가 필요한데 대부분의 빅데이터는 한쪽으로 편향인 불균형 상태며 이는 분석의 정확도를 떨어뜨리는 원인 중 하나이다. 또한 2종 오류의 비용이 큰 분야에서는 불균형 데이터를 사용한 분석을 믿을 수 없는 실정이기 때문에 이러한 문제점을 해결하는 것은 매우 중요하다. 정형 데이터 분야에서는 이러한 문제점을 해결하기 위해서 전통적인 방식의 오버샘플링이 발전해왔고 비정형 데이터에서는 딥러닝의 발전과 더불어 발전한 생성 모델이 불균형 문제의 해결책으로 떠올랐다. 기업에서 현재 상황을 이용하여 미래를 예측하는 일은 매우 중요하고 어려운 일이다. 이러한 문제를 해결하기 위해 대부분의 기업에서는 통계기반의 머신러닝을 이용하고 있다. 통계기반의 머신러닝을 이용한 예측에서 중요한 점은 편향되지 않은 양질의 정형데이터이다. 본 연구에서는 비정형 데이터에서 오버샘플링을 하기 위해 자주 사용하는 생성 모델인 CycleGAN을 정형 데이터에 맞게 변형시켜 TDOGAN을 만들었다. 오버샘플링과 TDOGAN을 이용해 편향되지 않은 양질의 정형 데이터를 만들어 냈다. PCA를 사용하여 개인정보를 가린 실제 금융사기 데이터에 본 논문에서 제안하는 하이브리드 오버샘플링 기법을 적용하였다.
In modern society, one person's actions become data, which creates a huge flow of data. Twenty years ago, the total amount of data on the Internet is stored every second in modern society. This trend is expected to intensify in the future, and the use of such big data will bring enormous advantages....
In modern society, one person's actions become data, which creates a huge flow of data. Twenty years ago, the total amount of data on the Internet is stored every second in modern society. This trend is expected to intensify in the future, and the use of such big data will bring enormous advantages. The analysis of such data requires unbiased data, and most of the big data is unbalanced, which is one of the reasons for lowering the accuracy of the analysis. It is also very important to solve this problem because the analysis using unbalanced data is unreliable in the field where the cost of type 2 error is high. In the field of structured data, traditional oversampling has evolved to address these problems, and in unstructured data, the generation model developed with the development of deep learning has emerged as the solution to the problem of imbalance. It is very important and difficult for companies to use the current situation to predict the future. To solve these problems, most companies are using statistics-based machine learning. An important aspect of forecasting using statistics-based machine learning is unbiased, quality structured data.In this study, the cycleGAN, a often used generation model for oversampling in unstructured data, was modified to fit the structured data to create TDOGAN. By using OVER-sampling and TDOGAN, it has produced high-quality structured data that is not biased. The hybrid oversampling technique proposed in this paper has been applied to actual financial fraud data covering personal information using PCA.
In modern society, one person's actions become data, which creates a huge flow of data. Twenty years ago, the total amount of data on the Internet is stored every second in modern society. This trend is expected to intensify in the future, and the use of such big data will bring enormous advantages. The analysis of such data requires unbiased data, and most of the big data is unbalanced, which is one of the reasons for lowering the accuracy of the analysis. It is also very important to solve this problem because the analysis using unbalanced data is unreliable in the field where the cost of type 2 error is high. In the field of structured data, traditional oversampling has evolved to address these problems, and in unstructured data, the generation model developed with the development of deep learning has emerged as the solution to the problem of imbalance. It is very important and difficult for companies to use the current situation to predict the future. To solve these problems, most companies are using statistics-based machine learning. An important aspect of forecasting using statistics-based machine learning is unbiased, quality structured data.In this study, the cycleGAN, a often used generation model for oversampling in unstructured data, was modified to fit the structured data to create TDOGAN. By using OVER-sampling and TDOGAN, it has produced high-quality structured data that is not biased. The hybrid oversampling technique proposed in this paper has been applied to actual financial fraud data covering personal information using PCA.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.