[논문]불균형 정형데이터 문제 해결을 위한 SMOTE와 CycleGAN 기반 하이브리드 오버샘플링 기법 개발 및 적용 : 금융사기를 중심으로

노정담

불균형 정형데이터 문제 해결을 위한 SMOTE와 CycleGAN 기반 하이브리드 오버샘플링 기법 개발 및 적용 : 금융사기를 중심으로 원문보기

노정담 (국민대학교 일반대학원 데이터사이언스학과 데이터사이언스전공 국내석사)

초록 ▼
AI-Helper

현대 사회는 사람의 행동 하나가 데이터가 되며 이는 곧 엄청난 데이터의 흐름을 만든다. 20년 전 인터넷 속 전체 데이터의 양이 현대 사회 속에서는 1초마다 저장된다. 이러한 추세는 앞으로 더욱 더 심화될 것이며 이러한 빅데이터를 활용하기에 따라서 엄청난 이점을 줄 수 있을 것으로 판단된다. 이러한 데이터의 분석을 위해서는 편향되지 않은 데이터가 필요한데 대부분의 빅데이터는 한쪽으로 편향인 불균형 상태며 이는 분석의 정확도를 떨어뜨리는 원인 중 하나이다. 또한 2종 오류의 비용이 큰 분야에서는 불균형 데이터를 사용한 분석을 믿을 수 없는 실정이기 때문에 이러한 문제점을 해결하는 것은 매우 중요하다. 정형 데이터 분야에서는 이러한 문제점을 해결하기 위해서 전통적인 방식의 오버샘플링이 발전해왔고 비정형 데이터에서는 딥러닝의 발전과 더불어 발전한 생성 모델이 불균형 문제의 해결책으로 떠올랐다. 기업에서 현재 상황을 이용하여 미래를 예측하는 일은 매우 중요하고 어려운 일이다. 이러한 문제를 해결하기 위해 대부분의 기업에서는 통계기반의 머신러닝을 이용하고 있다. 통계기반의 머신러닝을 이용한 예측에서 중요한 점은 편향되지 않은 양질의 정형데이터이다. 본 연구에서는 비정형 데이터에서 오버샘플링을 하기 위해 자주 사용하는 생성 모델인 CycleGAN을 정형 데이터에 맞게 변형시켜 TDOGAN을 만들었다. 오버샘플링과 TDOGAN을 이용해 편향되지 않은 양질의 정형 데이터를 만들어 냈다. PCA를 사용하여 개인정보를 가린 실제 금융사기 데이터에 본 논문에서 제안하는 하이브리드 오버샘플링 기법을 적용하였다.

Abstract ▼ AI-Helper

In modern society, one person's actions become data, which creates a huge flow of data. Twenty years ago, the total amount of data on the Internet is stored every second in modern society. This trend is expected to intensify in the future, and the use of such big data will bring enormous advantages. The analysis of such data requires unbiased data, and most of the big data is unbalanced, which is one of the reasons for lowering the accuracy of the analysis. It is also very important to solve this problem because the analysis using unbalanced data is unreliable in the field where the cost of type 2 error is high. In the field of structured data, traditional oversampling has evolved to address these problems, and in unstructured data, the generation model developed with the development of deep learning has emerged as the solution to the problem of imbalance. It is very important and difficult for companies to use the current situation to predict the future. To solve these problems, most companies are using statistics-based machine learning. An important aspect of forecasting using statistics-based machine learning is unbiased, quality structured data.In this study, the cycleGAN, a often used generation model for oversampling in unstructured data, was modified to fit the structured data to create TDOGAN. By using OVER-sampling and TDOGAN, it has produced high-quality structured data that is not biased. The hybrid oversampling technique proposed in this paper has been applied to actual financial fraud data covering personal information using PCA.

학위논문 정보

저자	노정담
학위수여기관	국민대학교 일반대학원
학위구분	국내석사
학과	데이터사이언스학과 데이터사이언스전공
지도교수	최병구
발행연도	2020
총페이지	iv, 43 p.
언어	kor
원문 URL	http://www.riss.kr/link?id=T15504230&outLink=K
정보원	한국교육학술정보원

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명(한글), 저자명(한글), 학위수여기관, 학위연도, 학위구분, 학과, 총페이지, 키워드, 초록(한글), 초록(영문) 관리번호, 논문명(한글), 논문명(영문), 저자명(한글), 저자명(영문), 학위수여기관, 학위연도, 학위구분, 학과, 총페이지, 키워드, 초록(한글), 초록(영문)
저장형식	Text(ASCII format) Excel format
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

불균형 정형데이터 문제 해결을 위한 SMOTE와 CycleGAN 기반 하이브리드 오버샘플링 기법 개발 및 적용 : 금융사기를 중심으로 원문보기

초록 ▼
AI-Helper

Abstract ▼ AI-Helper

학위논문 정보

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

불균형 정형데이터 문제 해결을 위한 SMOTE와 CycleGAN 기반 하이브리드 오버샘플링 기법 개발 및 적용 : 금융사기를 중심으로 원문보기

초록 ▼ 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

학위논문 정보

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

초록 ▼
AI-Helper