최근 데이터 기반 의사결정 기술이 데이터 산업을 이끄는 핵심기술로 자리 잡고 있는바, 이를 위한 머신러닝 기술은 고품질의 학습데이터를 요구한다. 하지만 실세계 데이터는 다양한 이유에 의해 결측값이 포함되어 이로부터 생성된 학습된 모델의 성능을 떨어뜨린다. 이에 실세계에 존재하는 데이터로부터 고성능 학습 모델을 구축하기 위해서 학습데이터에 내재한 결측값을 자동 보간하는 기법이 활발히 연구되고 있다. 기존 머신러닝 기반 결측 데이터 보간 기법은 수치형 변수에만 적용되거나, 변수별로 개별적인 예측 모형을 만들기 때문에 매우 번거로운 작업을 수반하게 된다. 이에 본 논문은 수치형, 범주형 변수가 혼합된 데이터에 적용 가능한 데이터 보간 모델인 Denoising Self-Attention Network(DSAN)를 제안한다. DSAN은 셀프 어텐션과 디노이징 기법을 결합하여 견고한 특징 표현 벡터를 학습하고, 멀티태스크 러닝을 통해 다수개의 결측치 변수에 대한 보간 모델을 병렬적으로 생성할 수 있다. 제안 모델의 유효성을 검증하기 위해 다수개의 혼합형 학습 데이터에 대하여 임의로 결측 처리한 후 데이터 보간 실험을 수행한다. 원래 값과 보간 값 간의 오차와 보간된 데이터를 학습한 이진 분류 모델의 성능을 비교하여 제안 기법의 유효성을 입증한다.
최근 데이터 기반 의사결정 기술이 데이터 산업을 이끄는 핵심기술로 자리 잡고 있는바, 이를 위한 머신러닝 기술은 고품질의 학습데이터를 요구한다. 하지만 실세계 데이터는 다양한 이유에 의해 결측값이 포함되어 이로부터 생성된 학습된 모델의 성능을 떨어뜨린다. 이에 실세계에 존재하는 데이터로부터 고성능 학습 모델을 구축하기 위해서 학습데이터에 내재한 결측값을 자동 보간하는 기법이 활발히 연구되고 있다. 기존 머신러닝 기반 결측 데이터 보간 기법은 수치형 변수에만 적용되거나, 변수별로 개별적인 예측 모형을 만들기 때문에 매우 번거로운 작업을 수반하게 된다. 이에 본 논문은 수치형, 범주형 변수가 혼합된 데이터에 적용 가능한 데이터 보간 모델인 Denoising Self-Attention Network(DSAN)를 제안한다. DSAN은 셀프 어텐션과 디노이징 기법을 결합하여 견고한 특징 표현 벡터를 학습하고, 멀티태스크 러닝을 통해 다수개의 결측치 변수에 대한 보간 모델을 병렬적으로 생성할 수 있다. 제안 모델의 유효성을 검증하기 위해 다수개의 혼합형 학습 데이터에 대하여 임의로 결측 처리한 후 데이터 보간 실험을 수행한다. 원래 값과 보간 값 간의 오차와 보간된 데이터를 학습한 이진 분류 모델의 성능을 비교하여 제안 기법의 유효성을 입증한다.
Recently, data-driven decision-making technology has become a key technology leading the data industry, and machine learning technology for this requires high-quality training datasets. However, real-world data contains missing values for various reasons, which degrades the performance of prediction...
Recently, data-driven decision-making technology has become a key technology leading the data industry, and machine learning technology for this requires high-quality training datasets. However, real-world data contains missing values for various reasons, which degrades the performance of prediction models learned from the poor training data. Therefore, in order to build a high-performance model from real-world datasets, many studies on automatically imputing missing values in initial training data have been actively conducted. Many of conventional machine learning-based imputation techniques for handling missing data involve very time-consuming and cumbersome work because they are applied only to numeric type of columns or create individual predictive models for each columns. Therefore, this paper proposes a new data imputation technique called 'Denoising Self-Attention Network (DSAN)', which can be applied to mixed-type dataset containing both numerical and categorical columns. DSAN can learn robust feature expression vectors by combining self-attention and denoising techniques, and can automatically interpolate multiple missing variables in parallel through multi-task learning. To verify the validity of the proposed technique, data imputation experiments has been performed after arbitrarily generating missing values for several mixed-type training data. Then we show the validity of the proposed technique by comparing the performance of the binary classification models trained on imputed data together with the errors between the original and imputed values.
Recently, data-driven decision-making technology has become a key technology leading the data industry, and machine learning technology for this requires high-quality training datasets. However, real-world data contains missing values for various reasons, which degrades the performance of prediction models learned from the poor training data. Therefore, in order to build a high-performance model from real-world datasets, many studies on automatically imputing missing values in initial training data have been actively conducted. Many of conventional machine learning-based imputation techniques for handling missing data involve very time-consuming and cumbersome work because they are applied only to numeric type of columns or create individual predictive models for each columns. Therefore, this paper proposes a new data imputation technique called 'Denoising Self-Attention Network (DSAN)', which can be applied to mixed-type dataset containing both numerical and categorical columns. DSAN can learn robust feature expression vectors by combining self-attention and denoising techniques, and can automatically interpolate multiple missing variables in parallel through multi-task learning. To verify the validity of the proposed technique, data imputation experiments has been performed after arbitrarily generating missing values for several mixed-type training data. Then we show the validity of the proposed technique by comparing the performance of the binary classification models trained on imputed data together with the errors between the original and imputed values.
본 논문은 결측값이 존재하는 혼합형 데이터의 결측값 보간 문제를 해결하기 위한 디노이징 셀프 어텐션 네트워크(DSAN)를 제안하였다. 제안 기법의 데이터 보 간 성능의 유효성을 입증하기 위해 3개의 혼합형 학습데이터셋에 대하여 결측값을 생성한 후 보간하는 실험을 수행하였다.
본 논문은 결측값이 포함된 혼합형 데이터에 대해 대체 값을 예측하는 것을 목표로 한다. 혼합형 데이터란 수치형 변수와 범주형 변수가 혼합되어 있는 데이터를 의미하며, [표 1]은 입력되는 혼합형 데이터의 예시를 보여준다.
본 논문은 수치형과 범주형 변수가 공존하는 혼합형 데이터에 대해 별도의 가공 과정 없이 바로 활용 가능한 데이터 보간 기법인 Denoising Self-Attention Network(DSAN)를 제안한다. DSAN은 셀프 어텐션 (Self-Attention) 기반 특징 표현 기법과, 디노이징 기법을 결합하여 입력 데이터 내 결측 데이터에 대해 견고한(robust) 한 특징을 학습한다.
제안 방법
본 논문이 제안하는 디노이징 셀프 어텐션 네트워크의 구조는 [그림 2]와 같으며, 멀티태스크 러닝 기법을 결합하여 혼합형 데이터를 복원하는 구조이다. DSAN 은 크게 3가지 모듈로 구성된다.
DSAN은 셀프 어텐션 (Self-Attention) 기반 특징 표현 기법과, 디노이징 기법을 결합하여 입력 데이터 내 결측 데이터에 대해 견고한(robust) 한 특징을 학습한다. 이후 멀티태스크 학습(Multi-task Learning) 개념을 반영하여 변수별 대체 값을 예측하도록 학습한다.
본 논문은 결측값이 존재하는 혼합형 데이터의 결측값 보간 문제를 해결하기 위한 디노이징 셀프 어텐션 네트워크(DSAN)를 제안하였다. 제안 기법의 데이터 보 간 성능의 유효성을 입증하기 위해 3개의 혼합형 학습데이터셋에 대하여 결측값을 생성한 후 보간하는 실험을 수행하였다. 본래값과 추정한 대체값 간의 오차를 비교 분석하여 유효성을 입증하였으며, 수치형 변수값의 보간 실험 결과를 통해, 비교 기법인 MissForest 대비 제안 기법이 평균적으로 7% 향상된 성능을 보였다.
대상 데이터
본 연구에서 사용된 실험 데이터는 UCI Machine Learning Repository (https://archive.ic s.uci.edu/ml/index.php)에 적재된 ‘Adult’, ‘Bank’, ‘Titanic’ 데이터셋이며, 이 데이터셋들은 수치형 변수와 범주형 변수를 포함하고 있다.
우리는 제안 기법의 유효성을 보이기 위해 [표 3]에서 제시한 3개 혼합형 데이터셋을 가지고 보간 실험을 수행하였다. 본 연구에서 사용된 실험 데이터는 UCI Machine Learning Repository (https://archive.
데이터처리
[그림 4]는 정제된 범주형 변수값과 본래 범주형 변수값의 오차율 Error Rate(수식 9 참조)을 시각화한 것이다. 변수별로 오차율을 계산한 이후, 평균값을 계산하여 모델의 성능을 평가하였다. 전체적으로 제안 기법이 MissForest 대비 다소 저조한 성능을 보이지만, 가장 용량이 큰 데이터셋인 ‘Adult’ 데이터의 경우에는 DSAN이 약 0.
이론/모형
3 단계는 본래 데이터와 보간된 데이터를 이용해 간단한 이진 분류를 수행하고 모델 성능을 비교 분석한다. 보간된 데이터를 이용한 분류기의 성능과 원래 데이터를 이용한 분류기 성능의 차이가 적을수록, 주어진 입력 데이터를 보다 효과적으로 보간하였다고 평가할 수 있으며, 이때 우리는 분류기 성능 평가척도로서 AUC-ROC 값을 사용한다.
앞서 언급한 바와 같이, 우리는 결측 입력에 대한 견고한 특징 표현 파라미터를 학습하기 위해 디노이징 기법을 적용한다. 이를 적용하기 위해 우선 기존 입력에 대해 일정 비율의 변수들을 무작위로 선택하여 제거한다.
성능/효과
‘Adult’ 데이터의 경우 근로자 수입이 5만 달러를 초과하는지 예측하도록 학습을 수행하였고, ‘Bank’ 데이터의 경우 고객의 예금 상품 가입 여부, ‘Titanic’의 경우 승객의 생존 여부를 예측하도록 학습을 수행하였다. 결과적으로 결측값이 존재하지 않는 완전한 본래 데이터를 이용한 이진 분류 모델 성능과 비교하여, 제안 기법에 의해보간된 데이터를 사용하여 구축한 분류 모델의 성능이 평균 0.1% 미만인 것으로 나타났다. 다시 말해서, 결측치가 다수 포함된 데이터셋이 제안 기법에 의해 개선된 데이터가 학습데이터로서 예측 모델을 구축하는 데 활용될 수 있음을 보여주는 것이다.
NRMSE는 수치형 변수에 대해 원래값과 대체값의 오차이며, 값이 낮을수록 원래값에 근사한 대체값을 예측하였음을 의미한다. 그림에서 보는 바와 같이 제안 기법 DSAN이 비교 기법 MissForest 대비 평균 7% 우수한 성능을 보였다. 이는 신경망 기반 모델이 트리 기반 모델에 비해 수치형 예측에 강점이 있음을 의미한다.
7%의 나은 성능을 보였다. 또한 DSAN 기법은 데이터셋의 레코드 수가 클수록 보간 성능이 우수한 것으로 나타났으며, 이는 제안 기법이 빅데이터의 품질 개선에 효과적으로 활용될 수 있음을 시사한다. 이는 신경망 기반 모델이 학습하는 파라미터 수가 크고 복잡하므로, 데이터의 양이 많아질 때 더욱 복잡한 패턴을 잘 학습할 수 있기 때문이다.
범주형 변수값의 보간 실험 결과 MissForest 대비 평균적으로 저조한 성능을 보였지만, 데이터 레코드 수가 증가할수록 DSAN의 보간 성능이 우수함을 보였으며, 실험 데이터셋 중 가장 레코드 수가 많은 ‘Adult’ 데이터셋의 경우 DSAN이 MissForest 대비 다소 향상된 성능을 보였다. 또한 제안 기법을 통해 보간된 데이터를 학습한 분류 모델의 성능과 본래 데이터를 학습한 분류 모델의 성능 차이가 0.1% 미만으로서 거의 차이가 없음을 확인하였다. 이는 제안 기법이 고품질 학습데이터를 구축하여 고성능의 모델 학습에 기여할 수 있음을 기대할 수 있다.
범주형 변수값의 보간 실험 결과 MissForest 대비 평균적으로 저조한 성능을 보였지만, 데이터 레코드 수가 증가할수록 DSAN의 보간 성능이 우수함을 보였으며, 실험 데이터셋 중 가장 레코드 수가 많은 ‘Adult’ 데이터셋의 경우 DSAN이 MissForest 대비 다소 향상된 성능을 보였다
제안 기법의 데이터 보 간 성능의 유효성을 입증하기 위해 3개의 혼합형 학습데이터셋에 대하여 결측값을 생성한 후 보간하는 실험을 수행하였다. 본래값과 추정한 대체값 간의 오차를 비교 분석하여 유효성을 입증하였으며, 수치형 변수값의 보간 실험 결과를 통해, 비교 기법인 MissForest 대비 제안 기법이 평균적으로 7% 향상된 성능을 보였다. 범주형 변수값의 보간 실험 결과 MissForest 대비 평균적으로 저조한 성능을 보였지만, 데이터 레코드 수가 증가할수록 DSAN의 보간 성능이 우수함을 보였으며, 실험 데이터셋 중 가장 레코드 수가 많은 ‘Adult’ 데이터셋의 경우 DSAN이 MissForest 대비 다소 향상된 성능을 보였다.
전체적으로 제안 기법이 MissForest 대비 다소 저조한 성능을 보이지만, 가장 용량이 큰 데이터셋인 ‘Adult’ 데이터의 경우에는 DSAN이 약 0.7%의 나은 성능을 보였다
후속연구
1% 미만인 것으로 나타났다. 다시 말해서, 결측치가 다수 포함된 데이터셋이 제안 기법에 의해 개선된 데이터가 학습데이터로서 예측 모델을 구축하는 데 활용될 수 있음을 보여주는 것이다.
1% 미만으로서 거의 차이가 없음을 확인하였다. 이는 제안 기법이 고품질 학습데이터를 구축하여 고성능의 모델 학습에 기여할 수 있음을 기대할 수 있다. 특히 수집하지 못해 추정해야 하는 결측값이 다수 존재하고, 실시간으로 이벤트 로그 데이터가 쌓여 대용량의 데이터를 취급하는 전자상거래(e-commerce) 추천, 모바일 광고 분야에 활용될 수 있을 것으로 판단된다.
이는 제안 기법이 고품질 학습데이터를 구축하여 고성능의 모델 학습에 기여할 수 있음을 기대할 수 있다. 특히 수집하지 못해 추정해야 하는 결측값이 다수 존재하고, 실시간으로 이벤트 로그 데이터가 쌓여 대용량의 데이터를 취급하는 전자상거래(e-commerce) 추천, 모바일 광고 분야에 활용될 수 있을 것으로 판단된다.
향후 연구로는 상대적으로 부족한 범주형 변수 정제성능을 올리기 위한 모델 구조 개선과 멀티 태스크 러닝 특성상 일부 성능을 떨어뜨리는 태스크에 대한 최적화 연구가 필요하다.
참고문헌 (14)
J. Yoon, J. Jordon, and M Schaar, "GAIN: Missing Data Imputation using Generative Adversial Nets," International Conference on Machine Learning, pp.5689-5698, 2018.
W. Lin and C. Tsai, " Missing value imputation: a review and anlaysis of the literature (2006-2017)," Artificial Intelligence Review, Vol.53, No.2, pp.1487-1509, 2020.
D. J. Stekhoven and P. Buhlmann, "MissForest-non-parametric missing value imputation for mixed-type data," Bioinformatics, Vol.28, No.1, pp.112-118, 2012.
F. Biessmann, T. Rukat, P. Schmidit, P. Naidu, S. Schelter, A. Taptunov, D. Lange, and D. Salinas, "Datawig: Missing Value Imputation for Tables," Journal of Machine Learning Research, Vol.20, 2019.
A. Dosovitskiy, L. Beyer, A. Kolesnikov, D. Weissenborn, X. Zhai, T. Unterthiner, M. Dehgani, M. Minderer, G. Heigold, S. Gelly, J. Uszkreit, and N. Houlsby, "An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale," arXiv preprint arXiv:2010.11929, 2020.
S. O. Arik and T. Pfister, "TabNet: Attentive Interpretable Tabular Learning," Proceedings of the AAAI Conference on Artificial Intelligence, Vol.35, No.8, pp.6679-6687, 2021.
X. Huang, A. Khetan, M. Cvitkovic, and Z. Karnin, "TabTransformer: Tabular Data Modeling Using Contextual Embeddings," arXiv preprint arXiv:2012.06678, 2020.
A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. Gomez, L. Kaiser, and I. Polosukhin, "Attention is All you need," Advances in Neural Information Processing Systems, pp.5998-6008, 2017.
P. Vincent, H. Larochelle, Y. Bengio and P. A. Manzagol, "Extracting and Composing Robust Features with Denoising Autoencoders," Proceedings of the 25th International Conference on Machine Learning, pp.1096-1103, 2008.
N. Abiri, B. Linse, P. Eden, and M. Ohlsson, "Establishing Strong Imputation Performance of a Denoising Autoencoder in a wide range of missing data problems," Neurocomputing, Vol.365, pp.137-146, 2019.
L. Gondara and K. Wang, "Mida: Multiple imputation using denoising autoencoders," Pacific-Asia Conference on Knowledge Discovery and Data Mining, pp.260-272, Springer, 2018.
D. B. RUBIN, "Inference and missing data," Biometrika, Vol.63, No.3, pp.581-592, 1976.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.