최근 알파고의 등장으로 딥러닝 기술에 대한 관심이 고조되고 있다. 딥러닝은 향후 미래의 핵심 기술이 되어 일상생활의 많은 부분을 개선할 것이라는 기대를 받고 있지만, 주요한 성과들이 이미지 인식과 자연어처리 등에 국한되어 있고 전통적인 비즈니스 애널리틱스 문제에의 활용은 미비한 실정이다. 실제로 딥러닝 기술은 Convolutional Neural Network(CNN), Recurrent Neural Network(RNN), Deep Boltzmann Machine (DBM) 등 알고리즘들의 선택, Dropout 기법의 활용여부, 활성 함수의 선정 등 다양한 네트워크 설계 이슈들을 가지고 있다. 따라서 비즈니스 문제에서의 딥러닝 알고리즘 활용은 아직 탐구가 필요한 영역으로 남아있으며, 특히 딥러닝을 현실에 적용했을 때 발생할 수 있는 여러 가지 문제들은 미지수이다. 이에 따라 본 연구에서는 다이렉트 마케팅 응답모델, 고객이탈분석, 대출 위험 분석 등의 주요한 분류 문제인 이진분류에 딥러닝을 적용할 수 있을 것인지 그 가능성을 실험을 통해 확인하였다. 실험에는 어느 포르투갈 은행의 텔레마케팅 응답여부에 대한 데이터 집합을 사용하였으며, 전통적인 인공신경망인 Multi-Layer Perceptron, 딥러닝 알고리즘인 CNN과 RNN을 변형한 Long Short-Term Memory, 딥러닝 모형에 많이 활용되는 Dropout 기법 등을 이진 분류 문제에 활용했을 때의 성능을 비교하였다. 실험을 수행한 결과 CNN 알고리즘은 비즈니스 데이터의 이진분류 문제에서도 MLP 모형에 비해 향상된 성능을 보였다. 또한 MLP와 CNN 모두 Dropout을 적용한 모형이 적용하지 않은 모형보다 더 좋은 분류 성능을 보여줌에 따라, Dropout을 적용한 CNN 알고리즘이 이진분류 문제에도 활용될 수 있는 가능성을 확인하였다.
최근 알파고의 등장으로 딥러닝 기술에 대한 관심이 고조되고 있다. 딥러닝은 향후 미래의 핵심 기술이 되어 일상생활의 많은 부분을 개선할 것이라는 기대를 받고 있지만, 주요한 성과들이 이미지 인식과 자연어처리 등에 국한되어 있고 전통적인 비즈니스 애널리틱스 문제에의 활용은 미비한 실정이다. 실제로 딥러닝 기술은 Convolutional Neural Network(CNN), Recurrent Neural Network(RNN), Deep Boltzmann Machine (DBM) 등 알고리즘들의 선택, Dropout 기법의 활용여부, 활성 함수의 선정 등 다양한 네트워크 설계 이슈들을 가지고 있다. 따라서 비즈니스 문제에서의 딥러닝 알고리즘 활용은 아직 탐구가 필요한 영역으로 남아있으며, 특히 딥러닝을 현실에 적용했을 때 발생할 수 있는 여러 가지 문제들은 미지수이다. 이에 따라 본 연구에서는 다이렉트 마케팅 응답모델, 고객이탈분석, 대출 위험 분석 등의 주요한 분류 문제인 이진분류에 딥러닝을 적용할 수 있을 것인지 그 가능성을 실험을 통해 확인하였다. 실험에는 어느 포르투갈 은행의 텔레마케팅 응답여부에 대한 데이터 집합을 사용하였으며, 전통적인 인공신경망인 Multi-Layer Perceptron, 딥러닝 알고리즘인 CNN과 RNN을 변형한 Long Short-Term Memory, 딥러닝 모형에 많이 활용되는 Dropout 기법 등을 이진 분류 문제에 활용했을 때의 성능을 비교하였다. 실험을 수행한 결과 CNN 알고리즘은 비즈니스 데이터의 이진분류 문제에서도 MLP 모형에 비해 향상된 성능을 보였다. 또한 MLP와 CNN 모두 Dropout을 적용한 모형이 적용하지 않은 모형보다 더 좋은 분류 성능을 보여줌에 따라, Dropout을 적용한 CNN 알고리즘이 이진분류 문제에도 활용될 수 있는 가능성을 확인하였다.
Recently, AlphaGo which is Bakuk (Go) artificial intelligence program by Google DeepMind, had a huge victory against Lee Sedol. Many people thought that machines would not be able to win a man in Go games because the number of paths to make a one move is more than the number of atoms in the universe...
Recently, AlphaGo which is Bakuk (Go) artificial intelligence program by Google DeepMind, had a huge victory against Lee Sedol. Many people thought that machines would not be able to win a man in Go games because the number of paths to make a one move is more than the number of atoms in the universe unlike chess, but the result was the opposite to what people predicted. After the match, artificial intelligence technology was focused as a core technology of the fourth industrial revolution and attracted attentions from various application domains. Especially, deep learning technique have been attracted as a core artificial intelligence technology used in the AlphaGo algorithm. The deep learning technique is already being applied to many problems. Especially, it shows good performance in image recognition field. In addition, it shows good performance in high dimensional data area such as voice, image and natural language, which was difficult to get good performance using existing machine learning techniques. However, in contrast, it is difficult to find deep leaning researches on traditional business data and structured data analysis. In this study, we tried to find out whether the deep learning techniques have been studied so far can be used not only for the recognition of high dimensional data but also for the binary classification problem of traditional business data analysis such as customer churn analysis, marketing response prediction, and default prediction. And we compare the performance of the deep learning techniques with that of traditional artificial neural network models. The experimental data in the paper is the telemarketing response data of a bank in Portugal. It has input variables such as age, occupation, loan status, and the number of previous telemarketing and has a binary target variable that records whether the customer intends to open an account or not. In this study, to evaluate the possibility of utilization of deep learning algorithms and techniques in binary classification problem, we compared the performance of various models using CNN, LSTM algorithm and dropout, which are widely used algorithms and techniques in deep learning, with that of MLP models which is a traditional artificial neural network model. However, since all the network design alternatives can not be tested due to the nature of the artificial neural network, the experiment was conducted based on restricted settings on the number of hidden layers, the number of neurons in the hidden layer, the number of output data (filters), and the application conditions of the dropout technique. The F1 Score was used to evaluate the performance of models to show how well the models work to classify the interesting class instead of the overall accuracy. The detail methods for applying each deep learning technique in the experiment is as follows. The CNN algorithm is a method that reads adjacent values from a specific value and recognizes the features, but it does not matter how close the distance of each business data field is because each field is usually independent. In this experiment, we set the filter size of the CNN algorithm as the number of fields to learn the whole characteristics of the data at once, and added a hidden layer to make decision based on the additional features. For the model having two LSTM layers, the input direction of the second layer is put in reversed position with first layer in order to reduce the influence from the position of each field. In the case of the dropout technique, we set the neurons to disappear with a probability of 0.5 for each hidden layer. The experimental results show that the predicted model with the highest F1 score was the CNN model using the dropout technique, and the next best model was the MLP model with two hidden layers using the dropout technique. In this study, we were able to get some findings as the experiment had proceeded. First, models using dropout techniques have a slightly more conse
Recently, AlphaGo which is Bakuk (Go) artificial intelligence program by Google DeepMind, had a huge victory against Lee Sedol. Many people thought that machines would not be able to win a man in Go games because the number of paths to make a one move is more than the number of atoms in the universe unlike chess, but the result was the opposite to what people predicted. After the match, artificial intelligence technology was focused as a core technology of the fourth industrial revolution and attracted attentions from various application domains. Especially, deep learning technique have been attracted as a core artificial intelligence technology used in the AlphaGo algorithm. The deep learning technique is already being applied to many problems. Especially, it shows good performance in image recognition field. In addition, it shows good performance in high dimensional data area such as voice, image and natural language, which was difficult to get good performance using existing machine learning techniques. However, in contrast, it is difficult to find deep leaning researches on traditional business data and structured data analysis. In this study, we tried to find out whether the deep learning techniques have been studied so far can be used not only for the recognition of high dimensional data but also for the binary classification problem of traditional business data analysis such as customer churn analysis, marketing response prediction, and default prediction. And we compare the performance of the deep learning techniques with that of traditional artificial neural network models. The experimental data in the paper is the telemarketing response data of a bank in Portugal. It has input variables such as age, occupation, loan status, and the number of previous telemarketing and has a binary target variable that records whether the customer intends to open an account or not. In this study, to evaluate the possibility of utilization of deep learning algorithms and techniques in binary classification problem, we compared the performance of various models using CNN, LSTM algorithm and dropout, which are widely used algorithms and techniques in deep learning, with that of MLP models which is a traditional artificial neural network model. However, since all the network design alternatives can not be tested due to the nature of the artificial neural network, the experiment was conducted based on restricted settings on the number of hidden layers, the number of neurons in the hidden layer, the number of output data (filters), and the application conditions of the dropout technique. The F1 Score was used to evaluate the performance of models to show how well the models work to classify the interesting class instead of the overall accuracy. The detail methods for applying each deep learning technique in the experiment is as follows. The CNN algorithm is a method that reads adjacent values from a specific value and recognizes the features, but it does not matter how close the distance of each business data field is because each field is usually independent. In this experiment, we set the filter size of the CNN algorithm as the number of fields to learn the whole characteristics of the data at once, and added a hidden layer to make decision based on the additional features. For the model having two LSTM layers, the input direction of the second layer is put in reversed position with first layer in order to reduce the influence from the position of each field. In the case of the dropout technique, we set the neurons to disappear with a probability of 0.5 for each hidden layer. The experimental results show that the predicted model with the highest F1 score was the CNN model using the dropout technique, and the next best model was the MLP model with two hidden layers using the dropout technique. In this study, we were able to get some findings as the experiment had proceeded. First, models using dropout techniques have a slightly more conse
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
이에 본 연구는 지금까지 연구된 딥러닝 기법 들이 고차원 데이터의 인식 문제뿐만이 아니라, 허위 거래 식별, 부도 예측, 고객들의 이탈 분석, 마케팅 응답 예측 등 기존의 비즈니스 데이터의 이진 분류 문제에서도 활용이 가능한지를 확인해 보고자 한다. 그리고 그 성능을 측정하여 전통적인 인공신경망 모형과 비교했을 때, 보다 나은 성능을 보이는지를 알아보고자 한다.
본 연구는 이미지나 음성 인식 분야에서 좋은 성능을 보이고 있는 딥러닝 기법을 전통적인 문제였던 이진 분류 문제에서도 활용이 가능한지를 알아보고자 실험을 진행하였다. 그 결과 Dropout 기법은 MLP나 CNN 모형들을 조금 더 보수적으로 훈련시켜 모형들이 좀 더 나은 이진 분류 성능을 갖는데 도움을 줄 수 있다는 가능성을 보여주었으며, Dropout 기법을 적용한 CNN 모형이 가장 좋은 F1 Score를 보였다는 점에서 추후 CNN 알고리즘을 이진 분류 문제에 활용해볼 가치가 있다는 것을 확인할 수 있었다.
본 연구는 현재 딥러닝 연구에서 널리 쓰이고 있는 CNN과 LSTM 알고리즘 및 Dropout 기법을 이미지나 음성 데이터가 아닌 비즈니스 데이터의 이진 분류 문제에 적용해 보고, 기존에 이진 분류 문제에 활용하던 MLP 모형과 그 성능을 비교하여 딥러닝 기법의 활용 가능성을 실험을 통해 알아보고자 하였다.
딥러닝의 모형은 크게 샘플 데이터를 생성할 수 있는 생성 모형(Generative Model)과 주어진 데이터를 구별할 수 있는 판별 모형(Discriminative Model)으로 구분할 수 있다. 이 중 본 연구는 비즈니스 데이터의 이진 분류 문제를 푸는 것을 목적으로 하기에 판별 모형에 사용되는 주요 알고리즘에 대하여 설명한다.
이에 본 연구는 지금까지 연구된 딥러닝 기법 들이 고차원 데이터의 인식 문제뿐만이 아니라, 허위 거래 식별, 부도 예측, 고객들의 이탈 분석, 마케팅 응답 예측 등 기존의 비즈니스 데이터의 이진 분류 문제에서도 활용이 가능한지를 확인해 보고자 한다. 그리고 그 성능을 측정하여 전통적인 인공신경망 모형과 비교했을 때, 보다 나은 성능을 보이는지를 알아보고자 한다.
제안 방법
다만 CNN과 LSTM의 경우 모형 생성에 다소 제약이 있어 일부 모형들이 제외되었다. 그 외의 실험 조건으로 활성함수는 ReLU를 기본으로 하되, ReLU 활성함수를 사용할 수 없는 LSTM 알고리즘 모형들은 Hyperbolic tangent(tanh)와 Sigmoid 함수로 대체 하였다. 그 외에 이 외에 학습률, 모멘텀 등의 조건들은 모두 동일한 상태에서 진행하였다.
그러나 인공신경망의 특성상 수많은 조건 값들이 있어 모든 조건에 대해 실험할 수 없기에, 본 실험에서는 은닉층의 수, 은닉층 내 뉴런의수 또는 출력되는 데이터(필터)의 개수, Dropout 기법의 적용 유무 조건을 기준으로 모형들 간의 성능 비교를 실시하였다. 다만 CNN과 LSTM의 경우 모형 생성에 다소 제약이 있어 일부 모형들이 제외되었다.
또한 이미지나 음성 데이터와는 다르게 비즈니스 데이터는 그 구성이 데이터마다 모두 다르기에, 연구 결과를 일반화하기 위해서는 보다 많은 데이터들을 사용해 검증을 해 볼 필요가 있다. 그리고 본 실험에서는 CNN 알고리즘을 적용하기 위해 필터의 크기를 한 레코드의 전체 필드 길이만큼 설정 하였는데, 이는 CNN 알고리즘의 강점이었던 깊은 구조를 구현하는데 문제가 된다. 이에 CNN 알고리즘을 어떻게 하면 비즈니스 데이터에 적합하게 변형할 수 있을지도 추후 연구를 해야 할 것이다.
다음으로 LSTM 알고리즘의 경우 데이터를 적용하는데 큰 문제가 없었으나, 은닉층을 두 층으로 쌓은 모형의 경우 각 값들의 위치에 따른 영향을 줄여보고자 두 번째 층의 입력은 역방향으로 받도록 설정하였다. 이를 도식화 하여 나타내면 [Figure 2]와 같다.
이후 작성한 모형의 성능 평가를 위해 랜덤하게 30%의 데이터를 분리하여 테스트 데이터로 사용하고 나머지 70%의 데이터를 훈련 데이터로 사용하였다. 마지막으로 불균형 학습을 막기 위해 전처리 과정에서 훈련용 데이터에 대해 과대 표본화(Oversampling)를 하여 두 응답의 데이터 건수를 균등하게 맞추었다.
본 연구에서는 0과 1 사이의 값만 입력받을 수 있는 인공신경망 모형들의 특성상, 목록형 값들은 더미 변수들을 작성하고, 연속형 값들은 0과1 사이로 변환하는 전처리 과정을 수행하였다. 이후 작성한 모형의 성능 평가를 위해 랜덤하게 30%의 데이터를 분리하여 테스트 데이터로 사용하고 나머지 70%의 데이터를 훈련 데이터로 사용하였다.
CNN 알고리즘은 본래 이미지 데이터에서 특정 값으로부터 인접한 값들의 특징들을 인식하고 이를 쌓아 올려 다양한 특징을 인식하는 것이 기본이나, 비즈니스 데이터는 각각의 필드들이 독립적인 값들로 얼마나 가까운 곳에 위치하는지는 의미가 없기에 기존 방식대로 특징을 인식 시키는 것에 문제가 있었다. 이에 본 실험에서는 CNN 알고리즘의 필터 크기를 한 레코드의 전체 필드 길이만큼 설정하여 데이터의 전체 특징을 한 번에 학습하도록 하였다. 이후 추출한 특징들을 바탕으로 모형이 의사결정을 할 수 있도록 은닉층을 하나 추가하여 모형을 완성하였다.
대상 데이터
‘Bank Marketing’ 데이터는 총 45,211개의 레코드를 가지고 있으며, 입력 변수는 고객 연령, 직업, 대출 여부, 과거 텔레마케팅의 횟수 등 16개이다.
본 연구에서는 비즈니스에 관련된 이진 분류 문제에 딥러닝 알고리즘을 적용하기 위하여 2008년 5월부터 2010년 11월 사이 한 포르투갈 은행이 고객들을 대상으로 한 텔레마케팅 응답 데이터인 ‘Bank Marketing’ 데이터 1) 를 사용하였다.
이는 기존 이미지 인식 문제에서는 성능 평가 기준이 단순히 정확도였던 것에 반해, 이진 분류 문제에서는 소수 집단인 목표 변수를 얼마나 잘 맞추는지가 중요하기 때문이다. 이에 본 연구에서는 이러한 이진 분류 문제에서 평가 척도로 자주 쓰이고 있는 F1 Score를 평가 기준으로 사용하였다. F1 Score를 구하는 식은 다음 [Formula 2]와 같다.
본 연구에서는 0과 1 사이의 값만 입력받을 수 있는 인공신경망 모형들의 특성상, 목록형 값들은 더미 변수들을 작성하고, 연속형 값들은 0과1 사이로 변환하는 전처리 과정을 수행하였다. 이후 작성한 모형의 성능 평가를 위해 랜덤하게 30%의 데이터를 분리하여 테스트 데이터로 사용하고 나머지 70%의 데이터를 훈련 데이터로 사용하였다. 마지막으로 불균형 학습을 막기 위해 전처리 과정에서 훈련용 데이터에 대해 과대 표본화(Oversampling)를 하여 두 응답의 데이터 건수를 균등하게 맞추었다.
데이터처리
실험을 통해 산출한 모형들의 성능 비교에는 재현율(Recall) 값과 정밀도(Precision) 값의 조화 평균인 F1 Score를 사용하였다. 이는 기존 이미지 인식 문제에서는 성능 평가 기준이 단순히 정확도였던 것에 반해, 이진 분류 문제에서는 소수 집단인 목표 변수를 얼마나 잘 맞추는지가 중요하기 때문이다.
성능/효과
이전 장에서 설계한 실험을 수행한 결과를 정리한 결과는 다음 [Table 2]와 같다. 가장 높은 F1 Score를 보인 예측 모형 집합은 Dropout 기법을 적용한 CNN 모형으로, 32개의 필터를 가지도록 설정했을 때 제일 좋은 0.4283의 값을 보였다. 다음으로 좋은 성능을 보인 예측 모형 유형은 Dropout 기법을 적용한 MLP 모형으로, 32개의 뉴런으로 구성된 은닉층을 두 층으로 구성했을 때 0.
Dropout 기법을 적용하지 않고 은닉층을 두 층으로 설정하였을 때, 한 훈련 횟수 당 MLP 모형이 약 22초, CNN 모형이 약 26초가 소요된 반면에 LSTM 모형은 약 24분가량이 소요되었다. 게다가 은닉층의 수를 늘릴수록 소요 시간이 늘어난다는 점을 고려해 볼 때, 보여준 성능에 비해 LSTM 알고리즘을 이대로 사용하는 것은 이진 분류 문제를 푸는데 적합하지 않다고 보았다.
본 연구는 이미지나 음성 인식 분야에서 좋은 성능을 보이고 있는 딥러닝 기법을 전통적인 문제였던 이진 분류 문제에서도 활용이 가능한지를 알아보고자 실험을 진행하였다. 그 결과 Dropout 기법은 MLP나 CNN 모형들을 조금 더 보수적으로 훈련시켜 모형들이 좀 더 나은 이진 분류 성능을 갖는데 도움을 줄 수 있다는 가능성을 보여주었으며, Dropout 기법을 적용한 CNN 모형이 가장 좋은 F1 Score를 보였다는 점에서 추후 CNN 알고리즘을 이진 분류 문제에 활용해볼 가치가 있다는 것을 확인할 수 있었다. 그리고 LSTM 알고리즘의 경우 다른 알고리즘 대비 모형의 훈련 시간이 지나치게 길면서 성능 차이가 크지 않아 이진 분류 문제에 활용하기에 적합 하지 않음을 확인하였다.
그 결과 Dropout 기법은 MLP나 CNN 모형들을 조금 더 보수적으로 훈련시켜 모형들이 좀 더 나은 이진 분류 성능을 갖는데 도움을 줄 수 있다는 가능성을 보여주었으며, Dropout 기법을 적용한 CNN 모형이 가장 좋은 F1 Score를 보였다는 점에서 추후 CNN 알고리즘을 이진 분류 문제에 활용해볼 가치가 있다는 것을 확인할 수 있었다. 그리고 LSTM 알고리즘의 경우 다른 알고리즘 대비 모형의 훈련 시간이 지나치게 길면서 성능 차이가 크지 않아 이진 분류 문제에 활용하기에 적합 하지 않음을 확인하였다. 이러한 결과들에서 미뤄볼 때, 딥러닝 알고리즘들 중 일부는 인공신경망을 사용하여 이진 분류 문제를 푸는데 도움을 줄 가능성이 있다고 판단하였다.
4283의 값을 보였다. 다음으로 좋은 성능을 보인 예측 모형 유형은 Dropout 기법을 적용한 MLP 모형으로, 32개의 뉴런으로 구성된 은닉층을 두 층으로 구성했을 때 0.4231의 값을 보였다. 이 외에 각 모형 유형 별로 제일 높은 F1 Score 값은 LSTM 모형 집합이 0.
두 번째로는 MLP 모형 집단들보다 CNN 모형 집단들이 전반적으로 더 좋은 분류 성능을 보였다는 것이다. CNN 알고리즘이 이미지 인식에서 다른 알고리즘보다 좋은 성능을 보여준다는 것은 널리 알려져 있었으나, 입력하는 데이터의 특징이 다른 이진 분류 문제에서도 나은 성능을 보였다는 것은 흥미로운 점으로 보인다.
또한, 본 연구에서는 거론하지 않았으나 ‘Bank Marketing’ 데이터 이외에 크기가 다른 데이터 집합들을 같은 조건 하에서 실험한 결과 레코드 수가 적은 데이터에서는 CNN 모형 집단이 MLP 모형 집단에 비해 더 개선된 성능을 보여주지 못한다는 점을 발견하였다.
세 번째로는 LSTM 알고리즘의 경우 다른 알고리즘들과의 성능 차이에 비해 연산 소요 시간이 너무나 오래 걸린다는 점이었다. Dropout 기법을 적용하지 않고 은닉층을 두 층으로 설정하였을 때, 한 훈련 횟수 당 MLP 모형이 약 22초, CNN 모형이 약 26초가 소요된 반면에 LSTM 모형은 약 24분가량이 소요되었다.
우선 첫 번째로는 Dropout 기법을 적용한 MLP, CNN 모형 집합들이 Dropout 기법을 적용하지 않은 MLP, CNN 모형 집합들에 비해 전체적으로 더 나은 분류 성능을 보였다는 것이다. 실험 결과를 보면, Dropout 기법을 적용한 모형들은 그렇지 않은 모형들에 비해 전반적으로 재현율은 떨어졌지만 대신 정밀도가 올라가면서 F1 Score가 상승한 것을 확인할 수 있었다. 이는 Dropout 기법을 사용하였을 경우 모형들이 조금 더 보수적인 예측을 하였다는 것으로 볼 수 있는데, Dropout 기법이 이미지나 음성 인식 문제 외에 이진 분류 문제의 모형 성능 개선에도 도움을 줄 수 있을 것이란 가능성을 확인할 수 있었다.
본 연구에서는 실험을 진행하면서 몇 가지 특이 사항들을 발견할 수 있었다. 우선 첫 번째로는 Dropout 기법을 적용한 MLP, CNN 모형 집합들이 Dropout 기법을 적용하지 않은 MLP, CNN 모형 집합들에 비해 전체적으로 더 나은 분류 성능을 보였다는 것이다. 실험 결과를 보면, Dropout 기법을 적용한 모형들은 그렇지 않은 모형들에 비해 전반적으로 재현율은 떨어졌지만 대신 정밀도가 올라가면서 F1 Score가 상승한 것을 확인할 수 있었다.
실험 결과를 보면, Dropout 기법을 적용한 모형들은 그렇지 않은 모형들에 비해 전반적으로 재현율은 떨어졌지만 대신 정밀도가 올라가면서 F1 Score가 상승한 것을 확인할 수 있었다. 이는 Dropout 기법을 사용하였을 경우 모형들이 조금 더 보수적인 예측을 하였다는 것으로 볼 수 있는데, Dropout 기법이 이미지나 음성 인식 문제 외에 이진 분류 문제의 모형 성능 개선에도 도움을 줄 수 있을 것이란 가능성을 확인할 수 있었다.
6733으로 보다 오히려 미세하게 저하된 성능을 보였다. 이어진 실험에서 10,000개의 레코드를 가진 데이터 집합은 CNN 모형에서 0.1531, MLP 모형에서 0.1594의 F1 Score를 보여 레코드 수가 적은 데이터 집합에서 CNN 알고리즘을 적용하는 것은 MLP에 비해 성능 향상을 기대할 수 없다는 결론을 도출하였다.
후속연구
이에 CNN 알고리즘을 어떻게 하면 비즈니스 데이터에 적합하게 변형할 수 있을지도 추후 연구를 해야 할 것이다. 마지막으로 본 실험에서 사용된 알고리즘들 외에도 GRU, Batch-Normalization, Maxout 등 기존 딥러닝 기법들을 개선한 새로운 기법들이 계속하여 추가가 되고 있는데, 이들 역시 검증이 가능한지에 대해 확인해 볼 필요가 있겠다. 차후 후속 연구들에서는 이러한 한계점들을 어떻게 보완할 수 있을지 고려하여 연구를 진행할 예정이다.
그리고 본 실험에서는 CNN 알고리즘을 적용하기 위해 필터의 크기를 한 레코드의 전체 필드 길이만큼 설정 하였는데, 이는 CNN 알고리즘의 강점이었던 깊은 구조를 구현하는데 문제가 된다. 이에 CNN 알고리즘을 어떻게 하면 비즈니스 데이터에 적합하게 변형할 수 있을지도 추후 연구를 해야 할 것이다. 마지막으로 본 실험에서 사용된 알고리즘들 외에도 GRU, Batch-Normalization, Maxout 등 기존 딥러닝 기법들을 개선한 새로운 기법들이 계속하여 추가가 되고 있는데, 이들 역시 검증이 가능한지에 대해 확인해 볼 필요가 있겠다.
마지막으로 본 실험에서 사용된 알고리즘들 외에도 GRU, Batch-Normalization, Maxout 등 기존 딥러닝 기법들을 개선한 새로운 기법들이 계속하여 추가가 되고 있는데, 이들 역시 검증이 가능한지에 대해 확인해 볼 필요가 있겠다. 차후 후속 연구들에서는 이러한 한계점들을 어떻게 보완할 수 있을지 고려하여 연구를 진행할 예정이다.
CNN 알고리즘이 이미지 인식에서 다른 알고리즘보다 좋은 성능을 보여준다는 것은 널리 알려져 있었으나, 입력하는 데이터의 특징이 다른 이진 분류 문제에서도 나은 성능을 보였다는 것은 흥미로운 점으로 보인다. 추후 다른 데이터를 활용하여 CNN 알고리즘을 사용한 이진 분류 문제를 진행해 추가적인 확인을 해 볼 필요가 있다고 보인다.
질의응답
핵심어
질문
논문에서 추출한 답변
딥러닝 기법의 가장 큰 특징은 무엇인가?
이 딥러닝 기법의 가장 큰 특징으로는 그 동작 방식이 마치 사람의 뇌와 유사하다는 점을 들 수 있다. 사람의 뇌는 단순한 뉴런들로 구성되어 있으나 수많은 연결들을 통해 복잡한 사고를 하는 것과 같이, 딥러닝 역시 이를 모방해 사람의 뇌를 흉내 낸 가상의 뉴런들을 층층이 쌓아올려 수많은 연결들을 만들고 이를 훈련시키는 것이다.
ReLU 활성 함수의 장점은?
ReLU 활성 함수를 간단하게 살펴보면, 입력 값이 음수면 0으로, 양수면 입력 값을 그대로 출력해 주는 함수이다. 이는 기존 인공신경망 연구 에서 주로 사용되던 Sigmoid 활성 함수에서 일어 나던 오류 역전파시 경사도가 사라지는 문제를 줄일 수 있으며, 결과에 보다 빠르게 수렴하는 등의 장점이 있어 널리 사용되고 있다(Kim, 2016b; Zhang, 2015).
RNN이 갖는 구조의 특징은 무엇인가?
다음으로 음성과 같은 시계열 데이터를 판별 하는데 있어서는 RNN(Recurrent Neural Networks) 를 기반으로 한 알고리즘들이 주로 사용되고 있다. 기본적인 RNN은 다른 신경망 알고리즘들과는 다르게 자신의 출력을 다음 층에 전달하는 것과 함께 자기 자신에게도 전달하는 재귀 구조를 가지고 있다. 이런 재귀 구조는 메모리와 같은 역할을 수행해 시간의 흐름에 따른 변화를 모델링 할 수 있게 한다(Choi and Min, 2015).
참고문헌 (19)
Ahn, S. M., "Deep learning architectures and applications," Journal of Intelligence and Information, Vol. 22, No. 2(2016), 127-142.
Cho, K., B. Van Merrienboer, D. Bahdanau, and Y. Bengio, "On the properties of neural machine translation: Encoder-decoder approaches," arXiv preprint arXiv:1409.1259, 2014.
Choi, H. Y., and Y. H. Min, "Introduction to deep learning and major issues[written in Korean]," Korea Information Processing Society Review, Vol. 22, No. 1(2015), 1-15.
Chu, H. S., S. W. Ahn, and S. W. Kim, AlphaGo's artificial intelligence algorithm analysis [written in Korean], Software Policy & Research Institute, 2016.
Fukushima, K., "Neocongnitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position," Biological cybernetics, Vol. 36, No. 4(1980), 193-202.
Graves, A., A. R. Mohamed, and G. E. Hinton, "Speech recognition with deep recurrent neural networks," 2013 IEEE international conference on acoustics, speech and signal processing, (2013), 6645-6649.
Hinton, G. E., S. Osinder, and Y. W. Teh, "A fast learning algorithm for deep belief nets," Neural computation, Vol. 18, No. 7(2006), 1527-1554.
Jo, N. O., H. J. Kim, and K. S. Shin, "Bankruptcy type prediction using a hybrid artificial neural networks model," Journal of Intelligence and Information, Vol. 21, No. 3(2015), 79-99.
Kim, H. J., "Dynamic hand gesture recognition using CNN model and FMM neural networks," Journal of Intelligence and Information, Vol. 16, No. 2(2010), 95-108.
Kim, J. W., H. A. Pyo, J. W. Ha, C. K. Lee, and J. H. Lee, "Deep learning algorithms and applications," Communications of the Korean Institute of Information Scientists and Engineers, Vol. 33, No. 8(2015), 25-31.
Kim, K. T., "Perchase prediction through clickstream data of internet store based on deep learning technique," Master's Thesis, Graduate School, Hanyang University, 2016a.
Kim, U. J., Introduction to artificial intelligence, machine learning, and deep learning with algorithms[written in Korean], wikibook, Paju, Republic of Korea, 2016b.
Krizhevsky, A., I. Sutskever, and G. E. Hinton, "Imagenet classification with deep convolution neural networks," Advances in neural information processing systems, Vol. 25(2013), 1097-1105.
LeCun, Y., B. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hubbard, and L. D. Jackel, "Backpropagation applied to handwritten zip code recognition," Neural computation, Vol. 1, No. 4(1989), 541-551.
Matsuo, Y., Artificial intelligence and deep learning(Translated by Park, K. W.)[written in Korean], Donga M&B, Seoul, Republic of Korea, 2015.
Srivastava, N., G. E. Hinton, A. Krizhevsky, I. Sutskever, and R. Salakhutdinov, "Dropout: a simple way to prevent neural networks from overfitting," Journal of Machine Learning Research, Vol. 15, No. 1(2014), 1929-1958.
Zhang, B. T., "Deep hypernetwork models," Communications of the Korean Institute of Information Scientists and Engineers, Vol. 33, No. 8(2015), 11-24.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.