국내 주택시장의 주택 보유기간 및 매도 의사결정에 대한 머신러닝 예측모델 비교 Comparison of Prediction Models Using Machine Learning of Housing Tenure and Decision-making on Housing Sales in the Korean Housing Market원문보기
본 연구는 OLS모형을 적용하여 주택 보유기간에 영향을 미치는 결정요인을 추정한 후 SVM, Decision Tree, Random Forest, Gradient Boosting, XGBoost, LightGBM등의 머신러닝을 통해 각 모형별 예측력을 비교하였다. 예측력이 높은 머신러닝 모형을 기반 삼아 Stacking방법을 적용하여 더욱 예측력이 높은 모형을 구축하였다. 이를 통해 주택시장의 주택거래량을 파악할 수 있다는 점에 선행 연구와의 차이가 있다. ...
본 연구는 OLS모형을 적용하여 주택 보유기간에 영향을 미치는 결정요인을 추정한 후 SVM, Decision Tree, Random Forest, Gradient Boosting, XGBoost, LightGBM등의 머신러닝을 통해 각 모형별 예측력을 비교하였다. 예측력이 높은 머신러닝 모형을 기반 삼아 Stacking방법을 적용하여 더욱 예측력이 높은 모형을 구축하였다. 이를 통해 주택시장의 주택거래량을 파악할 수 있다는 점에 선행 연구와의 차이가 있다. OLS분석 결과 매도이익, 주택가격, 가구원 수, 거주주택형태 중 단독주택, 아파트가 주택 보유기간에 영향을 미치는 것으로 나타났다. 각 머신러닝 모형과 OLS의 RMSE를 비교한 결과 머신러닝 모형의 RMSE가 낮게 나타났고, 이는 OLS보다 예측력이 더 높은 것으로 파악되었다. 이후, 주택 보유기간에 영향을 미치는 변수로 데이터를 재구축한 후 각 머신러닝을 적용하여 예측력을 비교하였으며, 분석 결과 Random Forest의 예측력이 가장 우수한 것으로 나타났다. 또한 예측력이 가장 높은 Random Forest, Decision Tree, Gradient Boosting, XGBoost모형을 개별모형으로 적용하고, Linear, Ridge, Lasso모형을 메타모델로 하여 Stacking 모형을 구축하였다. 분석 결과, Ridge모형일 때 RMSE값이 0.5868로 가장 낮게 나타나 예측력이 가장 높음을 확인할 수 있었다. 주택매도 의사결정 시 각 모형별 예측력 비교를 위해 로지스틱 회귀모형, Random Forest, XGBoost, LightGBM, Decision Tree, Gradient Boosting, MLP의 머신러닝 모형을 이용하여 주택 소유자들이 주택가격의 이익 및 손실이 있을 때, 주택매도 의사결정에 영향을 미치는 요인을 분석하였다. 이익집단의 분석결과 모든 모형에서 주택 매도결정에 가장 유의한 영향을 미치는 변수는 주택면적으로 나타났다. 주택면적은 주택 가격과 밀접한 관련이 있으며, 손익을 대변하는 변수로 생각할 수 있기 때문에 이익집단에서 매도결정에 큰 영향을 미칠 수 있는 것으로 보인다. 또한 손실집단은 총 자산과 주택면적이 주택가격에 손실이 있을 때 매도 결정에 유의한 영향을 미치는 것으로 나타났다. 각 집단 별 머신러닝 모형의 Mean Test Score를 통해 예측력을 비교한 결과 MLP의 예측력이 가장 높은 것으로 나타났다. 본 연구는 각 집단 별 머신러닝 모형의 평가를 위해 정확도(Accuracy), 정밀도(Precision), 재현율(Recall), F1, ROC_AUC곡선을 적용하였으며, 이익・손실집단 모두 MLP의 ROC_AUC값이 0.94, 0.92로 가장 좋은 성능을 나타냈다.
본 연구는 OLS모형을 적용하여 주택 보유기간에 영향을 미치는 결정요인을 추정한 후 SVM, Decision Tree, Random Forest, Gradient Boosting, XGBoost, LightGBM등의 머신러닝을 통해 각 모형별 예측력을 비교하였다. 예측력이 높은 머신러닝 모형을 기반 삼아 Stacking방법을 적용하여 더욱 예측력이 높은 모형을 구축하였다. 이를 통해 주택시장의 주택거래량을 파악할 수 있다는 점에 선행 연구와의 차이가 있다. OLS분석 결과 매도이익, 주택가격, 가구원 수, 거주주택형태 중 단독주택, 아파트가 주택 보유기간에 영향을 미치는 것으로 나타났다. 각 머신러닝 모형과 OLS의 RMSE를 비교한 결과 머신러닝 모형의 RMSE가 낮게 나타났고, 이는 OLS보다 예측력이 더 높은 것으로 파악되었다. 이후, 주택 보유기간에 영향을 미치는 변수로 데이터를 재구축한 후 각 머신러닝을 적용하여 예측력을 비교하였으며, 분석 결과 Random Forest의 예측력이 가장 우수한 것으로 나타났다. 또한 예측력이 가장 높은 Random Forest, Decision Tree, Gradient Boosting, XGBoost모형을 개별모형으로 적용하고, Linear, Ridge, Lasso모형을 메타모델로 하여 Stacking 모형을 구축하였다. 분석 결과, Ridge모형일 때 RMSE값이 0.5868로 가장 낮게 나타나 예측력이 가장 높음을 확인할 수 있었다. 주택매도 의사결정 시 각 모형별 예측력 비교를 위해 로지스틱 회귀모형, Random Forest, XGBoost, LightGBM, Decision Tree, Gradient Boosting, MLP의 머신러닝 모형을 이용하여 주택 소유자들이 주택가격의 이익 및 손실이 있을 때, 주택매도 의사결정에 영향을 미치는 요인을 분석하였다. 이익집단의 분석결과 모든 모형에서 주택 매도결정에 가장 유의한 영향을 미치는 변수는 주택면적으로 나타났다. 주택면적은 주택 가격과 밀접한 관련이 있으며, 손익을 대변하는 변수로 생각할 수 있기 때문에 이익집단에서 매도결정에 큰 영향을 미칠 수 있는 것으로 보인다. 또한 손실집단은 총 자산과 주택면적이 주택가격에 손실이 있을 때 매도 결정에 유의한 영향을 미치는 것으로 나타났다. 각 집단 별 머신러닝 모형의 Mean Test Score를 통해 예측력을 비교한 결과 MLP의 예측력이 가장 높은 것으로 나타났다. 본 연구는 각 집단 별 머신러닝 모형의 평가를 위해 정확도(Accuracy), 정밀도(Precision), 재현율(Recall), F1, ROC_AUC곡선을 적용하였으며, 이익・손실집단 모두 MLP의 ROC_AUC값이 0.94, 0.92로 가장 좋은 성능을 나타냈다.
This study used the OLS model to estimate the determinants affecting the tenure of a house and then compared the predictive power of each model with SVM, Decision Tree, Random Forest, Gradient Boosting, XGBoost and LightGBM. There is a difference from the preceding studies in that the volume of hous...
This study used the OLS model to estimate the determinants affecting the tenure of a house and then compared the predictive power of each model with SVM, Decision Tree, Random Forest, Gradient Boosting, XGBoost and LightGBM. There is a difference from the preceding studies in that the volume of housing transactions in the housing market can be identified through Stacking model, one of the ensemble models. OLS analysis showed that sales profits, housing prices, the number of household members, and the type of residential housing (detached houses and apartments) affected the period of housing ownership, and compared the predictability of the machine learning model with RMSE, the results showed that the machine learning model had higher predictability. Afterwards, the predictive power was compared by using machine learning after rebuilding the data with the influencing variables, and the analysis showed Random Forest had the best predictive power. In addition, the most predictable Random Forest, Decision Tree, Gradient Boosting, and XGBoost with the highest predictive power were applied as individual models, and the Stacking model was built using Linear, Ridge, and Lasso as meta models. As a result of the analysis, the RMSE value in the Ridge model was the lowest at 0.5868, thus building the highest predictive model. To compare the predictive power of each model in making decisions on hosing sales, logistic regression models, Random Forest, XGBoost, LightGBM, Decision Tree, Gradient Boosing and MLP with machine learning algorithms were used to analyze the factors that affect the decision-making on housing sales if profit or loss on housing price is caused. Also, the results of the analysis for each model were also compared with the predictive power through the ROC_AUC curve. The analysis of interest groups showed that the most significant variable in determining the sale of a house in all models was the housing area. The housing area refers to the size of a house, which seems to have a huge impact on the decision to sell the house in the interest group because the larger the size, the larger the loss could be. It is shown that housing size influenced both profit and loss groups’ decisions on selling houses, and the total debt affects only the loss group’s. As a result of comparing the predictive power through the ROC_AUC values of each model, it is considered that the predictive power of machine learning is generally similar for the reason that the ROC_AUC values are similar.
This study used the OLS model to estimate the determinants affecting the tenure of a house and then compared the predictive power of each model with SVM, Decision Tree, Random Forest, Gradient Boosting, XGBoost and LightGBM. There is a difference from the preceding studies in that the volume of housing transactions in the housing market can be identified through Stacking model, one of the ensemble models. OLS analysis showed that sales profits, housing prices, the number of household members, and the type of residential housing (detached houses and apartments) affected the period of housing ownership, and compared the predictability of the machine learning model with RMSE, the results showed that the machine learning model had higher predictability. Afterwards, the predictive power was compared by using machine learning after rebuilding the data with the influencing variables, and the analysis showed Random Forest had the best predictive power. In addition, the most predictable Random Forest, Decision Tree, Gradient Boosting, and XGBoost with the highest predictive power were applied as individual models, and the Stacking model was built using Linear, Ridge, and Lasso as meta models. As a result of the analysis, the RMSE value in the Ridge model was the lowest at 0.5868, thus building the highest predictive model. To compare the predictive power of each model in making decisions on hosing sales, logistic regression models, Random Forest, XGBoost, LightGBM, Decision Tree, Gradient Boosing and MLP with machine learning algorithms were used to analyze the factors that affect the decision-making on housing sales if profit or loss on housing price is caused. Also, the results of the analysis for each model were also compared with the predictive power through the ROC_AUC curve. The analysis of interest groups showed that the most significant variable in determining the sale of a house in all models was the housing area. The housing area refers to the size of a house, which seems to have a huge impact on the decision to sell the house in the interest group because the larger the size, the larger the loss could be. It is shown that housing size influenced both profit and loss groups’ decisions on selling houses, and the total debt affects only the loss group’s. As a result of comparing the predictive power through the ROC_AUC values of each model, it is considered that the predictive power of machine learning is generally similar for the reason that the ROC_AUC values are similar.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.