FTA체결의 증가, 식품교역 증가 및 소비자의 다양한 식품 선호도 등으로 농축수산물 및 가공식품의 수입량은 매년 증가하고 있는 추세이다. 수입식품의 안전성을 확인하는 정밀검사는 전체 수입식품건수 대비 20%정도를 차지하고 계속 증가하고 있는 반면에 정부의 수입안전관리에 필요한 예산과 인력은 그 한계점에 다다르고 있다. 수입식품 안전사고가 발생하게 되면 막대한 사회적, 경제적 손실을 야기할 수 있으므로 수입식품의 수입허용여부를 정확하게 예측하여 선제 대응하는 것은 수입안전관리의 효율성과 경제성을 획기적으로 높일 수 있게 된다. 식품분야에서는 이미 엄청난 양의 정형 데이터가 과거로부터 쌓여 왔으며 이에 대한 충분한 분석을 통한 활용은 아직은 부족한 것이 현실이다. 전체 수입건수와 중량 중에서 차지하는 가공식품의 비중은 평균 75%에 달하고 있어 식품분야에서도 빅데이터의 분석, 분석기법의 적용 등으로 다량의 데이터로부터 의미 있는 정보를 추출하는 과학적이고 자동화된 부적합탐지시스템의 연구가 절실한 상황이다. 이러한 배경에서 본 연구는 기계학습분야의 다양한 부적합 예측 모형을 적용하였으며 예측 모형의 정확도를 개선시키기 위한 방편으로 새로운 파생변수의 생성을 통한 데이터 전처리 방안을 제시하였다. 또한 본 연구에서는 기계학습분야의 일반적인 기저 분류기를 적용하여 예측 모형의 성능을 비교하였으며 여러 기저분류기 중 Gaussian Naïve Bayes예측 모형이 수입식품의 부적합을 탐지하여 예측하는 가장 좋은 성과를 보여주었다. 향후 Gaussian Naïve Bayes 예측 모형을 이용한 부적합 탐지 모형을 적용하여 수입식품의 정밀검사 비중을 낮추고 부적합률을 제고시킴으로써 수입안전관리 국가사무의 효율성과 수입통관의 신속성에 지대한 효과를 거둘 수 있으리라 기대한다.
FTA체결의 증가, 식품교역 증가 및 소비자의 다양한 식품 선호도 등으로 농축수산물 및 가공식품의 수입량은 매년 증가하고 있는 추세이다. 수입식품의 안전성을 확인하는 정밀검사는 전체 수입식품건수 대비 20%정도를 차지하고 계속 증가하고 있는 반면에 정부의 수입안전관리에 필요한 예산과 인력은 그 한계점에 다다르고 있다. 수입식품 안전사고가 발생하게 되면 막대한 사회적, 경제적 손실을 야기할 수 있으므로 수입식품의 수입허용여부를 정확하게 예측하여 선제 대응하는 것은 수입안전관리의 효율성과 경제성을 획기적으로 높일 수 있게 된다. 식품분야에서는 이미 엄청난 양의 정형 데이터가 과거로부터 쌓여 왔으며 이에 대한 충분한 분석을 통한 활용은 아직은 부족한 것이 현실이다. 전체 수입건수와 중량 중에서 차지하는 가공식품의 비중은 평균 75%에 달하고 있어 식품분야에서도 빅데이터의 분석, 분석기법의 적용 등으로 다량의 데이터로부터 의미 있는 정보를 추출하는 과학적이고 자동화된 부적합탐지시스템의 연구가 절실한 상황이다. 이러한 배경에서 본 연구는 기계학습분야의 다양한 부적합 예측 모형을 적용하였으며 예측 모형의 정확도를 개선시키기 위한 방편으로 새로운 파생변수의 생성을 통한 데이터 전처리 방안을 제시하였다. 또한 본 연구에서는 기계학습분야의 일반적인 기저 분류기를 적용하여 예측 모형의 성능을 비교하였으며 여러 기저분류기 중 Gaussian Naïve Bayes예측 모형이 수입식품의 부적합을 탐지하여 예측하는 가장 좋은 성과를 보여주었다. 향후 Gaussian Naïve Bayes 예측 모형을 이용한 부적합 탐지 모형을 적용하여 수입식품의 정밀검사 비중을 낮추고 부적합률을 제고시킴으로써 수입안전관리 국가사무의 효율성과 수입통관의 신속성에 지대한 효과를 거둘 수 있으리라 기대한다.
Owing to the increase of FTA, food trade, and versatile preferences of consumers, food import has increased at tremendous rate every year. While the inspection check of imported food accounts for about 20% of the total food import, the budget and manpower necessary for the government's import inspec...
Owing to the increase of FTA, food trade, and versatile preferences of consumers, food import has increased at tremendous rate every year. While the inspection check of imported food accounts for about 20% of the total food import, the budget and manpower necessary for the government's import inspection control is reaching its limit. The sudden import food accidents can cause enormous social and economic losses. Therefore, predictive system to forecast the compliance of food import with its preemptive measures will greatly improve the efficiency and effectiveness of import safety control management. There has already been a huge data accumulated from the past. The processed foods account for 75% of the total food import in the import food sector. The analysis of big data and the application of analytical techniques are also used to extract meaningful information from a large amount of data. Unfortunately, not many studies have been done regarding analyzing the import food and its implication with understanding the big data of food import. In this context, this study applied a variety of classification algorithms in the field of machine learning and suggested a data preprocessing method through the generation of new derivative variables to improve the accuracy of the model. In addition, the present study compared the performance of the predictive classification algorithms with the general base classifier. The Gaussian Naïve Bayes prediction model among various base classifiers showed the best performance to detect and predict the nonconformity of imported food. In the future, it is expected that the application of the abnormality detection model using the Gaussian Naïve Bayes. The predictive model will reduce the burdens of the inspection of import food and increase the non-conformity rate, which will have a great effect on the efficiency of the food import safety control and the speed of import customs clearance.
Owing to the increase of FTA, food trade, and versatile preferences of consumers, food import has increased at tremendous rate every year. While the inspection check of imported food accounts for about 20% of the total food import, the budget and manpower necessary for the government's import inspection control is reaching its limit. The sudden import food accidents can cause enormous social and economic losses. Therefore, predictive system to forecast the compliance of food import with its preemptive measures will greatly improve the efficiency and effectiveness of import safety control management. There has already been a huge data accumulated from the past. The processed foods account for 75% of the total food import in the import food sector. The analysis of big data and the application of analytical techniques are also used to extract meaningful information from a large amount of data. Unfortunately, not many studies have been done regarding analyzing the import food and its implication with understanding the big data of food import. In this context, this study applied a variety of classification algorithms in the field of machine learning and suggested a data preprocessing method through the generation of new derivative variables to improve the accuracy of the model. In addition, the present study compared the performance of the predictive classification algorithms with the general base classifier. The Gaussian Naïve Bayes prediction model among various base classifiers showed the best performance to detect and predict the nonconformity of imported food. In the future, it is expected that the application of the abnormality detection model using the Gaussian Naïve Bayes. The predictive model will reduce the burdens of the inspection of import food and increase the non-conformity rate, which will have a great effect on the efficiency of the food import safety control and the speed of import customs clearance.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
아쉽게도 지금까지 수입식품의 현황에 대한 데이터 분석과 기계학습 예측 모형의 적용에 관한 연구가 국내외에서 거의 없는 실정이다. 본 연구는 수입식품 데이터를 정제하고 부적합 예측 모형의 적용을 통해 사전 예측 모형의 성과를 높이고자 한다. 수입식품 데이터의 부적합비율은 1.
수입식품의 안전사고를 방지하기 위해서 정부는 정밀검사 비중을 늘리거나 부적합 판정비율을 높일 수 있는 방안을 강구하여야 한다. 본 연구에서는 정밀검사 결과에 대한 사전예측을 통해 정밀검사의 부적합 판정율을 높이고자 한다.
빅데이터와 기계학습 분야의 다양한 분석기법을 활용하여 수입식품 빅데이터의 특정패턴을 인식하고 분석해 정밀검사 결과를 직접 실시하기 전에 부적합식품의 탐지 예측을 수행하였다. 본 연구의 목적은 부적합이 우려되는 수입식품을 사전에 예측하여 부적합판정 비율을 높이고 우량 수입식품에 대해서는 신속한 수입통관절차를 적용하여 수입식품통관 국가 업무의 신속성과 효율성을 높이고자 한다. 다양한 예측모형의 민감도(sensitivity), 특이도(specificity), 수신자조작특성곡선(ROC, Receiver Operating Characteristic Curve) 등을 산출하여 AUROC(Area Under ROC Curve)를 예측모형의 성과 평가기준으로 Gaussian NaïveBayes 예측모형을 제시하였다.
예측모형의 수신자조작특성곡선(ROC, Receiver Operating Characteristic Curve)은 진짜 부적합식품 중에서 부적합을 얼마나 잘 식별하는 지를 나타내는 민감도(Sensitivity)와 진짜 적합식품 중에서 예측모형의 방법이 적합식품을 얼마나 잘 골라내는지를 나타내는 특이도(Specify)를 보여주고 있다. 본 연구의 목적은 실제로 부적합식품 중 부적합 사전예측이 있다고 가려낼 확률과 실제 적합식품 중에서 적합하다는 사전예측을 할 확률을 가장 크게 줄일 수 있는 예측모형을 찾는 것이다. 따라서 수입식품의 정밀검사 결과를 부적합과 적합의 이진분류를 위한 부적합 예측 모형의 성과는 AUROC의 척도로 판단하였다.
수입식품 데이터에 대한 이해도를 높이고 수입부적합 및 적합 판정결과에 미치는 변수의 변별력을 파악하는 목적으로 수행하였다. 총 135개의 수입국가 중 중량기준 상위 20개국(중국, 호주, 중국, 러시아연방, 브라질, 베트남, 필리핀 등)의 수입량이 전체 수입량의 92.
과거에 적용되었던 사례와 그 결과를 참조하여 새로운 사례에 적용하는 사례기반추론과 같이 특화된 지식을 활용하여 불균형데이터문제를 해결하는 방법도 있다(Allen, 1994). 이 이외에도 클러스터링 방법을 통한 데이터 전처리 기법, 유전자 알고리즘을 통해 결합적으로 데이터의 불균형문제를 해결하고자 하이브리드 모형을 적용하여 소수 범주 데이터의 패턴을 찾아내고자 하였다(Hwang, et al., 2007).
제안 방법
수입식품 부적합 판정에 관련이 있다고 판단되는 수입검사 관련 비율의 파생변수를 FGI를 통해 총 18개의 파생변수를 <표 5>와 같이 생성하였다. 국가, 식품유형 및 수입업소를 기준으로 수입신청중량, 가격 및 부적합률을 생성하였고 국가와 식품유형, 국가와 수입업소 및 수입업소와 식품유형을 그룹으로 하여 각각의 중량, 가격 및 부적합률 등을 파생변수로 생성하였다. 연속형 입력변수인 수입신고 중량과 가격은 데이터의 정규화를 하여 입력변수 값에 선형변형을 적용하여 자료의 분포를 평균 0, 분산 1이 되도록 하였다.
수입 용도, 수입업체, 식품유형 및 국가 등과 같은 범주형 데이타의 인코딩(Encoding)방식은 Label Encoder 방식을 적용하였다. 데이터의 오버플로우(overflow)나 언더플로우(underflow)를 방지하기 위해 실수형태의 입력변수 값은 정규화하여 예측모형의 계수추정과 입력데이터의 변환을 동시에 실행하였다. 수입부적합 예측모형은 지도학습알고리즘으로 Decision Tree, K-nearest neighbors, Naïve Bayes, Random Forrest, Ensemble 구분자를 사용하여 부적합과 적합 판정결과를 예측하였다.
국내 수입식품검사는 국가, 식품유형 및 수입업소 등의 개별적인 위해요소(hazard)와 위험(risk)를 고려하여 수입식품의 위험을 평가하고 있다. 본 연구에서는 수입식품 데이터를 대상으로 2015년부터 국가, 수입업소 및 식품유형별로 수입건수, 수입중량 및 가격, 부적합건수, 부적합률 등을 추가적인 파생변수로 생성하였다. 이외에도 국가와 식품유형, 국가와 수입업소 및 식품유형과 수입업소별 수입중량, 수입가격, 수입건수 및 부적합률 등 수입현황관련 각 종 비율자료를 생성하여 수입식품의 부적합을 예측하기 위한 변수로 사용하였다.
본 연구에서는 수입식품 데이터의 특성을 고려하여 기존의 다양한 기저분류기의 적용과 더불어 수입통관업무 전문가와 FGI(Focused Group Interview)를 통해 데이터를 정제하고 최적의 파생변수를 생성하여 예측모형의 성과를 분석하였다. 데이터의 불균형문제는 예측 모형의 성능을 저하시키는 요인으로 작용하고 있으며 이를 해결하기 위해 금융, 의료 및 마케팅 분야의 부도예측 및 신용불량자 추출, 희귀한 질병을 가진 환자의 진단 및 이탈고객 방지 등 많은 연구가 이루어지고 있다(Lee and Kwon, 2013; Kang et al.
본 연구에서는 수입식품의 불균형데이터를 정제, 분석하여 예측모형에 적합한 파생변수를 생성하였고 다양한 실험을 수행하였으며 제안한 모델의 예측성과를 제시하였다. 본 연구의 한계와 향후 연구방향을 정리하면 다음과 같다.
빅데이터와 기계학습 분야의 다양한 분석기법을 활용하여 수입식품 빅데이터의 특정패턴을 인식하고 분석해 정밀검사 결과를 직접 실시하기 전에 부적합식품의 탐지 예측을 수행하였다. 본 연구의 목적은 부적합이 우려되는 수입식품을 사전에 예측하여 부적합판정 비율을 높이고 우량 수입식품에 대해서는 신속한 수입통관절차를 적용하여 수입식품통관 국가 업무의 신속성과 효율성을 높이고자 한다.
수입부적합 예측모형은 지도학습알고리즘으로 Decision Tree, K-nearest neighbors, Naïve Bayes, Random Forrest, Ensemble 구분자를 사용하여 부적합과 적합 판정결과를 예측하였다.
수입식품 부적합 판정에 관련이 있다고 판단되는 수입검사 관련 비율의 파생변수를 FGI를 통해 총 18개의 파생변수를 와 같이 생성하였다.
수입신고 현황 건수 대비 약 5% 정도를 무작위로 표본을 추출하여 정밀검사를 수행한다. 현재는 최근 3년 동안의 수입현황을 수입국가별 부적합률, 수입건수, 부적합 건수, 부적합률, 위해물질 등의 검출여부를 반영하여 차등화된 위험 점수를 산출하고 있다.
수입용도, 수입업소, 국가, 식품유형, 수입신고가격 및 수입신고중량 등 기본 입력변수인 6개와 파생변수 18개를 합하여 총 24개의 변수를 생성하였다. 입력변수간 다중공선성(multicollinearity)을 판단하기 위해 분산팽창계수(Variance Inflation Factor, VIF)가 높은 국가와 수입업소별 중량(Import weight_groupby(country.
국가, 식품유형 및 수입업소를 기준으로 수입신청중량, 가격 및 부적합률을 생성하였고 국가와 식품유형, 국가와 수입업소 및 수입업소와 식품유형을 그룹으로 하여 각각의 중량, 가격 및 부적합률 등을 파생변수로 생성하였다. 연속형 입력변수인 수입신고 중량과 가격은 데이터의 정규화를 하여 입력변수 값에 선형변형을 적용하여 자료의 분포를 평균 0, 분산 1이 되도록 하였다.
예측 모형의 초기 입력변수는 파생변수를 포함시키지 않고 수입용도, 수입업소, 식품유형, 국가, 수입가격, 수입중량 등 6개의 입력변수로 분류형(Classification type)과 군집형(Cluster type) 머신러닝알고리즘을 적용하였다. 그 결과 의사결정나무(Decision Tree)기법의 AUC는 0.
본 연구의 입력변수인 국가, 수입업소 및 식품유형별 부적합률, 국가와 수입업소별, 식품유형과 수입업소 및 국가와 식품유형 등의 부적합률은 전국 16개 수입검사소에서 관리하고 있는 실정을 충분히 반영한 것으로 판단된다. 예측모형 적용대상 수입식품데이터는 학습용 데이터와 모형검증을 위한 검증용 데이터로 분할하여 실험을 수행하였다.
본 연구에서는 수입식품 데이터를 대상으로 2015년부터 국가, 수입업소 및 식품유형별로 수입건수, 수입중량 및 가격, 부적합건수, 부적합률 등을 추가적인 파생변수로 생성하였다. 이외에도 국가와 식품유형, 국가와 수입업소 및 식품유형과 수입업소별 수입중량, 수입가격, 수입건수 및 부적합률 등 수입현황관련 각 종 비율자료를 생성하여 수입식품의 부적합을 예측하기 위한 변수로 사용하였다. 이는 재무 및 회계부문 등에서 보험사기, 이상적인 금융거래, 부도예측 등의 불균형데이터에서 적용되어온 초기의 예측 모형의 단일변량 혹은 다중변량의 변수 기반의 통계 모형을 적극 반영한 것이다(Beaver, 1996;Ohlson, 1980).
최종 데이터는 총 34개의 변수로 구성되어 있었으나FGI(Focused Group Interview)를 통해 사업자 내부정보, 고유코드 등 다수의 변수를 제거 한 후 최종적으로 와 같이 수입용도, 수입업소, 식품유형, 국가, 수입가격, 수입중량 및 정밀검사 결과 등 7개의 변수를 선정하였다.
05보다 큰 입력변수는 모형에서 제외하여 최종 6개의 입력변수를 선정하였다. 최종입력변수는 국가와 식품유형별 수입부적합률, 국가와 수입업소별 수입부적합률 및 식품유형과 수입업소별 수입부적합률 등이다.
대상 데이터
본 연구의 데이터는 2014년부터 2018년 6월말까지 총 수입신고 건을 대상으로 하여 이 중에서 농축수산물을 제외한 식품(가공식품, 건강기능식품, 첨가물, 기구 또는 용기·포장 등)만을 대상으로 하였다. 식품 관련 수입신고 현황자료는 2014년 393, 216건, 2015년 426, 272건, 2016년 440, 974건, 2017년 474, 477건 및 2018년 6월말 254, 632건 등 총 1, 989, 571건의 데이터마트를 1차적으로 구축하였다.
본 연구의 데이터는 2014년부터 2018년 6월말까지 총 수입신고 건을 대상으로 하여 이 중에서 농축수산물을 제외한 식품(가공식품, 건강기능식품, 첨가물, 기구 또는 용기·포장 등)만을 대상으로 하였다. 식품 관련 수입신고 현황자료는 2014년 393, 216건, 2015년 426, 272건, 2016년 440, 974건, 2017년 474, 477건 및 2018년 6월말 254, 632건 등 총 1, 989, 571건의 데이터마트를 1차적으로 구축하였다. 정밀검사의 판정결과가 있는 경우만을 데이터로 포함시키기 위해 수입업소가 자진 취하한 경우, 수입검사원에 의해 반려된 경우, 부분 부적합으로 인한 보류 등은 수입식품의 정밀검사 결과의 판정에 관련이 없어 데이터구성에서 제외하였다.
, 2017). 실험에 사용한 최종 입력변수는 로짓회귀분석을 이용하여 부적합 판정결과 변수와의 임계값 p-value값이 0.01보다 적은 입력변수는 모형에 반영하였고, 0.05보다 큰 입력변수는 모형에서 제외하여 최종 6개의 입력변수를 선정하였다. 최종입력변수는 국가와 식품유형별 수입부적합률, 국가와 수입업소별 수입부적합률 및 식품유형과 수입업소별 수입부적합률 등이다.
정밀검사의 판정결과가 있는 경우만을 데이터로 포함시키기 위해 수입업소가 자진 취하한 경우, 수입검사원에 의해 반려된 경우, 부분 부적합으로 인한 보류 등은 수입식품의 정밀검사 결과의 판정에 관련이 없어 데이터구성에서 제외하였다. 최종적으로 식품만으로 구성된 총 392, 454건의 데이터마트를 마련하였다. <표 3>을 보면 식품유형별로는 가공식품의 수입건수가 304, 442건(77.
데이터처리
3장에서는 실증분석을 위해 수집한 수입식품 데이터의 특성을 고려하여 FGI결과를 기반으로 새로운 파생변수를 생성하였다. 4장에서는 실증분석을 위해 수집한 수입식품신고 현황에 대한 기초통계를 실시하였고 기계학습의 다양한 기저 분류기를 적용하여 민감도(sensitivity), 특이도(specificity), 수신자조작특성곡선(ROC, Receiver Operating Characteristic Curve) 등을 산출하여 예측모형의 성과를 평가하였다. 5장에서는 연구의 결과와 시사점을 정리하였다.
각각 예측모형의 성과는 AUROC(Area Under ROC Curve)를 기준으로 비교하였다(Fawcett, 2006). 예측모형의 수신자조작특성곡선(ROC, Receiver Operating Characteristic Curve)은 진짜 부적합식품 중에서 부적합을 얼마나 잘 식별하는 지를 나타내는 민감도(Sensitivity)와 진짜 적합식품 중에서 예측모형의 방법이 적합식품을 얼마나 잘 골라내는지를 나타내는 특이도(Specify)를 보여주고 있다.
국가와 식품유형의 부적합률이 높은 고위험군 국가와 식품유형의 데이터를 추출하여 분석하였으나 예측모형의 성과를 기대할 수는 없었다. 개별 변수들의 평균 및 표준편차를 비교한 후 변수 간 상관관계를 분석하였다. <표 6> 은 부적합과 적합판정 결과에 대한 입력변수들의 평균 값이다.
이론/모형
다양한 예측모형의 민감도(sensitivity), 특이도(specificity), 수신자조작특성곡선(ROC, Receiver Operating Characteristic Curve) 등을 산출하여 AUROC(Area Under ROC Curve)를 예측모형의 성과 평가기준으로 Gaussian NaïveBayes 예측모형을 제시하였다.
본 연구의 목적은 실제로 부적합식품 중 부적합 사전예측이 있다고 가려낼 확률과 실제 적합식품 중에서 적합하다는 사전예측을 할 확률을 가장 크게 줄일 수 있는 예측모형을 찾는 것이다. 따라서 수입식품의 정밀검사 결과를 부적합과 적합의 이진분류를 위한 부적합 예측 모형의 성과는 AUROC의 척도로 판단하였다.
수입부적합 예측모형은 지도학습알고리즘으로 Decision Tree, K-nearest neighbors, Naïve Bayes, Random Forrest, Ensemble 구분자를 사용하여 부적합과 적합 판정결과를 예측하였다. 범주형 자료의 이상치 관측된 객체간의 유클리드 거리를 계산하는 방법인 거리척도기반 알고리즘, 연관성 규칙기반 알고리즘(Said, et al., 2011; Otey, et al., 2006), 군집기반방법(Cao, et al., 2013) 및 밀도기반 기법(Zhao, et al., 2014) 등 수입식품데이터의 불균형데이터의 특성을 고려하여 DBSCAN, Isolation Forest 및 Local Outlier Factor 등의 머신러닝 알고리즘을 적용하였다.
테스트 방법은 10겹 교차검증(10-fold crossvalidation)방법으로 수행하였다. 수입 용도, 수입업체, 식품유형 및 국가 등과 같은 범주형 데이타의 인코딩(Encoding)방식은 Label Encoder 방식을 적용하였다. 데이터의 오버플로우(overflow)나 언더플로우(underflow)를 방지하기 위해 실수형태의 입력변수 값은 정규화하여 예측모형의 계수추정과 입력데이터의 변환을 동시에 실행하였다.
수입식품의 불균형데이터는 적합과 부적합의 비율이 현저히 차이가 나기 때문에 예측모형의 AUROC의 수치(Fawcett, 2006)가 낮게 나타나게 경향이 있어 모형의 성능을 저하시켜 이에 대한 개선이 필요하였다. 예측모형의 성과를 높이기 위해 본 연구에서는 최적의 파생변수를 선정한 후 지도학습의 적합과 부적합을 구분하는 분류기법의 머신러닝모형만을 적용하였다.
테스트 방법은 10겹 교차검증(10-fold crossvalidation)방법으로 수행하였다. 수입 용도, 수입업체, 식품유형 및 국가 등과 같은 범주형 데이타의 인코딩(Encoding)방식은 Label Encoder 방식을 적용하였다.
성능/효과
8%이다. GNB예측모형은 부적합이라고 예측하여 실제로 맞춘 수입신고 건이 73.4%인 반면 Logistic Regression예측모형은 43.8%로 낮아 결과적으로는 AUROC가 낮아 예측 모형의 성능이 떨어진다. Gradient Boosting예측모형은 AUROC가 0.
결론적으로 Gaussian Naïve Bayes예측모형은 부적합으로 예측하였을 경우 맞을 확률(정밀도, precision)은 21.8%, 실제로 부적합판정인 데이터를 부적합이라고 판정할 확률(recall)은 73.4%이며 AUROC는 0.853으로 다른 예측모형에 비해 휠씬 높은 수치가 나타났다.
5수준이었다. 군집형 머신러닝알고리즘적용결과 Isolation Forest예측모형의 AUC가 0.64이고 Local Outlier Factor와 DBSCAN 등의 AUC는 0.5수준으로 아주 낮은 recall 점수를 보여주었다. 수입식품의 불균형데이터는 적합과 부적합의 비율이 현저히 차이가 나기 때문에 예측모형의 AUROC의 수치(Fawcett, 2006)가 낮게 나타나게 경향이 있어 모형의 성능을 저하시켜 이에 대한 개선이 필요하였다.
예측 모형의 초기 입력변수는 파생변수를 포함시키지 않고 수입용도, 수입업소, 식품유형, 국가, 수입가격, 수입중량 등 6개의 입력변수로 분류형(Classification type)과 군집형(Cluster type) 머신러닝알고리즘을 적용하였다. 그 결과 의사결정나무(Decision Tree)기법의 AUC는 0.56으로 가장 높았고 다른 예측모형은 AUC가평균 0.5수준이었다. 군집형 머신러닝알고리즘적용결과 Isolation Forest예측모형의 AUC가 0.
기계학습분야의 다양한 예측 모형을 적용한 결과 Gaussian Naïve Bayes예측모형이 로지스틱 회귀분석, 의사결정나무, K-nearest neighbors, Gradient Boosting 등의 예측모형을 적용한 결과보다 과 같이 AUROC값이 가장 높게 나타나 예측 모형의 성과가 가장 높은 것으로 나타났다.
최종 데이터는 총 34개의 변수로 구성되어 있었으나FGI(Focused Group Interview)를 통해 사업자 내부정보, 고유코드 등 다수의 변수를 제거 한 후 최종적으로 <표 4>와 같이 수입용도, 수입업소, 식품유형, 국가, 수입가격, 수입중량 및 정밀검사 결과 등 7개의 변수를 선정하였다. 데이터의 계절효과(Seasonal effects)는 나타나지 않았으며 제조국가(원산지)와 수출국가의 차이로 인한 정밀검사 결과는 거의 상관관계가 없는 것으로 나타나 수입년도·월, 수출국 등의 변수는 분석대상에서 제외하였다.
수입식품의 정밀검사를 무작위 표본검사로 수행할 경우 부적합 이력이 있는 국가별 식품유형, 수입업소 및 제조업소 등에 따라 차등 적용하여 매년 수행하여 오고 있다. 본 연구의 입력변수인 국가, 수입업소 및 식품유형별 부적합률, 국가와 수입업소별, 식품유형과 수입업소 및 국가와 식품유형 등의 부적합률은 전국 16개 수입검사소에서 관리하고 있는 실정을 충분히 반영한 것으로 판단된다. 예측모형 적용대상 수입식품데이터는 학습용 데이터와 모형검증을 위한 검증용 데이터로 분할하여 실험을 수행하였다.
<표 6> 은 부적합과 적합판정 결과에 대한 입력변수들의 평균 값이다. 부적합과 적합판정 결과가 나온 수입신청가격의 평균 값은 각각 10, 250USD와 15, 108USD로 부적합판정의 수입신고 평균값이 적합판정에 비해 67.85%적다고 해석되며 대부분의 입력변수의 부적합과 적합의 비율차이가 있는 것으로 나타난다. 제조국과 식품유형과 관련된 입력변수의 비율차이가 다른 입력변수 평균값의 비율보다 현저히 차이가 있는 것으로 나타나 중요한 변수라는 것을 알 수 있다.
수입부적합비율기준으로는 기구, 포장·용기는 2.47%, 건강기능식품은 1.1%, 가공식품은 0.98%, 식품첨가물은 0.55% 순으로 나타나고 있으며 전체 수입식품의 부적합율은 4, 279건으로 전체 수입건수 392, 454건 대비 1.09%를 차지하고 있다.
19%를 차지하고 있다. 정밀검사 결과 부적합 판정율은 2013년도이후 최근 3년 동안 0.83%, 0.96%, 0.84%를 나타내고 있다. 수입식품의 안전사고를 방지하기 위해서 정부는 정밀검사 비중을 늘리거나 부적합 판정비율을 높일 수 있는 방안을 강구하여야 한다.
85%적다고 해석되며 대부분의 입력변수의 부적합과 적합의 비율차이가 있는 것으로 나타난다. 제조국과 식품유형과 관련된 입력변수의 비율차이가 다른 입력변수 평균값의 비율보다 현저히 차이가 있는 것으로 나타나 중요한 변수라는 것을 알 수 있다.
후속연구
첫째, 정밀검사 결과에 대한 사전예측모형으로 Gaussian Naïve Bayes모형을 제안하였으나 향후 다양한 분류모형에 관한 연구가 필요할 것이다.
Gaussian Naïve Bayes예측모형을 적용하여 부적합이 예측되는 정밀검사 조사 건수가 많을 경우에 한정된 시간과 인력의 제약조건에서 단순 참조할 수 있는 보조 지표로 활용이 가능하리라 판단된다.
끝으로 본 논문에서 제안한 모형을 수입식품뿐만 아니라 국내식품현황자료에도 적용하여 새로운 예측모형의 적용 및 제안모형의 유용성에 대한 연구가 필요하다.
최근 5년동안 수입건수의 증가에 따라 정밀검사 건수 또한 증가하고 있지만 매년 부적합율은 좀처럼 개선되지 않고 있는 실정이다. 본 연구결과의 수입식품 사전예측모형을 적용하여 정밀검사 비중을 줄이거나 부적합율을 높여 수입통관 사무의 효율성과 경제성을 높일 수 있을 것이다.
질의응답
핵심어
질문
논문에서 추출한 답변
수입식품이 지속적으로 증가하고 있는 배경은?
1995년 WTO(World Trade Organization)출범 이후 국간 간 자유무역협정(FTA) 체결 증가로 인해 수입식품은 지속적으로 증가하고 있는 추세이다. 최근 5년간 농축수산물 및 가공식품의 수입건수와 수입중량 증가율은 각 각 7.
수입식품 등에 대한 통관단계검사 중에 정밀검사에 대한 한계점은?
52%이다. 정밀검사는 수입식품의 표본을 직접 채취하여 실험실에서 이화학검사를 실시하는 등 시간과 비용의 부담이 있어 식품의약품안전처의 한정된 자원으로 검사를 확대하는 것은 어려운 현실이다. 국민건강에 위험을 끼칠 수 있는 수입식품을 정밀검사결과를 사전에 예측하여 식품안전사고를 방지하는 것이 필요하다.
농축수산물 및 가공식품의 수입건수와 수입중량 증가율은 어떻게 되나요?
1995년 WTO(World Trade Organization)출범 이후 국간 간 자유무역협정(FTA) 체결 증가로 인해 수입식품은 지속적으로 증가하고 있는 추세이다. 최근 5년간 농축수산물 및 가공식품의 수입건수와 수입중량 증가율은 각 각 7.5%, 6.0%로 매년 증가하고 있다. 2017년도에는 총 167개국으로부터 625, 443건을 수입하였고 이중 가공식품은 총 440, 974건으로 전체 수입신고의 71%를 차지하고 있다.
참고문헌 (26)
Allen, Bradley P., "Case-Based Reasoning: Business Applications", Communications of the ACM, Vol.37, No.3(1994), 40-42.
Barandela, R., V. Garcia, E. Rangel, and J. S. Sanchez, "Strategies for Learning in Class Imbalance Problems", Pattern Recognition, Vol.36, No.3(2003), 849-865.
Chang, D.S. and S.H. Lee, "A Study on the Us's Safety Control System for the Imported Food: Focused on the Processed Food", The Journal of International Commerce, Vol.31, No.4(2016), 325-50.
Derrac, Joaquin, Chris Cornelis, Salvador Garcia, and Francisco Herrera, "Enhancing Evolutionary Instance Selection Algorithms by Means of Fuzzy Rough Set Based Feature Selection", Information Sciences. Vol.186, No.1(2012), 73-92.
Galar, M., A. Fernandez, E. Barrenechea, H. Bustince, and F. Herrera, "A Review on Ensembles for the Class Imbalance Problem: Bagging-, Boosting-, and Hybrid-Based Approaches", IEEE Transactions on Systems, Man, and Cybernetics, Part C (Applications and Reviews), Vol.42, No.4(2012), 463-84.
Ganganwar, Vaishali, "An Overview of Classification Algorithms for Imbalanced Datasets", International Journal of Emerging Technology and Advanced Engineering, Vol.2, No.4(2012), 42-47.
Garcia, V., A. I. Marques, and J. S. Sanchez, "On the Use of Data Filtering Techniques for Credit Risk Prediction with Instance-Based Models", Expert Systems With Applications, Vol.39, No.18(2012), 267-76.
Jin, Huang, and C. X. Ling, "Using Auc and Accuracy in Evaluating Learning Algorithms", IEEE Transactions on Knowledge and Data Engineering, Knowledge and Data Engineering, IEEE Transactions on, IEEE Trans. Knowl. Data Eng,Vol. 17, No.3(2005), 299-310.
Jo, Taeho, and Nathalie Japkowicz, "Class Imbalances Versus Small Disjuncts", SIGKDD Explor. Newsl, Vol. 6, No.1(2004), 40-49.
Kang, P.S., H.J. Lee and S.Z. Cho, " Svm Ensemble Techniques for Class Imbalance Problem", KOREA INFORMATION SCIENCE SOCIETY, Vol.31, No.2(2004), 706-708.
Kim, U.M. and T.H. Hong, "The Prediction of Customers based on Case Based Reasoning with Weighted Factors for imbalanced Data Sets", The Journal of Information Systems, Vo1.21, No.1(2014), 29-45.
Koufakou, Anna, and Michael Georgiopoulos, "A Fast Outlier Detection Strategy for Distributed High-Dimensional Data Sets with Mixed Attributes", DATA MINING AND KNOWLEDGE DISCOVERY, Vol.20, No.2(2010) 259-89.
Lee, J.S. and J.G. Kwon, "A Hybrid Svm Classifier for Imbalanced Data Sets", Journal of Intelligence and Information Systems. Vol.19, No.2(2013), 125-40.
Mac Namee, B., P. Cunningham, S. Byrne, and O. I. Corrigan, "The Problem of Bias in Training Data in Regression Problems in Medical Decision Support", ARTIFICIAL INTELLIGENCE IN MEDICINE, Vol.24, No.1(2002), 51-70.
Min, S.H., "Bankruptcy prediction using the improved bagging ensemble algorithm", Journal of Intelligence and Information Systems. Vol.20, No.4(2014), 121-139.
Ohlson, James A., "Financial Ratios and the Probabilistic Prediction of Bankruptcy", Journal of Accounting Research, Vol.18, No.1(1980), 109-31.
Otey, M. E., A. Ghoting, and S. Parthasarathy, "Fast Distributed Outlier Detection in Mixed-Attribute Data Sets", DATA MINING AND KNOWLEDGE DISCOVERY, Vol.12, No.2-3 (2006), 203-28.
Pai, Hao-Ting, Fan Wu, and Pei-Yun S. Hsueh, "A Relative Patterns Discovery for Enhancing Outlier Detection in Categorical Data", DECISION SUPPORT SYSTEMS, Vol.67(2014), 90-99.
Said, A. M., D. D. Dominic, and B. B. Samir, "Frequent Pattern-Based Outlier Detection Measurements: A Survey", International Conference on Research and Innovation in Information Systems (ICRIIS), 2011
Thompson, Christopher Glen, Rae Seon Kim, Ariel M. Aloe, and Betsy Jane Becker, "Extracting the Variance in Flation Factor and Other Multicollinearity Diagnostics from Typical Regression Results", Basic & Applied Social Psychology, Vol.39, No.2(2017), 81-90.
Wu, X., V. Kumar, M. Steinbach, Q. J. Ross, J. Ghosh, Q. Yang, H. Motoda, G. J. McLachlan, A. Ng, B. Liu, P. S. Yu, Z. H. Zhou, D. J. Hand, and D. Steinberg, "Top 10 Algorithms in Data Mining", Knowledge and Information Systems, Vol.14, No.1(2008), 1-37.
Zhao, Xingwang, Jiye Liang, and Fuyuan Cao, "A Simple and Effective Outlier Detection Algorithm for Categorical Data", INTERNATIONAL JOURNAL OF MACHINE LEARNING AND CYBERNETICS, Vol.5, No.3(2014), 469-77.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.