정보기술의 빠른 진화, 빅데이터의 등장, 분석기법의 고도화 등으로 인해 다량의 데이터로부터 의미있는 정보를 추출하는 데이터마이닝을 다양한 영역에 활용하고자 하는 시도들이 활발히 진행되고 있다. 그 중의 한 분야가 농산물 유통영역인데, 농산물에 대한 지속적인 수요 증가와 전자경매의 활성화 등으로 수도권 농산물 도매시장에서만도 연간 수천만건 이상의 거래가 이루어 진다. 그러나 급속한 거래량 증가와 더불어 과거로부터 관행적으로 이루어지고 있는 부정거래도 함께 증가하고 있는데 거래참가자들 사이의 결탁에 의해 발생하는 농산물 도매시장의 부정거래는 점차 지능화되는 추세이며, 이들을 감지하고 적발하기가 매우 어려운 실정이다. 이로 인해 농산물 유통환경의 공정거래 질서는 침해되고 시장에 대한 신뢰는 훼손되곤 한다. 따라서 거래투명성을 제고하고 유통비리를 구조적으로 개선하기 위한 과학적이고 자동화된 부정탐지시스템의 필요성이 어느 때보다도 절실히 요구되는 상황이다. 본 연구에서는 데이터마이닝의 의사결정나무를 이용하여 실제 발생하지 않은 거래를 실물 없이 거래한 것처럼 조작하여 대금을 정산하는 행위인 허위거래를 탐지하는 모형을 제시하였다. 이를 위해 실제 농산물 도매시장의 데이터를 수집하였고, 데이터의 정제 및 표준화 등의 선행작업을 수행하였다. 또한 변수 간의 상관관계 및 분포도 분석 등을 통해 데이터의 특성을 파악한 후 예측모형을 구축하여 허위거래와 정상거래를 분류하는 패턴을 도출하였으며, 최종적으로 시험용 데이터를 이용하여 모형을 평가하는 단계를 거쳐 결과의 적합성을 확인하였다. 향후 데이터마이닝을 이용한 부정탐지 모형을 허위거래뿐만 아니라 낙찰부정, 경매조작 등과 같이 다양화되는 부정거래에 적용하게 되면 보다 지대한 효과를 거둘 수 있으리라 사료된다.
정보기술의 빠른 진화, 빅데이터의 등장, 분석기법의 고도화 등으로 인해 다량의 데이터로부터 의미있는 정보를 추출하는 데이터마이닝을 다양한 영역에 활용하고자 하는 시도들이 활발히 진행되고 있다. 그 중의 한 분야가 농산물 유통영역인데, 농산물에 대한 지속적인 수요 증가와 전자경매의 활성화 등으로 수도권 농산물 도매시장에서만도 연간 수천만건 이상의 거래가 이루어 진다. 그러나 급속한 거래량 증가와 더불어 과거로부터 관행적으로 이루어지고 있는 부정거래도 함께 증가하고 있는데 거래참가자들 사이의 결탁에 의해 발생하는 농산물 도매시장의 부정거래는 점차 지능화되는 추세이며, 이들을 감지하고 적발하기가 매우 어려운 실정이다. 이로 인해 농산물 유통환경의 공정거래 질서는 침해되고 시장에 대한 신뢰는 훼손되곤 한다. 따라서 거래투명성을 제고하고 유통비리를 구조적으로 개선하기 위한 과학적이고 자동화된 부정탐지시스템의 필요성이 어느 때보다도 절실히 요구되는 상황이다. 본 연구에서는 데이터마이닝의 의사결정나무를 이용하여 실제 발생하지 않은 거래를 실물 없이 거래한 것처럼 조작하여 대금을 정산하는 행위인 허위거래를 탐지하는 모형을 제시하였다. 이를 위해 실제 농산물 도매시장의 데이터를 수집하였고, 데이터의 정제 및 표준화 등의 선행작업을 수행하였다. 또한 변수 간의 상관관계 및 분포도 분석 등을 통해 데이터의 특성을 파악한 후 예측모형을 구축하여 허위거래와 정상거래를 분류하는 패턴을 도출하였으며, 최종적으로 시험용 데이터를 이용하여 모형을 평가하는 단계를 거쳐 결과의 적합성을 확인하였다. 향후 데이터마이닝을 이용한 부정탐지 모형을 허위거래뿐만 아니라 낙찰부정, 경매조작 등과 같이 다양화되는 부정거래에 적용하게 되면 보다 지대한 효과를 거둘 수 있으리라 사료된다.
With the rapid evolution of technology, the size, number, and the type of databases has increased concomitantly, so data mining approaches face many challenging applications from databases. One such application is discovery of fraud patterns from agricultural product wholesale transaction instances....
With the rapid evolution of technology, the size, number, and the type of databases has increased concomitantly, so data mining approaches face many challenging applications from databases. One such application is discovery of fraud patterns from agricultural product wholesale transaction instances. The agricultural product wholesale market in Korea is huge, and vast numbers of transactions have been made every day. The demand for agricultural products continues to grow, and the use of electronic auction systems raises the efficiency of operations of wholesale market. Certainly, the number of unusual transactions is also assumed to be increased in proportion to the trading amount, where an unusual transaction is often the first sign of fraud. However, it is very difficult to identify and detect these transactions and the corresponding fraud occurred in agricultural product wholesale market because the types of fraud are more intelligent than ever before. The fraud can be detected by verifying the overall transaction records manually, but it requires significant amount of human resources, and ultimately is not a practical approach. Frauds also can be revealed by victim's report or complaint. But there are usually no victims in the agricultural product wholesale frauds because they are committed by collusion of an auction company and an intermediary wholesaler. Nevertheless, it is required to monitor transaction records continuously and to make an effort to prevent any fraud, because the fraud not only disturbs the fair trade order of the market but also reduces the credibility of the market rapidly. Applying data mining to such an environment is very useful since it can discover unknown fraud patterns or features from a large volume of transaction data properly. The objective of this research is to empirically investigate the factors necessary to detect fraud transactions in an agricultural product wholesale market by developing a data mining based fraud detection model. One of major frauds is the phantom transaction, which is a colluding transaction by the seller(auction company or forwarder) and buyer(intermediary wholesaler) to commit the fraud transaction. They pretend to fulfill the transaction by recording false data in the online transaction processing system without actually selling products, and the seller receives money from the buyer. This leads to the overstatement of sales performance and illegal money transfers, which reduces the credibility of market. This paper reviews the environment of wholesale market such as types of transactions, roles of participants of the market, and various types and characteristics of frauds, and introduces the whole process of developing the phantom transaction detection model. The process consists of the following 4 modules: (1) Data cleaning and standardization (2) Statistical data analysis such as distribution and correlation analysis, (3) Construction of classification model using decision-tree induction approach, (4) Verification of the model in terms of hit ratio. We collected real data from 6 associations of agricultural producers in metropolitan markets. Final model with a decision-tree induction approach revealed that monthly average trading price of item offered by forwarders is a key variable in detecting the phantom transaction. The verification procedure also confirmed the suitability of the results. However, even though the performance of the results of this research is satisfactory, sensitive issues are still remained for improving classification accuracy and conciseness of rules. One such issue is the robustness of data mining model. Data mining is very much data-oriented, so data mining models tend to be very sensitive to changes of data or situations. Thus, it is evident that this non-robustness of data mining model requires continuous remodeling as data or situation changes. We hope that this paper suggest valuable guideline to organizations and companies that consi
With the rapid evolution of technology, the size, number, and the type of databases has increased concomitantly, so data mining approaches face many challenging applications from databases. One such application is discovery of fraud patterns from agricultural product wholesale transaction instances. The agricultural product wholesale market in Korea is huge, and vast numbers of transactions have been made every day. The demand for agricultural products continues to grow, and the use of electronic auction systems raises the efficiency of operations of wholesale market. Certainly, the number of unusual transactions is also assumed to be increased in proportion to the trading amount, where an unusual transaction is often the first sign of fraud. However, it is very difficult to identify and detect these transactions and the corresponding fraud occurred in agricultural product wholesale market because the types of fraud are more intelligent than ever before. The fraud can be detected by verifying the overall transaction records manually, but it requires significant amount of human resources, and ultimately is not a practical approach. Frauds also can be revealed by victim's report or complaint. But there are usually no victims in the agricultural product wholesale frauds because they are committed by collusion of an auction company and an intermediary wholesaler. Nevertheless, it is required to monitor transaction records continuously and to make an effort to prevent any fraud, because the fraud not only disturbs the fair trade order of the market but also reduces the credibility of the market rapidly. Applying data mining to such an environment is very useful since it can discover unknown fraud patterns or features from a large volume of transaction data properly. The objective of this research is to empirically investigate the factors necessary to detect fraud transactions in an agricultural product wholesale market by developing a data mining based fraud detection model. One of major frauds is the phantom transaction, which is a colluding transaction by the seller(auction company or forwarder) and buyer(intermediary wholesaler) to commit the fraud transaction. They pretend to fulfill the transaction by recording false data in the online transaction processing system without actually selling products, and the seller receives money from the buyer. This leads to the overstatement of sales performance and illegal money transfers, which reduces the credibility of market. This paper reviews the environment of wholesale market such as types of transactions, roles of participants of the market, and various types and characteristics of frauds, and introduces the whole process of developing the phantom transaction detection model. The process consists of the following 4 modules: (1) Data cleaning and standardization (2) Statistical data analysis such as distribution and correlation analysis, (3) Construction of classification model using decision-tree induction approach, (4) Verification of the model in terms of hit ratio. We collected real data from 6 associations of agricultural producers in metropolitan markets. Final model with a decision-tree induction approach revealed that monthly average trading price of item offered by forwarders is a key variable in detecting the phantom transaction. The verification procedure also confirmed the suitability of the results. However, even though the performance of the results of this research is satisfactory, sensitive issues are still remained for improving classification accuracy and conciseness of rules. One such issue is the robustness of data mining model. Data mining is very much data-oriented, so data mining models tend to be very sensitive to changes of data or situations. Thus, it is evident that this non-robustness of data mining model requires continuous remodeling as data or situation changes. We hope that this paper suggest valuable guideline to organizations and companies that consi
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 연구에서는 데이터마이닝의 의사결정나무를 이용하여 실제 발생하지 않은 거래를 실물 없이 거래한 것처럼 조작하여 대금을 정산하는 행위인 허위거래를 탐지하는 모형을 제시하였다. 이를 위해 실제 농산물 도매시장의 데이터를 수집하여 데이터의 특성을 분석하였고, 모형을 통해 허위거래와 정상거래를 분류하는 패턴을 도출한 후, 시험용 데이터를 이용하여 모형을 평가하는 단계를 거쳐 결과의 적합성을 확인하였다(Lee, 2013).
산업재해 발생 시 심사 과정과 급여지급 후에 부정수급으로 판명된 산재 청구 건을 데이터마이닝을 통해서 분석하여 부정수급의 유형을 발견한 연구도 시도되었는데. 이 연구에서는 총 61,536명의 최초요양 신청을 한 산재근로자 자료를 대상으로 다양한 데이터마이닝 기법을 오분류 비용 측면에서 비교ㆍ평가하였다(Ham and Hong, 2008). 김태형과 김영화(Kim and Kim, 2013)는 여신기관을 대상으로 신용 및 카드 대출심사에 데이터마이닝을 적용하여 총 9가지의 분류모형을 구축하고 비교하였다.
반면에 ‘허위거래’의 경우는 이미 부정이 발생한 이후 정산자료가 입력되기 때문에 데이터 내에서는 부정거래를 탐지할 수가 없다. 본 연구에서는 데이터마이닝의 분류모형(classification)의 일환으로 거래부정 예측모형을 구축하고자 하였다. 이를 위해서는 데이터에 ‘부정’ 또는 ‘정상’ 거래를 구분하여 주는 목표변수가 반드시 필요하나 ‘정산가 임의정정’과 ‘기록상장’의 경우 목표변수의 수집이 가능하지 않았기 때문에 목표변수의 수집이 가능했던 ‘허위거래’만을 대상으로 실증분석을 수행하였다.
제안 방법
3V(Volume, Variety, Velocity)로 정의되는 빅데이터는 무엇보다도 멀티미디어 콘텐츠, SNS를 통한 메시지 등과 같이 비정형 데이터의 종류가 다양화되고 양이 기하급수적으로 증가하고 있는 사회적ㆍ기술적 환경에 부합하여 탄생한 개념이라 해도 과언이 아니다(McKinsey, 2011; Stubbs, 2014). 많은 기업이나 기관들에서는 불확실한 경영 및 경제환경 하에서 전략적 우위를 선점하기 위해 빅데이터를 수집하고 분석하여 효과적으로 가치를 창출하고자 한다. 그러나 빅데이터의 개념이 소개되기 이전에도 다양한 산업 군에서는 이미 엄청난 양의 정형 데이터가 쌓여 왔으나 이에 대한 충분한 분석을 통한 활용 조차도 초보단계 수준에 불과한 것이 현실이다.
본 연구에서는 데이터마이닝의 의사결정나무를 이용하여 실제 발생하지 않은 거래를 실물 없이 거래한 것처럼 조작하여 대금을 정산하는 행위인 허위거래를 탐지하는 모형을 제시하였다. 이를 위해 실제 농산물 도매시장의 데이터를 수집하여 데이터의 특성을 분석하였고, 모형을 통해 허위거래와 정상거래를 분류하는 패턴을 도출한 후, 시험용 데이터를 이용하여 모형을 평가하는 단계를 거쳐 결과의 적합성을 확인하였다(Lee, 2013).
이를 위해서는 데이터에 ‘부정’ 또는 ‘정상’ 거래를 구분하여 주는 목표변수가 반드시 필요하나 ‘정산가 임의정정’과 ‘기록상장’의 경우 목표변수의 수집이 가능하지 않았기 때문에 목표변수의 수집이 가능했던 ‘허위거래’만을 대상으로 실증분석을 수행하였다.
실증분석에서는 수입자유화로 인해 최근 거래 물량이 급증하고 있는 ‘수입과일’ 품목을 대상으로 ‘판매원표 허위작성’ 거래에 대한 분석을 수행하였다.
의사결정나무는 분류나 예측에 변별력이 낮은 변수들을 모형 구축 시 자체적으로 배제시키므로 기초 통계분석에서 살펴 본 20개의 모든 변수들을 입력변수로 정하였다. 그러나 거래 건수에 있어서는 허위거래의 수(171건)가 전체 데이터(25,171)에서 차지하는 비율이 0.
의사결정나무는 분류나 예측에 변별력이 낮은 변수들을 모형 구축 시 자체적으로 배제시키므로 기초 통계분석에서 살펴 본 20개의 모든 변수들을 입력변수로 정하였다. 그러나 거래 건수에 있어서는 허위거래의 수(171건)가 전체 데이터(25,171)에서 차지하는 비율이 0.68%에 불과해 허위거래의 패턴을 도출하기가 어렵다고 판단하여 허위거래의 수와 정상거래의 수의 비율을 각각 25%와 75%로 결정하였다. 따라서 최종 모델링에 사용한 데이터의 수는 허위거래 171건과 정상거래 500건으로 총 671건이며, 정상거래 25,000건 중 임의 표본 추출을 통해 500건의 정상거래를 선정하였다.
특히 [Table 3]의 변수 평균 값 비교표에서 정상거래 대비 허위거래 평균 값의 비율 각각 203%와 207%로 상대적으로 다른 변수들에 비해 비율이 크지 않았던 ‘경락가(Auction Price)’와 ‘(월 품목) 거래금액 평균(ATA)’이 ‘(월 품목 출하자) 거래금액 평균 (ATAP)’과 조합하여 허위거래를 구분하는 주요 규칙을 구성하였다.
또한 예측모형의 구축과 모형의 예측력 시험을 위해 전체 데이터를 [Table 5]와 같이 모형 추정용(training) 데이터와 모형 시험용(test) 데이터로 구성하였다. 이와 더불어 임의 표본 추출과정에서 발생하는 데이터의 치우침(bias)을 예방하고, 결과의 일반화를 도모하기 위해 위의 방법을 3회 반복하여 3개의 데이터 세트를 만들었다.
모형 구축 시 모형의 과잉맞춤(overfit)으로 인한 예측력 저하를 방지하기 위해 마디의 최저 순수도 및 최소 관측 개수를 이용한 가지치기(pruning) 방식을 택하였다. 이 값들은 모형 구축 전에 미리 정하는데, 마디의 최저 순수도는 마디를 구성하는 사례들에서 한 종류의 부류 값에 속한 사례의 비율이 사전에 정의한 최저 순수도보다 커지면 나무의 확장을 중지하는 방식이며, 최소 관측개수는 끝마디에 포함된 사례의 개수가 정의된 값 이하가 되면 확장을 중지하는 방식이다.
따라서 최저 순수도의 값을 낮게 정의할수록, 또한 최소 관측개수의 값을 크게 할수록 나무의 구조는 단순화된다(Chang, 2005). 본 연구에서는 위의 두 가지 중 먼저 만족되는 기준에 도달하면 나무의 확장을 멈추었으며, 최종적으로 [Table 6]과 같이 4개의 주요규칙(룰)을 도출하였다.
이를 위해 실제 농산물 도매시장의 데이터를 수집하여 표준화와 파생변수 생성 등의 데이터 정제 및 보강 작업을 선 수행하였으며, 기초 통계분석 à 예측모델링 à 모형평가의 단계를 거쳐 예측모형을 구축하고 결과의 적합성을 확인하였다.
일반적으로 분류작업에 사용하는 데이터마이닝 기법으로는 ‘의사결정나무’, ‘신경망’, ‘회귀분석’ 등이 있는데, 본 연구에서는 분류나 예측의 근거를 알수 있고, 어떠한 속성(변수)들이 각각의 부류 값에 결정적인 영향을 주는가를 쉽게 파악하고자 하는 현장의 요구를 수렴하여 ‘의사결정나무’를 데이터마이닝 기법으로 선정하였다.
대상 데이터
6개 농산물 도매시장법인으로부터 20xx년 1월부터 32개월 간의 청과거래 정산데이터 42,313,819건을 수집하여 데이터마트를 구축하였다. 이 데이터는 총 34개의 변수로 구성되어 있었으나 동일한 값이 기록되어 있는 변수, 빈 값을 다수 포함하고 있는 변수, 개인정보를 포함하고 있는 변수, 단순히 거래레코드를 식별하기 위한 변수 등을 제외한 후, [Table 1]과 같이 총 16개의 변수를 선정하였다.
또한 경매구분 값이 ‘전자경매’, ‘비상장거래’, ‘정가ㆍ수의매매’ 중에서 ‘정가ㆍ수의매매’이고, 품목코드가 수입과일1)*을 의미하는 품목들을 선정하였으며, 거래일은 최근 1년으로 한정하였다.
실증분석에 사용된 변수는 파생변수를 포함한 31개 중 20개와 목표변수 등으로 총 21개이다. [Table 2]에서 선정했던 최초 입력변수 중에서‘경매구분’, ‘품목코드’와 같이 분석의 범위를 정의하는데 사용했던 변수들과 ‘거래수량’, ‘거래단량’과 같이 파생변수를 생성하는데 사용했던 최초 입력변수 11개는 더 이상 자체적인 의미가 없다고 판단하여 제외하였다.
68%에 불과해 허위거래의 패턴을 도출하기가 어렵다고 판단하여 허위거래의 수와 정상거래의 수의 비율을 각각 25%와 75%로 결정하였다. 따라서 최종 모델링에 사용한 데이터의 수는 허위거래 171건과 정상거래 500건으로 총 671건이며, 정상거래 25,000건 중 임의 표본 추출을 통해 500건의 정상거래를 선정하였다. 또한 예측모형의 구축과 모형의 예측력 시험을 위해 전체 데이터를 [Table 5]와 같이 모형 추정용(training) 데이터와 모형 시험용(test) 데이터로 구성하였다.
따라서 최종 모델링에 사용한 데이터의 수는 허위거래 171건과 정상거래 500건으로 총 671건이며, 정상거래 25,000건 중 임의 표본 추출을 통해 500건의 정상거래를 선정하였다. 또한 예측모형의 구축과 모형의 예측력 시험을 위해 전체 데이터를 [Table 5]와 같이 모형 추정용(training) 데이터와 모형 시험용(test) 데이터로 구성하였다. 이와 더불어 임의 표본 추출과정에서 발생하는 데이터의 치우침(bias)을 예방하고, 결과의 일반화를 도모하기 위해 위의 방법을 3회 반복하여 3개의 데이터 세트를 만들었다.
6개 농산물 도매시장법인으로부터 20xx년 1월부터 32개월 간의 청과거래 정산데이터 42,313,819건을 수집하여 데이터마트를 구축하였다. 이 데이터는 총 34개의 변수로 구성되어 있었으나 동일한 값이 기록되어 있는 변수, 빈 값을 다수 포함하고 있는 변수, 개인정보를 포함하고 있는 변수, 단순히 거래레코드를 식별하기 위한 변수 등을 제외한 후, [Table 1]과 같이 총 16개의 변수를 선정하였다.
데이터처리
기초 통계분석은 데이터에 대한 이해도를 높이고, 허위 및 정상 거래에 영향을 미치는 변수들의 변별력을 파악하고자 하는 목적으로, 개별변수들의 평균 및 표준편차를 비교한 후 변수 간의 상관관계 분석하는 단계로 수행하였다. 이 단계를 통해 파악된 변수들은 향후 허위거래 예측 모델링에 주요한 역할을 할 것으로 예견하였으며, 실제로 예측모델의 신뢰도 및 설명력 제고에 도움이 되었다.
실증분석은 ‘기초통계분석’ à ‘예측모델링’ à ‘모형평가’ 순으로 진행하였으며, SPSS Modeler를 사용하였다.
성능/효과
본 연구를 위해 수집한 데이터도 6개의 도매시장법인이 독립적으로 시스템을 운영하여 기록함에 따라 데이터 레벨에 의한 의미충돌이 발견되었으며, 주로 유사한 객체가 다른 데이터 타입 혹은 데이터 포맷 형식으로 표현됨으로써 발생하는 ‘데이터 표현’ 충돌이 다수였다.
최종적으로 25,171건의 레코드가 추출되었으며, 171건을 ‘허위거래’로 나머지 25,000건을 ‘정상거래’로 분류하였다.
이 표에 따르면 ‘(월 품목) 거래물량 평균(ATV)’과 ‘(월 품목 출하자) 1단위 거래금액의 평균과의 편차비율(RTAP)’의 정상 거래 대비 허위거래 평균 값의 비율은 각각 99%, 101%로 차이가 거의 없는 것으로 나타났다.
그러나 정상거래 대비 허위거래 평균 값의 비율이 1,194%인 ‘(월 품목 출하자) 거래금액 평균(ATAP)’은 허위거래의 값들이 정상거래의 최상위 값보다 우측에 넓게 분포함으로써 정상거래에 비해 평균 값과 표준편차가 확연히 크다는 것을 보여준다.
즉, 상호의존도가 높은 변수들이 예측모형에 함께 포함될 경우 모형의 예측력 및 설명력을 저하시키는 문제가 발생하기 때문에 정상거래 대비 허위거래 평균 값 비율이 각각 1,180%, 1,115%로 큰 변별력을 지녔던 ‘A: 거래금액(Trade Amount)’, ‘I: (월 품목 중도매인) 거래금액 평균(ATAW)’ 등은 ‘F: (월 품목 출하자) 거래금액 평균(ATAP)’과 함께 최종모형에 포함되지 않을 확률이 높다고 볼 수 있다.
결과적으로 최종 모형에서는 기초 통계분석에서 예측된 바와 같이 ‘(월 품목 출하자) 거래금액 평균(ATAP)’이 허위거래와 정상거래를 구분하는 주요 변수로 선정되었다.
정상거래의 패턴에 있어서도 정상거래 대비 허위거래 평균 값의 비율 각각 99%와 96%로 변별력이 없다고 추정했던 ‘(월 품목) 거래물량 평균(ATV)’과 ‘(월 품목 중도매인) 1단위 거래금액 평균(AUTAW)’이 규칙에 포함되어 있음을 알 수 있다.
예를 들어, 데이터 세트 2의 경우 100건의 정상거래 중 99건을 정상거래로, 34건의 허위거래 중 27건을 허위거래로 정분류한 것으로 나타났다. 결과적으로 3개의 데이터 세트에 대한 모형의 정상거래 정분류율은 평균 99%, 허위거래의 정분류율은 평균 79%로 나타났다.
31%에 해당하는 총 119건의 허위 의심거래를 추출하였고 이것을 월별ㆍ품목별로 정리한 것이다. 월별로는 2월과 4월에 각각 34건과 30건으로 가장 많은 허위의심거래가 탐지되었으며, 품목별로는 오렌지 거래가 86건, 포도 거래가 20건으로 오렌지와 포도가 전체 의심거래의 89%를 차지했다. 이 같은 결과로 토대로 본 연구의 기여도는 모든 거래를 확인하는 것보다는 선택과 집중 차원에서 허위의심거래 군을 추출하고, 이 거래 군에 대해 심도있는 검증 및 확인 작업을 수행하는 것이 보다 효율적인 방법이라는 것을 실증분석을 통해 제시하였다는 데에 있다.
월별로는 2월과 4월에 각각 34건과 30건으로 가장 많은 허위의심거래가 탐지되었으며, 품목별로는 오렌지 거래가 86건, 포도 거래가 20건으로 오렌지와 포도가 전체 의심거래의 89%를 차지했다. 이 같은 결과로 토대로 본 연구의 기여도는 모든 거래를 확인하는 것보다는 선택과 집중 차원에서 허위의심거래 군을 추출하고, 이 거래 군에 대해 심도있는 검증 및 확인 작업을 수행하는 것이 보다 효율적인 방법이라는 것을 실증분석을 통해 제시하였다는 데에 있다. 향후 이러한 연구를 허위거래뿐만 아니라 낙찰부정, 경매조작 등과 같이 다양화되는 부정거래에 적용하게 되면 보다 지대한 효과를 거둘 수 있으리라 사료된다.
후속연구
이 같은 결과로 토대로 본 연구의 기여도는 모든 거래를 확인하는 것보다는 선택과 집중 차원에서 허위의심거래 군을 추출하고, 이 거래 군에 대해 심도있는 검증 및 확인 작업을 수행하는 것이 보다 효율적인 방법이라는 것을 실증분석을 통해 제시하였다는 데에 있다. 향후 이러한 연구를 허위거래뿐만 아니라 낙찰부정, 경매조작 등과 같이 다양화되는 부정거래에 적용하게 되면 보다 지대한 효과를 거둘 수 있으리라 사료된다.
질의응답
핵심어
질문
논문에서 추출한 답변
농산물 도매시장의 거래방식은 무엇을 기반으로 하는가?
농산물 도매시장의 거래방식은 ‘거래 총수 최소화의 원리’를 기반으로 한다. 이것은 농산물 거래를 생산자와 소비자가 직접 거래할 때의 총수보다 생산자와 소비자 사이에 도매시장이 개입하여 거래를 할 경우 거래하는 총수가 줄어드는 원리로 거래비용을 절감하는 효과를 기대할 수 있다.
데이터마이닝이란?
정보기술의 빠른 진화, 빅데이터의 등장, 분석기법의 고도화 등으로 인해 다량의 데이터로부터 의미있는 정보를 추출하는 데이터마이닝을 다양한 영역에 활용하고자 하는 시도들이 활발히 진행되고 있다. 그 중의 한 분야가 농산물 유통영역인데, 농산물에 대한 지속적인 수요 증가와 전자경매의 활성화 등으로 수도권 농산물 도매시장에서만도 연간 수천만건 이상의 거래가 이루어 진다.
부정탐지시스템의 필요가 절실한 이유는?
농산물에 대한 지속적인 수요 증가, 품목의 다각화, 경매의 전자화 등으로 인해 수도권 농산물도매시장에서만도 하루에도 엄청난 양의 거래가 이루어 지고 있다. 그러나 급속한 거래량 증가와 더불어 과거로부터 관행적으로 이루어지고 있는 부정거래도 함께 증가하고 있는데, 거래참가자들 사이의 결탁에 의해 발생하게 되는 농산물 유통시장의 부정거래는 적발하기가 매우 어렵다. 물론 일부 부정거래는 피해자의 신고 또는 거래기록의 수작업 대조를 통해 감지할 수 있다. 하지만 부정거래의 유형이 점차 지능화되고 있는 상황에서 엄청난 양의 거래기록들을 담당부서나 담당자가 일일이 건 별로 조사하고 부정을 적발하는 것은 사실상 불가능하다. 따라서 거래투명성을 제고하고 유통비리를 구조적으로 개선하기 위한 과학적이고 자동화된 부정탐지시스템의 필요성 및 관련 연구가 어느 때보다도 절실한 상황이다.
참고문헌 (22)
Cha, K. Y., "An Application of Data-Mining Tool in Fraud Pension Payment Prediction," Communications for Statistical Applications and Methods, Vol.17, No.1(2010), 1-8.
Chang, N., "Improving the Effect of Customer Classification Models: A Pre-segmentation Approach," Information Systems Review, Vol.7, No.2(2005), 23-40.
Chang, N., S. W. Hong, and J. H. Jang, Data Mining, Daecheong, 1999.
Choi, S.-H., J.-W. Kim, K.-R. Kim, and Y. S. Lee, "A Study on the Problem and Improvement of Farm Product Structure in Korea," Journal of Franchise Management, Vol.2, No.2(2011), 70-83.
Egmarket, Distributor's Role, Available at http://egmarket.busan.go.kr/02_currency/02_01.jsp (Accessed 20 September, 2014).
Garak, Market Function, Available at http://www.garak.co.kr/gongsa/jsp/mk/marketinfo/overview.jsp (Accessed 18 August, 2014).
Ham, S. O. and J. S. Hong, "A Study on the Fraud Detection of Industrial Accident Compensation Insurance," Proceedings of 2008 KORMS Fall Conference, (2008), 342-345.
Jeong, C. S., "A Study on the Agricultural Product Market: The Case of Vegetable Products," Master's Thesis, Department of Economics, Kyung Hee University, 2000.
Kim, D. W., J. W. Song, D. S. Kim, J. H. Park, H. N. Park and Y. R. Lee, "Improving Sales Efforts of Intermediary Wholesaler in Garak Market," Research Report, Seoul Agro-Fisheries & Food Corporation, 2009.
Kim, T.-H and Y.-H. Kim, "A Study on the Analysis of Customer Loan for the Credit Finance Company Using Classification Model," Journal of the Korean Data & Information Science Society, Vol.24, No.3(2013), 411-425.
Lee, S. A., "A Study on the Fraud Detection using Data Mining: The Case of Agricultural Products Distribution Market," Master's Thesis, College of Business Administration, University of Seoul, 2013.
McKinsey Global Institute, "Big Data: The Next Frontier for Innovation, Competition, and Productivity," McKinsey and Company, 2011.
Park, J., "Real-time Data Integration using Ontology and Semantic Mediators," Asia Pacific Journal of Information Systems, Vol. 16, No.4(2006), 151-178.
Rho, B. H., J. H. Min, and G. H. Lee, Introduction to Statistics, Bobmunsa, 1998.
Seo, K. N. and S. R. Yang, "The Effect of the Electronic Auction on the Price Efficiency in the Garak Market," Korean Journal of Agricultural Management and Policy, Vol.38, No.2(2011), 175-195.
Sha, D. C., "The Legislation on the Stability of Supply and Reform of Circulation Structure on Agricultural Products," Hongik Law Review, Vol.12, No.2(2011), 167-193.
Song, Y., W. Han and W. C. Jhee, "Ensemble Size Reduction in Fraud Detection System," Proceedings of 2007 KMIS International Conference, (2007), 597-602.
Sung, T. K., N. Chang, and G. Lee, "Dynamics of Modeling in Data Mining: Interpretive Approach to Bankruptcy Prediction," Journal of Management Information Systems, Vol. 16, No.1(1999), 63-85.
Stubbs, E., Big Data, Big Innovation, Wiley, 2014.
Tam, K. Y., and M. Y. Kiang, "Managerial Applications of Neural Networks: The Case of Bankruptcy Predictions," Management Science, Vol.38, No.1(1992), 926-947.
Wi, T.-S. and S.-K. Kwon, "Transaction Practices Reform in the Wholesale Markets for Strengthening the Competition Power," Korean Journal of Food Marketing Economics, Vol.23, No.3(2006), 113-144.
Wi, T.-S. and S.-K. Kwon, "Reorganization of the Agricultural Wholesale Market," Korean Journal of Food Marketing Economics, Vol.26, No.3(2009), 75-93.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.