[논문]연관성 규칙 수의 추정을 위한 일반적인 비선형 회귀모형에서의 표준화 향상도 활용 방안

박희창

doi:10.7465/jkdi.2016.27.3.629

연관성 규칙 수의 추정을 위한 일반적인 비선형 회귀모형에서의 표준화 향상도 활용 방안
Generally non-linear regression model containing standardized lift for association number estimation 원문보기

Journal of the Korean Data & Information Science Society = 한국데이터정보과학회지, v.27 no.3, 2016년, pp.629 - 638

초록
AI-Helper

최근에 많이 활용되고 있는 데이터 분석을 위한 연관성 규칙 마이닝은 대용량 데이터베이스에 많이 활용되고 있는 서 두 항목간의 관계를 측도화 함으로써 두 개 이상의 항목간의 관련성을 표시하여 주는 기법이다. 연관성 규칙의 여부를 판단하기 위한 연관성 평가 기준에는 지지도, 신뢰도, 그리고 향상도 등이 있으며, 이들 세 가지 기준을 이용하여 연관성 규칙 생성 여부를 판단하게 된다. 이에 대한 기존의 연구 결과는 결정함수를 이용하는 방법과 회귀모형을 이용하는 방법으로 분류할 수 있다. 회귀모형을 이용하여 수행한 연구에는 지지도와 신뢰도에 의한 모형, 세 가지 평가 기준의 쌍에 의한 모형, 표준화 향상도를 포함한 세 가지 평가 기준의 쌍에 의한 모형, 그리고 세 가지 평가 기준 전부를 고려한 모형 등이 있다. 본 논문에서는 기존의 연구를 확장하는 의미에서 표준화 향상도를 포함한 세가지 평가 기준 전부를 고려한 비선형 회귀모형을 이용하여 연관성 규칙의 수를 추정하는 방안에 대해 강구하고자 한다. 또한 분산분석에서의 F 통계량과 수정 결정계수를 이용하여 각 모형의 유의한 정도를 비교하는 동시에 분산팽창계수에 의한 공선성 문제를 진단함으로써 가장 유용한 회귀 모형을 탐색하고자 한다.

Abstract ▼ AI-Helper

Among data mining techniques, the association rule is one of the most used in the real fields because it clearly displays the relationship between two or more items in large databases by quantifying the relationship between the items. There are three primary quality measures for association rule; support, confidence, and lift. We evaluate association rules using these measures. The approach taken in the previous literatures as to estimation of association rule number has been one of a determination function method or a regression modeling approach. In this paper, we proposed a few of non-linear regression equations useful in estimating the number of rules and also evaluated the estimated association rules using the quality measures. Furthermore we assessed their usefulness as compared to conventional regression models using the values of regression coefficients, F statistics, adjusted coefficients of determination and variation inflation factor.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서는 Park (2013b)와 Park (2014b)의 연구를 확장하는 의미에서 연관성 규칙의 수를 지지도, 신뢰도, 그리고 표준화 향상도를 독립변수로 동시에 고려한 비선형 회귀모형을 이용하여 추정하고자 하며, 이들 모형에 대해 회귀계수의 유의성과 함께 다중 공선성, 모형의 적합도, 그리고 설명력 등과 관련된 논의를 하고자 한다. 기존 연구에서와 마찬가지로 본 논문에서도 Table 2.
Park (2014b)는 향상도는 값의 변화 구간의 범위가 상당히 넓으므로 이를 그대로 회귀모형에 적용하기에는 무리가 따른다는 점에 착안하여 향상도 대신에 표준화 향상도를 적용하였으며, Park (2013b)는 3가지 기준 전부를 적용한 비선형 회귀모형을 고려한 바 있다. 본 논문에서는 Park (2013b)와 Park (2014b)의 연구를 확장하는 의미에서 지지도, 신뢰도, 그리고 표준화 향상도를 동시에 고려한 일반적인 비선형 회귀모형을 이용하여 연관성 규칙의 수를 추정하는 방안에 대해 논의하고자 한다. 특히 모의실험을 통해 얻어진 회귀분석 결과를 이용하여 기존의 모형들에 비해 제안한 모형의 유용성을 살펴보고자 한다.

제안 방법

다음으로는 기본적인 연관성 평가 기준에 의한 각 모형의 추정된 회귀계수와 회귀모형의 적합도 (F value)에 대한 유의확률, 수정된 결정계수 (Adjusted ), 그리고 분산팽창계수 (VIF)를 이용하여 각 모형 간의 비교를 통하여 본 논문에서 제안하는 모형의 유용성을 고찰하고자 한다. 이를 위해 먼저 Model 1-1과 1-2의 결과를 Table 3.
또한 평가 기준을 근거로 하여 연관성 규칙의 수를 얻기 위해 m_s, m_c, m_l을 각각 평균 0.2와 표준편차 0.05, 평균 0.5와 표준편차 0.1, 그리고 평균 2.0과 표준편차 0.1인 정규난수를 생성하였다. 이에 대한 기술통계량의 값은 Table 3.
그러나 지지도와 신뢰도에 비해 향상도는 취할 수 있는 범위가 크기 때문에 부정확한 결과를 얻을 수도 있다. 본 논문에서는 이 문제를 해결하기 위해 평가기준인 향상도 대신 표준화 향상도를 비선형 회귀모형에 적용하여 기존의 연구 결과와 비교하였다. 그 결과, 기존의 모형과 본 논문에서 제시한 모형 모두가 모형의 적합도 측면에서 유의하게 나타났으며, 기존의 모형에서는 분산팽창계수의 값이 상당히 큰 값으로 계산되어서 공선성의 문제가 심각한 반면에 본 논문에서 고려한 모형에서는 분산팽창계수의 값이 현저히 줄어들었다.
4, 0.9], 향상도는 [2.0, 5.0]의 범위 내에서 각각 균일 난수 (uniform random number)를 40개씩 생성하였으며, 이들 중에서 각 항목의 발생확률보다 큰 지지도는 제거한 후 최종 36개에 대한 기본적인 통계량을 구하여 Table 3.1에 제시하였다.

성능/효과

본 논문에서는 이 문제를 해결하기 위해 평가기준인 향상도 대신 표준화 향상도를 비선형 회귀모형에 적용하여 기존의 연구 결과와 비교하였다. 그 결과, 기존의 모형과 본 논문에서 제시한 모형 모두가 모형의 적합도 측면에서 유의하게 나타났으며, 기존의 모형에서는 분산팽창계수의 값이 상당히 큰 값으로 계산되어서 공선성의 문제가 심각한 반면에 본 논문에서 고려한 모형에서는 분산팽창계수의 값이 현저히 줄어들었다. 또한 본 논문에서 고려한 모형에서 유의한 회귀 계수가 더 많이 나타났다.
본 논문에서 고려한 3가지 모형 Model 1-2, Model 2-2, 그리고 Model 3-2에 대해 F 통계량 값과 수정 결정계수의 값을 비교해보면 Model 3-2가 가장 크게 나타났으며, VIF 값도 3 이하로 공선성이 존재하지 않는 것으로 나타났다. 따라서 3가지 모형 중에서 Model 3-2가 가장 바람직한 것으로 나타났다.
또한 본 논문에서 고려한 모형에서 유의한 회귀 계수가 더 많이 나타났다. 본 논문에서 고려한 모형 중에서는 평가 기준과 평가 기준의 역수를 고려한 모형이 가장 유용한 것으로 나타났다.
이 예제를 통하여 본 논문에서 고려한 3가지 모형의 F값과 수정된 결정계수를 비교해보면 모든 모형이 의미가 있는 것으로 나타났으나 VIF의 값에 의해 공선성의 문제가 존재하는 것으로 나타났다. 이들 중에는 Model 3-2의 VIF 값이 16 이하로 나타났으므로 3가지 모형 중에서는 Model 3-2가 좀 더 바람직한 것으로 나타났다.

질의응답

핵심어	질문	논문에서 추출한 답변
	연관성 규칙 마이닝이란?	최근에 많이 활용되고 있는 데이터 분석을 위한 연관성 규칙 마이닝은 대용량 데이터베이스에 많이 활용되고 있는 서 두 항목간의 관계를 측도화 함으로써 두 개 이상의 항목간의 관련성을 표시하여 주는 기법이다. 연관성 규칙의 여부를 판단하기 위한 연관성 평가 기준에는 지지도, 신뢰도, 그리고 향상도 등이 있으며, 이들 세 가지 기준을 이용하여 연관성 규칙 생성 여부를 판단하게 된다.
	연관성 평가 기준에는 무엇이 있는가?	최근에 많이 활용되고 있는 데이터 분석을 위한 연관성 규칙 마이닝은 대용량 데이터베이스에 많이 활용되고 있는 서 두 항목간의 관계를 측도화 함으로써 두 개 이상의 항목간의 관련성을 표시하여 주는 기법이다. 연관성 규칙의 여부를 판단하기 위한 연관성 평가 기준에는 지지도, 신뢰도, 그리고 향상도 등이 있으며, 이들 세 가지 기준을 이용하여 연관성 규칙 생성 여부를 판단하게 된다. 이에 대한 기존의 연구 결과는 결정함수를 이용하는 방법과 회귀모형을 이용하는 방법으로 분류할 수 있다.
	연관성 규칙의 수를 적절하게 하기 위해서 필요한 과정은?	이때 평가기준을 크게 하면 원하는 규칙의 수가 나오지 않게 되고 작게 하면 필요 이상의 연관성 규칙이 생성된다. 따라서 규칙의 수를 적절하게 하기 위해서는 평가 기준값에 대해 반복적으로 조정 과정을 거쳐야 한다 (Park, 2014a). 이는 상당히 번거로운 작업이므로 보다 단순하게 규칙의 수를 결정하기 위해 지지도와 신뢰도, 그리고 향상도의 기준값 전부에 대해 비선형 회귀모형들을 적용하여 연관성 규칙의 수를 추정할 필요가 있다.

참고문헌 (22)

Agrawal, R., Imielinski, R. and Swami, A. (1993). Mining association rules between sets of items in large databases. Proceedings of the ACM SIGMOD Conference on Management of Data, Association for Computing Machinery, New York, USA.
Cho, K. H. and Park, H. C. (2013). A study of Gyungnam's social indicator survey using data mining. Journal of the Korean Data Analysis Society, 15, 2489-2497.
Geng, L. and Hamilton, H. J. (2006). Interestingness measures for data mining: A survey. ACM Computing Surveys, 38, 1-32.

상세보기
Han, G. and Jin, S. (2014). Introduction to big data and the case study of its application. Journal of the Korean Data Analysis Society, 16, 2447-2455.
Jin, D. S., Kang, C., Kim, K. K. and Choi, S. B. (2011). CRM on travel agency using association rules. Journal of the Korean Data Analysis Society, 13, 2945-2952.
Lee, C. H. and Bae, J. H. (2014). A new importance measure of association rules using information theory. Journal of the Korea Information Processing Society Transactions on Software and Data Engineering, 3, 37-42.
Lim, J., Lee, K. and Cho, Y. (2010). A study of association rule by considering the frequency. Journal of the Korean Data & Information Science Society, 21, 1061-069.
Park, H. C. (2010a). Development of associative rank decision function using basic association rule thresholds. Journal of the Korean Data Analysis Society, 12, 961-972.
Park, H. C. (2010b). Association rule ranking function by decreased lift influence. Journal of the Korean Data & Information Science Society, 21, 397-405.
Park, H. C. (2010c). Association rule ranking function using conditional probability increment ratio. Journal of the Korean Data & Information Science Society, 21, 709-717.
Park, H. C. (2010d). Association rule ranking function using standardized lift. Journal of the Korean Data Analysis Society, 12, 2661-2670.
Park, H. C. (2011a). Proposition of negatively pure association rule threshold. Journal of the Korean Data & Information Science Society, 22, 179-188.
Park, H. C. (2011b). The proposition of attributably pure confidence in association rule mining. Journal of the Korean Data & Information Science Society, 22, 235-243.
Park, H. C. (2013a). A study on comparison of non-linear regression model for decision of association rule numbers. Journal of the Korean Data Analysis Society, 15, 125-132.
Park, H. C. (2013b). Non-linear regression model considering all association thresholds for decision of association rule numbers. Journal of the Korean Data & Information Science Society, 24, 267-275.

원문보기 상세보기
Park, H. C. (2014a). Comparison of confidence measures useful for classification model building. Journal of the Korean Data & Information Science Society, 25, 1-7.

원문보기 상세보기
Park, H. C. (2014b). Development of regression models by standardized lift for association rule number estimation. Journal of the Korean Data Analysis Society, 16, 2447-2455.
Park, H. C. (2015). A study on the ordering of PIM family similarity measures without marginal probability. Journal of the Korean Data & Information Science Society, 26, 367-376.

원문보기 상세보기
Silberschatz, A. and Tuzhilin, A. (1996). What makes patterns interesting in knowledge discovery systems. IEEE Transactions on Knowledge Data Engineering, 8, 970-974.

상세보기
Tan, P. N., Kumar, V. and Srivastava, J. (2002). Selecting the right interestingness measure for association patterns. Proceedings of the Eighth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, Association for Computing Machinery, New York, USA.
Wu, X., Zhang, C. and Zhang, S. (2004). Efficient mining of both positive and negative association rules. ACM Transactions on Information Systems, 22, 381-405.

상세보기
Yi, W., Lu, M. and Liu, Z. (2011). Regression analysis in the number of association rules. International Journal of Automation and Computing, 8, 78-82.

상세보기

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증