데이터마이닝 분야에서 연관성분석은 가장 많이 사용되고 있는 기법으로 데이터 내에 포함되어 있는 특정 항목들의 연관성을 수치화시켜 나타내는 방법이다. 기본적으로 연관성규칙은 지지도, 신뢰도, 향상도를 계산하여 연관성의 유무를 판단한다. 기존에 제시된 관련 논문에서는 관심변수의 발생유무만을 바탕으로 연관성규칙을 이용하였고, 빈번하지 않은 데이터에 대한 문제점과 순위결정함수를 통한 해결방안을 제시하였다. 하지만 실제 데이터에서는 발생이 빈번하지 않은 데이터 뿐 아니라, 발생이 많이 일어나는 데이터도 존재한다. 따라서 발생빈도를 고려한 연관성규칙이 필요하다고 생각한다. 본 논문에서는 각 케이스 내의 발생빈도를 고려한 새로운 연관성 측정 도구를 제시하였다. 또한 실제 예제를 통하여 기존의 연관성규칙과 새로운 연관성규칙의 결과를 비교해 보았다. 그 결과, 새로 제시한 연관성규칙이 기존의 연관성규칙보다 더 세밀하게 구분하는 것을 확인할 수 있었다.
데이터마이닝 분야에서 연관성분석은 가장 많이 사용되고 있는 기법으로 데이터 내에 포함되어 있는 특정 항목들의 연관성을 수치화시켜 나타내는 방법이다. 기본적으로 연관성규칙은 지지도, 신뢰도, 향상도를 계산하여 연관성의 유무를 판단한다. 기존에 제시된 관련 논문에서는 관심변수의 발생유무만을 바탕으로 연관성규칙을 이용하였고, 빈번하지 않은 데이터에 대한 문제점과 순위결정함수를 통한 해결방안을 제시하였다. 하지만 실제 데이터에서는 발생이 빈번하지 않은 데이터 뿐 아니라, 발생이 많이 일어나는 데이터도 존재한다. 따라서 발생빈도를 고려한 연관성규칙이 필요하다고 생각한다. 본 논문에서는 각 케이스 내의 발생빈도를 고려한 새로운 연관성 측정 도구를 제시하였다. 또한 실제 예제를 통하여 기존의 연관성규칙과 새로운 연관성규칙의 결과를 비교해 보았다. 그 결과, 새로 제시한 연관성규칙이 기존의 연관성규칙보다 더 세밀하게 구분하는 것을 확인할 수 있었다.
In data mining, association rule is a popular and well researched method for discovering interesting relations between variables. There are three measures for association rule, support, confidence and lift. But there are some problem in them. They don't consider the frequency of variable in case. So...
In data mining, association rule is a popular and well researched method for discovering interesting relations between variables. There are three measures for association rule, support, confidence and lift. But there are some problem in them. They don't consider the frequency of variable in case. So, we need the new association rule which consider the frequency.In this paper, we proposed the new association rule. We compared the proposed association rule with the original association rule from example data. As a result, we knew our function was better than the original function in terms of sensitivity.
In data mining, association rule is a popular and well researched method for discovering interesting relations between variables. There are three measures for association rule, support, confidence and lift. But there are some problem in them. They don't consider the frequency of variable in case. So, we need the new association rule which consider the frequency.In this paper, we proposed the new association rule. We compared the proposed association rule with the original association rule from example data. As a result, we knew our function was better than the original function in terms of sensitivity.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 논문에서는 각 케이스별 관심변수의 발생빈도를 통해 수치적인 측면을 고려한 새로운 지지도, 신뢰도, 향상도를 제안하고, 또한 실제 데이터를 통한 기존 연관성분석과 새로 제안한 연관성분석 결과의 차이를 살펴보았다. 그 결과 기존의 연관성규칙을 통해서 분별할 수 없었던 부분들을 새로 제안한 연관성규칙을 통해 분별이 가능하였으며, 순위가 뒤바뀌는 경우도 발생하였다.
먼저 지지도는 연관성규칙에서 가장 기초가 되는 측정도구로 기존의 경우 분자는 A와 B를 모두 포함한 케이스의 개수가 들어가게 되고, 유효한 케이스 당 1의 값을 가지게 된다. 여기서 한 케이스 내의 관심변수의 발생빈도를 고려한 가중치를 부여하여 기존의 문제를 해결하는 방법을 생각해 보았다. 수식 (2.
이 역시 기존의 연관성규칙을 이용해 케이스 내의 사건의 비중에 대해서는 무시하고 사건의 발생 유무만을 판단한 것을 사용하고 있다. 이 방법을 보완하기 위해 새로운 연관성규칙을 제시한다.
이런 과정을 통해 연관성분석에서 의도치 않은 데이터의 손실이 일어나게 되고, 잘못된 판단 또는 세밀한 구분을 하지 못하는 경우가 생기게 된다. 이러한 문제점을 해결하기 위해 본 논문에서는 발생빈도를 고려한 새로운 연관성규칙을 제시하였다.
케이스가 하나인 경우에 대해 생각해보자. 각 데이터의 케이스 1만을 대상으로 생각했을 때, 데이터 1의 경우 Support(A⇒B)=1이고, 데이터 2의 경우에도 Support(A⇒B)=1이다.
제안 방법
연관성규칙은 기본적으로 지지도 (support), 신뢰도 (confidence), 향상도(lift)를 평가도구로 사용하여 판단하게 된다. 각각의 경우에 따라 지지도, 신뢰도, 향상도를 구하고 임의의 최소 지지도, 최소 신뢰도, 향상도를 기준으로 연관성의 유무에 대해 평가한다.
표 4.3은 표 4.1과 표 4.2를 바탕으로 하여 기존 지지도 (support)와 새로 제시한 지지도 (Supportm), 기존 신뢰도 (confidence)와 새로 제시한 신뢰도 (Confidencem)의 상위 10개의 규칙을 정리하여 비교해 보았다.
대상 데이터
예제 데이터는 2010 한국프로야구 롯데 자이언츠 1군 선수들의 상반기 89경기의 매 경기 안타의 데이터를 이용하였다 (출처: www.giantsclub.com).
성능/효과
본 논문에서는 각 케이스별 관심변수의 발생빈도를 통해 수치적인 측면을 고려한 새로운 지지도, 신뢰도, 향상도를 제안하고, 또한 실제 데이터를 통한 기존 연관성분석과 새로 제안한 연관성분석 결과의 차이를 살펴보았다. 그 결과 기존의 연관성규칙을 통해서 분별할 수 없었던 부분들을 새로 제안한 연관성규칙을 통해 분별이 가능하였으며, 순위가 뒤바뀌는 경우도 발생하였다. 즉, 새로 제안한 연관성규칙이 기존의 연관성규칙보다 더 데이터의 상황을 세밀하게 반영하고 있다고 할 수 있다.
신뢰도의 측면에서 보더라도 ‘박종윤=>이대호’, ‘박종윤=>강민호’, ‘홍성흔=>박종윤’, ‘이대호=>박종윤’이 10위권 밖에서 10위권 내의 순위로 상승한 것을 알 수 있다.
위의 데이터를 바탕으로 각각 지지도, 신뢰도, 향상도를 계산해보면 데이터 1과 데이터 2 모두 같은 연관성 값을 가짐을 알 수 있다. 데이터 1의 경우 Support(A⇒B)=5/5=1, Confidence(A⇒B)=1/1=1, Lift(A⇒B)=1/1=1이고, 데이터 2의 경우에도 마찬가지로 Support(A⇒B)=5/5=1, Confidence(A⇒B)=1/1=1, Lift(A⇒B)=1/1=1임을 구할 수 있다.
1의 데이터를 적용시켜 보면, 데이터 1의 경우에는 Confidencem (A⇒B)=(3/4)/(3/2)=1/2, 데이터 2의 경우에는 Confidencem (A⇒B)=(3/4)/(1/2)=3/2으로 데이터 2의 경우가 신뢰도 측면에서 더 높게 나타남을 알 수 있다. 즉, 새로 제안한 신뢰도는 기존 신뢰도의 문제점을 해결할 수 있는 것으로 나타났다.
그 결과 기존의 연관성규칙을 통해서 분별할 수 없었던 부분들을 새로 제안한 연관성규칙을 통해 분별이 가능하였으며, 순위가 뒤바뀌는 경우도 발생하였다. 즉, 새로 제안한 연관성규칙이 기존의 연관성규칙보다 더 데이터의 상황을 세밀하게 반영하고 있다고 할 수 있다.
후속연구
새로 제시한 연관성규칙이 케이스 내의 발생빈도를 고려하여 계산하였으므로 기존의 연관성규칙보다 더 세밀하게 데이터의 상황을 반영하여 연관성을 나타낸다고 할 수 있다. 단, 기존의 연관성 분석에서 나타나는 향상도는 1보다 큰 것을 기준으로 사용하는데 새로 제안한 향상도의 경우에는 기준값의 필요성에 대해서는 앞으로 연구가 필요하다고 생각된다.
제시한 새로운 지지도의 계산법은 케이스 내의 관심변수의 발생빈도 누락 문제점을 해결할 수 있다. 또한 기존의 연관성규칙에서는 최소 지지도, 최소 신뢰도, 향상도에 따른 의사결정만을 할 수 있었는데, 제시한 방법을 통해서는 의사결정 뿐만 아니라 각 경우에 따라 연관성규칙의 정도를 측정하는 측도로 사용될 수 있을 것으로 예상되며, 어느 경우가 연관성이 높은지 비교도 가능하다. (3.
본 논문에서 제안된 연관성규칙을 이용하여 추가로 순위결정함수 등에도 적용시킨다면 더욱 더 유용한 연관성분석이 되리라 생각된다.
질의응답
핵심어
질문
논문에서 추출한 답변
연관성분석은 무엇인가?
데이터마이닝 분야에서 연관성분석은 가장 많이 사용되고 있는 기법으로 데이터 내에 포함되어 있는 특정 항목들의 연관성을 수치화시켜 나타내는 방법이다. 기본적으로 연관성규칙은 지지도, 신뢰도, 향상도를 계산하여 연관성의 유무를 판단한다.
본 논문에서 발생빈도를 고려한 연관성규칙이 필요하다고 생각한 이유는 무엇인가?
기본적으로 연관성규칙은 지지도, 신뢰도, 향상도를 계산하여 연관성의 유무를 판단한다. 기존에 제시된 관련 논문에서는 관심변수의 발생유무만을 바탕으로 연관성규칙을 이용하였고, 빈번하지 않은 데이터에 대한 문제점과 순위결정함수를 통한 해결방안을 제시하였다. 하지만 실제 데이터에서는 발생이 빈번하지 않은 데이터 뿐 아니라, 발생이 많이 일어나는 데이터도 존재한다. 따라서 발생빈도를 고려한 연관성규칙이 필요하다고 생각한다.
연관성규칙은 무엇을 계산하여 연관성의 유무를 판단하는가?
데이터마이닝 분야에서 연관성분석은 가장 많이 사용되고 있는 기법으로 데이터 내에 포함되어 있는 특정 항목들의 연관성을 수치화시켜 나타내는 방법이다. 기본적으로 연관성규칙은 지지도, 신뢰도, 향상도를 계산하여 연관성의 유무를 판단한다. 기존에 제시된 관련 논문에서는 관심변수의 발생유무만을 바탕으로 연관성규칙을 이용하였고, 빈번하지 않은 데이터에 대한 문제점과 순위결정함수를 통한 해결방안을 제시하였다.
Agrawal, R., Imielinski, T. and Swami, A. (1993). Mining association rules between sets of items in large databases. Proceedings of the ACM SIGMOD Conference on Management of data, 207-216.
Agrawal, R. and Srikant, R. (1994). Fast algorithms for mining association rules. Proceedings of the 20th International Conference on VLDB, 487-499.
Cho, K. H. and Park, H. C. (2007). Association rule mining by environmental data fusion. Journal of the Korean data & Information Science Society, 18, 279-287.
Park, H, C. (2008). The proposition of conditionally pure confidence in association rule mining. Journal of the Korean data & Information science Society, 19, 1141-1151.
Park, H. C. (2010a). Association rule ranking function by decreased lift influence. Journal of the Korean data & Information science Society, 21, 397-405.
Park, H. C. (2010b). Development of associative rank decision function using basic association rule thresholds. Journal of the Korean data Analysis Society, 12, 961-971.
Park, H. C. (2010c). Proposition of symmetric confidence considering relative size of item frequencies. Journal of the Korean data Analysis Society, 12, 1463-1472.
Park, H. C. (2010d). Association rule ranking fuction using conditional probability increment ratio. Journal of the Korean data & Information science Society, 21, 709-717.
Wu, X., Zhang, C. and Zhang, S. (2004). Efficient mining of both positive and negative association rules. ACM Transactions on Information Systems, 22, 381-405
※ AI-Helper는 부적절한 답변을 할 수 있습니다.