[논문]발생빈도를 고려한 연관성분석 연구

임제순; 이경준; 조영석

초록
AI-Helper

데이터마이닝 분야에서 연관성분석은 가장 많이 사용되고 있는 기법으로 데이터 내에 포함되어 있는 특정 항목들의 연관성을 수치화시켜 나타내는 방법이다. 기본적으로 연관성규칙은 지지도, 신뢰도, 향상도를 계산하여 연관성의 유무를 판단한다. 기존에 제시된 관련 논문에서는 관심변수의 발생유무만을 바탕으로 연관성규칙을 이용하였고, 빈번하지 않은 데이터에 대한 문제점과 순위결정함수를 통한 해결방안을 제시하였다. 하지만 실제 데이터에서는 발생이 빈번하지 않은 데이터 뿐 아니라, 발생이 많이 일어나는 데이터도 존재한다. 따라서 발생빈도를 고려한 연관성규칙이 필요하다고 생각한다. 본 논문에서는 각 케이스 내의 발생빈도를 고려한 새로운 연관성 측정 도구를 제시하였다. 또한 실제 예제를 통하여 기존의 연관성규칙과 새로운 연관성규칙의 결과를 비교해 보았다. 그 결과, 새로 제시한 연관성규칙이 기존의 연관성규칙보다 더 세밀하게 구분하는 것을 확인할 수 있었다.

Abstract ▼ AI-Helper

In data mining, association rule is a popular and well researched method for discovering interesting relations between variables. There are three measures for association rule, support, confidence and lift. But there are some problem in them. They don't consider the frequency of variable in case. So...

In data mining, association rule is a popular and well researched method for discovering interesting relations between variables. There are three measures for association rule, support, confidence and lift. But there are some problem in them. They don't consider the frequency of variable in case. So, we need the new association rule which consider the frequency.In this paper, we proposed the new association rule. We compared the proposed association rule with the original association rule from example data. As a result, we knew our function was better than the original function in terms of sensitivity.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서는 각 케이스별 관심변수의 발생빈도를 통해 수치적인 측면을 고려한 새로운 지지도, 신뢰도, 향상도를 제안하고, 또한 실제 데이터를 통한 기존 연관성분석과 새로 제안한 연관성분석 결과의 차이를 살펴보았다. 그 결과 기존의 연관성규칙을 통해서 분별할 수 없었던 부분들을 새로 제안한 연관성규칙을 통해 분별이 가능하였으며, 순위가 뒤바뀌는 경우도 발생하였다.
먼저 지지도는 연관성규칙에서 가장 기초가 되는 측정도구로 기존의 경우 분자는 A와 B를 모두 포함한 케이스의 개수가 들어가게 되고, 유효한 케이스 당 1의 값을 가지게 된다. 여기서 한 케이스 내의 관심변수의 발생빈도를 고려한 가중치를 부여하여 기존의 문제를 해결하는 방법을 생각해 보았다. 수식 (2.
이 역시 기존의 연관성규칙을 이용해 케이스 내의 사건의 비중에 대해서는 무시하고 사건의 발생 유무만을 판단한 것을 사용하고 있다. 이 방법을 보완하기 위해 새로운 연관성규칙을 제시한다.
이런 과정을 통해 연관성분석에서 의도치 않은 데이터의 손실이 일어나게 되고, 잘못된 판단 또는 세밀한 구분을 하지 못하는 경우가 생기게 된다. 이러한 문제점을 해결하기 위해 본 논문에서는 발생빈도를 고려한 새로운 연관성규칙을 제시하였다.
케이스가 하나인 경우에 대해 생각해보자. 각 데이터의 케이스 1만을 대상으로 생각했을 때, 데이터 1의 경우 Support(A⇒B)=1이고, 데이터 2의 경우에도 Support(A⇒B)=1이다.

제안 방법

연관성규칙은 기본적으로 지지도 (support), 신뢰도 (confidence), 향상도(lift)를 평가도구로 사용하여 판단하게 된다. 각각의 경우에 따라 지지도, 신뢰도, 향상도를 구하고 임의의 최소 지지도, 최소 신뢰도, 향상도를 기준으로 연관성의 유무에 대해 평가한다.
표 4.3은 표 4.1과 표 4.2를 바탕으로 하여 기존 지지도 (support)와 새로 제시한 지지도 (Support_m), 기존 신뢰도 (confidence)와 새로 제시한 신뢰도 (Confidence_m)의 상위 10개의 규칙을 정리하여 비교해 보았다.

대상 데이터

예제 데이터는 2010 한국프로야구 롯데 자이언츠 1군 선수들의 상반기 89경기의 매 경기 안타의 데이터를 이용하였다 (출처: www.giantsclub.com).

성능/효과

본 논문에서는 각 케이스별 관심변수의 발생빈도를 통해 수치적인 측면을 고려한 새로운 지지도, 신뢰도, 향상도를 제안하고, 또한 실제 데이터를 통한 기존 연관성분석과 새로 제안한 연관성분석 결과의 차이를 살펴보았다. 그 결과 기존의 연관성규칙을 통해서 분별할 수 없었던 부분들을 새로 제안한 연관성규칙을 통해 분별이 가능하였으며, 순위가 뒤바뀌는 경우도 발생하였다. 즉, 새로 제안한 연관성규칙이 기존의 연관성규칙보다 더 데이터의 상황을 세밀하게 반영하고 있다고 할 수 있다.
신뢰도의 측면에서 보더라도 ‘박종윤=>이대호’, ‘박종윤=>강민호’, ‘홍성흔=>박종윤’, ‘이대호=>박종윤’이 10위권 밖에서 10위권 내의 순위로 상승한 것을 알 수 있다.
위의 데이터를 바탕으로 각각 지지도, 신뢰도, 향상도를 계산해보면 데이터 1과 데이터 2 모두 같은 연관성 값을 가짐을 알 수 있다. 데이터 1의 경우 Support(A⇒B)=5/5=1, Confidence(A⇒B)=1/1=1, Lift(A⇒B)=1/1=1이고, 데이터 2의 경우에도 마찬가지로 Support(A⇒B)=5/5=1, Confidence(A⇒B)=1/1=1, Lift(A⇒B)=1/1=1임을 구할 수 있다.
1의 데이터를 적용시켜 보면, 데이터 1의 경우에는 Confidence_m (A⇒B)=(3/4)/(3/2)=1/2, 데이터 2의 경우에는 Confidence_m (A⇒B)=(3/4)/(1/2)=3/2으로 데이터 2의 경우가 신뢰도 측면에서 더 높게 나타남을 알 수 있다. 즉, 새로 제안한 신뢰도는 기존 신뢰도의 문제점을 해결할 수 있는 것으로 나타났다.
그 결과 기존의 연관성규칙을 통해서 분별할 수 없었던 부분들을 새로 제안한 연관성규칙을 통해 분별이 가능하였으며, 순위가 뒤바뀌는 경우도 발생하였다. 즉, 새로 제안한 연관성규칙이 기존의 연관성규칙보다 더 데이터의 상황을 세밀하게 반영하고 있다고 할 수 있다.

후속연구

새로 제시한 연관성규칙이 케이스 내의 발생빈도를 고려하여 계산하였으므로 기존의 연관성규칙보다 더 세밀하게 데이터의 상황을 반영하여 연관성을 나타낸다고 할 수 있다. 단, 기존의 연관성 분석에서 나타나는 향상도는 1보다 큰 것을 기준으로 사용하는데 새로 제안한 향상도의 경우에는 기준값의 필요성에 대해서는 앞으로 연구가 필요하다고 생각된다.
제시한 새로운 지지도의 계산법은 케이스 내의 관심변수의 발생빈도 누락 문제점을 해결할 수 있다. 또한 기존의 연관성규칙에서는 최소 지지도, 최소 신뢰도, 향상도에 따른 의사결정만을 할 수 있었는데, 제시한 방법을 통해서는 의사결정 뿐만 아니라 각 경우에 따라 연관성규칙의 정도를 측정하는 측도로 사용될 수 있을 것으로 예상되며, 어느 경우가 연관성이 높은지 비교도 가능하다. (3.
본 논문에서 제안된 연관성규칙을 이용하여 추가로 순위결정함수 등에도 적용시킨다면 더욱 더 유용한 연관성분석이 되리라 생각된다.

질의응답

핵심어	질문	논문에서 추출한 답변
	연관성분석은 무엇인가?	데이터마이닝 분야에서 연관성분석은 가장 많이 사용되고 있는 기법으로 데이터 내에 포함되어 있는 특정 항목들의 연관성을 수치화시켜 나타내는 방법이다. 기본적으로 연관성규칙은 지지도, 신뢰도, 향상도를 계산하여 연관성의 유무를 판단한다.
	본 논문에서 발생빈도를 고려한 연관성규칙이 필요하다고 생각한 이유는 무엇인가?	기본적으로 연관성규칙은 지지도, 신뢰도, 향상도를 계산하여 연관성의 유무를 판단한다. 기존에 제시된 관련 논문에서는 관심변수의 발생유무만을 바탕으로 연관성규칙을 이용하였고, 빈번하지 않은 데이터에 대한 문제점과 순위결정함수를 통한 해결방안을 제시하였다. 하지만 실제 데이터에서는 발생이 빈번하지 않은 데이터 뿐 아니라, 발생이 많이 일어나는 데이터도 존재한다. 따라서 발생빈도를 고려한 연관성규칙이 필요하다고 생각한다.
	연관성규칙은 무엇을 계산하여 연관성의 유무를 판단하는가?	데이터마이닝 분야에서 연관성분석은 가장 많이 사용되고 있는 기법으로 데이터 내에 포함되어 있는 특정 항목들의 연관성을 수치화시켜 나타내는 방법이다. 기본적으로 연관성규칙은 지지도, 신뢰도, 향상도를 계산하여 연관성의 유무를 판단한다. 기존에 제시된 관련 논문에서는 관심변수의 발생유무만을 바탕으로 연관성규칙을 이용하였고, 빈번하지 않은 데이터에 대한 문제점과 순위결정함수를 통한 해결방안을 제시하였다.

참고문헌 (10)

강현철, 한상태, 최종후, 이성건, 김은석, 엄익현, 김미경 (2006). , 자유아카데미, 경기도.
Agrawal, R., Imielinski, T. and Swami, A. (1993). Mining association rules between sets of items in large databases. Proceedings of the ACM SIGMOD Conference on Management of data, 207-216.
Agrawal, R. and Srikant, R. (1994). Fast algorithms for mining association rules. Proceedings of the 20th International Conference on VLDB, 487-499.
Cho, K. H. and Park, H. C. (2007). Association rule mining by environmental data fusion. Journal of the Korean data & Information Science Society, 18, 279-287.

원문보기 상세보기
Park, H, C. (2008). The proposition of conditionally pure confidence in association rule mining. Journal of the Korean data & Information science Society, 19, 1141-1151.

원문보기 상세보기
Park, H. C. (2010a). Association rule ranking function by decreased lift influence. Journal of the Korean data & Information science Society, 21, 397-405.

원문보기 상세보기
Park, H. C. (2010b). Development of associative rank decision function using basic association rule thresholds. Journal of the Korean data Analysis Society, 12, 961-971.

상세보기
Park, H. C. (2010c). Proposition of symmetric confidence considering relative size of item frequencies. Journal of the Korean data Analysis Society, 12, 1463-1472.

상세보기
Park, H. C. (2010d). Association rule ranking fuction using conditional probability increment ratio. Journal of the Korean data & Information science Society, 21, 709-717.

원문보기 상세보기
Wu, X., Zhang, C. and Zhang, S. (2004). Efficient mining of both positive and negative association rules. ACM Transactions on Information Systems, 22, 381-405

상세보기

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

발생빈도를 고려한 연관성분석 연구
A study of association rule by considering the frequency 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

성능/효과

후속연구

질의응답

참고문헌 (10)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

연관된 기능

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

발생빈도를 고려한 연관성분석 연구 A study of association rule by considering the frequency 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

성능/효과

후속연구

질의응답

참고문헌 (10)

이 논문을 인용한 문헌

저자의 다른 논문 :

이경준 (10) 조영석 (27)

관련 콘텐츠

원문 보기

원문 URL 링크

연관된 기능

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

발생빈도를 고려한 연관성분석 연구
A study of association rule by considering the frequency 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper