$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

발생빈도를 고려한 연관성분석 연구
A study of association rule by considering the frequency 원문보기

Journal of the Korean Data & Information Science Society = 한국데이터정보과학회지, v.21 no.6, 2010년, pp.1061 - 1069  

임제순 (부산대학교 통계학과) ,  이경준 (부산대학교 통계학과) ,  조영석 (부산대학교 통계학과)

초록
AI-Helper 아이콘AI-Helper

데이터마이닝 분야에서 연관성분석은 가장 많이 사용되고 있는 기법으로 데이터 내에 포함되어 있는 특정 항목들의 연관성을 수치화시켜 나타내는 방법이다. 기본적으로 연관성규칙은 지지도, 신뢰도, 향상도를 계산하여 연관성의 유무를 판단한다. 기존에 제시된 관련 논문에서는 관심변수의 발생유무만을 바탕으로 연관성규칙을 이용하였고, 빈번하지 않은 데이터에 대한 문제점과 순위결정함수를 통한 해결방안을 제시하였다. 하지만 실제 데이터에서는 발생이 빈번하지 않은 데이터 뿐 아니라, 발생이 많이 일어나는 데이터도 존재한다. 따라서 발생빈도를 고려한 연관성규칙이 필요하다고 생각한다. 본 논문에서는 각 케이스 내의 발생빈도를 고려한 새로운 연관성 측정 도구를 제시하였다. 또한 실제 예제를 통하여 기존의 연관성규칙과 새로운 연관성규칙의 결과를 비교해 보았다. 그 결과, 새로 제시한 연관성규칙이 기존의 연관성규칙보다 더 세밀하게 구분하는 것을 확인할 수 있었다.

Abstract AI-Helper 아이콘AI-Helper

In data mining, association rule is a popular and well researched method for discovering interesting relations between variables. There are three measures for association rule, support, confidence and lift. But there are some problem in them. They don't consider the frequency of variable in case. So...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 본 논문에서는 각 케이스별 관심변수의 발생빈도를 통해 수치적인 측면을 고려한 새로운 지지도, 신뢰도, 향상도를 제안하고, 또한 실제 데이터를 통한 기존 연관성분석과 새로 제안한 연관성분석 결과의 차이를 살펴보았다. 그 결과 기존의 연관성규칙을 통해서 분별할 수 없었던 부분들을 새로 제안한 연관성규칙을 통해 분별이 가능하였으며, 순위가 뒤바뀌는 경우도 발생하였다.
  • 먼저 지지도는 연관성규칙에서 가장 기초가 되는 측정도구로 기존의 경우 분자는 A와 B를 모두 포함한 케이스의 개수가 들어가게 되고, 유효한 케이스 당 1의 값을 가지게 된다. 여기서 한 케이스 내의 관심변수의 발생빈도를 고려한 가중치를 부여하여 기존의 문제를 해결하는 방법을 생각해 보았다. 수식 (2.
  • 이 역시 기존의 연관성규칙을 이용해 케이스 내의 사건의 비중에 대해서는 무시하고 사건의 발생 유무만을 판단한 것을 사용하고 있다. 이 방법을 보완하기 위해 새로운 연관성규칙을 제시한다.
  • 이런 과정을 통해 연관성분석에서 의도치 않은 데이터의 손실이 일어나게 되고, 잘못된 판단 또는 세밀한 구분을 하지 못하는 경우가 생기게 된다. 이러한 문제점을 해결하기 위해 본 논문에서는 발생빈도를 고려한 새로운 연관성규칙을 제시하였다.
  • 케이스가 하나인 경우에 대해 생각해보자. 각 데이터의 케이스 1만을 대상으로 생각했을 때, 데이터 1의 경우 Support(A⇒B)=1이고, 데이터 2의 경우에도 Support(A⇒B)=1이다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
연관성분석은 무엇인가? 데이터마이닝 분야에서 연관성분석은 가장 많이 사용되고 있는 기법으로 데이터 내에 포함되어 있는 특정 항목들의 연관성을 수치화시켜 나타내는 방법이다. 기본적으로 연관성규칙은 지지도, 신뢰도, 향상도를 계산하여 연관성의 유무를 판단한다.
본 논문에서 발생빈도를 고려한 연관성규칙이 필요하다고 생각한 이유는 무엇인가? 기본적으로 연관성규칙은 지지도, 신뢰도, 향상도를 계산하여 연관성의 유무를 판단한다. 기존에 제시된 관련 논문에서는 관심변수의 발생유무만을 바탕으로 연관성규칙을 이용하였고, 빈번하지 않은 데이터에 대한 문제점과 순위결정함수를 통한 해결방안을 제시하였다. 하지만 실제 데이터에서는 발생이 빈번하지 않은 데이터 뿐 아니라, 발생이 많이 일어나는 데이터도 존재한다. 따라서 발생빈도를 고려한 연관성규칙이 필요하다고 생각한다.
연관성규칙은 무엇을 계산하여 연관성의 유무를 판단하는가? 데이터마이닝 분야에서 연관성분석은 가장 많이 사용되고 있는 기법으로 데이터 내에 포함되어 있는 특정 항목들의 연관성을 수치화시켜 나타내는 방법이다. 기본적으로 연관성규칙은 지지도, 신뢰도, 향상도를 계산하여 연관성의 유무를 판단한다. 기존에 제시된 관련 논문에서는 관심변수의 발생유무만을 바탕으로 연관성규칙을 이용하였고, 빈번하지 않은 데이터에 대한 문제점과 순위결정함수를 통한 해결방안을 제시하였다.
질의응답 정보가 도움이 되었나요?

참고문헌 (10)

  1. 강현철, 한상태, 최종후, 이성건, 김은석, 엄익현, 김미경 (2006). , 자유아카데미, 경기도. 

  2. Agrawal, R., Imielinski, T. and Swami, A. (1993). Mining association rules between sets of items in large databases. Proceedings of the ACM SIGMOD Conference on Management of data, 207-216. 

  3. Agrawal, R. and Srikant, R. (1994). Fast algorithms for mining association rules. Proceedings of the 20th International Conference on VLDB, 487-499. 

  4. Cho, K. H. and Park, H. C. (2007). Association rule mining by environmental data fusion. Journal of the Korean data & Information Science Society, 18, 279-287. 

  5. Park, H, C. (2008). The proposition of conditionally pure confidence in association rule mining. Journal of the Korean data & Information science Society, 19, 1141-1151. 

  6. Park, H. C. (2010a). Association rule ranking function by decreased lift influence. Journal of the Korean data & Information science Society, 21, 397-405. 

  7. Park, H. C. (2010b). Development of associative rank decision function using basic association rule thresholds. Journal of the Korean data Analysis Society, 12, 961-971. 

  8. Park, H. C. (2010c). Proposition of symmetric confidence considering relative size of item frequencies. Journal of the Korean data Analysis Society, 12, 1463-1472. 

  9. Park, H. C. (2010d). Association rule ranking fuction using conditional probability increment ratio. Journal of the Korean data & Information science Society, 21, 709-717. 

  10. Wu, X., Zhang, C. and Zhang, S. (2004). Efficient mining of both positive and negative association rules. ACM Transactions on Information Systems, 22, 381-405 

저자의 다른 논문 :

관련 콘텐츠

섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로