$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

복수 샘플링과 트리밍을 통한 고품질 연관규칙 추출법
Improved Association Rule Mining by Multiple Sampling & Trimming 원문보기

2005년도 한국컴퓨터종합학술대회 논문집(A), 2005 July, 2005년, pp.919 - 921  

황원태 (고려대학교 전기공학과) ,  김동승 (고려대학교 전기공학과)

초록
AI-Helper 아이콘AI-Helper

본 논문은 전체 데이터베이스에서 일부 추출된 샘플 데이터에서 빈발항목 집합을 찾는 연관규칙 마이닝 알고리즘을 기술한다. 샘플링기술을 이용하면 마이닝과정에서 필요한 데이터베이스의 접근 양을 줄이므로써 실행시간을 단축시킬 수 있다는 장점이 있지만, 전체데이터베이스를 이용한 마이닝보다 정확도가 떨어진다는 단점이 함께 존재한다. 이전의 Chen의 FAST알고리즘샘플링을 이용한 마이닝과정에서 거리오차함수를 이용한 트리밍과정을 통해 빈발 1항목집합에 대한 정확도를 개선시켰다. 이후 IFAST 알고리즘은 트리밍과정에서 빈발2-항목집합까지 고려하여 빈발2-항목집합 이상의 빈발항목집합에서도 정확도를 개선시켰다. 본 논문에서는 트리밍과정에서 사용될 추정데이터를 여러 개의 샘플데이터를 이용하여 얻으므로써 오류항목집합(false itemset)의 수를 줄이고 전체적인 정확도를 향상시키는 새로운 알고리즘을 소개한다.

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 또한 다단계샘플링방식을 적용해 실행시간을 더욱 단축시킬 수 였을 것이다. 또한 복수 샘플링방식과 다단계샘플링방식의 알고리즘을 혼합하여 샘플링 기반의 연관규칙 마이닝 알고리즘의 정확도와 실행속도 모두를 개선시키기 위한 연구를 계획하고 있다.
  • 이때 두번째 단계는 비교적 간단하고 계산비용이 덜 드는 과정으로, 연관 규칙 추 堇에 관한 대부분의 연구는 첫번째 단계인 빈발 항목집합을 효 율적으로 찾는 과정에 집중되고 있다. 본 논문 또한 빈발 항목 집합을 신속하게 찾는 방법으로 샘플링 기반의 알고리즘을 제 안한다..
  • 데이터베이스내의 모든 빈발항목집합을 찾는 문제에 있어서 이러한 알고리즘은 유용하지 않을 수도 있다, 실제로 실험을 통해 FAST 알고리즘이 빈발 2-항목집합에서는 정확도가 떨어진 다는 것욜 확인하였다. 이러한 빈발 2-항목집합이상의 항목집 합에 대한 정확도를 개선시키기 위해 본 논문에서는 복수 샘 플링 알고리즘을 제안하였다. 현재 이 알고리즘믄 구현이 진행 되고 실험을 통해 그 유효성을 검증하고자 한다.
  • 이에 따라, 샘플링기반의 알고리즘은 실행시간과 정확두간의 trade-off가 존재한다, 이에 대해 최근 Chen믄 실행시갼과 정확도의 상관관계에서 이전의 샘플링 기 반의 연관 규칙 추출 알고리즘들 보다 좋은 정확도를 보이는 2 단계 샘플링 FAST 알고리즘[기을 제안하였다. 하지만 이전연구에서 보고한 바와 같이 실험믈 통해 FAST 알고리즘이 빈발 1-항목 집합에 대해서는 정확도가 높지만 2-항목 집합이상에 대해서는 정확도가 떨어지는 단점(그림 1)이 있음을 알아냈고 21것을 개선하는 IFAST 알고리즘을 제시하였다[8L 본 논문은 IFASTS 더욱 개선하고자 시도된 것으로 빈발 2-항목집합이상의 항목집합에 대해서 정확도를 이전보다 높일 수 있는 복수 샘퓰링 망식의 알고리즘을 소개한다.
  • 이러한 빈발 2-항목집합이상의 항목집 합에 대한 정확도를 개선시키기 위해 본 논문에서는 복수 샘 플링 알고리즘을 제안하였다. 현재 이 알고리즘믄 구현이 진행 되고 실험을 통해 그 유효성을 검증하고자 한다. 소개한 복수 샘플링 알고리즘을 통해 실행시간은 IFAST 알고리즘에 비해 늘어나지만 빈발 2-항목집합 이상의 항목집합에서 오류항목집 합의 수를 줄임으로써 전체적인 정확도를 향상시킬 수 있는 샘 플데이터를 얻을 것으로 기대하고 본격적인 응용에서는 명렬화 를 통한 시간 단축을 꾀할 것이다.

가설 설정

  • 소개한 복수 샘플링 알고리즘을 통해 실행시간은 IFAST 알고리즘에 비해 늘어나지만 빈발 2-항목집합 이상의 항목집합에서 오류항목집 합의 수를 줄임으로써 전체적인 정확도를 향상시킬 수 있는 샘 플데이터를 얻을 것으로 기대하고 본격적인 응용에서는 명렬화 를 통한 시간 단축을 꾀할 것이다. 또한 다단계샘플링방식을 적용해 실행시간을 더욱 단축시킬 수 였을 것이다. 또한 복수 샘플링방식과 다단계샘플링방식의 알고리즘을 혼합하여 샘플링 기반의 연관규칙 마이닝 알고리즘의 정확도와 실행속도 모두를 개선시키기 위한 연구를 계획하고 있다.
본문요약 정보가 도움이 되었나요?
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로