[논문]복수 샘플링과 트리밍을 통한 고품질 연관규칙 추출법

황원태; 김동승

문제 정의

또한 다단계샘플링방식을 적용해 실행시간을 더욱 단축시킬 수 였을 것이다. 또한 복수 샘플링방식과 다단계샘플링방식의 알고리즘을 혼합하여 샘플링 기반의 연관규칙 마이닝 알고리즘의 정확도와 실행속도 모두를 개선시키기 위한 연구를 계획하고 있다.
이때 두번째 단계는 비교적 간단하고 계산비용이 덜 드는 과정으로, 연관 규칙 추 堇에 관한 대부분의 연구는 첫번째 단계인 빈발 항목집합을 효 율적으로 찾는 과정에 집중되고 있다. 본 논문 또한 빈발 항목 집합을 신속하게 찾는 방법으로 샘플링 기반의 알고리즘을 제 안한다..
데이터베이스내의 모든 빈발항목집합을 찾는 문제에 있어서 이러한 알고리즘은 유용하지 않을 수도 있다, 실제로 실험을 통해 FAST 알고리즘이 빈발 2-항목집합에서는 정확도가 떨어진 다는 것욜 확인하였다. 이러한 빈발 2-항목집합이상의 항목집 합에 대한 정확도를 개선시키기 위해 본 논문에서는 복수 샘 플링 알고리즘을 제안하였다. 현재 이 알고리즘믄 구현이 진행 되고 실험을 통해 그 유효성을 검증하고자 한다.
이에 따라, 샘플링기반의 알고리즘은 실행시간과 정확두간의 trade-off가 존재한다, 이에 대해 최근 Chen믄 실행시갼과 정확도의 상관관계에서 이전의 샘플링 기 반의 연관 규칙 추출 알고리즘들 보다 좋은 정확도를 보이는 2 단계 샘플링 FAST 알고리즘[기을 제안하였다. 하지만 이전연구에서 보고한 바와 같이 실험믈 통해 FAST 알고리즘이 빈발 1-항목 집합에 대해서는 정확도가 높지만 2-항목 집합이상에 대해서는 정확도가 떨어지는 단점(그림 1)이 있음을 알아냈고 21것을 개선하는 IFAST 알고리즘을 제시하였다[8L 본 논문은 IFASTS 더욱 개선하고자 시도된 것으로 빈발 2-항목집합이상의 항목집합에 대해서 정확도를 이전보다 높일 수 있는 복수 샘퓰링 망식의 알고리즘을 소개한다.
이러한 빈발 2-항목집합이상의 항목집 합에 대한 정확도를 개선시키기 위해 본 논문에서는 복수 샘 플링 알고리즘을 제안하였다. 현재 이 알고리즘믄 구현이 진행 되고 실험을 통해 그 유효성을 검증하고자 한다. 소개한 복수 샘플링 알고리즘을 통해 실행시간은 IFAST 알고리즘에 비해 늘어나지만 빈발 2-항목집합 이상의 항목집합에서 오류항목집 합의 수를 줄임으로써 전체적인 정확도를 향상시킬 수 있는 샘 플데이터를 얻을 것으로 기대하고 본격적인 응용에서는 명렬화 를 통한 시간 단축을 꾀할 것이다.

가설 설정

소개한 복수 샘플링 알고리즘을 통해 실행시간은 IFAST 알고리즘에 비해 늘어나지만 빈발 2-항목집합 이상의 항목집합에서 오류항목집 합의 수를 줄임으로써 전체적인 정확도를 향상시킬 수 있는 샘 플데이터를 얻을 것으로 기대하고 본격적인 응용에서는 명렬화 를 통한 시간 단축을 꾀할 것이다. 또한 다단계샘플링방식을 적용해 실행시간을 더욱 단축시킬 수 였을 것이다. 또한 복수 샘플링방식과 다단계샘플링방식의 알고리즘을 혼합하여 샘플링 기반의 연관규칙 마이닝 알고리즘의 정확도와 실행속도 모두를 개선시키기 위한 연구를 계획하고 있다.

제안 방법

이렇게 trimming 과정에서 쓸 추정데이터를 신중하게 얻어서 오류 항목집합, 즉 잘못 찾아진 항목집합의 수를 줄일 수 있다. 그 다음은 추정데이터 ((L「)', (L2t)'), Ci(i=1, …, Q)외 합집합(G UC₂…UCq)과 이질자 제거망법(trimming)을 이용해 최종샘플 %를 구한다. 끝으루 So에서 최소지지도와 최소신뢰도를 만족 하는 이전 알고리즘보다 고품질의 연관규칙을 추출하게 된다.
오류 항목집합은 전체 데이터에서는 빈발하지 않는데도 불구하고 샘플 데이터에서는 빈발한 것으로 판단되어 뽑힌 항목이다). 이에 따라, 샘플링기반의 알고리즘은 실행시간과 정확두간의 trade-off가 존재한다, 이에 대해 최근 Chen믄 실행시갼과 정확도의 상관관계에서 이전의 샘플링 기 반의 연관 규칙 추출 알고리즘들 보다 좋은 정확도를 보이는 2 단계 샘플링 FAST 알고리즘[기을 제안하였다. 하지만 이전연구에서 보고한 바와 같이 실험믈 통해 FAST 알고리즘이 빈발 1-항목 집합에 대해서는 정확도가 높지만 2-항목 집합이상에 대해서는 정확도가 떨어지는 단점(그림 1)이 있음을 알아냈고 21것을 개선하는 IFAST 알고리즘을 제시하였다[8L 본 논문은 IFASTS 더욱 개선하고자 시도된 것으로 빈발 2-항목집합이상의 항목집합에 대해서 정확도를 이전보다 높일 수 있는 복수 샘퓰링 망식의 알고리즘을 소개한다.

이론/모형

이점을 고려하여 J단계의 trimming 과정을 생각해 볼 수 있다. 다단계샘푷링 알고리즘(MultiFAST) 믄 FAST 알고리즘을 J번 적용한다. 데이터베이스의 크기를 N, 원하는 최종샘플의 크기룔 n, 전체 단계수昌 J, 단축룔을 a라 고 하면 MultiFAST의 전체 알고리즘은 표 4와 같다.

성능/효과

FAST 알고리즘과 위에서 제안된 복수 샘플링 알고리즘과 같은 trimming방식의 샘豊링 알고리즘은 trimming과정에서 얻고 자 하는 샘플의 상대적인 크기가 작을수록 전체 샘플링 시간은 더 걸린다는 것을 알 수 있다. 이점을 고려하여 J단계의 trimming 과정을 생각해 볼 수 있다.
FAST 알고리즘은 빈발 1-항목집합에 대해서는 이전 샘플링 기반의 연관규칙 추출알고리즘에 비해 정확도를 향상시켰지만 □ 이상의 빈발항독집합의 정확도에 대한 고려는 하지 않았다. 데이터베이스내의 모든 빈발항목집합을 찾는 문제에 있어서 이러한 알고리즘은 유용하지 않을 수도 있다, 실제로 실험을 통해 FAST 알고리즘이 빈발 2-항목집합에서는 정확도가 떨어진 다는 것욜 확인하였다. 이러한 빈발 2-항목집합이상의 항목집 합에 대한 정확도를 개선시키기 위해 본 논문에서는 복수 샘 플링 알고리즘을 제안하였다.
실험을 통해 샘플정도룔 m게 할수록 IFAST 알고리즘 과정 후의 샘플데이터에서 찾아진 오류 항목집합의 수가 미발견 항 목집합에 비해 상대적으로 크게 증가함을 볼 수 있었다. 오류 항독집합의 수를 줄이기 위해 복수 샘플링 알고리즘에서는 trimming과정에서 이용되는 항목들믈 결정함에 있어 복수의 샘 플세트를 이용하고 각각의 세트에서 도출된 결과률 다수결 방 식에 의해 최종적 코어셋을 찾게 되어 보다 신뢰도를 높일 것을 예상한다.

후속연구

연관규칙믄 트랜잭션(transaction) 데이터로부터 추출되며, 슈퍼마켓에서 고객들의 물건 구입패턴믈 찾는 것을 예로 들 수 있다[1L 이때 고객 한명은 하나의 트랜잭션이 되고 슈퍼마켓 의 물품昌은 항목(i拍m)이 되며 여기서 연관 규칙 마이닝은 구 입물품자료에서 물품들 간의 강한 상관성을 찾는 과정이다. 만 약 데이터베이스를 마이닝한 결과 분유를 사는 고객이 기저귀 롤 사거나 반대로 기저귀를 사는 고객이 분畀를 살 확률이 높 다는 정보를 추着해 내었다면 이점을 이용 기저귀와 분유를 가 까운 위치에 배치하여 고객편의를 돕거나, 나아가 매출신장에 이용할 수 있을 것이다. 이러한 연관 규칙 마이닝은 슈퍼마켓 뿐만 아니라 신용카드회사의 카드불법사용감지, 통신회사의 이 동전화불법사용감지, 전자상거래, 의사결정 지원 및 의료분야 등에도 활용될 수 있다.
현재 이 알고리즘믄 구현이 진행 되고 실험을 통해 그 유효성을 검증하고자 한다. 소개한 복수 샘플링 알고리즘을 통해 실행시간은 IFAST 알고리즘에 비해 늘어나지만 빈발 2-항목집합 이상의 항목집합에서 오류항목집 합의 수를 줄임으로써 전체적인 정확도를 향상시킬 수 있는 샘 플데이터를 얻을 것으로 기대하고 본격적인 응용에서는 명렬화 를 통한 시간 단축을 꾀할 것이다. 또한 다단계샘플링방식을 적용해 실행시간을 더욱 단축시킬 수 였을 것이다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

복수 샘플링과 트리밍을 통한 고품질 연관규칙 추출법
Improved Association Rule Mining by Multiple Sampling & Trimming 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

복수 샘플링과 트리밍을 통한 고품질 연관규칙 추출법 Improved Association Rule Mining by Multiple Sampling & Trimming 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

이론/모형

성능/효과

후속연구

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

복수 샘플링과 트리밍을 통한 고품질 연관규칙 추출법
Improved Association Rule Mining by Multiple Sampling & Trimming 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper