[논문]대량의 연관규칙에서 의미있는 패턴 추출 기법

이진용; 문현정; 우용태

문제 정의

본 논문에서는 문서에서 발견된 대량의 패턴 중에서 의미 있는 패턴을 효과적으로 발견하기 위한 텍스트 마이닝 기법을 제시하였다. 본 기법은 Agrawal 등이 제안한 R-interesting 값을 수정하여 의미 있는 패턴을 추출하기 위한 방법이다. 특정 분야에서 나타나는 패턴의 빈도수와 다론 분야에서 나타나는 패턴 빈도수의 비율에 따른 z2 값의 A 기여도와 R 값을 비교한 결과 빈도수가 같을지라도 다른 분야에 나타나는 비율이 높을수록 기여도와 R 값은 낮아졌다.
본 논문에서눈 관련된 문서끼리 자농적으로 분류하거나 대량의 문서에서 유용한 지식 정보를 정확하게 검색하기 위하어 텍스트마이닝에서 의미 있는 패턴을 추출하기 위한 방법을 제안하였다. 제안한 방법은 Agrawal 등이 제안한 R-interesting 값을 수정하여 대량의 연관규칙에서 의미 있는 패턴을 추출하기 위한 방법이다.
본 논문에서는 문서를 대상으로 연관규칙 탐사기법을 적용하여 발견된 대량의 패턴 중에서 의미 있는 패턴을 효과적으로 추출하기 위한 새로운 기법을 제시하였다. 제안한 방법은 Agrawal 등이 제안한 R-interesting 값을 이용하여 의미 있는 패턴을 추출하기 위한 텍스트마이닝 기법이다.
본 논문에서는 문서에서 발견된 대량의 패턴 중에서 의미 있는 패턴을 효과적으로 발견하기 위한 텍스트 마이닝 기법을 제시하였다. 본 기법은 Agrawal 등이 제안한 R-interesting 값을 수정하여 의미 있는 패턴을 추출하기 위한 방법이다.
그리고 전문 용어이지만 모든 분야에서 공통적으로 사용되는 전문 용어는 특정 분야를 대표하는 용어로 보기 어렵다. 본 논문에서는 이러한 용어를 특이 용어로 처리하여 연관규칙 탐사 과정에서 제외시켜 무의미한 연관규칙의 양산을 방지하여 대표 색인어를 효율적으로 추출할 수 있도록 하였다.
본 논문에서는 텍스트마이닝에서 카테고리별로 의미 있는 패턴을 효과적으로 추출하기 위한 방법을 제안하였다. 먼저, 카테고리별 패턴을 분석하기 위하여 각 카테고리별로 연관규칙을 탐사하였다.

제안 방법

-고리고 전체 문서 집합의 규칙에 대한 지지도 관측값과 전체 문서 집합에 대한 규칙의 지지도에 의해 추정된 세부 카테고리별 규칙에 대한 지지도 기대값의 비율을 계산하였다. R-interesting 값을 구하기 위해 수정된 식은 다음 식(1)과 같다.
먼저, 각 서부 분야별로 연관규칙 올 적용하여 발견된 패턴 중에서 임의의 R 값 이상인 패턴을 추출하였다. R 값이 높을 수 록 특정 분야에서 출현하는 패턴의 비율이 높으므로 의미 있는 패턴으로 추출되었다.
제안한 방법의 효율성을 검중하기 위하여 대표적인 통계 기법인 Z2 가설검정 기법과 비교 분석하였다. 먼저, 각 세부 분야별로 22에 대한 A 셀의 기여도순으로 상위 500개의 패턴을 추출하고, 일정 R 값 이상일 때, 빈도수와 R 값 순으로 상위 500개의 패턴을 추출하였다. 이때, R 값의 변화에 따라 z2와 비교 실험을 한 결과, 대부분의 분야에서 R 값이 5.
먼저, 전채 문서 집합에 대한 형태소 분석을 통하여 문서에서 출현하는 모든 용어를 추출하였다. 형태소 분석기는 공개용 형 태소 분석기인 HAM4.
본 논문에서는 텍스트마이닝에서 카테고리별로 의미 있는 패턴을 효과적으로 추출하기 위한 방법을 제안하였다. 먼저, 카테고리별 패턴을 분석하기 위하여 각 카테고리별로 연관규칙을 탐사하였다. 최적의 R-interesting 값을 구성하기 위하여 전체 문서 집합에 대해서도 연관규칙을 탐사하였다'
제안한 방법은 Agrawal 등이 제안한 R-interesting 값을 수정하여 대량의 연관규칙에서 의미 있는 패턴을 추출하기 위한 방법이다. 문서를 대상으로 한 다양한 실험을 통하여 카테고리별로 최적 외 R 값을 구성하여 의미 있는 패턴을 추출하였다.
특히 영어로 된 전문용 어를 한글로 표기하는 경우에서 자주 발생한다. 이러한 동의어는 별도의 동의어 사전을 구성하여 용어를 표준화하였다. 예를 들어 '데이터베이스', '데이타베이스', 'database', 'databases', 'db' 등과 같은 용어는 하나의 용어로 통일하였다.
또한 패턴이 특정 분야에 만 나 타날 경우, 빈도수에 따른 기여도와 R 값의 비교 결과 빈도수가 높올수록 기여도는 높아지고 R 값은 변화가 없었다. 제안한 기법온 KDD 시스템 개발을 위한 문서분류 과정에서 대표색인 어를 효과적으로 구성하기 위한 기법으로 사용할 수 있다.
본 논문에서눈 관련된 문서끼리 자농적으로 분류하거나 대량의 문서에서 유용한 지식 정보를 정확하게 검색하기 위하어 텍스트마이닝에서 의미 있는 패턴을 추출하기 위한 방법을 제안하였다. 제안한 방법은 Agrawal 등이 제안한 R-interesting 값을 수정하여 대량의 연관규칙에서 의미 있는 패턴을 추출하기 위한 방법이다. 문서를 대상으로 한 다양한 실험을 통하여 카테고리별로 최적 외 R 값을 구성하여 의미 있는 패턴을 추출하였다.
본 논문에서는 문서를 대상으로 연관규칙 탐사기법을 적용하여 발견된 대량의 패턴 중에서 의미 있는 패턴을 효과적으로 추출하기 위한 새로운 기법을 제시하였다. 제안한 방법은 Agrawal 등이 제안한 R-interesting 값을 이용하여 의미 있는 패턴을 추출하기 위한 텍스트마이닝 기법이다. 컴퓨터 분야의 논문을 대상으로 한 실험을 통하여 대량으로 발견된 연관규칙 중에서 R 값의 변화에 따라 의미 있는 패턴을 효과적으로 추출하기 위한 방법을 제시하였다.
제안한 방법은 문서로부터 전문 용어를 추출하기 위한 전처리 과정, 전체 문서 집합과 카테고리별로 연관규칙 탐사 알고리즘을 적용하여 패턴을 발견하기 위한 과정 그리고 발견된 패턴 중에서 의미 있는 패턴 올 추출하기 위한 후처리 과정으로 이루어진다. 다음 그림 1은 본 논문에서 제안한 기법에 대한 전체적인 개념도이다.
먼저, 카테고리별 패턴을 분석하기 위하여 각 카테고리별로 연관규칙을 탐사하였다. 최적의 R-interesting 값을 구성하기 위하여 전체 문서 집합에 대해서도 연관규칙을 탐사하였다';
0a를 사용하였다[9]. 추출된 단어에서 컴퓨터 용어 사전에 수록된 컴퓨터 용어만을 별도로 추출하였다.
제안한 방법은 Agrawal 등이 제안한 R-interesting 값을 이용하여 의미 있는 패턴을 추출하기 위한 텍스트마이닝 기법이다. 컴퓨터 분야의 논문을 대상으로 한 실험을 통하여 대량으로 발견된 연관규칙 중에서 R 값의 변화에 따라 의미 있는 패턴을 효과적으로 추출하기 위한 방법을 제시하였다. 이렇게 구성한 의미 있는 패턴은 KDD 시스템에서 문서 분류를 위해 대표 색얀어를 효과적으로 구성하기 위한 방법에 적용할 수 있다.
본 논문에서 제안한 텍스트마이닝에서 의미 있는 패턴 추출 기법의 효율성을 검증하기 위하여 컴퓨터 관련 학회에서 발표된 논문을 대상으로 실험하였다. 학회에서 분류한 8개의 세부 분야별로 30편씩 선정하여 분야별로 연관규칙을 적용하여 패턴을 발견하였다. 세부 분야별로 발견돤 패턴의 수는 최소 88, 276개, 최대 172,076개가 발견되었다.
먼저, 전채 문서 집합에 대한 형태소 분석을 통하여 문서에서 출현하는 모든 용어를 추출하였다. 형태소 분석기는 공개용 형 태소 분석기인 HAM4.0a를 사용하였다[9]. 추출된 단어에서 컴퓨터 용어 사전에 수록된 컴퓨터 용어만을 별도로 추출하였다.

대상 데이터

본 논문에서 제안한 텍스트마이닝에서 의미 있는 패턴 추출 기법의 효율성을 검증하기 위하여 컴퓨터 관련 학회에서 발표된 논문을 대상으로 실험하였다. 학회에서 분류한 8개의 세부 분야별로 30편씩 선정하여 분야별로 연관규칙을 적용하여 패턴을 발견하였다.

데이터처리

제안한 기법의 효율성을 검증하기 위해, 대표적인 통계적 기법의 하나인 X2 가설 검정 기법과 비교 실험을 통하여 제안된 방법의 효율성을 보였다.
제안한 방법의 효율성을 검중하기 위하여 대표적인 통계 기법인 Z2 가설검정 기법과 비교 분석하였다. 먼저, 각 세부 분야별로 22에 대한 A 셀의 기여도순으로 상위 500개의 패턴을 추출하고, 일정 R 값 이상일 때, 빈도수와 R 값 순으로 상위 500개의 패턴을 추출하였다.

성능/효과

다음 그림 2는 8개의 세부 분야에서 공통되는 패턴의 수가 가장 많을 때의 R 값을 나타낸 것이다. 6개의 분야에서는 R 값이 5.7에서 6.3 사이일 때 공통되는 패턴의 수가 가장 많았고, 인공지능 4.5, 전산 수학 및 교육은 5.4일 때 공통되는 패턴의 수가 가장 많았다. 인공지능 분야에서 나타나는 패턴은 전산 수학 및 교육 또는 정보보호 분야에서도 많이 발견되었다.
또한 빈도수가 같을지라도 다른 분야에 나타나는 비율이 높을수록 기여도와 R 값은 낮아진다. 둘째, 패턴이 카테고리에 G에만 나타났을 경우 빈도수가 높을수록 기여도는 높아진다. 즉, R 값이 같을 때는 빈도수가 높을수록 의미 있는 패턴이 된다.
특정 분야에서 나타나는 패턴의 빈도수와 다론 분야에서 나타나는 패턴 빈도수의 비율에 따른 z2 값의 A 기여도와 R 값을 비교한 결과 빈도수가 같을지라도 다른 분야에 나타나는 비율이 높을수록 기여도와 R 값은 낮아졌다. 또한 패턴이 특정 분야에 만 나 타날 경우, 빈도수에 따른 기여도와 R 값의 비교 결과 빈도수가 높올수록 기여도는 높아지고 R 값은 변화가 없었다. 제안한 기법온 KDD 시스템 개발을 위한 문서분류 과정에서 대표색인 어를 효과적으로 구성하기 위한 기법으로 사용할 수 있다.
즉, R 값이 같을 때는 빈도수가 높을수록 의미 있는 패턴이 된다. 셋째, 빈도수도 높고 카테고리 Ci에 많이 나타날수록 일반적으로 기여도가 높은 값을 가진다. 즉, R 값과 빈도수가 동시에 높을수록 의미 있는 패턴이라 볼 수 있다.
여기서 A는 패턴 t가 출현하면서 카테고리 Ci인 문서의 수를 말한다. 첫째, 카테고리 G에 나타나는 패턴의 빈도수가 같을 경우 카테고리 G에 많이 나타날수록 기여도는 높아지고, R 값도 높아진다. 또한 빈도수가 같을지라도 다른 분야에 나타나는 비율이 높을수록 기여도와 R 값은 낮아진다.
본 기법은 Agrawal 등이 제안한 R-interesting 값을 수정하여 의미 있는 패턴을 추출하기 위한 방법이다. 특정 분야에서 나타나는 패턴의 빈도수와 다론 분야에서 나타나는 패턴 빈도수의 비율에 따른 z2 값의 A 기여도와 R 값을 비교한 결과 빈도수가 같을지라도 다른 분야에 나타나는 비율이 높을수록 기여도와 R 값은 낮아졌다. 또한 패턴이 특정 분야에 만 나 타날 경우, 빈도수에 따른 기여도와 R 값의 비교 결과 빈도수가 높올수록 기여도는 높아지고 R 값은 변화가 없었다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

대량의 연관규칙에서 의미있는 패턴 추출 기법 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

성능/효과

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

대량의 연관규칙에서 의미있는 패턴 추출 기법 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

성능/효과

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

초록
AI-Helper

AI 본문요약
AI-Helper