연관 규칙 탐사는 다양한 분야에서 널리 쓰이는 데이터 마이닝 기법으로 트랜잭션 데이터에 포함된 이산적인 항목들 간의 인과관계를 추출하는데 목적을 둔다. 하지만 분석자들은 때로 방대한 양의 데이터에서 추출된 많은 연관규칙들을 해석하고 활용하는데 곤란을 겪기도 한다. 이러한 문제점을 해결하기 위하여 본 논문에서는 주어진 트랜잭션 데이터에서 유용한연관 규칙을 탐색하기 위한 새로운 방법인 HTM 접근법을 제안하고자 한다. HTM 접근법은 크게 계층 군집, 테이블 뷰 및 모자이크 플롯의 세 가지 단계로 구성되며, 각 단계는 분석자들에게 적절한 시각적 표현을 제공한다. 예시를 위해 본 논문에서는 상기 접근법을 건강 검진 결과 데이터 분석에 적용하였으며, 실험결과 HTM 접근법을 통해 분석자들은 유용한 규칙들을 보다 효과적으로 탐색할 수 있을 것으로 기대된다.
연관 규칙 탐사는 다양한 분야에서 널리 쓰이는 데이터 마이닝 기법으로 트랜잭션 데이터에 포함된 이산적인 항목들 간의 인과관계를 추출하는데 목적을 둔다. 하지만 분석자들은 때로 방대한 양의 데이터에서 추출된 많은 연관규칙들을 해석하고 활용하는데 곤란을 겪기도 한다. 이러한 문제점을 해결하기 위하여 본 논문에서는 주어진 트랜잭션 데이터에서 유용한연관 규칙을 탐색하기 위한 새로운 방법인 HTM 접근법을 제안하고자 한다. HTM 접근법은 크게 계층 군집, 테이블 뷰 및 모자이크 플롯의 세 가지 단계로 구성되며, 각 단계는 분석자들에게 적절한 시각적 표현을 제공한다. 예시를 위해 본 논문에서는 상기 접근법을 건강 검진 결과 데이터 분석에 적용하였으며, 실험결과 HTM 접근법을 통해 분석자들은 유용한 규칙들을 보다 효과적으로 탐색할 수 있을 것으로 기대된다.
Association rule mining is a popular data mining technique with a wide range of application domains, and aims to extract the cause-and-effect relations between the discrete items included in transaction data. However, analysts sometimes have trouble in interpreting and using the plethora of associat...
Association rule mining is a popular data mining technique with a wide range of application domains, and aims to extract the cause-and-effect relations between the discrete items included in transaction data. However, analysts sometimes have trouble in interpreting and using the plethora of association rules extracted from a large amount of data. To address this problem, this paper aims to propose a novel approach called HTM for extracting the interesting association rules from given transaction data. The HTM approach consists of three main steps, hierarchical clustering, table-view, and mosaic plot, and each step provides the analysts with appropriate visual representation. For illustration, we applied our approach for analyzing the mass health examination data, and the result of this experiment reveals that the HTM approach help the analysts to find the interesting association rules in more effective way.
Association rule mining is a popular data mining technique with a wide range of application domains, and aims to extract the cause-and-effect relations between the discrete items included in transaction data. However, analysts sometimes have trouble in interpreting and using the plethora of association rules extracted from a large amount of data. To address this problem, this paper aims to propose a novel approach called HTM for extracting the interesting association rules from given transaction data. The HTM approach consists of three main steps, hierarchical clustering, table-view, and mosaic plot, and each step provides the analysts with appropriate visual representation. For illustration, we applied our approach for analyzing the mass health examination data, and the result of this experiment reveals that the HTM approach help the analysts to find the interesting association rules in more effective way.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 논문에서는 HTM 접근법을 단체 건강 검진 결과 데이터에 적용하여 그 유용성을 검증해보고자 한다. 건강 검진 데이터에는 인구통계학적 문항과 키나 체중 등과 같은 연속 변수 문항도 존재하지만, 특정 질환 유무에 대한 검사 항목이나 생활 습관에 대한 설문 항목들의 대다수가 이진 문항으로 구성되어 있어, 이러한 항목들만 분리시킬 경우, 트랜잭션 데이터를 형성하게 된다.
한편, 트랜잭션 데이터의 경우에는 계층 군집을 통해 종래와 같이 레코드들의 군집을 생성하는 대신, 항목들의 군집을 생성하기 위한 분석이 가능하며, 이러한 예로는 고객들의 상품 별 선호도 조사 데이터를 이용하여 같은 고객이 선호할 가능성이 큰 상품들이 가까이 배치되는 상품 계통도[23]나 IT 관련 기사들을 분석하여 같은 기사에 등장하는 키워드들을 가까이 배치하는 키워드 계통도[24]를 얻은 연구들이 존재한다. 본 논문에서는 이와 같이 트랜잭션 데이터를 구성하는 항목들에 대한 계통도를 생성하는 계층 군집을 통하여 분석자가 연관 규칙 탐사를 실시하기 전에 미리 대상 데이터에 대한 직관적인 이해를 하고, 분석 대상 항목들을 선별할 수 있도록 하고자 한다. 연관 규칙 탐사와 관련해서는 추출된 규칙들에 대하여 계층 군집을 적용, 연관 규칙들을 나열하는 사례[14]가 있었으나, 본 논문에서는 연관 규칙 탐사 이전에 사전 분석 목적으로 계층 군집을 이용한다는 점에서 차이가 있다.
이러한 맥락에서 본 논문에서는 분석자가 좀 더 직관적인 절차를 통해 유용한 연관 규칙을 찾는데 사용할 수 있는 방법인 HTM(Hierarchy-Table-Mosaic) 접근법을 제안하고자 한다. HTM은 크게 계층 군집, 테이블 뷰, 모자이크 플롯의 3가지 단계로 구성되며, 1단계인 계층 군집에서는 트랜잭션 데이터에 존재하는 단일 항목들에 대한 계층 구조를 추출하여 보여주며, 이 때 항목 간의 연관성으로는 지지도나 신뢰도 등의 지표를 사용할 수 있다.
가설 설정
예를 들어, 위 그림 4~그림 7에서는 항목 5, 6, 3이 서로 관련성이 있음이 파악되고, 이는 곧, 부정교합, 치주질환, 구내염이 서로 어느 정도 상관관계가 있음을 의미한다. 이번에는 이들에 대하여 좀 더 자세한 분석을 하는 상황을 가정해보자. HTM 접근법의 두 번째 단계는 선택된 항목들에 대한 연관 규칙 탐사를 실행하는 것으로 시작된다.
제안 방법
예를 들어, (5)와 같이 자카드 거리에 기반한 항목 집합 Xi, Xj 유사도, 또는 (6)과 같은 두 개 항목 집합 전체 지지도 등이 가능하다. 그러나 이러한 지표들의 경우, 첫째, 사용 시 분석 과정이 오래 걸릴 수 있고, 둘째, 비교 대상 항목집합들에 포함된 항목의 개수가 늘어날수록 산출된 유사도 값의 수준이 극히 떨어지는 경향이 있어, 본 논문에서는 (1)~(3)의 지표들을 위주로 사용하였다.
따라서 본 논문에서는 트랜잭션 데이터에 연관 규칙 탐사 알고리즘을 기계적으로 적용하기보다, 시각화에 기반한 순차적인 분석을 거쳐 유용한 연관 규칙을 선별하는 HTM 접근법을 제안하였다. 이 방법은 연관 규칙 탐사 알고리즘을 적용하기 전에 적절한 분석 항목을 선택하되, 임의로 선택하는 것이 아닌 항목 계통도라는 시각적 도구를 이용하고, 탐사 알고리즘 실행 결과 추출된 연관 규칙들에 대해서는 모자이크 플롯을 통해 세부적인 관찰을 시행하도록 구성되어 있다.
이를 위해서는 적절한 시각적 정보가 분석자에게 제공되어야 하며, 이 시각적 정보는 일반적인 분석자들이 가급적 직관적으로 이해할 수 있어야 한다. 본 논문에서는 계층 군집 분석을 통해 생성되는 항목 계통도를 이러한 목적으로 사용하고자 하며, 예를 들어 A, B, ..., G의 총 7개 항목을 포함하는 트랜잭션 데이터의 경우, 그림 2와 같은 항목 계통도가 생성될 수 있다. 이러한 계통도에서 가까이 배치된 항목들은 서로 관련이 높은 항목들임을 의미하므로, 분석자는 계통도를 보고 특정 부분의 항목들만을 선별하여 연관 규칙 탐사를 진행할 수 있으며, 예를 들어, 그림 2에서는 서로 인접해 있는 A, B, C 세 개 항목, 또는 D, E 두 개 항목을 선별하는 식으로 활용이 가능하다.
실제 계층 군집을 실시할 때는 두 항목 간 유사도 및 두 군집간의 유사도를 측정하는 방법이 중요하며, 본 논문에서는 연관 규칙 탐사의 특성을 반영할 수 있도록 두 항목의 합집합에 대한 지지도나 항목 간 신뢰도 등을 유사도 척도로 사용하고자 하며, 두 군집 간 유사도의 경우에는 항목 간 유사도 척도를 기반으로 전통적인 단일 링크(single link), 완전 링크(complete link) 등의 방법을 사용할 수 있다.
대상 데이터
나아가, 특정 수검자에 대하여 앞으로 발병 확률이 높은 질환 등을 조기에 파악하는데 연관 규칙 탐사를 활용할 수 있으나, 건강 검진을 담당하는 의료진들이 데이터 분석에 익숙하지 않은 경우가 많으므로, 본 논문에서 제안하는 것과 같은 체계적인 분석 방법의 활용이 중요할 것으로 생각된다. 참고로 본 논문에서는 2011년 부산 소재 D 고등학교 1학년 278명에 대한 건강 검진 데이터에서 치위생 관련 문항들에 대한 분석을 실시하였다. 표 3은 이에 해당하는 19개 문항들의 목록을 보여주며, 이들은 모두 ‘예/아니오’로 응답하게 되어 있다.
이론/모형
본 논문에서는 계층 군집 분석 방법 중, 병합형 계층 군집 알고리즘을 사용하였으며, 분할형 계층 군집 알고리즘도 활용이 가능하다. 단, 계층 군집 분석을 실행하기 위해서는 두 개 항목 간 유사도 및 두 개 군집(항목 집합) 간 유사도 척도를 적절히 정의하는 것이 필요하다.
성능/효과
두 번째로는 분석자의 판단을 지원하는 방법에 관한 것으로, 항목 계통도가 다른 시각화 방법에 비해 직관적으로 이해하기 쉬운 형태이기는 하나, 항목의 개수가 많아지면 계통도 역시 복잡해질 수 있다. 따라서 계통도에서 인접한 항목들을 자동적으로 찾아주는 방법이나, 분석자가 직접 여러 항목들을 선택한 경우, 연관 규칙 탐사를 실시하기 전에 함께 분석하는 것이 바람직한 항목을 추천해주는 기능 등이 유용할 것이다.
두 번째로는 유사도 지표 및 그룹 간 비교 방법에 따라 계층 군집을 통해 얻어지는 계통도의 모습은 상당히 상이함을 알 수 있다. 특히, 그림 4, 그림 6의 단일 링크와 그림 5, 그림7의 완전 링크의 주된 차이점은 계통도의 모양으로, 단일 링크를 사용하면 계통도의 깊이(depth)가 깊은 반면, 완전 링크를 사용하면 깊이가 상대적으로 얕다.
이 방법은 연관 규칙 탐사 알고리즘을 적용하기 전에 적절한 분석 항목을 선택하되, 임의로 선택하는 것이 아닌 항목 계통도라는 시각적 도구를 이용하고, 탐사 알고리즘 실행 결과 추출된 연관 규칙들에 대해서는 모자이크 플롯을 통해 세부적인 관찰을 시행하도록 구성되어 있다. 제안하는 분석 방법을 건강 검진 데이터에 적용해본 결과, 분석자가 시각적인 방법을 통해 선택한 항목 그룹에 대하여 유용성 지표가 높은 연관 규칙들이 추출되고, 개별 연관 규칙에 대한 모자이크 플롯을 통해 해당 규칙에 대한 보다 자세한 정보가 얻어지는 것을 확인할 수 있었다. 최근 대용량의 데이터가 다양한 분야에서 수집 및 활용되고 있는 상황에 비추어볼 때, 이렇게 직관적이고 체계적인 연관 규칙 탐사 방법은 향후 그 활용도가 매우 높을 것으로 기대된다.
후속연구
건강 검진 데이터에는 인구통계학적 문항과 키나 체중 등과 같은 연속 변수 문항도 존재하지만, 특정 질환 유무에 대한 검사 항목이나 생활 습관에 대한 설문 항목들의 대다수가 이진 문항으로 구성되어 있어, 이러한 항목들만 분리시킬 경우, 트랜잭션 데이터를 형성하게 된다. 나아가, 특정 수검자에 대하여 앞으로 발병 확률이 높은 질환 등을 조기에 파악하는데 연관 규칙 탐사를 활용할 수 있으나, 건강 검진을 담당하는 의료진들이 데이터 분석에 익숙하지 않은 경우가 많으므로, 본 논문에서 제안하는 것과 같은 체계적인 분석 방법의 활용이 중요할 것으로 생각된다. 참고로 본 논문에서는 2011년 부산 소재 D 고등학교 1학년 278명에 대한 건강 검진 데이터에서 치위생 관련 문항들에 대한 분석을 실시하였다.
끝으로, HTM 접근법은 서로 상이한 분석을 실시하는 세 가지 단계로 구성되어 있어, 이들을 통합적으로 지원하는 시스템을 개발하는 것이 필요하다. 본 논문의 저자들은 향후 이상의 추후 연구 과제를 수행하면서 다양한 데이터에 대한 적용을 통해 제안하는 분석 방법의 유용성을 검증하고, 한계점을 보완해나갈 계획이다.
0미만의 Lift 값은 두 항목이 서로 음의 상관관계를 갖고 있음을 나타낸다. 이러한 경우에도 해당 지표들의 값을 이용하여 계통도를 생성할 것인지에 대해서는 추후 논의가 필요하다.
이러한 구성은 Schneiderman[7]이 제안한 시각적 분석의 대원칙인 ‘overview first, zoom and filter, then details-on-demand'와도 부합하며, 다양한 분야, 다양한 목적의 분석에 활용될 수 있을 것으로 기대된다.
첫 번째로는 항목 계통도를 생성할 때 사용하는 항목 간 유사도 및 항목집합 간 유사도를 측정하는 방법으로, 본 논문에서는 지지도나 신뢰도와 같은 비교적 단순한 지표만을 사용한 반면, 향후 다른 여러 가지 지표들을 개발하여 다양한 데이터에 적용해볼 필요가 있다. 아울러, 연관 규칙과 관련된 지표들은 항목 간 연관성이 서로 낮음을 의미할 수도 있는데, 예를 들어 0.
제안하는 분석 방법을 건강 검진 데이터에 적용해본 결과, 분석자가 시각적인 방법을 통해 선택한 항목 그룹에 대하여 유용성 지표가 높은 연관 규칙들이 추출되고, 개별 연관 규칙에 대한 모자이크 플롯을 통해 해당 규칙에 대한 보다 자세한 정보가 얻어지는 것을 확인할 수 있었다. 최근 대용량의 데이터가 다양한 분야에서 수집 및 활용되고 있는 상황에 비추어볼 때, 이렇게 직관적이고 체계적인 연관 규칙 탐사 방법은 향후 그 활용도가 매우 높을 것으로 기대된다. 반면, 제안하는 분석 방법에 대해서는 다음과 같은 추후 연구 주제들이 있어, 이들에 대한 보완이 필요할 것으로 생각된다.
이 방법은 단순하면서도 연관 규칙 탐사 결과를 요약시켜 보여준다는 특징이 있고, 특정 유용성 지표 기준으로 연관 규칙을 정렬시켜보기 유리하다는 장점이 있으나, 연관 규칙 개수가 많아질 경우, 알아보기 어렵다는 한계도 있다. 하지만 본 논문에서 제안한 바와 같이 계층 군집 분석 단계를 거쳐 연관 규칙 분석 대상 항목을 선별한 경우에는 산출된 연관 규칙 개수가 상대적으로 적게 유지되면서도 관련 있는 항목들 간의 유용한 규칙들이 잘 산출될 것으로 기대된다.
질의응답
핵심어
질문
논문에서 추출한 답변
단일 항목 간 계층 구조는 분석자가 무엇을 할 수 있게 해 주는가?
HTM은 크게 계층 군집, 테이블 뷰, 모자이크 플롯의 3가지 단계로 구성되며, 1단계인 계층 군집에서는 트랜잭션 데이터에 존재하는 단일 항목들에 대한 계층 구조를 추출하여 보여주며, 이 때 항목 간의 연관성으로는 지지도나 신뢰도 등의 지표를 사용할 수 있다. 이러한 단일 항목 간 계층 구조는 분석자가 서로 연관성이 높은 항목들의 그룹을 직관적으로 파악할 수 있게 해 준다. 이를 통해 분석자가 분석 대상 항목을 선택하면, 선택된 항목들로 범위를 좁혀 연관 규칙 탐사를 실시하며 이 과정에서는 Apriori 알고리즘 등을 사용할 수 있다.
연관 규칙 탐사는 항목의 종류가 많은 대용량 데이터를 분석하는 경우에 어떤 어려움을 겪게 되는가?
그러나 항목의 종류가 많은 대용량 데이터를 분석하는 경우에는 분석 결과로 산출되는 연관 규칙의 개수도 함께 늘어나기 때문에 종래와 같이 텍스트 형태로 추출된 연관 규칙을 나열해서는 분석자가 이를 해석하고 유용한 연관 규칙을 찾아 활용하는데 많은 어려움을 겪게 된다[4, 5]. 이에 따라 분석자가 유용한 연관 규칙을 효과적으로 찾을 수 있게 하는 방법에 대한 연구가 지속적으로 이루어져 왔으며, 대표적으로는 연관 규칙 탐사 과정에서 적절한 시각화(visualization) 기능을 제공하여 사람의 시각적 인지 능력 및 정보 처리 능력을 활용하고자 하는 것을 들 수 있다.
HTM을 3가지 단계로 나누어 보시오.
이러한 맥락에서 본 논문에서는 분석자가 좀 더 직관적인 절차를 통해 유용한 연관 규칙을 찾는데 사용할 수 있는 방법인 HTM(Hierarchy-Table-Mosaic) 접근법을 제안하고자 한다. HTM은 크게 계층 군집, 테이블 뷰, 모자이크 플롯의 3가지 단계로 구성되며, 1단계인 계층 군집에서는 트랜잭션 데이터에 존재하는 단일 항목들에 대한 계층 구조를 추출하여 보여주며, 이 때 항목 간의 연관성으로는 지지도나 신뢰도 등의 지표를 사용할 수 있다. 이러한 단일 항목 간 계층 구조는 분석자가 서로 연관성이 높은 항목들의 그룹을 직관적으로 파악할 수 있게 해 준다.
참고문헌 (26)
R. Agrawal, T. Imielinski, and R. Swami, "Mining Associations between Sets of Items in Massive Databases," Proceedings of the ACM-SIGMOD 1993 International Conference on Management of Data, pp. 207-216, 1993.
R. Agrawal, and R. Srikant, "Fast Algorithms for Mining Association Rules," Proceedings of the International Conference on Very Large Databases, pp. 125-131, 1994.
P.-N. Tan, M. Steinbach, and V. Kumar, "Introduction to Data Mining," Addison-Wesley, 2005.
A. Jorge, "Hierarchical Clustering for Thematic Browsing and Summarization of Large Sets of Association Rules," Proceedings of the 2004 SIAM International Conference on Data Mining, 2004.
L. A. Fernandes, and A. C. B. Garcia, "Association Rule Visualization and Pruning through Response-Style Data Organization and Clustering," In Advances in Artificial Intelligence-IBERAMIA, pp. 71-80, 2012
Y. A. Sekhavat, and O. Hoeber, "Visualizing Association Rules Using Linked Matrix, Graph, and Detail Views," International Journal of Intelligence Science, Vol. 3, pp. 34-49, 2013.
B. Schneiderman, "The Eyes Have It: A Task by Data Type Taxonomy for Information Visualization," Proceedings of the IEEE Symposium on Visual Languages, pp. 336-343, 1996.
M. Klemettinen, H. Mannila, P. Ronkainen, H. Toivonen, and A. I. Verkamo, "Finding Interesting Rules from Large Sets of Discovered Association Rules," Proceedings of the 3rd International Conference on Information and Knowledge Management, pp. 401-407, 1994.
P. C. Wong, P. Whitney, and J. Thomas, "Visualizing Association Rules for Text Mining," Proceedings of the 1999 IEEE Symposium on Information Visualization, pp. 120-123, 1999.
C. Romero, J. M. Luna, J. R. Romero, and S. Ventura, "RM-Tool: A Framework for Discovering and Evaluating Association Rules," Advances in Engineering Software, Vol. 42, No. 8, pp. 566-576, 2011.
R. J. Bayardo, and R. Agrawal, "Mining the Most Interesting Rules," Proceedings of the 5th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, pp. 145-154, 1999.
M. Hahsler, and S. Chellubonia, "Visualizing Association Rules: Introduction to the R-extension Package arulesViz,", R project module, 2011.
K. Techapichetvanich, and A. Datta, "VisAR: A New Technique for Visualizing Mined Association Rules," In Advanced Data Mining and Applications, Springer Berlin Heidelberg, pp. 88-95, 2005.
Y. H. Fua, M. O. Ward, and E. A. Rundensteiner, "Hierarchical Parallel Coordinates for Exploration of Large Datasets," Proceedings of the Conference on Visualization '99, pp. 43-50, 1999.
P. Buono, and M. F. Costabile, "Visualizing Association Rules in a Framework for Visual Data Mining," In Integrated Publication and Information Systems to Information and Knowledge Environments, Springer Berlin Heidelberg, pp. 221-231, 2005.
L. Yang, "Pruning and Visualizing Generalized Association Rules in Parallel Coordinates," IEEE Transactions on Knowledge and Data Engineering, Vol. 17, No. 1, pp. 60-70, 2005.
L. Yang, "Visual Exploration of Frequent Itemsets and Association Rules," In Visual Data Mining: Theory, Techniques and Tools for Visual Analytics, Springer Berlin Heidelberg, pp. 60-75, 2008.
M. Hahsler, and S. Chellubonia, "Visualizing Association Rules in Hierarchical Groups," Proceedings of the 42nd Symposium on the Interface: Statistical, Machine Learning, and Visualization Algorithms, 2011.
K. H. Ong, K. L. Ong, W. K. Ng, and E. P. Lim, "Crystalclear: Active Visualization of Association Rules," Proceedings of the ICDM-02 Workshop on Active Mining, 2002.
O. Couturier, T. Hamrouni, S. B. Yahia, and E. M. Nguifo, "A Scalable Association Rule Visualization towards Displaying Large Amounts of Knowledge," Proceedings of 11th International Conference on Information Visualization IV, Vol. 7, pp. 657-663, 2007.
W. H. E. Day, and H. Edelsbrunner, "Efficient Algorithms for Agglomerative Hierarchical Clustering Method," Journal of Classification, Vol. 1, No. 1, pp. 7-24, 1984
A. Guenoche, P. Hansen, and B. Jaumard, "Efficient Algorithms for Divisive Hierarchical Clustering," Journal of Classification, Vol. 8, No. 1, pp. 5-30, 1991.
B. Sarwar, G. Karypis, J. Konstan, and J. Riedl, "Item-based Collaborative Filtering Recommendation Algorithms," Proceedings of the 10th International Conference on World Wide Web, pp. 285-295, 2001.
C.-J. Tsui, P. Wang, K. R. Fleischmann, A. B. Sayeed, and A. Weinberg, "Building an IT Taxonomy with Co-occurrence Analysis, Hierarchical Clustering and Multidimensional Scaling," Proceedings of iConference, pp. 247-256, 2010.
H. Hofmann, A. P. Siebes, and A. F. Wilhelm, "Visualizing Association Rules with Interactive Mosaic Plots," Proceedings of the ACMKDD International Conference on Knowledge Discovery and Data Mining, pp. 227-235, 2000.
A. Strehl, G. K. Gupta, and J. Ghosh, "Distance Based Clustering of Association Rules," Proceedings of ANNIE 1999, ASME Press, pp. 759-764, 1999.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.