u-Health에 대한 관심과 IT 기술의 발전에 따라 의료 정보를 적극적으로 활용하고자 하는 요구가 커지고 있으며, 이에 대해 텍스트 형태의 의료 정보 데이터에 연관규칙 기법을 적용하여 질병과 증상과의 관계를 추론하는 시스템에 대한 연구들이 이루어지고 있다. 그러나 일반적인 연관규칙 기법을 의료 정보 데이터에 그대로 적용할 경우, 이전에는 새로운 연관규칙들보다 일반적이며 의미없는 연관규칙들이 많이 생성되는 문제가 발생한다. 또한 필터링으로 인해 빈번하게 함께 발생하지는 않지만 의학적으로 의미있는 항목들의 연관 규칙을 발견할 수 없다는 한계점을 가지게 된다. 본 논문에서는 의료데이터 특성을 고려하여 빈번한 항목과 빈번하지 않지만 의학적으로 의미 있는 항목들을 대상으로 연관규칙을 구성하여 의료 전문가의 의사 결정에 도움을 주기 위한 시스템을 제안한다. 제안 시스템은 의료 기록 데이터에서 용어들을 TF-IDF기반으로 가중치를 부여하고 기존 FP-Growth 알고리즘을 확장하여 TF-IDF 가중치를 고려한 빈번하게 발생하거나 빈번하지 않지만 의미 있는 연관규칙을 구성한다. 특정 질의 데이터가 입력되면 해당 데이터에 나타난 연관 규칙들의 유사도를 의학분야 온톨로지를 이용하여 평가하여 해당 데이터의 내용과 관련된 후보 질병들을 추론한다. 추론된 후보 질병명은 의료 전문가에게 의사 결정의 참고 자료로 제공된다. 실제 임상 진료 및 처방 기록 데이터에 대해 제안 시스템을 적용해 본 결과, 본 제안 시스템을 통해 도출한 연관 규칙이 기존 FP-Growth 알고리즘을 적용했을 때 보다 더 구체적인 질병과 증상과의 관계들을 포함함을 확인할 수 있었다. 또한 본 제안 시스템은 자유형식의 의료 및 병리데이터를 마이닝하고 후보 질병들을 가중치 기반으로 보여주므로, 의료 기록 정보로부터 질병 관련 새로운 정보를 획득하고 의료진의 의사 결정에 도움을 주는 시스템으로 활용될 수 있다.
u-Health에 대한 관심과 IT 기술의 발전에 따라 의료 정보를 적극적으로 활용하고자 하는 요구가 커지고 있으며, 이에 대해 텍스트 형태의 의료 정보 데이터에 연관규칙 기법을 적용하여 질병과 증상과의 관계를 추론하는 시스템에 대한 연구들이 이루어지고 있다. 그러나 일반적인 연관규칙 기법을 의료 정보 데이터에 그대로 적용할 경우, 이전에는 새로운 연관규칙들보다 일반적이며 의미없는 연관규칙들이 많이 생성되는 문제가 발생한다. 또한 필터링으로 인해 빈번하게 함께 발생하지는 않지만 의학적으로 의미있는 항목들의 연관 규칙을 발견할 수 없다는 한계점을 가지게 된다. 본 논문에서는 의료데이터 특성을 고려하여 빈번한 항목과 빈번하지 않지만 의학적으로 의미 있는 항목들을 대상으로 연관규칙을 구성하여 의료 전문가의 의사 결정에 도움을 주기 위한 시스템을 제안한다. 제안 시스템은 의료 기록 데이터에서 용어들을 TF-IDF기반으로 가중치를 부여하고 기존 FP-Growth 알고리즘을 확장하여 TF-IDF 가중치를 고려한 빈번하게 발생하거나 빈번하지 않지만 의미 있는 연관규칙을 구성한다. 특정 질의 데이터가 입력되면 해당 데이터에 나타난 연관 규칙들의 유사도를 의학분야 온톨로지를 이용하여 평가하여 해당 데이터의 내용과 관련된 후보 질병들을 추론한다. 추론된 후보 질병명은 의료 전문가에게 의사 결정의 참고 자료로 제공된다. 실제 임상 진료 및 처방 기록 데이터에 대해 제안 시스템을 적용해 본 결과, 본 제안 시스템을 통해 도출한 연관 규칙이 기존 FP-Growth 알고리즘을 적용했을 때 보다 더 구체적인 질병과 증상과의 관계들을 포함함을 확인할 수 있었다. 또한 본 제안 시스템은 자유형식의 의료 및 병리데이터를 마이닝하고 후보 질병들을 가중치 기반으로 보여주므로, 의료 기록 정보로부터 질병 관련 새로운 정보를 획득하고 의료진의 의사 결정에 도움을 주는 시스템으로 활용될 수 있다.
Because of the recent interest in the u-Health and development of IT technology, a need of utilizing a medical information data has been increased. Among previous studies that utilize various data mining algorithms for processing medical information data, there are studies of association rule analys...
Because of the recent interest in the u-Health and development of IT technology, a need of utilizing a medical information data has been increased. Among previous studies that utilize various data mining algorithms for processing medical information data, there are studies of association rule analysis. In the studies, an association between the symptoms with specified diseases is the target to discover, however, infrequent terms which can be important information for a disease diagnosis are not considered in most cases. In this paper, we proposed a new association rule mining system considering the importance of each term using TF-IDF weight to consider infrequent but important items. In addition, the proposed system can predict candidate diagnoses from medical text records using term similarity analysis based on medical ontology.
Because of the recent interest in the u-Health and development of IT technology, a need of utilizing a medical information data has been increased. Among previous studies that utilize various data mining algorithms for processing medical information data, there are studies of association rule analysis. In the studies, an association between the symptoms with specified diseases is the target to discover, however, infrequent terms which can be important information for a disease diagnosis are not considered in most cases. In this paper, we proposed a new association rule mining system considering the importance of each term using TF-IDF weight to consider infrequent but important items. In addition, the proposed system can predict candidate diagnoses from medical text records using term similarity analysis based on medical ontology.
본 논문에서는 의료데이터 특성상 빈번한 항목과 빈번하지 않지만 의미를 가질 수 있는 항목들을 대상으로 연관규칙을 구성하여 의료 전문가의 의사 결정에 도움을 주기 위한 시스템을 제안한다. 제안 시스템은 의료 소견데이터에서 용어들을 TF-IDF 기반으로 가중치를 부여하고, 기존 FP-Growth 알고리즘을 확장하여 TF-IDF 가중치를 고려한 빈번하게 발생하거나 빈번하지 않지만 의미있는 연관규칙을 구성한다.
제안 방법
본 논문에서는 의료데이터 특성상 빈번한 항목과 빈번하지 않지만 의미를 가질 수 있는 항목들을 대상으로 연관규칙을 구성하여 의료 전문가의 의사 결정에 도움을 주기 위한 시스템을 제안한다. 제안 시스템은 의료 소견데이터에서 용어들을 TF-IDF 기반으로 가중치를 부여하고, 기존 FP-Growth 알고리즘을 확장하여 TF-IDF 가중치를 고려한 빈번하게 발생하거나 빈번하지 않지만 의미있는 연관규칙을 구성한다. 특정 질의 데이터가 입력되면 해당 데이터에 나타난 연관규칙들안의 병명들의 유사도를 의학분야 온톨로지를 기반으로 평가하여 해당 데이터의 내용과 관련된 후보질병들을 추론한다.
대상 데이터
본 논문에서 사용된 의료소견 데이터는 MIMIC2 데이터는 PhysioNet에서 연구를 목적으로 미국 국립 보건원의 후원하에 제공되는 임상 데이터베이스이다[17]. 데이터 필드는 의료 전문가에 의한 진단과 병력, 환자의 상태, 처방 내역 등이 있다.
본 논문이 제시한 TF-IDF 기반의 FP-Growth 알고리즘의 성능을 평가하기 위해, 실제 임상 기록 데이터셋을 사용하였다. 이는 각 환자 기준으로 의료 전문가에 의해 작성된 진료 및 처방 이력에 대한 자연어로된 텍스트 데이터이다.
데이터처리
본 논문에서 제안한 TF-IDF 기반 FP-Growth 알고리즘을 이용한 병명 추론 시스템의 성능을 평가하기 위해 FP-Growth를 사용한 기존 시스템[9, 12]과 성능을 비교하였다. 성능 평가 기준이 정량적인 성능 평가가 아닌 정성적인 평가이므로, 성능 평가를 위해 제안 시스템과 기존 시스템으로부터 도출된 연관규칙들의 내용이 의학적 진단을 위한 구체적이고 유의미한 결과물인지 여부를 비교하였다.
본 논문에서는 Table 3과 같이 전체 트렌젝션 데이터에서 나타나는 단어들을 TF-IDF를 계산하여 높은 순으로 정렬한다. 다음으로 트렌젝션 데이터를 TF-IDF가 높은 단어의 순으로 정렬하여 FP-Tree를 구성한다.
이론/모형
본 논문에서는 가중치 측정을 위해 TF-IDF(Term Frequency-Inverse Document Frequency) 방법을 사용한다. TF-IDF는 문서내에서 특정 단어의 빈도를 전체 문서군의 단어 출현 빈도로 나눈 값이다.
이는 각 환자 기준으로 의료 전문가에 의해 작성된 진료 및 처방 이력에 대한 자연어로된 텍스트 데이터이다. 본 장에서는 성능 평가를 위한 실험 환경에 대해 설명하고 제안 시스템의 성능을 기존 FP-Growth 알고리즘을 사용한 시스템과 비교하여 정성적으로 평가한 결과를 제시한다. 또한, 본 제안 시스템에서 제공하는 의료진의 병명 진단을 돕기 위한 입력 임상 병리 테스트 데이터에 대한 후보 병명 추론 및 온톨로지 표현 결과도 제시한다.
성능/효과
의료 소견 데이터 문서군에서 빈번하지 않은 항목이 연관규칙 생성에 포함되지 않은 문제점을 해결하기 위한 TF-IDF 가중치 기반의 FP-Growth 기법을 제안하여 빈번하지 않은 항목도 연관규칙 생성에 포함되도록 개선하였다. 또한, 제안 시스템은 특정 진료 소견 데이터에 나타난 연관규칙들에 나타난 용어들의 의학 온톨로지상 거리를 분석하여 해당 진료 소견 데이터에 대한 후보 병명을 추론하고 이를 시각화하여 제공함으로써 의료 전문가의 진단에 참고 자료로 활용될 수 있도록 하였다. 실제 임상 텍스트 데이터를 활용한 실험을 통해 제안 시스템이 기존 FP-Growth 알고리즘기반 시스템에 비해 의학적으로 더 의미있고 구체적인 연관규칙을 발견함을 확인할 수 있었다.
또한, 제안 시스템은 특정 진료 소견 데이터에 나타난 연관규칙들에 나타난 용어들의 의학 온톨로지상 거리를 분석하여 해당 진료 소견 데이터에 대한 후보 병명을 추론하고 이를 시각화하여 제공함으로써 의료 전문가의 진단에 참고 자료로 활용될 수 있도록 하였다. 실제 임상 텍스트 데이터를 활용한 실험을 통해 제안 시스템이 기존 FP-Growth 알고리즘기반 시스템에 비해 의학적으로 더 의미있고 구체적인 연관규칙을 발견함을 확인할 수 있었다.
후속연구
향후 연구로는 연관규칙 생성에 FP-Growth 알고리즘을 병렬화 및 분산화하여 성능 향상을 하는 연구가 필요하다. 또한, 의료 온톨로지가 현재 병명 위주로 구성되어 있는데, 질병과 증상간의 관계에 관한 온톨로지 구조가 확립되어 활용된다면 더욱 의학적으로 의미있고 정확한 연관규칙을 생성하여 의료 전문가의 의사결정에 도움을 주는 시스템이 될 것이라 기대한다.
질의응답
핵심어
질문
논문에서 추출한 답변
Alghamidi[9]는 FP-Growth알고리즘을 활용하여 어떤 시스템을 구축하였는가?
Alghamidi[9]는 FP-Growth알고리즘을 이용하여 의료데이터의 연관규칙을 추출하였다. 이는 의료데이터의 각 속성(Attribute)의 관계에 대해 추출하고, 각 연관규칙에 대해 규칙 트리를 구성하여 의사결정에 도움이 되는 시스템을 구축하였다. Yang[10]은 방약합편이라는 책으로부터 질병의 증상과 약초와의 관계를 Apriori알고리즘을 이용하여 추출하여 네트워크 분석을 하였다.
신뢰도란 무엇인가?
신뢰도는 규칙의 강도를 나타낸 것으로 X가 발생할 때 Y도 동시에 발생하는 조건부 확률을 의미한다. 트랜잭션 X의 항목들을 포함하는 경우 Y의 항목들도 동시에 포함할 확률을 나타내며 신뢰도가 높은 규칙일수록 의미가 크다고 할 수 있다.
텍스트 형태의 의료 정보 데이터에 일반적인 연관규칙 기법을 적용한다면 무슨 문제가 발생하는가?
u-Health에 대한 관심과 IT 기술의 발전에 따라 의료 정보를 적극적으로 활용하고자 하는 요구가 커지고 있으며, 이에 대해 텍스트 형태의 의료 정보 데이터에 연관규칙 기법을 적용하여 질병과 증상과의 관계를 추론하는 시스템에 대한 연구들이 이루어지고 있다. 그러나 일반적인 연관규칙 기법을 의료 정보 데이터에 그대로 적용할 경우, 이전에는 새로운 연관규칙들보다 일반적이며 의미없는 연관규칙들이 많이 생성되는 문제가 발생한다. 또한 필터링으로 인해 빈번하게 함께 발생하지는 않지만 의학적으로 의미있는 항목들의 연관 규칙을 발견할 수 없다는 한계점을 가지게 된다. 본 논문에서는 의료데이터 특성을 고려하여 빈번한 항목과 빈번하지 않지만 의학적으로 의미 있는 항목들을 대상으로 연관규칙을 구성하여 의료 전문가의 의사 결정에 도움을 주기 위한 시스템을 제안한다.
참고문헌 (19)
S. H. Kim, "Health IT Technology Trends," Electronics and Telecommunication Trens, Vol.25, No.6, pp.37-46, 2011.
Ottes, Leo, "Health 2.0 - It's up to You.," Medicine 2.0 Conference, JMIR Publication, 2010.
Jorge C. G. Ramirez, Lon A. Smith, and Lynn L. Peterson, "Medical Information Systems: Characterization and Challenges," ACM SIGMOD, Vol.23, No.3, pp.44-53, 1994.
Moon Koo Kim, Jong Hyun Park, and Young Hwan Joe, "A Study on the Key Success Factors of Big Data for Health Car," KSII, pp.239-240, 2013.
Hisham Al-Mubaid and Rajit K Singh, "A new text mining approach for finding protein-to-disease association," American Journal of Biochemistry and Biotechnology, Vol.1, No.3, pp.145-151, 2005.
J. Bjorne, Filip Ginter Heimonen, and Antti Airola, "Extracting complex biological events with rich graph-based feature sets," Proceedings of the Workshop on Current Rends in Biomedical Natural Language Processing: Shared Task. Association for Computational Linguistics, pp.10-18, 2009.
Kim Jung-jae, Piotr Pezik and Dietrich Rebholz-Schuhmann., "MedEvi: retrieving textual evidence of relations between biomedical concepts from Medline," Bioinformatics, Vol.24. No.11, pp.1410-1412, 2008.
Jeongkyun Kim and Jung-jae Kim, "DigSee: disease gene search engine with evidence sentences(version cancer)," Nucleic Acids Research, 41(Web Server issue), pp.510-517, 2013.
Abdullah Saad Almalaise Alghamdi, "Efficient Implementation of FP-Growth Algorithm-Data Mining on Medical Data," International Journal of Computer Science and Network Security, Vol.11, No.12, pp.7-16, 2011.
Dong Hoon Yang, Ji Hoon Kang, and Seoung Bum Kim, "Association Rule Mining and Network Analysis in Oriental Medicine," PLOS one, Vol.8, No.3, 2013.
Rakesh Agrawal and R. Srikant, "Fast algorithms for mining association rules," VLDB, Vol.1215, pp.287-499, 1994.
J. Han, J. Pei, and Y. Yun, "Mining frequent patterns without candidate generation," ACM SIGMOD Int. Conf. Manag. Data, Vol.29, No.2, pp.1-12, 2000.
Yanbo J. Wang, Q. Xin, and F. Coenen, "A Novel Rule Weighting Approach in Classification Association Rule Mining," Seventh IEEE International Conference on. IEEE, pp.271-276, 2007.
Dong Gyu Lee, Kwang Sun Ryu, Mohamed Bashir, Jang Whan Bae, and Keun Ho Ryu, "Discovering Medical Knowledge using Association Rule Mining in Young Adults with Acute Myocardial Infraction," Journal of Medical System, Vol.37, No.2, pp.1-10, 2013.
Sajid Mahmood, Muhammad Shahbaz, and Aziz Guergachi, "Negative and Positive Association Rules Mining from Text Using Frequent and Infrequent Itemsets," The Scientific World Journal, 2014.
MIMIC2 [Internet], https://physionet.org/.
Goldberger, Ary, Jeffrey M. Hausdorff, Joseph E. Mietus, and H. Eugene Stanley, "PhysioBank physiotoolkit, and physionet components of a new research resource for complex physiologic signals," Circulation, Vol.101, No.23, pp.215-220, 2000.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.