[논문]의료 정보 추출을 위한 TF-IDF 기반의 연관규칙 분석 시스템

박호식; 이민수; 황성진; 오상윤

doi:10.3745/ktsde.2016.5.3.145

초록
AI-Helper

u-Health에 대한 관심과 IT 기술의 발전에 따라 의료 정보를 적극적으로 활용하고자 하는 요구가 커지고 있으며, 이에 대해 텍스트 형태의 의료 정보 데이터에 연관규칙 기법을 적용하여 질병과 증상과의 관계를 추론하는 시스템에 대한 연구들이 이루어지고 있다. 그러나 일반적인 연관규칙 기법을 의료 정보 데이터에 그대로 적용할 경우, 이전에는 새로운 연관규칙들보다 일반적이며 의미없는 연관규칙들이 많이 생성되는 문제가 발생한다. 또한 필터링으로 인해 빈번하게 함께 발생하지는 않지만 의학적으로 의미있는 항목들의 연관 규칙을 발견할 수 없다는 한계점을 가지게 된다. 본 논문에서는 의료데이터 특성을 고려하여 빈번한 항목과 빈번하지 않지만 의학적으로 의미 있는 항목들을 대상으로 연관규칙을 구성하여 의료 전문가의 의사 결정에 도움을 주기 위한 시스템을 제안한다. 제안 시스템은 의료 기록 데이터에서 용어들을 TF-IDF기반으로 가중치를 부여하고 기존 FP-Growth 알고리즘을 확장하여 TF-IDF 가중치를 고려한 빈번하게 발생하거나 빈번하지 않지만 의미 있는 연관규칙을 구성한다. 특정 질의 데이터가 입력되면 해당 데이터에 나타난 연관 규칙들의 유사도를 의학분야 온톨로지를 이용하여 평가하여 해당 데이터의 내용과 관련된 후보 질병들을 추론한다. 추론된 후보 질병명은 의료 전문가에게 의사 결정의 참고 자료로 제공된다. 실제 임상 진료 및 처방 기록 데이터에 대해 제안 시스템을 적용해 본 결과, 본 제안 시스템을 통해 도출한 연관 규칙이 기존 FP-Growth 알고리즘을 적용했을 때 보다 더 구체적인 질병과 증상과의 관계들을 포함함을 확인할 수 있었다. 또한 본 제안 시스템은 자유형식의 의료 및 병리데이터를 마이닝하고 후보 질병들을 가중치 기반으로 보여주므로, 의료 기록 정보로부터 질병 관련 새로운 정보를 획득하고 의료진의 의사 결정에 도움을 주는 시스템으로 활용될 수 있다.

Abstract ▼ AI-Helper

Because of the recent interest in the u-Health and development of IT technology, a need of utilizing a medical information data has been increased. Among previous studies that utilize various data mining algorithms for processing medical information data, there are studies of association rule analys...

Because of the recent interest in the u-Health and development of IT technology, a need of utilizing a medical information data has been increased. Among previous studies that utilize various data mining algorithms for processing medical information data, there are studies of association rule analysis. In the studies, an association between the symptoms with specified diseases is the target to discover, however, infrequent terms which can be important information for a disease diagnosis are not considered in most cases. In this paper, we proposed a new association rule mining system considering the importance of each term using TF-IDF weight to consider infrequent but important items. In addition, the proposed system can predict candidate diagnoses from medical text records using term similarity analysis based on medical ontology.

주제어

AI 본문요약
AI-Helper

문제 정의

본 논문에서는 의료데이터 특성상 빈번한 항목과 빈번하지 않지만 의미를 가질 수 있는 항목들을 대상으로 연관규칙을 구성하여 의료 전문가의 의사 결정에 도움을 주기 위한 시스템을 제안한다. 제안 시스템은 의료 소견데이터에서 용어들을 TF-IDF 기반으로 가중치를 부여하고, 기존 FP-Growth 알고리즘을 확장하여 TF-IDF 가중치를 고려한 빈번하게 발생하거나 빈번하지 않지만 의미있는 연관규칙을 구성한다.

제안 방법

본 논문에서는 의료데이터 특성상 빈번한 항목과 빈번하지 않지만 의미를 가질 수 있는 항목들을 대상으로 연관규칙을 구성하여 의료 전문가의 의사 결정에 도움을 주기 위한 시스템을 제안한다. 제안 시스템은 의료 소견데이터에서 용어들을 TF-IDF 기반으로 가중치를 부여하고, 기존 FP-Growth 알고리즘을 확장하여 TF-IDF 가중치를 고려한 빈번하게 발생하거나 빈번하지 않지만 의미있는 연관규칙을 구성한다. 특정 질의 데이터가 입력되면 해당 데이터에 나타난 연관규칙들안의 병명들의 유사도를 의학분야 온톨로지를 기반으로 평가하여 해당 데이터의 내용과 관련된 후보질병들을 추론한다.

대상 데이터

본 논문에서 사용된 의료소견 데이터는 MIMIC2 데이터는 PhysioNet에서 연구를 목적으로 미국 국립 보건원의 후원하에 제공되는 임상 데이터베이스이다[17]. 데이터 필드는 의료 전문가에 의한 진단과 병력, 환자의 상태, 처방 내역 등이 있다.
본 논문이 제시한 TF-IDF 기반의 FP-Growth 알고리즘의 성능을 평가하기 위해, 실제 임상 기록 데이터셋을 사용하였다. 이는 각 환자 기준으로 의료 전문가에 의해 작성된 진료 및 처방 이력에 대한 자연어로된 텍스트 데이터이다.

데이터처리

본 논문에서 제안한 TF-IDF 기반 FP-Growth 알고리즘을 이용한 병명 추론 시스템의 성능을 평가하기 위해 FP-Growth를 사용한 기존 시스템[9, 12]과 성능을 비교하였다. 성능 평가 기준이 정량적인 성능 평가가 아닌 정성적인 평가이므로, 성능 평가를 위해 제안 시스템과 기존 시스템으로부터 도출된 연관규칙들의 내용이 의학적 진단을 위한 구체적이고 유의미한 결과물인지 여부를 비교하였다.
본 논문에서는 Table 3과 같이 전체 트렌젝션 데이터에서 나타나는 단어들을 TF-IDF를 계산하여 높은 순으로 정렬한다. 다음으로 트렌젝션 데이터를 TF-IDF가 높은 단어의 순으로 정렬하여 FP-Tree를 구성한다.

이론/모형

본 논문에서는 가중치 측정을 위해 TF-IDF(Term Frequency-Inverse Document Frequency) 방법을 사용한다. TF-IDF는 문서내에서 특정 단어의 빈도를 전체 문서군의 단어 출현 빈도로 나눈 값이다.
이는 각 환자 기준으로 의료 전문가에 의해 작성된 진료 및 처방 이력에 대한 자연어로된 텍스트 데이터이다. 본 장에서는 성능 평가를 위한 실험 환경에 대해 설명하고 제안 시스템의 성능을 기존 FP-Growth 알고리즘을 사용한 시스템과 비교하여 정성적으로 평가한 결과를 제시한다. 또한, 본 제안 시스템에서 제공하는 의료진의 병명 진단을 돕기 위한 입력 임상 병리 테스트 데이터에 대한 후보 병명 추론 및 온톨로지 표현 결과도 제시한다.

성능/효과

의료 소견 데이터 문서군에서 빈번하지 않은 항목이 연관규칙 생성에 포함되지 않은 문제점을 해결하기 위한 TF-IDF 가중치 기반의 FP-Growth 기법을 제안하여 빈번하지 않은 항목도 연관규칙 생성에 포함되도록 개선하였다. 또한, 제안 시스템은 특정 진료 소견 데이터에 나타난 연관규칙들에 나타난 용어들의 의학 온톨로지상 거리를 분석하여 해당 진료 소견 데이터에 대한 후보 병명을 추론하고 이를 시각화하여 제공함으로써 의료 전문가의 진단에 참고 자료로 활용될 수 있도록 하였다. 실제 임상 텍스트 데이터를 활용한 실험을 통해 제안 시스템이 기존 FP-Growth 알고리즘기반 시스템에 비해 의학적으로 더 의미있고 구체적인 연관규칙을 발견함을 확인할 수 있었다.
또한, 제안 시스템은 특정 진료 소견 데이터에 나타난 연관규칙들에 나타난 용어들의 의학 온톨로지상 거리를 분석하여 해당 진료 소견 데이터에 대한 후보 병명을 추론하고 이를 시각화하여 제공함으로써 의료 전문가의 진단에 참고 자료로 활용될 수 있도록 하였다. 실제 임상 텍스트 데이터를 활용한 실험을 통해 제안 시스템이 기존 FP-Growth 알고리즘기반 시스템에 비해 의학적으로 더 의미있고 구체적인 연관규칙을 발견함을 확인할 수 있었다.

후속연구

향후 연구로는 연관규칙 생성에 FP-Growth 알고리즘을 병렬화 및 분산화하여 성능 향상을 하는 연구가 필요하다. 또한, 의료 온톨로지가 현재 병명 위주로 구성되어 있는데, 질병과 증상간의 관계에 관한 온톨로지 구조가 확립되어 활용된다면 더욱 의학적으로 의미있고 정확한 연관규칙을 생성하여 의료 전문가의 의사결정에 도움을 주는 시스템이 될 것이라 기대한다.

질의응답

핵심어	질문	논문에서 추출한 답변
	Alghamidi[9]는 FP-Growth알고리즘을 활용하여 어떤 시스템을 구축하였는가?	Alghamidi[9]는 FP-Growth알고리즘을 이용하여 의료데이터의 연관규칙을 추출하였다. 이는 의료데이터의 각 속성(Attribute)의 관계에 대해 추출하고, 각 연관규칙에 대해 규칙 트리를 구성하여 의사결정에 도움이 되는 시스템을 구축하였다. Yang[10]은 방약합편이라는 책으로부터 질병의 증상과 약초와의 관계를 Apriori알고리즘을 이용하여 추출하여 네트워크 분석을 하였다.
	신뢰도란 무엇인가?	신뢰도는 규칙의 강도를 나타낸 것으로 X가 발생할 때 Y도 동시에 발생하는 조건부 확률을 의미한다. 트랜잭션 X의 항목들을 포함하는 경우 Y의 항목들도 동시에 포함할 확률을 나타내며 신뢰도가 높은 규칙일수록 의미가 크다고 할 수 있다.
	텍스트 형태의 의료 정보 데이터에 일반적인 연관규칙 기법을 적용한다면 무슨 문제가 발생하는가?	u-Health에 대한 관심과 IT 기술의 발전에 따라 의료 정보를 적극적으로 활용하고자 하는 요구가 커지고 있으며, 이에 대해 텍스트 형태의 의료 정보 데이터에 연관규칙 기법을 적용하여 질병과 증상과의 관계를 추론하는 시스템에 대한 연구들이 이루어지고 있다. 그러나 일반적인 연관규칙 기법을 의료 정보 데이터에 그대로 적용할 경우, 이전에는 새로운 연관규칙들보다 일반적이며 의미없는 연관규칙들이 많이 생성되는 문제가 발생한다. 또한 필터링으로 인해 빈번하게 함께 발생하지는 않지만 의학적으로 의미있는 항목들의 연관 규칙을 발견할 수 없다는 한계점을 가지게 된다. 본 논문에서는 의료데이터 특성을 고려하여 빈번한 항목과 빈번하지 않지만 의학적으로 의미 있는 항목들을 대상으로 연관규칙을 구성하여 의료 전문가의 의사 결정에 도움을 주기 위한 시스템을 제안한다.

참고문헌 (19)

S. H. Kim, "Health IT Technology Trends," Electronics and Telecommunication Trens, Vol.25, No.6, pp.37-46, 2011.
Ottes, Leo, "Health 2.0 - It's up to You.," Medicine 2.0 Conference, JMIR Publication, 2010.
Jorge C. G. Ramirez, Lon A. Smith, and Lynn L. Peterson, "Medical Information Systems: Characterization and Challenges," ACM SIGMOD, Vol.23, No.3, pp.44-53, 1994.
Moon Koo Kim, Jong Hyun Park, and Young Hwan Joe, "A Study on the Key Success Factors of Big Data for Health Car," KSII, pp.239-240, 2013.
Hisham Al-Mubaid and Rajit K Singh, "A new text mining approach for finding protein-to-disease association," American Journal of Biochemistry and Biotechnology, Vol.1, No.3, pp.145-151, 2005.
J. Bjorne, Filip Ginter Heimonen, and Antti Airola, "Extracting complex biological events with rich graph-based feature sets," Proceedings of the Workshop on Current Rends in Biomedical Natural Language Processing: Shared Task. Association for Computational Linguistics, pp.10-18, 2009.
Kim Jung-jae, Piotr Pezik and Dietrich Rebholz-Schuhmann., "MedEvi: retrieving textual evidence of relations between biomedical concepts from Medline," Bioinformatics, Vol.24. No.11, pp.1410-1412, 2008.

상세보기
Jeongkyun Kim and Jung-jae Kim, "DigSee: disease gene search engine with evidence sentences(version cancer)," Nucleic Acids Research, 41(Web Server issue), pp.510-517, 2013.

상세보기
Abdullah Saad Almalaise Alghamdi, "Efficient Implementation of FP-Growth Algorithm-Data Mining on Medical Data," International Journal of Computer Science and Network Security, Vol.11, No.12, pp.7-16, 2011.
Dong Hoon Yang, Ji Hoon Kang, and Seoung Bum Kim, "Association Rule Mining and Network Analysis in Oriental Medicine," PLOS one, Vol.8, No.3, 2013.

상세보기
Rakesh Agrawal and R. Srikant, "Fast algorithms for mining association rules," VLDB, Vol.1215, pp.287-499, 1994.
J. Han, J. Pei, and Y. Yun, "Mining frequent patterns without candidate generation," ACM SIGMOD Int. Conf. Manag. Data, Vol.29, No.2, pp.1-12, 2000.
Yanbo J. Wang, Q. Xin, and F. Coenen, "A Novel Rule Weighting Approach in Classification Association Rule Mining," Seventh IEEE International Conference on. IEEE, pp.271-276, 2007.
Dong Gyu Lee, Kwang Sun Ryu, Mohamed Bashir, Jang Whan Bae, and Keun Ho Ryu, "Discovering Medical Knowledge using Association Rule Mining in Young Adults with Acute Myocardial Infraction," Journal of Medical System, Vol.37, No.2, pp.1-10, 2013.
Sajid Mahmood, Muhammad Shahbaz, and Aziz Guergachi, "Negative and Positive Association Rules Mining from Text Using Frequent and Infrequent Itemsets," The Scientific World Journal, 2014.
MIMIC2 [Internet], https://physionet.org/.
Goldberger, Ary, Jeffrey M. Hausdorff, Joseph E. Mietus, and H. Eugene Stanley, "PhysioBank physiotoolkit, and physionet components of a new research resource for complex physiologic signals," Circulation, Vol.101, No.23, pp.215-220, 2000.

상세보기
OBO Foundry [Internet], http://www.obofoundry.org.
Philip. Resnik, "Using information content to evaluate semantic similarity in a taxonomu," arXiv preprint cmp-lg/ 9511007, 1995.

이 논문을 인용한 문헌

저자의 다른 논문 :

LOADING...

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

의료 정보 추출을 위한 TF-IDF 기반의 연관규칙 분석 시스템
TF-IDF Based Association Rule Analysis System for Medical Data 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (19)

이 논문을 인용한 문헌

저자의 다른 논문 :

연구과제 타임라인

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

의료 정보 추출을 위한 TF-IDF 기반의 연관규칙 분석 시스템 TF-IDF Based Association Rule Analysis System for Medical Data 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (19)

이 논문을 인용한 문헌

저자의 다른 논문 :

이민수 (23) 오상윤 (25)

연구과제 타임라인

전체(0) 논문(0) 특허(0) 보고서(0)

전체(0) 논문(0) 특허(0) 보고서(0)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

의료 정보 추출을 위한 TF-IDF 기반의 연관규칙 분석 시스템
TF-IDF Based Association Rule Analysis System for Medical Data 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper