$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

의료 정보 추출을 위한 TF-IDF 기반의 연관규칙 분석 시스템
TF-IDF Based Association Rule Analysis System for Medical Data 원문보기

정보처리학회논문지. KIPS transactions on software and data engineering. 소프트웨어 및 데이터 공학, v.5 no.3, 2016년, pp.145 - 154  

박호식 (아주대학교 컴퓨터공학과) ,  이민수 (이화여자대학교 컴퓨터공학과) ,  황성진 ((주)휴민텍 의료영상사업부) ,  오상윤 (아주대학교 소프트웨어학과)

초록
AI-Helper 아이콘AI-Helper

u-Health에 대한 관심과 IT 기술의 발전에 따라 의료 정보를 적극적으로 활용하고자 하는 요구가 커지고 있으며, 이에 대해 텍스트 형태의 의료 정보 데이터에 연관규칙 기법을 적용하여 질병과 증상과의 관계를 추론하는 시스템에 대한 연구들이 이루어지고 있다. 그러나 일반적인 연관규칙 기법을 의료 정보 데이터에 그대로 적용할 경우, 이전에는 새로운 연관규칙들보다 일반적이며 의미없는 연관규칙들이 많이 생성되는 문제가 발생한다. 또한 필터링으로 인해 빈번하게 함께 발생하지는 않지만 의학적으로 의미있는 항목들의 연관 규칙을 발견할 수 없다는 한계점을 가지게 된다. 본 논문에서는 의료데이터 특성을 고려하여 빈번한 항목과 빈번하지 않지만 의학적으로 의미 있는 항목들을 대상으로 연관규칙을 구성하여 의료 전문가의 의사 결정에 도움을 주기 위한 시스템을 제안한다. 제안 시스템은 의료 기록 데이터에서 용어들을 TF-IDF기반으로 가중치를 부여하고 기존 FP-Growth 알고리즘을 확장하여 TF-IDF 가중치를 고려한 빈번하게 발생하거나 빈번하지 않지만 의미 있는 연관규칙을 구성한다. 특정 질의 데이터가 입력되면 해당 데이터에 나타난 연관 규칙들의 유사도를 의학분야 온톨로지를 이용하여 평가하여 해당 데이터의 내용과 관련된 후보 질병들을 추론한다. 추론된 후보 질병명은 의료 전문가에게 의사 결정의 참고 자료로 제공된다. 실제 임상 진료 및 처방 기록 데이터에 대해 제안 시스템을 적용해 본 결과, 본 제안 시스템을 통해 도출한 연관 규칙이 기존 FP-Growth 알고리즘을 적용했을 때 보다 더 구체적인 질병과 증상과의 관계들을 포함함을 확인할 수 있었다. 또한 본 제안 시스템은 자유형식의 의료 및 병리데이터를 마이닝하고 후보 질병들을 가중치 기반으로 보여주므로, 의료 기록 정보로부터 질병 관련 새로운 정보를 획득하고 의료진의 의사 결정에 도움을 주는 시스템으로 활용될 수 있다.

Abstract AI-Helper 아이콘AI-Helper

Because of the recent interest in the u-Health and development of IT technology, a need of utilizing a medical information data has been increased. Among previous studies that utilize various data mining algorithms for processing medical information data, there are studies of association rule analys...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

문제 정의

  • 본 논문에서는 의료데이터 특성상 빈번한 항목과 빈번하지 않지만 의미를 가질 수 있는 항목들을 대상으로 연관규칙을 구성하여 의료 전문가의 의사 결정에 도움을 주기 위한 시스템을 제안한다. 제안 시스템은 의료 소견데이터에서 용어들을 TF-IDF 기반으로 가중치를 부여하고, 기존 FP-Growth 알고리즘을 확장하여 TF-IDF 가중치를 고려한 빈번하게 발생하거나 빈번하지 않지만 의미있는 연관규칙을 구성한다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
Alghamidi[9]는 FP-Growth알고리즘을 활용하여 어떤 시스템을 구축하였는가? Alghamidi[9]는 FP-Growth알고리즘을 이용하여 의료데이터의 연관규칙을 추출하였다. 이는 의료데이터의 각 속성(Attribute)의 관계에 대해 추출하고, 각 연관규칙에 대해 규칙 트리를 구성하여 의사결정에 도움이 되는 시스템을 구축하였다. Yang[10]은 방약합편이라는 책으로부터 질병의 증상과 약초와의 관계를 Apriori알고리즘을 이용하여 추출하여 네트워크 분석을 하였다.
신뢰도란 무엇인가? 신뢰도는 규칙의 강도를 나타낸 것으로 X가 발생할 때 Y도 동시에 발생하는 조건부 확률을 의미한다. 트랜잭션 X의 항목들을 포함하는 경우 Y의 항목들도 동시에 포함할 확률을 나타내며 신뢰도가 높은 규칙일수록 의미가 크다고 할 수 있다.
텍스트 형태의 의료 정보 데이터에 일반적인 연관규칙 기법을 적용한다면 무슨 문제가 발생하는가? u-Health에 대한 관심과 IT 기술의 발전에 따라 의료 정보를 적극적으로 활용하고자 하는 요구가 커지고 있으며, 이에 대해 텍스트 형태의 의료 정보 데이터에 연관규칙 기법을 적용하여 질병과 증상과의 관계를 추론하는 시스템에 대한 연구들이 이루어지고 있다. 그러나 일반적인 연관규칙 기법을 의료 정보 데이터에 그대로 적용할 경우, 이전에는 새로운 연관규칙들보다 일반적이며 의미없는 연관규칙들이 많이 생성되는 문제가 발생한다. 또한 필터링으로 인해 빈번하게 함께 발생하지는 않지만 의학적으로 의미있는 항목들의 연관 규칙을 발견할 수 없다는 한계점을 가지게 된다. 본 논문에서는 의료데이터 특성을 고려하여 빈번한 항목과 빈번하지 않지만 의학적으로 의미 있는 항목들을 대상으로 연관규칙을 구성하여 의료 전문가의 의사 결정에 도움을 주기 위한 시스템을 제안한다.
질의응답 정보가 도움이 되었나요?

참고문헌 (19)

  1. S. H. Kim, "Health IT Technology Trends," Electronics and Telecommunication Trens, Vol.25, No.6, pp.37-46, 2011. 

  2. Ottes, Leo, "Health 2.0 - It's up to You.," Medicine 2.0 Conference, JMIR Publication, 2010. 

  3. Jorge C. G. Ramirez, Lon A. Smith, and Lynn L. Peterson, "Medical Information Systems: Characterization and Challenges," ACM SIGMOD, Vol.23, No.3, pp.44-53, 1994. 

  4. Moon Koo Kim, Jong Hyun Park, and Young Hwan Joe, "A Study on the Key Success Factors of Big Data for Health Car," KSII, pp.239-240, 2013. 

  5. Hisham Al-Mubaid and Rajit K Singh, "A new text mining approach for finding protein-to-disease association," American Journal of Biochemistry and Biotechnology, Vol.1, No.3, pp.145-151, 2005. 

  6. J. Bjorne, Filip Ginter Heimonen, and Antti Airola, "Extracting complex biological events with rich graph-based feature sets," Proceedings of the Workshop on Current Rends in Biomedical Natural Language Processing: Shared Task. Association for Computational Linguistics, pp.10-18, 2009. 

  7. Kim Jung-jae, Piotr Pezik and Dietrich Rebholz-Schuhmann., "MedEvi: retrieving textual evidence of relations between biomedical concepts from Medline," Bioinformatics, Vol.24. No.11, pp.1410-1412, 2008. 

  8. Jeongkyun Kim and Jung-jae Kim, "DigSee: disease gene search engine with evidence sentences(version cancer)," Nucleic Acids Research, 41(Web Server issue), pp.510-517, 2013. 

  9. Abdullah Saad Almalaise Alghamdi, "Efficient Implementation of FP-Growth Algorithm-Data Mining on Medical Data," International Journal of Computer Science and Network Security, Vol.11, No.12, pp.7-16, 2011. 

  10. Dong Hoon Yang, Ji Hoon Kang, and Seoung Bum Kim, "Association Rule Mining and Network Analysis in Oriental Medicine," PLOS one, Vol.8, No.3, 2013. 

  11. Rakesh Agrawal and R. Srikant, "Fast algorithms for mining association rules," VLDB, Vol.1215, pp.287-499, 1994. 

  12. J. Han, J. Pei, and Y. Yun, "Mining frequent patterns without candidate generation," ACM SIGMOD Int. Conf. Manag. Data, Vol.29, No.2, pp.1-12, 2000. 

  13. Yanbo J. Wang, Q. Xin, and F. Coenen, "A Novel Rule Weighting Approach in Classification Association Rule Mining," Seventh IEEE International Conference on. IEEE, pp.271-276, 2007. 

  14. Dong Gyu Lee, Kwang Sun Ryu, Mohamed Bashir, Jang Whan Bae, and Keun Ho Ryu, "Discovering Medical Knowledge using Association Rule Mining in Young Adults with Acute Myocardial Infraction," Journal of Medical System, Vol.37, No.2, pp.1-10, 2013. 

  15. Sajid Mahmood, Muhammad Shahbaz, and Aziz Guergachi, "Negative and Positive Association Rules Mining from Text Using Frequent and Infrequent Itemsets," The Scientific World Journal, 2014. 

  16. MIMIC2 [Internet], https://physionet.org/. 

  17. Goldberger, Ary, Jeffrey M. Hausdorff, Joseph E. Mietus, and H. Eugene Stanley, "PhysioBank physiotoolkit, and physionet components of a new research resource for complex physiologic signals," Circulation, Vol.101, No.23, pp.215-220, 2000. 

  18. OBO Foundry [Internet], http://www.obofoundry.org. 

  19. Philip. Resnik, "Using information content to evaluate semantic similarity in a taxonomu," arXiv preprint cmp-lg/ 9511007, 1995. 

저자의 다른 논문 :

LOADING...

관련 콘텐츠

오픈액세스(OA) 유형

BRONZE

출판사/학술단체 등이 한시적으로 특별한 프로모션 또는 일정기간 경과 후 접근을 허용하여, 출판사/학술단체 등의 사이트에서 이용 가능한 논문

이 논문과 함께 이용한 콘텐츠

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로