$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

부정맥 증상을 자동으로 판별하는 Random Forest 분류기의 정확도 향상을 위한 수정 알고리즘에 대한 연구
Research on the modified algorithm for improving accuracy of Random Forest classifier which identifies automatically arrhythmia 원문보기

정보처리학회논문지. The KIPS transactions. Part B. Part B, v.18B no.6, 2011년, pp.341 - 348  

이현주 (세종대학교 컴퓨터공학과) ,  신동규 (세종대학교 컴퓨터공학과) ,  박희원 (삼성전자 VD사업부) ,  김수한 (삼성전자 VD 사업부) ,  신동일 (세종대학교 컴퓨터공학과)

초록
AI-Helper 아이콘AI-Helper

생체신호의 한 분야인 심전도분류알고리즘을 사용한 실험이 일반적이다. 심전도를 실험한 논문에서 사용된 분류알고리즘은 대부분 SVM(Support Vector Machine), MLP(Multilayer Perceptron) 이었으나, 본 실험은 Random Forest 분류기를 시도하였다. 실험방법은 Random Forest 알고리즘을 실험데이터의 신호의 특징에 기반하여 분석하도록 수정하였고, 분류기의 수정된 알고리즘 성능을 규명하기 위하여 SVM과 MLP 분류기와 정확도를 비교 분석하였다. 실험에서는 심전도 신호의 R-R interval을 추출하여 시행하였으며 또한 동일한 데이터를 사용한 타 논문의 결과와 본 실험의 결과를 비교 분석하였다. 결과는 수정된 Random Forest 분류기가 SVM, MLP 분류기, 그리고 타 실험의 결과보다 정확도 부분에서는 우수한 결과를 도출하였다. 본 실험의 전처리 과정에서는 대역통과필터를 사용하여 R-R interval을 추출하였다. 그러나 심전도 실험에서는 대역통과 필터 뿐 아니라, 웨이블릿 변환, 메디안 필터, 유한 임펄스 필터 등으로 실험하는 경우가 많다. 따라서 향후에는 전처리과정에서 기저선 잡음(baseline wandering)을 효율적으로 제거하는 필터의 선택이 필요하며, R-R interval을 정확하게 추출할 수 있는 방법에 대한 연구가 필요하다고 사려된다.

Abstract AI-Helper 아이콘AI-Helper

ECG(Electrocardiogram), a field of Bio-signal, is generally experimented with classification algorithms most of which are SVM(Support Vector Machine), MLP(Multilayer Perceptron). But this study modified the Random Forest Algorithm along the basis of signal characteristics and comparatively analyzed ...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

제안 방법

  • 본 논문에서는 SVM과 MLP 분류기의 정확도와 Random Forest 분류기의 정확도를 MIT-BIH Arrhythmia Database를 사용하여 비교 분석하였다. R-R interval 데이터 추출 (전 처리 과정)에는 Biomedical Startup Kit을 이용하였고, Random Forest 분류기는 Weka에서 제공된 것을 수정하여 활용하였다.
  • 또한 동등한 데이터와 R-R interval을 추출하여 실험한 타 논문들의 결과와 본 실험의 결과를 비교 분석하였다. R-R interval을 MIT-BIH Arrhythmia Database에서 제공한 beat annotation을 참고하여 신호를 분류하고 데이터를 구성하였으며 분류기 알고리즘의 수정도 시도하였다.
  • RF(Random Forest)는 정확도의 향상을 위해서 본 실험에서는 우선 신호를 선택하여 추적하는 방법으로 수정하였다. (그림 7)은 Random Forest의 수정전과 후의 정확도를 나타낸 그래프이다.
  • Random Forest 분류기로 실험하여 TP(True Positive), TN(True Negative), FP(False Positive) 그리고 FN(False Negative)을 도출 한 후에 Accuracy(정확도), Sensitivity(민감도), Specificity(특이도), DER(Detection Error Rate)과 PPR(Positive Predictive Rate)를 측정하였다. 수식은 다음과 같다.
  • <표 3>은 48개의 R-R interval 특징 데이터를 Random Forest로 실험한 결과를 나타낸 것이다. TP, TN, FP 그리고 FN의 값을 먼저 도출한 후에 DER(Detection Error Rate), PPR(Positive Predictive Rate), SEN(Sensitivity%), SPE(Specificity%), ACC(Accuracy%)를 계산하고 평균값 (Mean)을 구하였다. <표 3>을 살펴보면 ACC에서 100% 결과를 도출한 데이터가 11개 존재한다.
  • 실험은 전처리 단계에서 R-R interval을 추출하였고, 추출된 데이터를 Weka에서 실험할 수 있도록 데이터를 구성하여 시행하였다. Weka에서의 실험은 먼저 unsupervised에서 제공된 Re-sample 필터를 사용하여 데이터를 축소하였고, 축소된 데이터를 Random Forest 분류기로 실험하였다. Random Forest 분류기에서의 실험은 다중교차검증(k-fold cross- validation)방법으로 진행하였다.
  • 그리고 Forest-RI는 N신호와 ∼신호를 분리한 후에 다른 신호들을 추적하여 분류하도록 설계하였다.
  • 실험데이터는 대역통과필터(Band-pass filter)를 사용하여 Narrow와 Wide 두 파형으로 R-R interval을 추출하여 구성하였다. 데이터의 속성파일(class파일)은 2.1에서 설명한 바처럼 beat annotation을 참고하여 만들었다. 구성된 부정맥 실험데이터에서 가장 많이 발생한 beat는 N(Normal)신호와∼(Change in signal quality)신호이다.
  • 첫 번째, 신호를 무작위 선택 방법에서 고 빈도 신호를 우선 선택하는 방법으로 수정하였다. 두 번째, 최적 분리에서 부정맥 신호를 탐지하여 분류하도록 수정하였다. 세 번째, Decision Tree를 사용하는 대신에 Best-first decision tree 를 적용하였다.
  • 두 집단 간의 차이를 뚜렷이 하기위하여 Random Forest 분류기의 알고리즘을 다음과 같이 세 단계로 수정하였다. 첫 번째, 신호를 무작위 선택 방법에서 고 빈도 신호를 우선 선택하는 방법으로 수정하였다.
  • 그러므로 데이터의 특성이 특정 변수에 수직적으로 구분되지 못할 때 분류율이 떨어지고 트리가 복잡해지므로 최적의 정확도를 보장하지 못한다. 따라서 이러한 단점을 보완하기 위해서 B-F Tree를 대신 적용하여 알고리즘을 수정하였다. B-F Tree는 고정된 명령 대신에 best-first 명령으로 node 들을 확장하는 방법으로 각 단계에서 최적으로 분리된 node 를 더해주며 분리가 필요한 모든 node에서 발생하는 오류를 최소화 한다.
  • 그런데 부정맥 실험결과의 정확도를 향상시키기 위한 노력의 일환으로 SVM과 MLP와 알고리즘이 다른 Random Forest 분류기의 성능을 실험할 필요가 있다고 본다. 따라서본 고는 Random Forest의 분류기의 성능을 알기 위해서 SVM과 MLP 분류기의 정확도를 비교 분석 하였다. 또한 동등한 데이터와 R-R interval을 추출하여 실험한 타 논문들의 결과와 본 실험의 결과를 비교 분석하였다.
  • 본 논문에서는 SVM과 MLP 분류기의 정확도와 Random Forest 분류기의 정확도를 MIT-BIH Arrhythmia Database를 사용하여 비교 분석하였다. R-R interval 데이터 추출 (전 처리 과정)에는 Biomedical Startup Kit을 이용하였고, Random Forest 분류기는 Weka에서 제공된 것을 수정하여 활용하였다.
  • 본 실험에서는 Forest-RI와 Forest-RC의 수정 외에도 Decision Tree 대신에 Best-first decision tree(B-F Tree)를 적용하여 오류를 줄였다. B-F Tree는 고정된 명령대신 best-first 명령으로 node들을 확장하는 방법으로 분리데이터가 실제적이지 않으면 성장을 중지하고, 최종 확장한 수를 가지고 판단하며 확장한 수와 가지의 평균 오류 견적을 최소화 하므로 상대적으로 Decision Tree 보다 오류율을 줄일 수 있다.
  • 이러한 절차에 따라서 각 구획이 시험용으로 정확히 한번만 사용되도록 k번 반복되며 총 오류는 k번의 모든 수행에 대한 오류들을 합해서 얻어진다. 본 실험에서는 k의 값을 10으로 설정하여 10-fold cross-validation으로 실험을 진행하였고, 도출된 TP, TN, FP, FN의 수치를 기반으로 Accuracy(정확도), Sensitivity (민감도), Specificity(특이도), DER(Detection Error Rate)과 PPR(Positive Predictive Rate)를 측정하였다.
  • N은 정상적인 파형을 뜻하고 ∼는 파형이 현재에서 다른 파형으로 전환됨을 나타낸다. 부정맥을 의미하는 beat는 V(Premature Ventricular Contraction)신호와 A(Atrial Premature Beat)신호가 가장 많이 발생하였는데 본 실험은 빈번하게 발생되는 beat를 기반으로 알고리즘을 수정하였다. 수정한 알고리즘에서 Forest-RI는 N(Normal)신호와 ∼(Change in signal quality)신호를 먼저 선택하고, Forest-RC는 V(Premature Ventricular Contraction)신호와 A(Atrial Premature Beat)신호를 추적하여 부정맥을 분류하도록 고안하였다.
  • Forest-RC는 F개의 입력특징이 일반적인 선형조합에 도달하면 입력한 데이터를 최적의 상태로 분리한다[9]. 수정된 알고리즘에서 Forest-RI는 가장 많이 나타나는 신호를 먼저 선택하고, Forest-RC는 부정맥 신호를 추적하여 분류하도록 고안하였다. 그리고 Decision Tree 대신에 Best-First decision tree(B-F Tree)를 적용하였다.
  • 수정한 알고리즘에서 Forest-RI는 N(Normal)신호와 ∼(Change in signal quality)신호를 먼저 선택하고, Forest-RC는 V(Premature Ventricular Contraction)신호와 A(Atrial Premature Beat)신호를 추적하여 부정맥을 분류하도록 고안하였다.
  • 나머지 25개의 데이터는 23개의 데이터와 동일한 집단에서 수집된 데이터이지만, 임상적으로 중요한 부정맥 신호를 가지고 있다<표 1 참조>. 실험데이터의 class파일(속성파일)은 annotation symbol을 바탕으로 구성하였다.
  • 2 버전에서 Random Forest분류기로 진행하였다(그림 6 참조). 실험은 전처리 단계에서 R-R interval을 추출하였고, 추출된 데이터를 Weka에서 실험할 수 있도록 데이터를 구성하여 시행하였다. Weka에서의 실험은 먼저 unsupervised에서 제공된 Re-sample 필터를 사용하여 데이터를 축소하였고, 축소된 데이터를 Random Forest 분류기로 실험하였다.
  • 두 집단 간의 차이를 뚜렷이 하기위하여 Random Forest 분류기의 알고리즘을 다음과 같이 세 단계로 수정하였다. 첫 번째, 신호를 무작위 선택 방법에서 고 빈도 신호를 우선 선택하는 방법으로 수정하였다. 두 번째, 최적 분리에서 부정맥 신호를 탐지하여 분류하도록 수정하였다.

대상 데이터

  • 데이터는 K&L[12]의 실험데이터를 참고하여 선택하였다.
  • 추출된 R-R interval은 분류기 실험에서 사용된 Weka에서 실험할 수 있는 형태로 디자인되었다. 디자인된 데이터는 Weka에서 제공되는 분류기의 하나인 Random Forest 분류기로 실험하였다. (그림 4)와 (그림 5)는 특징추출전과 추출 후의 부정맥 데이터를 나타낸 것으로, 추출된 신호는 신호의 간격과 높낮이에 따라서 정상적인 신호와 부정맥 신호로 분류된다.
  • 3.2 실험방법

    실험데이터는 대역통과필터(Band-pass filter)를 사용하여 Narrow와 Wide 두 파형으로 R-R interval을 추출하여 구성하였다. 데이터의 속성파일(class파일)은 2.

  • 이 기록은 1975년과 1979년 사이에 BIH 부정맥 실험실에서 연구된 것이다. 이 데이터는 총 48개로 구성되었는데, 23개의 기록은 40%의 외래환자와 60%의 입원환자 두 집단에서 선택되었고, 이는 4000개의 데이터 집합으로부터 임의로 수집된 것이다. 나머지 25개의 데이터는 23개의 데이터와 동일한 집단에서 수집된 데이터이지만, 임상적으로 중요한 부정맥 신호를 가지고 있다<표 1 참조>.

데이터처리

  • Weka에서의 실험은 먼저 unsupervised에서 제공된 Re-sample 필터를 사용하여 데이터를 축소하였고, 축소된 데이터를 Random Forest 분류기로 실험하였다. Random Forest 분류기에서의 실험은 다중교차검증(k-fold cross- validation)방법으로 진행하였다. 다중교차검증(k-fold cross-validation)방법은 데이터를 k개의 동일한 크기 구획으로 분할하는 방법으로 구획들 중 하나가 시험용으로 선택되고 나머지는 훈련용으로 사용되는 방법이다[10].
  • 따라서본 고는 Random Forest의 분류기의 성능을 알기 위해서 SVM과 MLP 분류기의 정확도를 비교 분석 하였다. 또한 동등한 데이터와 R-R interval을 추출하여 실험한 타 논문들의 결과와 본 실험의 결과를 비교 분석하였다. R-R interval을 MIT-BIH Arrhythmia Database에서 제공한 beat annotation을 참고하여 신호를 분류하고 데이터를 구성하였으며 분류기 알고리즘의 수정도 시도하였다.

이론/모형

  • 수정된 알고리즘에서 Forest-RI는 가장 많이 나타나는 신호를 먼저 선택하고, Forest-RC는 부정맥 신호를 추적하여 분류하도록 고안하였다. 그리고 Decision Tree 대신에 Best-First decision tree(B-F Tree)를 적용하였다. 일반적으로 Decision Tree는 주어진 데이터를 분류하는 목적으로 사용되는 알고리즘으로 목표변수를 기준으로 분류한다.
  • 본 실험에서는 NI Labview(National Instrument Labview) 에서 제공되는 Biomedical Startup Kit 3.0을 추출작업에 사용하였으므로, Kit에서 제공하는 대역통과필터를 사용하였다 (그림 3 참조). 대역통과필터는 single filter 안에서 lowpass와 high-pass를 조합하여 잡음을 걸러내도록 디자인된 필터이다[8].
  • 분류기실험은 Weka-3.6.2 버전에서 Random Forest분류기로 진행하였다(그림 6 참조). 실험은 전처리 단계에서 R-R interval을 추출하였고, 추출된 데이터를 Weka에서 실험할 수 있도록 데이터를 구성하여 시행하였다.
  • 두 번째, 최적 분리에서 부정맥 신호를 탐지하여 분류하도록 수정하였다. 세 번째, Decision Tree를 사용하는 대신에 Best-first decision tree 를 적용하였다. 그 결과 Random Forest 분류기 정확도를 최대화할 수 있어 SVM과 MLP 분류기보다 성능이 우수하였고 오류를 줄일 수 있었다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
R-R interval의 신호에서 발생되는 심장박동의 특징에 따라 부정맥을 탐지하고 분류한 과정은 무엇인가? Tsipouras, Fotiadis 그리고 Sideris[3]는 R-R interval의 신호에서 발생되는 심장박동의 특징에 따라 부정맥을 탐지하고 분류하였다. 그들은 첫째, 부정맥 신호에서 발생되는 beat를 분류하여 신호를 탐지하였고 둘째, 부정맥신호에서 발생하는 6개의 특징을 가지고 단계별로 부정맥 추출작업을 실행하였다. SVM(Support Vector Machine)분류기를 응용한 Song[4]의 실험은 정상리듬(NSR)분류기, 심실빈맥(VT)분류기, 심실세동(VT)분류기 그리고 부정맥분류기와 같은 SVM다원 분류기로 실험하였고, 각각의 분류기는 입력되는 신호의 특징에 따라서 부정맥이 검출 될 시에 양의 값을 출력하였다.
심전도란? 심전도(ECG: Electrocardiogram)는 심장활동 시에 나타나는 전기적 신호로써 심장 상태와 질환을 알아 볼 수 있는 중요한 자료로 쓰인다[1]. 심전도 신호는 P, Q, R, S, T의 다섯 파형으로 구성되며, 파형의 높낮이와 간격의 특징에 따라 신호를 분류하고, 심장의 상태와 질병의 유무를 판단하여 심전도데이터를 구성 할 수 있다.
심전도는 어떻게 쓰이는가? 심전도(ECG: Electrocardiogram)는 심장활동 시에 나타나는 전기적 신호로써 심장 상태와 질환을 알아 볼 수 있는 중요한 자료로 쓰인다[1]. 심전도 신호는 P, Q, R, S, T의 다섯 파형으로 구성되며, 파형의 높낮이와 간격의 특징에 따라 신호를 분류하고, 심장의 상태와 질병의 유무를 판단하여 심전도데이터를 구성 할 수 있다.
질의응답 정보가 도움이 되었나요?

참고문헌 (12)

  1. K. S. Park, B. H. Cho, D. H. Lee, S. H. Song, J. S. Lee, Y. J. Chee, I. Y. Kim, and S. I. Kim, "Hierarchical Classification of ECG Beat Using Higher Order Statistics and Hermite Model," J Kor Soc Med Informatics, Vol.15, pp.117-131, 2009. 

  2. Korean Heart Rhythm Society : http://www.k-hrs.org/ 

  3. M. G. Tsipouras, D. I. Fotiadis and D. Sideris, "An arrhythmia Classification system based on the RR-interval signal," Artificial Intelligence in Madicine, Vol.33, pp.237-250, 2005. 

  4. M. H. Song, J. Lee, S. F. Cho and K. J. Lee, "SVM Classifier for the Detection of Ventricular Fibrillation," The Institute of Electronics of Korea, Vol.42, pp.261-268, 2005. 

  5. PhysioBank : http://physionet.mit.edu/physiobank/database/mitdb/ 

  6. NI Biomedical Startup Kit 3.0 : http://decibel.ni.com/content/docs/DOC-12646 

  7. G. D. Clifford, F. Azuaje and P. E. McSharry, "Advanced Methods and Tools for ECG Data Analysis," Artech House, pp.101-102, 2006. 

  8. All About Circuits : http://www.allaboutcircuits.com/vol_2/chpt_8/4.html 

  9. L. Breiman, 'Machine Learning', Kluwer Academic Publishers in Netherlands, 2001. 

  10. P. N. Tan, M. Steinbach and V. Kumar, 'Introduction to Data Mining', 1-st Addison-Wesley, 2006. 

  11. H. Shi, "Best-first Decision Tree Learning," The University of Waikato in NewZealand, pp.3-5, 2007. 

  12. K. Tateno and L. Glass, "A Method for Detection of Atrial Fibrillation Using RR Intervals," Computers in Cardiology(IEEE), Vol.27, pp.391-394, 2000. 

저자의 다른 논문 :

LOADING...

관련 콘텐츠

오픈액세스(OA) 유형

BRONZE

출판사/학술단체 등이 한시적으로 특별한 프로모션 또는 일정기간 경과 후 접근을 허용하여, 출판사/학술단체 등의 사이트에서 이용 가능한 논문

이 논문과 함께 이용한 콘텐츠

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로