[논문]분류회귀나무를 이용한 의료서비스 적기처리 예측모형

이종찬; 정승우; 이원영

doi:10.7471/ikeee.2016.20.1.016

분류회귀나무를 이용한 의료서비스 적기처리 예측모형
A Prediction Model of Timely Processing on Medical Service using Classification and Regression Tree 원문보기

전기전자학회논문지 = Journal of IKEEE, v.20 no.1, 2016년, pp.16 - 25

이종찬 (Dept. of Industrial and Information Systems, Seoul National University of Science and Technology) , 정승우 (The Catholic University of Korea. Uijeongbu St.Mary Hospital) , 이원영 (Dept. of Industrial and Information Systems, Seoul National University of Science and Technology)

초록
AI-Helper

의학적 진단을 내리기 위해 시행되는 검사의 소요시간(turnaround time, TAT)은 환자대기시간과 직결되며 중요한 의료서비스 평가항목 중 하나이다. 본 연구에서는 주요 영상의학검사를 대상으로 TAT를 측정하고, 그 결과가 의료기관이 설정한 기준치를 달성하는지 여부를 분석하였다. 분류회귀나무 알고리즘을 이용한 예측 결과, "진료과", "상병", "검사종류", "실시월"이 적기처리 달성에 가장 큰 영향을 주는 요인으로 확인되었다. 본 연구는 의료서비스의 적기처리를 예측하는 모형을 통하여 의료서비스 지연을 사전에 조치할 수 있는 수단을 제공하였다는 데에 큰 의미가 있다.

Abstract ▼ AI-Helper

Turnaround time (called, TAT) for imaging test, which is necessary for making a medical diagnosis, is directly related to the patient's waiting time and it is one of the important performance criteria for medical services. In this paper, we measured the TAT from major imaging tests to see it met the reference point set by the medical institutions. Prediction results from the algorithm of classification regression tree (called, CART) showed "clinics", "diagnosis", "modality", "test month" were identified as main factors for timely processing. This study had a contribution in providing means of prevention of the delay on medical services in advance.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

한편, 데이터마이닝(data mining)을 이용한 품질지표 도출에 대한 연구[5]는 이전 연구가 가지고 있는 탐색범위의 협소함을 극복하는 한 가지 방안을 제시하였고. 본 연구에도 다량의 데이터 속에 숨겨진 인과관계를 설명하기 위해 되도록 인간이 이해하기 쉬운 알고리즘과 데이터 마이닝 기법을 이용한 예측모형을 구현하고자 하였다.
본 연구에서는 의료서비스의 적기처리를 예측하기 위한 모형 개발 절차를 제시하였다. 결정트리 분석의 강점은 인간이 이해하기 쉬운 형태로 데이터의 인과관계를 해석할 수 있게 해 준다는 점이다.
본 절에서는 결정트리 분석 기법에 대해 알아보고, 다양한 결정트리 알고리즘 중에서 CART 알고리즘에 대해 소개하였다.
본 절에서는 예측 모형에 사용된 CART 알고리즘의 작동원리에 대해 알아보았다. 이어서, 기계학습에 사용되는 변수 선택과 본 연구의 절차에 대해 논의하였다.
본 절에서는 예측 모형에 사용된 CART 알고리즘의 작동원리에 대해 알아보았다. 이어서, 기계학습에 사용되는 변수 선택과 본 연구의 절차에 대해 논의하였다.

가설 설정

영상의학검사 후 6일 이내 판독완료를 의미하는 TAT의 달성이 80% 이상인 말단 노드를 TAT 적기처리로 보았고, TAT가 적기처리된 노드는 8번, 13번, 19번, 24번, 25번, 26번, 31번, 33번, 34번, 36번, 37번으로 나타났다. TAT의 적기처리가 60% 미만으로 나타나는 노드는 TAT 미달로 정하였다. 즉, TAT 미달이 된 노드는 검사 후 7일이 경과한 후 판독 결과가 나오는 경우가 40%를 초과했다는 의미이다.

제안 방법

본 절에서는 예측 모형의 적용 사례를 제시하였다. 먼저 수집된 데이터를 소개하고 이어서 CART 알고리즘을 통해 구축된 분류나무를 보여 준다.
이를 예방하기 위해 학습 데이터와 검증 데이터 간 교차 검증(cross validation)이 될 수 있도록 분석 데이터를 분할하여 사용하는 것이 바람직하다. 본 연구에서는 그림 5에서 나타나는 바와 같이 전체 데이터를 2개의 그룹으로 균등분할 후 각각의 그룹을 7:3의 비율로 나누어 각각 학습 데이터와 검증 데이터로 사용하는 소단위 검증 단계를 진행 후, 다시 전체 규모의 데이터를 7:3의 비율로 나누어 각각 학습 데이터와 검증 데이터로 사용하는 대단위 검증 단계를 거침으로써 교차 검증을 수행하였다.
결정트리 분석의 강점은 인간이 이해하기 쉬운 형태로 데이터의 인과관계를 해석할 수 있게 해 준다는 점이다. 본 연구에서는 다양한 결정트리 분석 기법 중 분류회귀나무 알고리즘을 모형에 적합화한 후 데이터 마이닝 절차에 따라 C의료원에 대한 사례 분석을 실시하였다. 그 결과, 노드 수가 37개이면서 깊이가 5인 트리가 만들어졌으며, “진료과”, “상병”, “검사구분”, “실시월”이 의료서비스 적기 처리에 영향을 미치는 요인으로 나타났다.
본 절에서는 예측 모형의 적용 사례를 제시하였다. 먼저 수집된 데이터를 소개하고 이어서 CART 알고리즘을 통해 구축된 분류나무를 보여 준다.
관측변수의 종류는 크게 독립변수와 종속변수를 포함하고 있다. 서비스 적기처리 예측을 위해 사용된 변수[실시월~모달리티]를 독립변수로 정하였고, 독립변수의 영향으로 나타난 서비스 적기 처리 결과[TAT]를 종속변수로 정하였다. 독립변수의 데이터 타입(data type)은 숫자형과 범주형을 포함하고 있으며, 종속변수의 데이터 타입은 “달성[Y]” 또는 “미달성[N]”을 나타내는 범주형 값이다.
임의의 프로세스가 개시되고 종료되기까지의 시간간격을 반환시간(turnaround time, TAT)으로 정의하였다. 예측 모형에서 분류회귀나무 알고리즘을 이용하여 TAT가 정상 범위 값을 갖는 데이터와 그 반대의 데이터를 학습하도록 하였다. 학습된 알고리즘은 일종의 TAT 분류기(TAT classifier)로서, 서비스 개선을 목적으로 다양하게 응용될 수 있으며, 특히 전문가시스템(expert system) 또는 의사결정지원시스템(decision support system, DSS) 분야에서 그 활용 가치가 높다[6],[7].
2009년 이후 의료원 산하 5개 병원의 정보시스템을 통합 구축하여 운영하고 있으며, 서비스 수준 협약(service level agreement: SLA)을 토대로 IT서비스를 제공하고 있는 비교적 업무 프로세스가 선진화된 의료기관으로 볼 수 있다. 이러한 C 의료원의 부속 기관 중 700여 병상 규모의 병원을 한 곳 선정하여 영상의학검사의 TAT 분석을 실시하였다. 데이터는 2014년 1월~4월 사이 발생된 약 1만2천여 건의 요약 데이터를 사용하였으며, 관측변수는 영상의학검사의 TAT 달성여부 (종속변수)와 TAT에 영향을 줄 것으로 예상되는 관측변수(독립변수)로 구성되어 있다.

대상 데이터

이러한 C 의료원의 부속 기관 중 700여 병상 규모의 병원을 한 곳 선정하여 영상의학검사의 TAT 분석을 실시하였다. 데이터는 2014년 1월~4월 사이 발생된 약 1만2천여 건의 요약 데이터를 사용하였으며, 관측변수는 영상의학검사의 TAT 달성여부 (종속변수)와 TAT에 영향을 줄 것으로 예상되는 관측변수(독립변수)로 구성되어 있다. 그림 6에서 CART 알고리즘의 입력으로 사용할 수 있도록 전처리가 완료된 데이터의 모습을 보여주고 있다.

이론/모형

본 연구에서는 데이터의 형태와 연구의 특성에 가장 부합하는 CART 모형을 선택하였다. CART 모형은 비모수적 검증을 사용하며 관측변수의 분포에 대한 가정이 필요하지 않다.

성능/효과

C 의료원의 사례분석 결과, 영상의학검사의 TAT 적기처리는 “진료과”, “상병”, “모달리티”, “계절” 등의 요인에 의해 크게 영향을 받는다는 것을 확인하였다.
즉, CART 나무의 구축을 위해 가장 효율적인 파라미터 세트를 찾기 위함이다. 가장 첫 번째 리스트가 분할 기준, 분할 수, 깊이에 대해서 모두 최소의 값을 가지고 있으며, 그 외의 평가 항목에서도 다른 조합에 비해 평가 결과가 우수하게 나타나고 있다. 따라서 본 연구에서는 가장 첫 번째 리스트를 최적의 파라미터 세트로 선정하였다.
그 결과, 노드 수가 37개이면서 깊이가 5인 트리가 만들어졌으며, “진료과”, “상병”, “검사구분”, “실시월”이 의료서비스 적기 처리에 영향을 미치는 요인으로 나타났다.
따라서 진료과목과 상병분류는 TAT 적기 처리에 많은 영향을 주는 요인으로 해석 될 수 있다. 나무를 거슬로 올라 21번 노드 [V13:진료과] 하위로 우측 분기된 27번 노드[V17:모달리티]에 의해서도 초음파는 거의 모든 경우 TAT가 적기 처리됨을 확인 할 수 있다. 이 때 TAT 적기 처리가 확인되는 말단 노드에 이르기 직전 35번 노드[V15:상병]를 거치고 있으나, TAT 적기 처리에는 큰 영향력을 미치지 못 하고 있음을 확인 할 수 있다.
9% 이상의 신뢰 수준으로 자료를 분할하였으며, 서비스의 적기처리로 간주하고 있는 TAT 달성과 실패에 대한 2가지 범주로 분류가 이루어졌다. 영상의학검사 후 6일 이내 판독완료를 의미하는 TAT의 달성이 80% 이상인 말단 노드를 TAT 적기처리로 보았고, TAT가 적기처리된 노드는 8번, 13번, 19번, 24번, 25번, 26번, 31번, 33번, 34번, 36번, 37번으로 나타났다. TAT의 적기처리가 60% 미만으로 나타나는 노드는 TAT 미달로 정하였다.
나무를 거슬로 올라 21번 노드 [V13:진료과] 하위로 우측 분기된 27번 노드[V17:모달리티]에 의해서도 초음파는 거의 모든 경우 TAT가 적기 처리됨을 확인 할 수 있다. 이 때 TAT 적기 처리가 확인되는 말단 노드에 이르기 직전 35번 노드[V15:상병]를 거치고 있으나, TAT 적기 처리에는 큰 영향력을 미치지 못 하고 있음을 확인 할 수 있다. 그러나 27번 노드[V17:모달리티] 하위로 좌측 분기된 28번 노드[V2:실시월]은 TAT 적기 처리에 계절적인 요인이 영향을 미칠 수 있음을 시사한다.
C 의료원의 사례분석 결과, 영상의학검사의 TAT 적기처리는 “진료과”, “상병”, “모달리티”, “계절” 등의 요인에 의해 크게 영향을 받는다는 것을 확인하였다. 이와 같이 본 연구에서 개발한 예측 모형을 C 의료원에 적용한 결과, 기존 TAT 적기 처리율을 높일 수 있는 개선점을 도출할 수 있다.
때문에 최적의 파라미터 선정의 기준은 도메인 특성에 따라 얼마든지 다르게 적용 할 수 있을 것이다. 최적 파라미터 세트를 가지고 총 12,000개의 레코드(record)에 대해 CART 분석을 실시한 결과, 그림 7과 같이 노드 수가 37개이면서 깊이가 5인 트리가 구축되었다. 각 분기점 마다 99.

후속연구

본 연구의 결과는 산업분야 전 영역에서 서비스혁신을 목적으로 한 다양한 연구로 확장될 수 있다. 또한 전문가시스템 또는 의사결정지원시스템 분야에서 그 활용 가치가 더욱 높을 것으로 전망됨에 따라, 본 연구에서 개발된 예측 모형의 활용도를 높이기 위한 사례분석 및 시뮬레이션 방안에 대한 활발한 논의와 추가 연구가 요구된다.
본 연구에서 제시하는 의료서비스 적기처리 예측 모형의 설계를 위해 CART 알고리즘의 작동 방식을 이해 할 필요가 있다. 먼저 그림 2와 같은 데이터 분포를 가정할 수 있다.
그 결과, 노드 수가 37개이면서 깊이가 5인 트리가 만들어졌으며, “진료과”, “상병”, “검사구분”, “실시월”이 의료서비스 적기 처리에 영향을 미치는 요인으로 나타났다. 본 연구의 결과는 산업분야 전 영역에서 서비스혁신을 목적으로 한 다양한 연구로 확장될 수 있다. 또한 전문가시스템 또는 의사결정지원시스템 분야에서 그 활용 가치가 더욱 높을 것으로 전망됨에 따라, 본 연구에서 개발된 예측 모형의 활용도를 높이기 위한 사례분석 및 시뮬레이션 방안에 대한 활발한 논의와 추가 연구가 요구된다.

질의응답

핵심어	질문	논문에서 추출한 답변
	관측변수의 종류는 어떻게 되는가?	관측변수의 종류는 크게 독립변수와 종속변수를 포함하고 있다. 서비스 적기처리 예측을 위해 사용된 변수[실시월~모달리티]를 독립변수로 정하였고, 독립변수의 영향으로 나타난 서비스 적기 처리 결과[TAT]를 종속변수로 정하였다.
	획일적인 학습 데이터의 문제점은?	획일적인 학습 데이터는 아직 확인되지 않은 데이터에 대한 과대적합을 초래 할 수 있다. 이를 예방하기 위해 학습 데이터와 검증 데이터 간 교차 검증(cross validation)이 될 수 있도록 분석 데이터를 분할하여 사용하는 것이 바람직하다.
	의료서비스에 대한 정량적 품질 측정이 가능한 예는 무엇이 있는가?	의료서비스의 품질 향상은 다양한 측정 지표의 개발을 통하여 실현되고 있다. 그림 1에 나타내는 바와 같이 국내 의료기관평가인증원에서도 ‘기본가치체계’(Basic Value System), ‘환자진료 체계’(Patient Care System), ‘행정관리체계’(Administrative Management System), ‘성과관리체계’(Performance Management System)로 나누어진 4개의 평가영역을 통하여 환자의 안전 보장과 지속적인 의료 질 향상을 도모하고 있다 [1]. 이처럼 의료서비스에 대한 다양한 관점과 객관적인 평가를 통하여 점차 의료서비스에 대한 정량적 품질 측정이 가능해지고 있다.

참고문헌 (11)

Korea Institute for Healthcare Accreditation (KOIHA) (https://www.koiha.or.kr/home/index.act), "Accreditation Standards", Jun. 2015.
J. P. Crabbe., C. L. Frank., and W. W. Nye., "Improving Report Turnaround Time: An Integrated Method Using Data from a Radiology Information System", American Journal of Roentgenology (AJR), Vol. 163, No. 6, pp. 1503-1507, Jul. 1994.

상세보기
Giles W. L. Boland., Elkan F. Halpern., and G. Scott Gazelle., "Radiologist Report Turnaround Time: Impact of Pay-for-Performance Measures", American Journal of Roentgenology (AJR), Vol. 195, No. 3, pp. 707-711, Sep. 2010.

상세보기
Joan H. Howanitz., and Peter J. Howanitz., "Timeliness as a Quality Attribute and Strategy", American Journal of Clinical Pathologist (AJCP), Vol. 116, No. 3, pp. 311-315, 2001.

상세보기
Young M. Chae, Hye S. Kim, Kwan C. Tark, Hyun J. Park and Seoung H. Ho, "Analysisof healthcare quality indicator using data mining and decision support system", Expert System with Applications, Vol. 24, No. 2, pp. 167-172, 2003.

상세보기
Yun Seok Ko, "The Construction Methodology of a Rule-based Expert System using CART-based Decision Tree Method", Journal of The Korea Institute of Electronic Communication Science, Vol. 6, No. 6, pp. 849-854, Dec. 2011.
Jun Tae Park and Soo Beom Lee, "Effects Analysis of Traffic Safety Improvement Program Using Data Mining : Focusing on Urban Area", Journal of Transport Research, Vol. 18, No. 2, pp. 77-91, Jun. 2011.
Sonia Singh, "COMPARATIVE STUDY ID3, CART AND C4.5 DECISION TREE ALGORITHM: A SURVEY", International Journal of Advanced Information Science and Technology (IJAIST), Vol. 27, No. 27, pp. 97-103, Jul. 2014.
Ture, Mevlut, Fusun Tokatli, and Imran Kurt. "Using Kaplan-Meier analysis together with decision tree methods (C&RT, CHAID, QUEST, C4. 5 and ID3) in determining recurrence-free survival of breast cancer patients." Expert Systems with Applications Vol. 36, No. 2, pp. 2017-2026, 2009.

상세보기
Tzung-I Tang, Gang Zheng, Yalou Hualng, Guangfu Shu and Pengtao Wang, "A comparative study of medical data classification methods based on decision tree and system reconstruction analysis." Industrial Engineering and Management Systems, Vol. 4, No. 1, pp. 102-108, 2005.

원문보기 상세보기
Antipov, Evgeny, and Elena Pokryshevskaya. "Applying CHAID for logistic regression diagnostics and classification accuracy improvement." Journal of Targeting, Measurement and Analysis for Marketing, Vol. 18, No. 2, pp. 109-117, 2010.

상세보기

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증