[논문]모델트리의 결측치 처리 방법에 따른 콜레스테롤수치 예측의 성능 변화

정용규; 원재강; 신성철

초록
AI-Helper

데이터 마이닝은 특정분야에서만 관심을 갖는 분야가 아니라 현재 우리주변 여러 분야에서 많이 사용되고 응용되고 있다. 즉, 수많은 데이터 가운데 숨겨져 있는 유용한 상관관계를 발견하여, 미래에 실행 가능한 정보를 예측하여 추출해 내고 추후에 의사 결정에 이용하는 과정을 말한다. 하지만, 일부 데이터 집합에서는 매우 많은 결측치를 포함하는 변수들이 존재한다. 다시 말해서 다수의 레코드에서 측정치가 존재하지 않는 데이터 집합이 존재한다. 그래서 본 논문에서는 Cholesterol 값을 예측하기 위한 결측치 처리에 따른 모델트리 알고리즘을 적용하고, 실험을 통해서 각 처리방식에 대한 성능을 분석한다. 또는 이 결과를 통하여 결측치 대체방법에 대한 효율적인 적용사례를 제시한다.

Abstract ▼ AI-Helper

Data mining is an interest area in all field around us not in any specific areas, which could be used applications in a number of areas heavily. In other words, it is used in the decision-making process, data and correlation analysis in hidden relations, for finding the actionable information and pr...

Data mining is an interest area in all field around us not in any specific areas, which could be used applications in a number of areas heavily. In other words, it is used in the decision-making process, data and correlation analysis in hidden relations, for finding the actionable information and prediction. But some of the data sets contains many missing values in the variables and do not exist a large number of records in the data set. In this paper, missing values are handled in accordance with the model tree algorithm. Cholesterol value is applied for predicting. For the performance analysis, experiments are approached for each treatment. Through this, efficient alternative is presented to apply the missing data.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

표 1에 나타나있는 변수 중에서 name의 변수의 모든 인스턴스의 값이 name으로 저장되어 있기 때문에 name변수를 제거하고, group 변수도 환자의 생존가능성을 파악하기 위한 의미가 없으므로 group 변수도 실험에서 제외한다. 본 논문에서는 결측치(missing value) 처리에 따른 성능을 비교한다. 첫 번째 방법은 결측치가 있는 인스턴스는 제거를 하고 실행하였고, 두 번째는 결측치를 애트리뷰트의 평균값으로 대체하였고, 세 번째에서는 평균값 대신에 최빈값을 사용하였다.

제안 방법

일반적으로 예측문제에서는 연속적인 입력 변수 및 출력 값을 갖는 데이터들이 대부분을 차지한다. 모델트리는 터미널 노드에 속한 출력값의 평균값을 계산하는 회귀트리와 달리 연속적인 입력값과 출력값을 이용하여 예측 오차값이 최소화되는 계수값을 계산한 후, 계산된 계수값을 이용하여 출력값을 예측한다. 이러한 모델트리도 회귀트리와 같이 데이터를 반복적으로 분리하여 트리 구조를 생성하는 상-하 추론 모델트리(TIMIT: Top-down Induction of Model Tree) 형식을 갖는다[1].
본 논문에서는 Cholesterol 데이터 셋을 이용하여 값 예측하기 위한 결측치 처리에 따른 모델트리 알고리즘을 적용하여 실험하여 각 처리방식에 대한 성능을 분석하였다. 그 결과, 결측치를 무시하면 성능은 좋지만 총 인스턴스 중에서 절반에 해당하는 데이터만 사용하기 때문에 효율적인 방법이 아니었고, 결측치를 최빈값과 애트리뷰트의 평균값으로 대처할 경우, 두 경우의 성능이 비슷하게 나타났다.
본 논문에서는 Cholesterol 데이터 셋을 이용하여 값을 예측하기 위한 결측치 처리에 따른 모델트리 알고리즘을 적용하고, 실험을 통하여 각 처리방식에 대한 성능을 분석하였다.
전역상수(global constant), 속성(attribute) 평균, 최빈값 등은 가장 기본적으로 고려되는 결측치 대체 방법들이다. 본 논문에서는 콜레스테롤수치 예측을 위한 데이터를 사용하고, 결측치 처리방법으로 결측치가 있는 인스턴스를 삭제하거나 특정값으로 대체하여 실험 분석한다.
본 논문에서는 결측치(missing value) 처리에 따른 성능을 비교한다. 첫 번째 방법은 결측치가 있는 인스턴스는 제거를 하고 실행하였고, 두 번째는 결측치를 애트리뷰트의 평균값으로 대체하였고, 세 번째에서는 평균값 대신에 최빈값을 사용하였다.

대상 데이터

또한 일반 API가 있기 때문에, 다른 라이브러리와 마찬가지로 고유한 애플리케이션에서 자동화된 서버측 데이터 마이닝 작업과 같이 WEKA를 임베디드할 수 있다. 본 실험에서는 Cholesterol 데이터[9]를 사용하였다. 실험 데이터는 독립변수들을 통해서 콜레스테롤 수치를 예측하기 위함이다.

이론/모형

본 논문에서는 실험을 위한 도구로써 WEKA v3.6[7, 8]’을 사용한다.
이 제품은 GNU GPL(General Public License)을 사용한다. 이 소프트웨어는 JavaTM 언어로 쓰여졌으며, 데이터 파일과의 소통과 시각적 결과물을 생산하기 위해 GUI를 사용한다. 또한 일반 API가 있기 때문에, 다른 라이브러리와 마찬가지로 고유한 애플리케이션에서 자동화된 서버측 데이터 마이닝 작업과 같이 WEKA를 임베디드할 수 있다.

성능/효과

본 논문에서는 Cholesterol 데이터 셋을 이용하여 값 예측하기 위한 결측치 처리에 따른 모델트리 알고리즘을 적용하여 실험하여 각 처리방식에 대한 성능을 분석하였다. 그 결과, 결측치를 무시하면 성능은 좋지만 총 인스턴스 중에서 절반에 해당하는 데이터만 사용하기 때문에 효율적인 방법이 아니었고, 결측치를 최빈값과 애트리뷰트의 평균값으로 대처할 경우, 두 경우의 성능이 비슷하게 나타났다.
그러나 변수의 수가 많은 경우 결측치의 비율이 적다하더라도 많은 레코드에 영향을 미칠 수 있다. 단지 30개의 변수들에 대해서 만약 그 변수값 중 5%가 결측치라고 한다면(그 결측치는 사례와 변수들 사이에서 무작위적이며 독립적으로 퍼져 있다면), 거의 80%의 레코드들은 분석대상에서 제외되어야 할 것이다(주어진 레코드에서 결측치를 갖지 않을 가능성은 0.95³⁰ = 0.215).
그에 대한 실험결과는 그림 6에서 볼 수 있다. 실험결과는 두 번째 애드리뷰트 평균값을 사용한 것과 큰 차이가 없다는 것을 알 수 있다.

질의응답

핵심어	질문	논문에서 추출한 답변
	데이터 캐기란 용어가 잘못된 용어라 볼 수 있는 이유는?	데이터 마이닝은 “대량의 데이터에서 새롭고 유용한 지식을 창출하는 것”으로서, 데이터 더미에서 일반적인 사실을 의미하는 데이터가 아니라 의사 결정에 도움이 되는 유용한 정보를 포함한 지식을 추출하는 것이므로 ‘데이터 캐기(Data mining)’란 용어는 잘못된 용어라 볼 수 있다. 그런 관점에서는 ‘데이터에서 지식을 캐기 (knowledge discovery from data: KDD)’라는 용어가 흔히 사용된다.
	결측치를 갖는 레코드를 처리하는 하나의 대안을 예를 들어 설명하시오.	결측치를 갖는 레코드를 처리하는 하나의 대안은 변수의 결측치를 다른 레코드의 값들을 토대로 계산된 대체값으로 교체하는 것이다. 예를 들어 30개의 변수들 중 가구소득이 특정 레코드에서 결측되어 있다면, 전체 레코드의 평균 소득금액으로 대체될 수 있다. 물론 이렇게 한다고 해서 가구소득이 성과변수에 얼마나 영향을 미치는지에 대한 정보가 추가되는 것은 아니다. 대체값을 교체하는 것은 단지 분석을 계속 수행하게 하는 역할을 하며, 나머지 29개 변수의 해당 레코드에 포함된 정보를 사용할 수 있게 한다. 이러한 기법을 사용하면 데이터 집합의 변동성은 상대적으로 낮게 평가된다는 점에 유의해야 한다. 그러나 평가용 데이터를 이용하여 데이터마이닝 기법의 변동성과 성과를 평가할 수 있으므로 이러한 기법이 심각한 문제를 일으킨다고 보기는 어렵다.
	데이터 마이닝은 어디에 응용되고 있는가?	데이터 마이닝은 특정분야에서만 관심을 갖는 분야가 아니라 현재 우리주변 여러 분야에서 많이 사용되고 응용되고 있다. 즉, 수많은 데이터 가운데 숨겨져 있는 유용한 상관관계를 발견하여, 미래에 실행 가능한 정보를 예측하여 추출해 내고 추후에 의사 결정에 이용하는 과정을 말한다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

모델트리의 결측치 처리 방법에 따른 콜레스테롤수치 예측의 성능 변화
Using Missing Values in the Model Tree to Change Performance for Predict Cholesterol Levels 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

질의응답

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

모델트리의 결측치 처리 방법에 따른 콜레스테롤수치 예측의 성능 변화 Using Missing Values in the Model Tree to Change Performance for Predict Cholesterol Levels 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

질의응답

이 논문을 인용한 문헌

저자의 다른 논문 :

정용규 (74) 원재강 (8) 신성철 (1)

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

모델트리의 결측치 처리 방법에 따른 콜레스테롤수치 예측의 성능 변화
Using Missing Values in the Model Tree to Change Performance for Predict Cholesterol Levels 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper