$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

모델트리의 결측치 처리 방법에 따른 콜레스테롤수치 예측의 성능 변화
Using Missing Values in the Model Tree to Change Performance for Predict Cholesterol Levels 원문보기

서비스연구 = Journal of service research and studies, v.2 no.2, 2012년, pp.35 - 43  

정용규 (을지대학교, 의료IT마케팅학과) ,  원재강 (경기대학교, 컴퓨터과학과) ,  신성철 (한국후지쯔(주) 헬스케어솔루션부)

초록
AI-Helper 아이콘AI-Helper

데이터 마이닝은 특정분야에서만 관심을 갖는 분야가 아니라 현재 우리주변 여러 분야에서 많이 사용되고 응용되고 있다. 즉, 수많은 데이터 가운데 숨겨져 있는 유용한 상관관계를 발견하여, 미래에 실행 가능한 정보를 예측하여 추출해 내고 추후에 의사 결정에 이용하는 과정을 말한다. 하지만, 일부 데이터 집합에서는 매우 많은 결측치를 포함하는 변수들이 존재한다. 다시 말해서 다수의 레코드에서 측정치가 존재하지 않는 데이터 집합이 존재한다. 그래서 본 논문에서는 Cholesterol 값을 예측하기 위한 결측치 처리에 따른 모델트리 알고리즘을 적용하고, 실험을 통해서 각 처리방식에 대한 성능을 분석한다. 또는 이 결과를 통하여 결측치 대체방법에 대한 효율적인 적용사례를 제시한다.

Abstract AI-Helper 아이콘AI-Helper

Data mining is an interest area in all field around us not in any specific areas, which could be used applications in a number of areas heavily. In other words, it is used in the decision-making process, data and correlation analysis in hidden relations, for finding the actionable information and pr...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 표 1에 나타나있는 변수 중에서 name의 변수의 모든 인스턴스의 값이 name으로 저장되어 있기 때문에 name변수를 제거하고, group 변수도 환자의 생존가능성을 파악하기 위한 의미가 없으므로 group 변수도 실험에서 제외한다. 본 논문에서는 결측치(missing value) 처리에 따른 성능을 비교한다. 첫 번째 방법은 결측치가 있는 인스턴스는 제거를 하고 실행하였고, 두 번째는 결측치를 애트리뷰트의 평균값으로 대체하였고, 세 번째에서는 평균값 대신에 최빈값을 사용하였다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
데이터 캐기란 용어가 잘못된 용어라 볼 수 있는 이유는? 데이터 마이닝은 “대량의 데이터에서 새롭고 유용한 지식을 창출하는 것”으로서, 데이터 더미에서 일반적인 사실을 의미하는 데이터가 아니라 의사 결정에 도움이 되는 유용한 정보를 포함한 지식을 추출하는 것이므로 ‘데이터 캐기(Data mining)’란 용어는 잘못된 용어라 볼 수 있다. 그런 관점에서는 ‘데이터에서 지식을 캐기 (knowledge discovery from data: KDD)’라는 용어가 흔히 사용된다.
결측치를 갖는 레코드를 처리하는 하나의 대안을 예를 들어 설명하시오. 결측치를 갖는 레코드를 처리하는 하나의 대안은 변수의 결측치를 다른 레코드의 값들을 토대로 계산된 대체값으로 교체하는 것이다. 예를 들어 30개의 변수들 중 가구소득이 특정 레코드에서 결측되어 있다면, 전체 레코드의 평균 소득금액으로 대체될 수 있다. 물론 이렇게 한다고 해서 가구소득이 성과변수에 얼마나 영향을 미치는지에 대한 정보가 추가되는 것은 아니다. 대체값을 교체하는 것은 단지 분석을 계속 수행하게 하는 역할을 하며, 나머지 29개 변수의 해당 레코드에 포함된 정보를 사용할 수 있게 한다. 이러한 기법을 사용하면 데이터 집합의 변동성은 상대적으로 낮게 평가된다는 점에 유의해야 한다. 그러나 평가용 데이터를 이용하여 데이터마이닝 기법의 변동성과 성과를 평가할 수 있으므로 이러한 기법이 심각한 문제를 일으킨다고 보기는 어렵다.
데이터 마이닝은 어디에 응용되고 있는가? 데이터 마이닝은 특정분야에서만 관심을 갖는 분야가 아니라 현재 우리주변 여러 분야에서 많이 사용되고 응용되고 있다. 즉, 수많은 데이터 가운데 숨겨져 있는 유용한 상관관계를 발견하여, 미래에 실행 가능한 정보를 예측하여 추출해 내고 추후에 의사 결정에 이용하는 과정을 말한다.
질의응답 정보가 도움이 되었나요?

저자의 다른 논문 :

섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로