$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

비선형 모델을 이용한 결측 대체 방법 비교
A comparison of imputation methods using nonlinear models 원문보기

응용통계연구 = The Korean journal of applied statistics, v.32 no.4, 2019년, pp.543 - 559  

김혜인 (고려대학교 통계학과) ,  송주원 (고려대학교 통계학과)

초록
AI-Helper 아이콘AI-Helper

자료에는 다양한 원인에 의해 결측이 발생한다. 만약 결측치를 제외하고 완전히 관찰된 자료만으로 분석을 실시한다면 결측자료 메커니즘이 완전임의결측이 아닌 경우 결과에 편향이 발생하거나 제외된 개체로 인한 정보의 손실로 추정의 정밀도가 약화된다. 결측이 하나의 변수에서만 일어나지 않기 때문에, 자료에 변수가 많을 수록 이 문제는 심화된다. 문제를 개선하기 위해 결측치를 대체하는 여러가지 방법들이 제안되었다. 하지만 모수적인 모형을 이용한 대체 방법들은 가정에 위배되는 현실 데이터에는 적합하지 않다. 따라서 본 연구에서는 자료의 분포 가정에 덜 영향을 받는 커널, 리샘플링, 스플라인 방법을 활용한 비선형 대체 방법들을 리뷰하고 필요한 경우 기존의 비선형 대체 방법에 대체클래스를 사용하여 대체값의 정확도를 높이거나 랜덤성을 가지는 오차를 더해주어 추정치의 분산이 적게 추정되는 문제를 개선하는 확장된 결측 대체 방법을 제안한다. 본 연구에서 고려한 여러 가지 대체 방법들은 다양한 모의자료 설계 하에서 성능을 비교하였다. 모의실험 결과, 비선형 대체 방법들은 각 설계 하에 다른 성능을 보이며 전반적으로 커널 회귀나 스플라인을 활용한 대체 방법들이 좋은 성능을 보였다. 더불어, 확장된 대체 방법은 기존의 대체 방법이 가지는 문제점을 개선함을 확인할 수 있었다.

Abstract AI-Helper 아이콘AI-Helper

Data often include missing values due to various reasons. If the missing data mechanism is not MCAR, analysis based on fully observed cases may an estimation cause bias and decrease the precision of the estimate since partially observed cases are excluded. Especially when data include many variables...

주제어

표/그림 (6)

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 기존의 모수적 모형을 이용한 대체 방법들은 비선형성을 가지는 현실 데이터에 적용하기엔 한계가 있으므로 비선형 모형을 사용한 대체 방법을 사용하는 게 바람직할 것이다. 따라서 본 논문에서는 기존에 연구되었던 다양한 비선형 대체 방법들을 여러 모의실험 설계에 적용해 성능을 비교하였다. 나아가 기존 방법의 편향을 줄이기 위해 대체군을 활용하거나 분산의 과소추정 문제를 개선하기 위해 랜덤 오차를 더하는 확률적인 대체를 제안하였다.
  • 각 논문에서도 대체적으로 기초적인 평균대체나 회귀대체들과 제안한 방법을 비교하고 비선형 대체 방법들 간의 비교가 없었기에 제안된 방법들 간의 성능 비교가 필요하다. 따라서 본 연구에서는 제안된 다양한 비선형 모델을 활용한 대체 방법을 리뷰하고 여러 가지 데이터 설계에서 성능을 비교하였 다. 나아가 기존의 Titterington과 Sedransk (1989)를 확장하여 연관된 변수를 2개의 대체클래스로 나눠 각 클래스 안에서 커널을 활용한 핫덱대체를 실시하는 방법을 고려하였다.
  • 관측된 Yobs,i에 해당하는 Xi들을 행(row)으로 표현한 행렬을 Xobs로, 결측된 Ymis,i에 해당하는 Xi들을 행으로 표현한 행렬을 Xmis로 나타내자. 본 연구에서는 X와 Yobs값에만 의존하여 결측이 발생하는 임의결측 가정하에서 대체를 실시하는 경우를 고려한다.
  • Cheng (1994)의 커널 회귀대체는 커널 회귀선 상의 값으로만 대체되기 때문에 Y의 변동이 과소추정된다. 이런 점을 개선하고자 본 연구에서는 커널 회귀 추정치에 평균 0인 정규분포를 따르는 오차를 더해주어 결측치를 대체하는 확률적 커널 회귀대체(stochastic kernel regression) 방법을 다음과 같이 제안한다.
  • 실제 수집된 데이터가 X와 Y간 선형성을 만족한다는 보장은 할 수 없다. 이에 본 연구에서는 지금까지 소개된 커널, 리샘플링, 준모수 그리고 스플라인 함수를 활용한 비선형 결측값 대체 방법들을 리뷰하고 나아가 기존의 방법들이 가지는 한계를 개선하고자 확장된 방법을 제안한다. 2.

가설 설정

  • N개의 자료 중 결측이 변수 Y 에서만 발생하는 경우를 가정하자. i번째 개체에서 Xi는 완전하게 관측된 변수들의 벡터를 나타내고 관측된 Yi는 Yobs,i로, 결측된 경우 Ymis,i로 나타내자.
  • Titterington과 Sedransk (1989)의 커널을 활용한 핫덱대체는 변수들 간의 연관성을 반영하지 못하며 Cheng (1994)이 제안한 커널 회귀대체는 설명변수와 반응변수간 선형 관계를 가정한다. 변수들간 관계 를 반영하면서 완전히 비모수적인 대체 방법으로서 Aerts 등 (2002)은 로컬 리샘플링을 이용한 대체를 제안하였다.
  • , N으로 나타낼 수 있다. 단, X와 T는 완전히 관측된 것으로 가정한다. δi = 0인 Ymis,i에 대한 대체 방법은 다음과 같다.
  • 따라서 모의실험 1에서만 참구조 모형으로 대체하고 모의실험 2–5는 대체 모형이 틀린 경우를 가정한다.
  • 따라서 자료의 참모형이 비선형 모형인데 실제로 일차 선형 관계만을 모형에 포함하여 대체를 실시하는 경우를 가정하여 모의실험 2–4에서는 Table 3.1의 식에 M = 0으로 두어 대체를 실시하였다.
  • 1의 식에 M = 0으로 두어 대체를 실시하였다. 모의실험 5에서는 실제 변수 X가 아닌 아래의 식과 같은 Z = (Z1, . . . , Z4)가 관측되었다고 가정하여 대체를 실시하였다.
  • 결측자료 분석의 적절성은 결측자료 메커니즘(missing data mechanism)에 의존하는데 Little과 Rubin (2002)은 결측자료 메커니즘을 완전임의결측(MCAR), 임의결측(missing at random; MAR), 비임의결측(missing not at random; MNAR)으로 분류하였다. 완전임의결측은 결측된 자료와 관측된 자료 모두에 상관없이 결측이 랜덤하게 발생한다는 가정이며 임의결측은 결측이 관측된 자료에는 의존할 수 있으나 결측된 자료에는 상관없이 발생한다는 가정이고 비임의결측은 결측이 발생한 자료 값과 결측 발생이 연관되어 있다는 가정이다. 흔히 사용되는 결측대체 방법들 대부분은 임의결측 가정 하에서 대체를 실시한다.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
결측치를 예측하는 통계적인 모델을 세우고 모수를 추정한 후 이를 사용하여 대체를 실시하는 방법으로 무엇이 있는가? 결측치를 적절한 값으로 채워 넣기 위하여 결측치를 예측하는 통계적인 모델을 세우고 모수를 추정한 후 이를 사용하여 대체를 실시하는 방법들이 제안되어 왔다. 이 때, 사용하는 모델에 따라 평균대체, 회귀대체, 핫덱대체(hotdeck imputation) 등과 같이 부른다. 결측자료 분석의 적절성은 결측자료 메커니즘(missing data mechanism)에 의존하는데 Little과 Rubin (2002)은 결측자료 메커니즘을 완전임의결측(MCAR), 임의결측(missing at random; MAR), 비임의결측(missing not at random; MNAR)으로 분류하였다.
결측이 포함된 데이터를 분석할 때 결측값을 제외하고 분석시 문제점은? 결측 발생을 방지하고자 연구 계획 및 설계 단계부터 많은 노력을 기울이지만 결측의 문제를 완전히 피하기 어렵다. 결측이 포함된 데이터를 분석할 때, 간단하게 결측값을 제외하고 완전하게 관측된 정보만을 가지고 분석하기 쉬운데 그럴 경우 완전히 관측된 자료가 모집단을 대표한다고 볼 수 없으며 제외된 개체로 인한 정보의 손실로 추정의 정밀도가 약화된다. 또한, 결측이 자료와 상관없이 일어나는 완전임의결측(missing completely at random; MCAR) 메커니즘이 아니라면 결과에 편향이 발생할 수 있다 (Little과 Rubin, 2002). 통상적으로 결측이 하나의 변수에서만 일어나지 않기 때문에 변수가 많은 고차원의 데이터일수록 이 문제는 심화된다.
결측자료 분석의 적절성은 무엇에 의존하는가? 이 때, 사용하는 모델에 따라 평균대체, 회귀대체, 핫덱대체(hotdeck imputation) 등과 같이 부른다. 결측자료 분석의 적절성은 결측자료 메커니즘(missing data mechanism)에 의존하는데 Little과 Rubin (2002)은 결측자료 메커니즘을 완전임의결측(MCAR), 임의결측(missing at random; MAR), 비임의결측(missing not at random; MNAR)으로 분류하였다. 완전임의결측은 결측된 자료와 관측된 자료 모두에 상관없이 결측이 랜덤하게 발생한다는 가정이며 임의결측은 결측이 관측된 자료에는 의존할 수 있으나 결측된 자료에는 상관없이 발생한다는 가정이고 비임의결측은 결측이 발생한 자료 값과 결측 발생이 연관되어 있다는 가정이다.
질의응답 정보가 도움이 되었나요?

저자의 다른 논문 :

관련 콘텐츠

오픈액세스(OA) 유형

GOLD

오픈액세스 학술지에 출판된 논문

저작권 관리 안내
섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로