[논문]무응답이 있는 설문조사연구의 접근법 : 한국노인약물역학코호트 자료의 평가

백지은; 강위창; 이영조; 박병주

문제 정의

무시할 수 있는 무응답모형과 무시할 수 없는 무응답모형의 포화모형을 비교해보자. 무응답을 고려하지 않고 적합시킨 대수선형모형의 deviance는 5.
본 연구에서는 결측치를 포함하고 있는 자료의 경우에 이를 잘 처리하여야 한다는 예로 KEPEC의 BMI자료에서 무응답이 미치는 결과에 대해서 규명하고자 하였다. KEPEC의 BMI자료에서의 무응답율은 약 5%정도로 그리 높지 않았고, Y항과 R항의 교호작용인 YR항의 포함 여부에 따른 무시할 수 있는 무응답 모형과 무시할 수 없는 무응답 모형을 적합 시킨 결과, 무응답을 고려하지 않고 적합시킨 대수선형모형의 deviance는 5.
본 연구에서는 관심있는 변수가 반응변수였기어L 설명변수에 발생한 결측치는 제거한 후 반응변수에만 발생한 결측치를 중점으로 다루기 위해 KEPEC의 BMI자료를 사용하였다. 그러나 실제로 표본조사를 통해 얻어진 자료에서 발생한 설명변수도 문제가 될 수도 있다.
이처럼 결측치를 포함하고 있는 자료의 경우에는 이를 잘 처리하여야 한다는예로 KEPEC의 BMI자료에서 무응답이미치는 결과에 대해서 규명하고자 하였다. KEPEC의 BMI자료에서의 무응답율은 약 5%정도로 그리 높지 않았다.

가설 설정

두 변수 X, Y에 대해서, X는 독립변 수, Y는 종속변수라 가정 하자. 그리고 변 수 日을 종속변수 Y의 관측여부를 나타내는 지시변수로 정의하자.
세 변수 X, Y, 日에 대해 X=x, Y=y, R=k 가 관즉될 확률을 pxyk 라 하고, Zxyle 관측된 반응변수에서 얻어진 관측도 수, Zx+2는 관측되지 않은 반응변수에서 얻어진 주변합으로 나타낸다면 우도 함수 수, Y는 종속변수라 가정 하자. 그리고 변수 日을 종속변수 Y의 관측여부를 나타는 다음과 같이 나타낼 수 있다.

제안 방법

2, 3의 범주값을 갖는다. BMMI 대한 실제값이 없는 경우를 무응답으로 분류하여 지시변수 日을 사용하여 무응답 여부에 대한 분류 변수로 사용하였다. 위의 네 변수인 나이, 흡연여부, 매운 음식에 대한 선호도, BMU범주에 대한 상호작용 항은 모든 모델에 포함되도록 하였으며, BMI 범주와 무응답 여부에 대한 상호작용 항인 YR항을 포함하는 모든 가능한 조합을 만들어 무시할 수 없는 무응답 모형 8개와 YR항을 포함하지 않는 무시할 수 있는 무응답 모형 7개를 적합시켰다.
KEPEC의 구성원 중 설문조사에 응했던 9, 366명중에서 독립변수의 무응답으로 인한 677명을 제외시킨 8, 689명을 대상으로 몸무게, 키, 몸매형, 음주력, 흡연력, 식이습관, 생활습관 등을 독립 변수로 하고 체질량지수를 반응변수로 하였다. Table 1은 독립변수로 고려했던 변수들에 대해서 정리한 것이다.
추정한 대수선형모형이다. Y항과 日항의 교호작용인 YR항의 포함여부에 따라 무시할 수 있는 무응답모형과 무시할 수 없는 무응답모형을 적합시켰으며, 각각의 모형을 적합시켰을 때 그에 따른 BMI 분포에 대한 추정값도 제시하였다. 모든 모형에 대한 적합도 검정에 대한 기준은 deviance와 자유도를 고려하여 검정할 수 있다.
또한 무시할 수 있는 무응답과 무시할 수 없는 무응답을 적합시킨 후, BMI 분포에 대한 확률을 계산해 보았다. 그 결과, BMI가 20미만인 사람들의 확률은 무응답을 고려하지 않았을 때는 28%이었고 무응답을 고려했을 때는 30%로, 2%정도 차이가 났다.
위의 네 변수인 나이, 흡연여부, 매운 음식에 대한 선호도, BMU범주에 대한 상호작용 항은 모든 모델에 포함되도록 하였으며, BMI 범주와 무응답 여부에 대한 상호작용 항인 YR항을 포함하는 모든 가능한 조합을 만들어 무시할 수 없는 무응답 모형 8개와 YR항을 포함하지 않는 무시할 수 있는 무응답 모형 7개를 적합시켰다. 무시할 수 없는 무응답 모형을 적합시키기 위한 방법으로는 SAS의 MACRO를 이용하여 프로그램을 작성하여 EM 알고리즘을 통한 모수 추정을 하였고, 각 범주에 해당하는 사람들의 분포를 추정하였다.
전체 8, 689명 중 반응변수인 BMU가 관측되지 않은 경우는 430명이었다. 설문대상자 8, 689명 중, 남성은 2, 848명, 여자는 5, 841명으로 약 1대 2의 비율을 이뤘고, BMI에 영 향을 주는 변수로는 나이, 흡연여부, 매운 음식의 선호도에 관한 변수를 선택하였다. 그리하여 체질량지수에 영향을 주는 유의한 변수와 체질량지수를 다음과 같이 범주화하였다.
BMMI 대한 실제값이 없는 경우를 무응답으로 분류하여 지시변수 日을 사용하여 무응답 여부에 대한 분류 변수로 사용하였다. 위의 네 변수인 나이, 흡연여부, 매운 음식에 대한 선호도, BMU범주에 대한 상호작용 항은 모든 모델에 포함되도록 하였으며, BMI 범주와 무응답 여부에 대한 상호작용 항인 YR항을 포함하는 모든 가능한 조합을 만들어 무시할 수 없는 무응답 모형 8개와 YR항을 포함하지 않는 무시할 수 있는 무응답 모형 7개를 적합시켰다. 무시할 수 없는 무응답 모형을 적합시키기 위한 방법으로는 SAS의 MACRO를 이용하여 프로그램을 작성하여 EM 알고리즘을 통한 모수 추정을 하였고, 각 범주에 해당하는 사람들의 분포를 추정하였다.
파악하였다. 즉, KEPEC의 구성원들을 대상으로 1996년에 실시했던 설문조사 자료를 이용하여 체질량지수(Body Mass Index)를 반응변수로 했을 때의 missing pattern에 대해 평가하였다. 이는 독립변수들은 결측치를 포함하지 않고 반응값에만 결측치가 발생한 자료를 다룰 때 분석 이전에 반드시 거쳐야 할 과정으로써, 그 자료에서 발생한 결측치 가 어떤 missing mechanism인지 알아보기 위한 통계모형을 적용하는 예로 KEPEC의 자료를 이용한 것이다.
[7, 11], 그 당시 후보자로는 Truman, Deway, 그 외 후보자들이 있었고, 범주값으로 7, 8, 9, 10월의 조사기간, 참여자들의 경제적인 수준을 나타내는 변수가 있었다. 후보자에 대한 선택을 못한 경우를 무응답으로 분류하여 응답자와 무응답자를 나누었다. 당시 이 자료를 분석한 여론조사 기관에서는 Deway 후보가 승리할 것으로 예상을 했었지만 실제 선거에서는 Truman 후보가 승리하는 결과를 낳았다.

대상 데이터

KEPECe 부산지역의 공무원 및 사립학교 교직원 의료보험관리공단의 피보험자 및 피부양자 중 65세 이상인 노인들로1993년 구성된 Dynamic Cohort로서,1996년에 실시한 설문조사는 이들 대상자 중 9, 366명으로부터 얻어진 자료이다. 설문의 내용은 주관적 건강상태, 활동상태, 흡연 및 음주습관, 식생활습관, 수면습관, 집밖 및 집안에서의 육체적 활동, 체격, 산과력으로 이루어져 있는데, 본 연구에서 사용한 문항은 흡연 및 음주습관, 식생활습관, 수면습관, 체격 등에 관한 내용이다 [1], 설문대상이 노인이기 때문에 대리응답자를 사용할 수밖에 없는 경우가 많았고, 이러한 대리응답에 의해 결측치나 무응답이 포함될 수밖에 없었던 것이다.

이론/모형

본 연구에서는 무응답 또는 결측치가 발생한 범주형 자료를 적절하게 처리하여 분석할 수 있는 통계모형의 추정법으로 M丄추정법을 적용하여, 독립변수에는 결측치가 발생하지 않고 반응변수에만결측치가 발생한 자료의 missing mechanism을 파악하였다. 즉, KEPEC의 구성원들을 대상으로 1996년에 실시했던 설문조사 자료를 이용하여 체질량지수(Body Mass Index)를 반응변수로 했을 때의 missing pattern에 대해 평가하였다.

성능/효과

자료의 경우에 이를 잘 처리하여야 한다는 예로 KEPEC의 BMI자료에서 무응답이 미치는 결과에 대해서 규명하고자 하였다. KEPEC의 BMI자료에서의 무응답율은 약 5%정도로 그리 높지 않았고, Y항과 R항의 교호작용인 YR항의 포함 여부에 따른 무시할 수 있는 무응답 모형과 무시할 수 없는 무응답 모형을 적합 시킨 결과, 무응답을 고려하지 않고 적합시킨 대수선형모형의 deviance는 5.3428이고, 무응답을 고려하여 적합 시킨 모형의 deviance는 5.3394이다. 두 모형의 deviance의 차이가 0.
정의한대로 요약할 수 있다. [2],우선 결측치는 무시할 수 있는 무응답과 무시할 수 없는 무응답으로 나눌 수 있으며, 무시할 수 있는 무응답에는 MCAR(Missing complete at random)과 MAR(Missing at random)0] 있다.
그러므로 KEPEC의 BMI에서 발생한 결측치는 무시할 수 있는 무응답임을 알 수 있다. 각각의 모형을 적합 시켰을 때 그에 따른 BMI 분포에 대한확률은 BNU가 20미만인 사람들의 확률은 무응답을 고려하지 않았을 때는 28% 이었고 무응답을 고려했을 때는 30%로, 2%정도 차이가 났다. 그리고 BMI가 25이상인 사람들의 확률은 무응답을 고려하지 않았을 때는 25%이었고 무응답을 고려했을 때는 26%로, 1%정도밖에 차이 나지 않았다.
대한 확률을 계산해 보았다. 그 결과, BMI가 20미만인 사람들의 확률은 무응답을 고려하지 않았을 때는 28%이었고 무응답을 고려했을 때는 30%로, 2%정도 차이가 났다. 그리고 BMI 25 이상인 사람들의 확률은 무응답을 고려하지 않았을 때는 25%이었고 무응답을 고려했을 때는 26%로, 1%정도밖에 차이 나지 않았다.
0034(df=l)로서 무응답이 미치는 영향이 전혀 없음을 알 수 있었다. 그러므로KEPEC의 BMI에서 발생한 결측치는무시할 수 있는 무응답임을 알 수 있고,앞으로 KEPEC의 BMI를 이용한 모든분석은 결즉치를 무시하고 관즉된 자료만 이용하여도 타당하다는 결론을 내릴 수 있었다. 이는 BMI자료 자체에 대한 무응답율이 그리 높지 않았고 의도적으로 응답을 회피할 특별한 이유가 없는 문항이므로, 전체 표본에 대한 예측을 할 때에도 미치는 영향이 높지 않았던 것이 라볼 수 있다.
KEPEC의 BMI자료에서의 무응답율은 약 5%정도로 그리 높지 않았다. 무응답의 고려여부에 따른 두 완전모형 검정 결과는 두 모형의 deviance의 차이가 0.0034(df=l)로서 무응답이 미치는 영향이 전혀 없음을 알 수 있었다. 그러므로KEPEC의 BMI에서 발생한 결측치는무시할 수 있는 무응답임을 알 수 있고,앞으로 KEPEC의 BMI를 이용한 모든분석은 결즉치를 무시하고 관즉된 자료만 이용하여도 타당하다는 결론을 내릴 수 있었다.
본 연구를 통해서 KEPEC의 BMU를이용한 모든 분석은 결측치를 무시하고 관측된 자료만 이용하여도 타당하다는 결론을 내릴 수 있었다. 이는 BMI 자료 자체에 대한 무응답율이 그리 높지 않았고 의도적으로 응답을 회피할 특별한 이유가 없는 문항이기에, 전체 표본에 대한 예측을 할 때에도 미치는 영향이 높지 않았던 것이라 볼 수 있다.

후속연구

만약 무응답율이 높은 자료에서 위와 같은 검정을 할 경우에는 1948년 미국 여론 조사 기관에서 실시한 미국 대통령 후보의 지지도에 관한 예비조사의 경우처럼 결과가 뒤바뀔 수도 있을 것이다. 그리고 BMW] 영향을 주는 변수를 선택하는 과정에서 설명변수의 결측치가 제거됨으로 인해서 BMI 에 유의한 영향을 줄지도 모르는 변수가 선택되지 않게 되는 문제가 발생할 수도 있을 것이므로, 설명변수에 발생한 결측치를 좀 더 고려한 후 반응변수에 대한 결측치 문제를 해결한다면 더 신뢰할 만한 또 다른 결과를 얻을 수도 있을 것으로 생각된다.
이미 설명변수를 다룰 수 있는 모형에 대한 논의가 있기는 하지만, 그리 활발하진 못하다. 따라서 앞으로 설명변수에 발생한 결측치를 좀 더 고려한 후 반응변수에 대한 결측치 문제를 해결한다면 더 나은 결과를 얻을 수도 있고, 더 신뢰할만한 결과를 제시할 수도 있을 것으로 생각된다.
이는 BMI자료 자체에 대한 무응답율이 그리 높지 않았고 의도적으로 응답을 회피할 특별한 이유가 없는 문항이므로, 전체 표본에 대한 예측을 할 때에도 미치는 영향이 높지 않았던 것이 라볼 수 있다. 만약 무응답율이 높은 자료에서 위와 같은 검정을 할 경우에는 앞의 예처럼 결과가 뒤바뀔 수도 있는 경우가 발생할 수도 있을 것이고, 대부분의 사람들이 노출하기를 꺼리는 생활 수준이나 소득수준과 같은 사회경제적 변수 혹은 외모에 예민한 여학생들을 대상으로 조사한 체중에 대해서는 좀 더 다른 결론이 나올 수도 있을 것으로 예상된다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

무응답이 있는 설문조사연구의 접근법 : 한국노인약물역학코호트 자료의 평가
An Approach to Survey Data with Nonresponse: Evaluation of KEPEC Data with BMI 원문보기

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

참고문헌 (12)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

연관된 기능

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

무응답이 있는 설문조사연구의 접근법 : 한국노인약물역학코호트 자료의 평가 An Approach to Survey Data with Nonresponse: Evaluation of KEPEC Data with BMI 원문보기

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

참고문헌 (12)

이 논문을 인용한 문헌

저자의 다른 논문 :

백지은 (2) 강위창 (45) 이영조 (31) 박병주 (70)

관련 콘텐츠

원문 보기

원문 URL 링크

연관된 기능

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

무응답이 있는 설문조사연구의 접근법 : 한국노인약물역학코호트 자료의 평가
An Approach to Survey Data with Nonresponse: Evaluation of KEPEC Data with BMI 원문보기

AI 본문요약
AI-Helper