[논문]경험적 영향함수와 표본영향함수의 차이 및 보정에 관한 연구

강현석; 김홍기

doi:10.5351/kjas.2020.33.5.527

초록
AI-Helper

이상치에 대한 적절한 선별과 배제없이 모든 데이터를 종합적으로 분석하게 되는 경우 데이터 분석을 통해 얻은 결과의 신뢰성과 해석의 일반성에 치명적인 위협을 받을 수 있다. 따라서 데이터의 분석 과정에서 이러한 이상치를 판별하고, 이상치가 통계량, 통계적 모형에 어떠한 영향을 주는 지에 대한 분석은 매우 중요한 일이라 할 수 있다. Hampel이 영향함수를 활용하여 이상치를 판별할 수 있는 방법을 소개한 이후, 이상치를 판별하기 위한 방법론으로 영향함수가 폭넓게 활용되어 왔다. 영향함수에는 경험적 영향함수와 표본영향함수가 있으며, 경험적 영향함수를 활용해 표본영향함수를 근사 추론하여 하나의 관측값이 제거되었을 때 통계량에 미치는 영향을 예측하는 방법론이 주로 활용되었다. 본 연구에서는 표본평균, 표본분산, 표본표준편차의 표본영향함수 유도를 통해 경험적 영향함수와 표본영향함수의 차이를 살펴 본다. 또한 경험적 영향함수로 표본영향함수를 근사하는 과정에서 발생하는 오차를 줄이기 위해 경험적 영향함수의 보정으로 표본영향함수를 근사 추론하는 방법을 제안하고, 모의실험을 통해 제안한 추론 방법의 타당성을 확인한다.

Abstract ▼ AI-Helper

While analyzing data, researching outliers, which are out of the main tendency, is as important as researching data that follow the general tendency. In this study we discuss the influence function for outlier discrimination. We derive sample influence functions of sample mean, sample variance, and ...

While analyzing data, researching outliers, which are out of the main tendency, is as important as researching data that follow the general tendency. In this study we discuss the influence function for outlier discrimination. We derive sample influence functions of sample mean, sample variance, and sample standard deviation, which were not directly derived in previous research. The results enable us to mathematically examine the relationship between the empirical influence function and sample influence function. We can also consider a method to approximate the sample influence function by the empirical influence function. Also, the validity of the relationship between the approximated sample influence function and the empirical influence function is also verified by the simulation of random sampled data in normal distribution. As the result of a simulation, both the relationship between the two influence functions, sample and empirical, and the method of approximating the sample influence function through the emperical influence function were verified. This research has significance in proposing a method that reduces errors in the approximation of the empirical influence function and in proposing an effective and practical method that proceeds from previous research that approximates the sample influence function directly through empirical influence function by constant revision.

주제어

표/그림 (12)

그림 Figure 4.1. Graph of SPD_x͞͞. SPD = simple prediction difference.
표 Table 4.1. Summary of 300 random samples from N(0, 1)
표 Table 4.2. Summary of 300 samples shifted to be x͞͞ = 4
표 Table 4.3. Comparing differences in the approximation of x͞͞_(i) - x͞͞
표 Table 4.4. Comparing differences in the approximation of s²_(i)- s²
그림 Figure 4.2. Graph of SPD_s² . SPD = simple prediction difference.
그림 Figure 4.3. Graph of CPD_s² . CPD = calibrated prediction difference.
그림 Figure 4.4. Graph of SPD_s. SPD = simple prediction difference.
그림 Figure 4.5. Graph of CPD_s. CPD = calibrated prediction difference
그림 Table 4.5. Comparing differences in the approximation of s_(i) - s
표 Table 5.1. Influence of observation and outlier removal ranking
표 Table 5.2. Influence of observation and outlier removal ranking

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 연구에서는 표본평균, 표본분산, 표본표준편차에 대한 표본영향함수를 직접 유도하고, 경험적 영향함수와의 차이를 확인하여 이상치를 판별하기 위한 방법론으로서의 영향함수 활용 과정에 엄밀성을 높여 보고자 한다. 표본평균, 표본분산, 표본표준편차는 t 통계량과 함께 사회과학 연구에서 그 활용도가 매우 높기 때문에 본 연구는 각 관측값들이 표본평균, 표본분산, 표본표준편차에 미치는 영향을 엄밀하게 확인함으로써 이상치를 제거해야할 경우, 이상치 제거를 위한 우선순위를 정할 수 있도록 도울 수 있다.
본 연구에서는 표본평균, 표본분산, 표본표준편차에 대한 표본영향함수를 직접 유도하고, 경험적 영향함수와의 차이를 확인하여 이상치를 판별하기 위한 방법론으로서의 영향함수 활용 과정에 엄밀성을 높여 보고자 한다. 표본평균, 표본분산, 표본표준편차는 t 통계량과 함께 사회과학 연구에서 그 활용도가 매우 높기 때문에 본 연구는 각 관측값들이 표본평균, 표본분산, 표본표준편차에 미치는 영향을 엄밀하게 확인함으로써 이상치를 제거해야할 경우, 이상치 제거를 위한 우선순위를 정할 수 있도록 도울 수 있다. 2장에서는 영향함수의 정의와 평균, 분산, 표준편차에 대한 영향함수와 경험적 영향함수의 유도와 함께 표본영향함수를 정의한다.

가설 설정

1과 같다. 사회과학 연구 수행을 위해 20명의 점수를 임의추출한 연구 상황을 가정하였다. R을 이용해 20명의 점수를 임의로 추출한 뒤, 각각의 관측값이 표본평균, 표본분산, 표본표준편차에 미치는 영향을 본 연구에서 제안한 보정된 표본영향함수 근사의 방법으로 얻은 값의 절댓값으로 산출하였다.

제안 방법

이때, 추출된 표본의 관측값으로부터 얻어진 #와 s는 이상치가 포함되는 경우 그 값의 심각한 변동이 있을 수 있고, 이는 t통계량에도 위협이 될 수 있다. 본 연구에서 유도하고 타당성을 검증한 표본영향함수의 근사 방법을 이용하여 실제 자료 분석 과정에서 표본평균, 표본분산, 표본표준편차에서 이상치의 제거를 고려해야하는 경우, 제거 순위를 결정하는 방법을 적용한 예를 살펴본다. 실제 자료 분석에는 2020년 대전 지역의 한 고등학교 3학년 학생 226명의 수학 점수 자료를 활용하였으며, 226명의 수학 점수에 대한 기술 통계는 Table 5.
수리적으로 SIF(s2, xi) = {n/(n-2)} · EIF(s2, xi)+s2/(n-2)의 식이 성립함을 보였고, s2(i) - s2 = {-n/(n - 1)(n - 2)} · EIF(s2, xi) - {s2/(n - 1)(n - 2)}와 같이 근사하면 예측 차이가 0이 되는 것을 모의실험으로 관찰하여 그 타당성을 확인하였다.

대상 데이터

300개 표본의 표본평균이 0.05943이므로 일괄적으로 300개 데이터에서 0.05943을 빼고, 다시 4만큼을 더해서 # = 4를 만족시키도록 보정한 300개 데이터에 대해 모의실험을 진행하였다.
4장에서는 3장에서 이론적으로 접근한 내용을 모의실험을 통해 경험적으로 확인하고자 한다. 모의실험을 진행하기 위해 R 통계 패키지에서 정규분포 N(0, 1)을 따르는 임의 추출한 300개의 표본을 사용하였고, 임의추출된 300개 표본의 기술 통계는 Table 4.1과 같다.
본 연구에서 유도하고 타당성을 검증한 표본영향함수의 근사 방법을 이용하여 실제 자료 분석 과정에서 표본평균, 표본분산, 표본표준편차에서 이상치의 제거를 고려해야하는 경우, 제거 순위를 결정하는 방법을 적용한 예를 살펴본다. 실제 자료 분석에는 2020년 대전 지역의 한 고등학교 3학년 학생 226명의 수학 점수 자료를 활용하였으며, 226명의 수학 점수에 대한 기술 통계는 Table 5.1과 같다. 사회과학 연구 수행을 위해 20명의 점수를 임의추출한 연구 상황을 가정하였다.

데이터처리

사회과학 연구 수행을 위해 20명의 점수를 임의추출한 연구 상황을 가정하였다. R을 이용해 20명의 점수를 임의로 추출한 뒤, 각각의 관측값이 표본평균, 표본분산, 표본표준편차에 미치는 영향을 본 연구에서 제안한 보정된 표본영향함수 근사의 방법으로 얻은 값의 절댓값으로 산출하였다. 그리고 이 값이 클수록 각 통계량에 미치는 영향이 큰 것으로 판단할 수 있으므로 통계량의 변화에 미치는 영향이 큰 이상치 제거를 고려해야할 경우, 이 값이 상대적으로 높은 순서대로 제거 순위를 부여하는 방법으로써 이상치 제거 기준을 세울 수 있다.

성능/효과

넷째, 본 논문에서 제안한 경험적 영향함수의 보정을 이용한 표본영향함수의 근사 방법이 실제 자료 분석 과정에서도 적용될 수 있으며, 이를 통한 이상치 선정이 가능함을 볼 수 있었다.
1)의 결과인 #의 타당성을 확인할 수 있다. 또한 표본평균에 대한 표본영향함수를 근사시키기 위해서 경험적 영향함수를 대신 사용해도 동일한 결과를 얻을 수 있음을 알 수 있다. 모의실험에 사용한 데이터 x_i에 대한 #, #, SA_x, SPD_x의 값은 각각 Table 4.
셋째, SIF(s, x_i)를 EIF(s, x_i)로 근사시키기 위해서는 실수배와 상수항의 합 보정이 필요하다. 수리적으로 #이 성립함을 보였고, s_(i) - s의 예측에서 단순 근사시키는 방법에 비해 상대적으로 정확성이 높음을 알 수 있었다.
위에서 유도한 내용을 종합하여 표본평균, 표본분산, 표본표준편차에 대한 표본영향함수를 정리하면 다음과 같이 나타낼 수 있다. 특히, 표본평균에 대한 표본영향함수는 경험적 영향함수와 같지만, 표본분산과 표본표준편차에 대한 표본영향함수는 경험적 영향함수에 적당한 실수배와 함께 상수항의 합으로 표현이 됨을 알 수 있다.

참고문헌 (14)

Campbell, N. A. (1978). The influence function as an aid outlier detection in discrimination analysis, Applied Statistics, 27, 251-258.
Cook, R. D. (1977). Detection of influential observation in linear regression, Technometrics, 19, 15-18.

상세보기
Cook, R. D. and Weisberg, S. (1980). Characterization of and empirical influence function for detection influential cases in regression, Technometrics, 22, 495-508.
Cook, R. D. and Weisberg, S. (1982). Residual and Influence in Regression, Chapman ad Hall, New York.
Critchley, F. (1985). Influence in principal components analysis, Biometika, 72, 627-636.
Hampel, F. R. (1974). The influence curve and its role in robust estimation, Journal of the American Statistical Association, 69, 383-393.

상세보기
Kim, H. (1998). A study on cell influence to chi-square statistic in contingency tables, The Korean Communications in Statistics, 5, 35-42.
Kim, H. and Lee, H. (1996). Influence Functions on ${\chi}^2$ statistic in contingency tables, The Korean Communications in Statistics, 3, 69-76.
Kim, H. and Kim, K. (2005). Influence of an observation on the t-statistic, The Korean Communications in Statistics, 12, 453-462.

원문보기 상세보기
Kim, S. and Kim, H. (2019). A study on the performance of the influence function on the t-statistic depending on population distributions, Journal of the Korean Data & Information Science Society, 30, 573-585.
Lee, H. and Kim, H. (2003). The changes in statistic when a row is deleted from a contingency table, The Korean Communications in Statistics, 10, 305-317.
Lee, H. and Kim, H. (2008). Influence function on the coefficient of variation, Communications for Statistical Applications and Methods, 15, 509-516.
Park, S. and Kim, H. (2019). A study on the location of the observation which has the least effect on the t-statistic, Journal of the Korean Data & Information Science Society, 30, 1221-1232.
Radhakrishnan, R. and Kshirsagar, A. M. (1981). Influence functions for certain parameters in multi-variate analysis, Communications in Statistics, 10, 515-529.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

경험적 영향함수와 표본영향함수의 차이 및 보정에 관한 연구
A study on the difference and calibration of empirical influence function and sample influence function 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

표/그림 (12)

표/그림 (12)

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

데이터처리

성능/효과

참고문헌 (14)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

경험적 영향함수와 표본영향함수의 차이 및 보정에 관한 연구 A study on the difference and calibration of empirical influence function and sample influence function 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

표/그림 (12) 모든 표/그림 보기

표/그림 (12) 슬라이드로 보기

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

데이터처리

성능/효과

참고문헌 (14)

이 논문을 인용한 문헌

저자의 다른 논문 :

김홍기 (104)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

경험적 영향함수와 표본영향함수의 차이 및 보정에 관한 연구
A study on the difference and calibration of empirical influence function and sample influence function 원문보기

초록
AI-Helper

표/그림 (12)

표/그림 (12)

AI 본문요약
AI-Helper