[논문]가설검정과 신뢰구간의 재현성

허명회

doi:10.5351/kjas.2014.27.4.645

초록
AI-Helper

p-값은 관측 표본과 관측 결과보다 심하게 대안가설의 방향으로 영가설을 이탈하는 표본들이 영가설 하에서 갖는 확률이다. p-값이 일정 ${\alpha}$(= 0:05)보다 작게 나타나면 연구자는 대안가설이 지지된 것으로 본다. 그런 경우라고 하더라도 그의 가설이 향후 연구에서 번복될 수 있는데 그 이유는 p-값이 표본에 따라 변동하는 통계량이기 때문이다. Boos와 Stefanski (2011)는 붓스트랩 방법으로 p-값의 예측분포를 구할 수 있음을 보였다. 그들은 그 분포의 상위 10-20% 분위수가 ${\alpha}$보다 작은가를 확인할 필요가 있음을 강조한다. 만약 그렇지 않은 경우에는 "지지"된 가설의 재현성이 문제될 수 있기 때문이다. 가설검정에서 일정 수준의 재현율을 확보하기 위해서는 표본의 증대가 요구된다. 이 연구는 k배 확대 붓스트랩 표본추출(boosted bootstrap sampling)로써 필요한 표본크기를 계산할 수 있음을 두 표본의 비교와 다중선형회귀의 수치 예에서 보인다. k 값을 정하기 위해서는 몇 차례 시행착오를 해야 하지만 계산적 부담은 크지 않다. 95% 신뢰구간은 독립적인 표본들로부터 같은 방식으로 산출되는 구간이 미지의 모수를 포함할 확률이 95%가 되도록 설정된다. 이 연구는 한 관측표본으로부터 얻어진 95% 신뢰구간 내 개별 점이 미래 연구의 신뢰구간에도 포함될 것인지 그 재현성을 붓스트랩 재표본들에서 평가한다. 이 연구는 개별 점에서 산출한 신뢰구간 재현율을 그래프로 보인다.

Abstract ▼ AI-Helper

P-value is the probability of observing a current sample and possibly other samples departing equally or more extremely from the null hypothesis toward postulated alternative hypothesis. When p-value is less than a certain level called ${\alpha}$(= 0:05), researchers claim that the altern...

P-value is the probability of observing a current sample and possibly other samples departing equally or more extremely from the null hypothesis toward postulated alternative hypothesis. When p-value is less than a certain level called ${\alpha}$(= 0:05), researchers claim that the alternative hypothesis is supported empirically. Unfortunately, some findings discovered in that way are not reproducible, partly because the p-value itself is a statistic vulnerable to random variation. Boos and Stefanski (2011) suggests calculating the upper limit of p-value in hypothesis testing, using a bootstrap predictive distribution. To determine the sample size of a replication study, this study proposes thought experiments by simulating boosted bootstrap samples of different sizes from given observations. The method is illustrated for the cases of two-group comparison and multiple linear regression. This study also addresses the reproducibility of the points in the given 95% confidence interval. Numerical examples show that the center point is covered by 95% confidence intervals generated from bootstrap resamples. However, end points are covered with a 50% chance. Hence this study draws the graph of the reproducibility rate for each parameter in the confidence interval.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

이 연구는 기존 연구에서 주장된 가설을 재확인 또는 반박하는 재현성 연구의 규모는 k배 확대 붓스트랩 표본추출로 찾을 것을 제안한다. 확대 인수 k를 정하기 위해서는 몇 차례 시행착오가 있을 수 있으나 계산적 부담은 크지 않다.

가설 설정

151까지 커질 수 있음을 의미한다. 따라서 이 연구에서 지지된 가설 H₁의 재현성은 의심스러울 수밖에 없다. 상위 20% 분위수 # 대신 상위 10% 분위수 #를 쓸 수도 있을 것이다.
연구 가설이 ‘age, wgt, rtm, rst, run의 영향이 음이고 max의 영향은 양이다’라고 하자.
이 연구에 대한 재현 실험에서 가설 H₁이 재확인될 수 있을까? p-값에 대한 붓스트랩 예측분포를 만들어 이에 대한 답을 할 수 있다. 이 경우는 관측자료가 독립표본 2개의 합이므로 붓스트랩 재표본도 A로부터의 재표본과 B로부터의 재표본으로 형성된다.
이 연구에서 설정된 가설은 H0 : µA = µB 대 H1 : µA < µB이다.
표본 A와 표본 B가 각각 중심이 µA와 µB인 모집단에서 임의생성되고 두 모집단의 산포가 같다고 가정하자.

제안 방법

N = 1000개의 붓스트랩 재표본들을 생성시키고 각 재표본에서 ρ에 대한 붓스트랩 편향수정가속 신뢰 구간을 구하여 개별 점이 이들 구간에 포함되는 비율, 즉 신뢰구간 재현율을 산출하였다.
그리고 그런 구간들이 θ0을 포함하는지의 여부를 조사하여 상대적 빈도를 산출한다.
또한, 이 연구는 한 관측표본으로부터 얻어진 95% 신뢰구간 내 개별 점이 미래 연구의 신뢰구간에도 포함될 것인지 그 재현성을 붓스트랩 재표본들에서 평가하였다. 그 결과, 관측 신뢰구간의 중앙점은 재현 율이 95%로 나오지만 신뢰구간 양끝 점은 재현율이 50%에 그침을 확인하였다.
95% 신뢰구간은 독립적인 표본들로부터 같은 방식으로 산출되는 구간이 미지의 모수를 포함할 확률이 95%가 되도록 설정된다. 이 연구는 한 관측표본으로부터 얻어진 95% 신뢰구간 내 개별 점이 미래 연구의 신뢰구간에도 포함될 것인지 그 재현성을 붓스트랩 재표본들에서 평가한다. 이 연구는 개별 점에서 산출한 신뢰 구간 재현율을 그래프로 보인다.

대상 데이터

1는 2개 표본을 비교한 앞의 사례에서 신뢰구간 재현율의 그래프이다. 1000(= N)개씩의 붓스트랩 재표본이 사용되었다. 그림에 찍힌 점선은 관측표본 신뢰구간의 양끝 –3.
이 절에서의 분석 자료 “에어로빅 적합성”는 31명의 남자를 대상으로 측정된 7개 변수로 구성되어 있다.
이때 각 붓스트랩 재표본에서 ρ에 대한 신뢰구간을 구하는 과정에서 1000개의 붓스트랩 재표본이 사용되었다.
적용 자료는 고려대학교 2013년 ‘법과 통계학’ 수강생 52명의 시험성적으로, 중간시험과 기말시험 간 상관계수는 r = 0.489이다.

이론/모형

이제 붓스트랩 방법으로 각 회귀계수의 p-값에 대한 예측분포를 살펴보기로 한다 (반복수 N = 1000). Figure 3.

성능/효과

43에서 정점(頂點)을 갖고 정점의 함수값은 대략 95%이다. 관측 신뢰 구간 양끝의 재현율은 대략 50%이다. 이로써, 관측 신뢰구간 내 개별 점의 재현율은 50% 이상이다.
또한, 이 연구는 한 관측표본으로부터 얻어진 95% 신뢰구간 내 개별 점이 미래 연구의 신뢰구간에도 포함될 것인지 그 재현성을 붓스트랩 재표본들에서 평가하였다. 그 결과, 관측 신뢰구간의 중앙점은 재현 율이 95%로 나오지만 신뢰구간 양끝 점은 재현율이 50%에 그침을 확인하였다.
따라서 결론은 age 효과와 max 효과를 검증하기 위해 필요한 표본크기는 현재 규모의 최소 3배여야 한다는 것이다. wgt 효과와 rst 효과는 3배 규모로도 유의성이 검출되지 않을 것으로 보인다.
다음 절에서 이에 대하여 다룬다. 제안 방법을 적용하면, 재현성 연구의 규모가 기존 연구의 k배인 경우, 기존 연구에서 지지된 가설이 재확인되거나 반박될 가능성을 미리 알 수 있다.

질의응답

핵심어	질문	논문에서 추출한 답변
	통계적 검정을 통해 무엇을 확인하는가?	통계적 검정은 실증적 과학에서 광범위하게 활용되고 있고 대부분의 경우 p-값을 유의수준 α와 비교하여 연구가설이 지지되는가를 확인한다. 그러나 유의성이 확인된 가설이 재현성 연구에서는 부정되는 경우가 드물지 않다.
	p-값의 의미은 무엇인가?	p-값은 관측 표본과 관측 결과보다 심하게 대안가설의 방향으로 영가설을 이탈하는 표본들이 영가설 하에서 갖는 확률이다. p-값이 일정 α(= 0.
	유의성이 확인된 가설이 재현성 연구에서 부정되는 경우가 드물지 않은 이유는 무엇인가?	그 이유 중 하나는 p-값 자체가 임의적 수치이므로 확률변동 하에 있는데 이것의 변동성이 상당히 크기 때문이다. 수리적으로 알려진바, 영가설 하에서 연속적 검정 통계량이 사용된 경우 p-값은 균일분포를 따른다.

참고문헌 (5)

Boos, D. D. and Stefanski, L. A. (2011). P-value precision and reproducibility, The American Statistician, 65, 213-221.

상세보기
Efron, B. (1987). Better bootstrap confidence intervals, Journal of the American Statistical Association, 82, 171-185.

상세보기
Goodman, S. N. (1992). A comment on replication, p-values and evidence, Statistics in Medicine, 11. 875-879.

상세보기
Hoenig, J. M. and Heisey, D. M. (2001). The abuse of power: The pervasive fallacy of power calculations for data analysis, The American Statistician, 55, 19-24.

상세보기
Shao, J. and Chow, S.-C. (2002). Reproducibility probability in clinical trials, Statistics in Medicine, 21, 1727-1742.

상세보기

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

가설검정과 신뢰구간의 재현성
Reproducibility of Hypothesis Testing and Confidence Interval 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

질의응답

참고문헌 (5)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

가설검정과 신뢰구간의 재현성 Reproducibility of Hypothesis Testing and Confidence Interval 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

대상 데이터

이론/모형

성능/효과

질의응답

참고문헌 (5)

이 논문을 인용한 문헌

저자의 다른 논문 :

허명회 (62)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

가설검정과 신뢰구간의 재현성
Reproducibility of Hypothesis Testing and Confidence Interval 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper