과학적 연구에서 핵심적인 연구 주제 또는 가설은 대부분 인과적 질문(causal question)을 포함한다. 예를 들어, 전염병 예방을 위한 치료법의 효과 연구, 특정 정책의 시행으로 인한 효용(utility)의 평가에 대한 연구, 특정 사용자를 대상으로 노출된 광고의 종류에 따른 광고의 효과성에 대한 연구는 모두 인과 관계(causal relationship)의 추론이 요구된다. 이러한 인과 관계를 다루는 통계적 인과 추론(statistical causal inference)의 주요 관심사 중 하나는 모집단에 일종의 개입(정책 혹은 처치)을 적용한 후 개입의 효과를 정확하게 추정하는 것이다. 인과 추론은 임상실험과 정책결정에서 주로 이용되었으나, 이른바 빅데이터 시대의 도래로 가용한 관측자료가 폭발적으로 증가하였고 이로 인하여 인과 추론에 대한 잠재적 응용가치와 수요가 지속적으로 증가하고 있다. 하지만 가용한 대부분의 자료는 임의실험 기반의 자료와 달리 개입이 임의로 분배되지 않은 비실험 관측자료이다. 따라서, 본 논문은 비실험 관측자료로부터 개입의 효과를 추정하기 위한 인과 추론의 핵심 개념과 최근의 연구동향을 소개하고자 한다. 이를 위하여 본문에서는 먼저 개입의 효과를 Neyman-Rubin의 잠재 결과(potentialoutcome) 모형으로 나타내고, 개입의 효과를 추정하는 여러 접근법 중 특히 성향점수(propensity score) 기반 추정법과 회귀모형 기반 추정법을 중점적으로 소개한다. 최근 연구동향으로는 (1) 평균 효과 크기 추정을 넘어선 개인별 효과 크기의 추정, (2) 효과크기 추정에 있어서 자료 규모의 증대로 인한 차원의 저주가 야기하는 난제들과 이에 대한 해결방안들, (3) 복합적 인과관계를 반영하기 위한 Pearl의 구조적 인과 모형(structural causal model) 및 잠재 결과 모형과의 비교의 3가지 주제로 구분하여 소개한다.
과학적 연구에서 핵심적인 연구 주제 또는 가설은 대부분 인과적 질문(causal question)을 포함한다. 예를 들어, 전염병 예방을 위한 치료법의 효과 연구, 특정 정책의 시행으로 인한 효용(utility)의 평가에 대한 연구, 특정 사용자를 대상으로 노출된 광고의 종류에 따른 광고의 효과성에 대한 연구는 모두 인과 관계(causal relationship)의 추론이 요구된다. 이러한 인과 관계를 다루는 통계적 인과 추론(statistical causal inference)의 주요 관심사 중 하나는 모집단에 일종의 개입(정책 혹은 처치)을 적용한 후 개입의 효과를 정확하게 추정하는 것이다. 인과 추론은 임상실험과 정책결정에서 주로 이용되었으나, 이른바 빅데이터 시대의 도래로 가용한 관측자료가 폭발적으로 증가하였고 이로 인하여 인과 추론에 대한 잠재적 응용가치와 수요가 지속적으로 증가하고 있다. 하지만 가용한 대부분의 자료는 임의실험 기반의 자료와 달리 개입이 임의로 분배되지 않은 비실험 관측자료이다. 따라서, 본 논문은 비실험 관측자료로부터 개입의 효과를 추정하기 위한 인과 추론의 핵심 개념과 최근의 연구동향을 소개하고자 한다. 이를 위하여 본문에서는 먼저 개입의 효과를 Neyman-Rubin의 잠재 결과(potential outcome) 모형으로 나타내고, 개입의 효과를 추정하는 여러 접근법 중 특히 성향점수(propensity score) 기반 추정법과 회귀모형 기반 추정법을 중점적으로 소개한다. 최근 연구동향으로는 (1) 평균 효과 크기 추정을 넘어선 개인별 효과 크기의 추정, (2) 효과크기 추정에 있어서 자료 규모의 증대로 인한 차원의 저주가 야기하는 난제들과 이에 대한 해결방안들, (3) 복합적 인과관계를 반영하기 위한 Pearl의 구조적 인과 모형(structural causal model) 및 잠재 결과 모형과의 비교의 3가지 주제로 구분하여 소개한다.
Causal questions are prevalent in scientific research, for example, how effective a treatment was for preventing an infectious disease, how much a policy increased utility, or which advertisement would give the highest click rate for a given customer. Causal inference theory in statistics interprets...
Causal questions are prevalent in scientific research, for example, how effective a treatment was for preventing an infectious disease, how much a policy increased utility, or which advertisement would give the highest click rate for a given customer. Causal inference theory in statistics interprets those questions as inferring the effect of a given intervention (treatment or policy) in the data generating process. Causal inference has been used in medicine, public health, and economics; in addition, it has received recent attention as a tool for data-driven decision making processes. Many recent datasets are observational, rather than experimental, which makes the causal inference theory more complex. This review introduces key concepts and recent trends of statistical causal inference in observational studies. We first introduce the Neyman-Rubin's potential outcome framework to formularize from causal questions to average treatment effects as well as discuss popular methods to estimate treatment effects such as propensity score approaches and regression approaches. For recent trends, we briefly discuss (1) conditional (heterogeneous) treatment effects and machine learning-based approaches, (2) curse of dimensionality on the estimation of treatment effect and its remedies, and (3) Pearl's structural causal model to deal with more complex causal relationships and its connection to the Neyman-Rubin's potential outcome model.
Causal questions are prevalent in scientific research, for example, how effective a treatment was for preventing an infectious disease, how much a policy increased utility, or which advertisement would give the highest click rate for a given customer. Causal inference theory in statistics interprets those questions as inferring the effect of a given intervention (treatment or policy) in the data generating process. Causal inference has been used in medicine, public health, and economics; in addition, it has received recent attention as a tool for data-driven decision making processes. Many recent datasets are observational, rather than experimental, which makes the causal inference theory more complex. This review introduces key concepts and recent trends of statistical causal inference in observational studies. We first introduce the Neyman-Rubin's potential outcome framework to formularize from causal questions to average treatment effects as well as discuss popular methods to estimate treatment effects such as propensity score approaches and regression approaches. For recent trends, we briefly discuss (1) conditional (heterogeneous) treatment effects and machine learning-based approaches, (2) curse of dimensionality on the estimation of treatment effect and its remedies, and (3) Pearl's structural causal model to deal with more complex causal relationships and its connection to the Neyman-Rubin's potential outcome model.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 종설논문의 목적은 관찰자료로부터의 인과적 추론을 위한 핵심적 개념틀과 최근 연구 동향을 소개하는 데 있다. 본 논문의 구성은 다음과 같다.
쉬운 예제를 통하여 인과모형을 방향성 비순환 그래프로 나타내고 개입의 효과를 do-계산법으로 나타내는 방법을 알아보자. 먼저 다음과 같은 함수 관계는 Figure 4.
본 절에서는 간단한 가상실험 데이터를 생성하여 (조건부) 평균처치효과 추정량들을 직접 계산하고 비교하여 본다. 먼저 아래와 같이 X, A, Y 를 생성하자.
통계적 인과 추론의 목표는 인간의 인위적인 개입에 대한 효과를 정확하게 추정하는 것이다. 임의실험이 아닌 관찰자료로부터 효과를 측정하기 위하여는 관찰자료 자체에서는 검증할 수 없는 가정을 하는 점에서 근본적인 한계가 있으나, 임의실험이 윤리적으로 불가능하거나 고비용을 소모하는 상황에서도 개입의 효과를 측정하기 위한 개념틀을 제공한다는 점에서 유용하다.
가설 설정
위 셋을 Bayes 정리와 조합하면, 아래와 같이 계산이 가능하다(편의상 이산확률변수를 가정하였다).
(X, A, Y)는 알려지지 않은 분포 P를 따를 때, 우리는 확률표본 #를 관찰하였다고 가정한다.
제안 방법
예를 들어 “복지정책은 거주민들의 소득을 향상시키는가?”가 관심 질문이라고 하자. 이에 대답하는 이상적인 방법은, 동일한 개체 둘을 상정하여 각각을 실험군(복지정책을 적용함)과 대조군(복지정책을 적용하지 않음)에 배정하고, 두 개체의 추후 소득을 비교하는 것이다. 잠재 결과 모형에서는, 단일 개체 i에 대하여 만약 실험군과 대조군에 배정하였을 경우의 결과값을 각각 Yi(0), Yi(1)로 나타낸다.
위의 두 모형을 이용하여, 방향성 비순환 그래프를 이용하여 관찰자료로부터 인과 효과를 계산하는 방법을 알아보자. 예를 들어, 관찰된 자료 (X, Y, Z)는 식 (4.
이론/모형
전통적 구조방정식과 비교하면, 비모수적 구조적 인과 모형은 DAG으로 표현된 인과관계 하에서 데이터셋이 생성됨을 가정한다는 점에서는 동일하나, 각 화살표의 인과관계를 Y = β/X + UY 처럼 닫힌 형태의 방정식으로 나타낼 필요가 없이 Y = f(X, UY )처럼 입력/출력만 적시하여도 충분하다는 점에서 가장 큰 차이가 있다. 그럼에도 불구하고 특정 변수에의 개입이 다른 변수에 영향을 미치는지 그래프이론을 이용하여 판단할 수있고, 만약 영향을 미친다면 그 크기를 do-계산법을 이용하여 유도해 낼 수 있다. 구조적 인과모형에 대한 자세한 설명은 Pearl (2009a) 및 Pearl (2009b)를 참조할 수 있고, 직관적이고 쉬운 설명은 Pearl 등(2016) (한국어 번역판은 Kim (2018))를 참조할 수 있다.
성능/효과
이중 로버스트 추정량은 성향점수 모형족 혹은 결과값 회귀모형족 둘 중 하나라도 참 모형을 포함하고 있을 경우에는 일치성을 가진 추정량을 얻을 수 있는 장점이 있다. 또한 두 모형족 모두 참 모형을 포함하고 있는 경우에는 제안된 추정량이 효율성(efficiency)을 달성할 수 있음이 증명되었다. 그러나, 성향점수 및 결과값 회귀모형 둘 다 올바르지 않게 적시된 경우에는, 이중 로버스트 추정량이 성향점수 기반 추정량이나 회귀분석 기반 추정량보다 더 편향된 추정치를 제공할 수 있음이 예증된 바 있다 (Kang과 Schafer, 2007).
질의응답
핵심어
질문
논문에서 추출한 답변
인과 추론에서 발생하는 차원의 저주를 직관적으로 말하면?
인과 추론에서도 차원의 저주는 여전히 발생한다. 직관적으로는, 가능한 모든 종류의 교란변수를 공변량 X에 포함하면 무시가능성 가정을 만족시킬 가능성이 더 높아질 수도 있다. 문제는 양수성 가정의 위반인데, 공변량의 차원이 증가할수록 단위 개체의 근접 이웃 개체들을 찾기가 힘들게 되고, 따라서 어떤 공변량 x0에 대하여 P(A = 1|X0 = x0) = 1 또는 0일 가능성이 더 커지게 된다.
임의실험은 어떤 방법이었는가?
Fisher RA가 실험계획법을 체계화한 이래로, 인과관계를 규명하는 가장 확실한 방법은 임의실험이었다. 하지만 현실에서 다루게 되는 대부분의 자료는 임의실험보다는 비실험 관찰로 수집된 자료이고, 이에 대한 인과성 추론을 위한 이론 개발이 요구되었다.
인과성 추론이 발전하게 된 계기는?
하지만 현실에서 다루게 되는 대부분의 자료는 임의실험보다는 비실험 관찰로 수집된 자료이고, 이에 대한 인과성 추론을 위한 이론 개발이 요구되었다. 비실험 관찰자료로부터의 인과성 추론은 흡연과폐암의 인과관계 논쟁에서 급격하게 발전하였다 (Cornfield 등, 2009). 특히 Rubin D와 그의 연구 그룹은 1970년대 이래로 관찰자료로부터의 인과적 효과의 측정을 가능케 하는 개념틀을 확립하여 왔다(자세한 종설은 Rubin (2005)에서 확인할 수 있다).
이 논문을 인용한 문헌
활용도 분석정보
상세보기
다운로드
내보내기
활용도 Top5 논문
해당 논문의 주제분야에서 활용도가 높은 상위 5개 콘텐츠를 보여줍니다. 더보기 버튼을 클릭하시면 더 많은 관련자료를 살펴볼 수 있습니다.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.