[논문]비실험 자료로부터의 인과 추론: 핵심 개념과 최근 동향

최영근; 유동현

doi:10.5351/kjas.2019.32.2.173

초록
AI-Helper

과학적 연구에서 핵심적인 연구 주제 또는 가설은 대부분 인과적 질문(causal question)을 포함한다. 예를 들어, 전염병 예방을 위한 치료법의 효과 연구, 특정 정책의 시행으로 인한 효용(utility)의 평가에 대한 연구, 특정 사용자를 대상으로 노출된 광고의 종류에 따른 광고의 효과성에 대한 연구는 모두 인과 관계(causal relationship)의 추론이 요구된다. 이러한 인과 관계를 다루는 통계적 인과 추론(statistical causal inference)의 주요 관심사 중 하나는 모집단에 일종의 개입(정책 혹은 처치)을 적용한 후 개입의 효과를 정확하게 추정하는 것이다. 인과 추론은 임상실험과 정책결정에서 주로 이용되었으나, 이른바 빅데이터 시대의 도래로 가용한 관측자료가 폭발적으로 증가하였고 이로 인하여 인과 추론에 대한 잠재적 응용가치와 수요가 지속적으로 증가하고 있다. 하지만 가용한 대부분의 자료는 임의실험 기반의 자료와 달리 개입이 임의로 분배되지 않은 비실험 관측자료이다. 따라서, 본 논문은 비실험 관측자료로부터 개입의 효과를 추정하기 위한 인과 추론의 핵심 개념과 최근의 연구동향을 소개하고자 한다. 이를 위하여 본문에서는 먼저 개입의 효과를 Neyman-Rubin의 잠재 결과(potential outcome) 모형으로 나타내고, 개입의 효과를 추정하는 여러 접근법 중 특히 성향점수(propensity score) 기반 추정법과 회귀모형 기반 추정법을 중점적으로 소개한다. 최근 연구동향으로는 (1) 평균 효과 크기 추정을 넘어선 개인별 효과 크기의 추정, (2) 효과크기 추정에 있어서 자료 규모의 증대로 인한 차원의 저주가 야기하는 난제들과 이에 대한 해결방안들, (3) 복합적 인과관계를 반영하기 위한 Pearl의 구조적 인과 모형(structural causal model) 및 잠재 결과 모형과의 비교의 3가지 주제로 구분하여 소개한다.

Abstract ▼ AI-Helper

Causal questions are prevalent in scientific research, for example, how effective a treatment was for preventing an infectious disease, how much a policy increased utility, or which advertisement would give the highest click rate for a given customer. Causal inference theory in statistics interprets...

Causal questions are prevalent in scientific research, for example, how effective a treatment was for preventing an infectious disease, how much a policy increased utility, or which advertisement would give the highest click rate for a given customer. Causal inference theory in statistics interprets those questions as inferring the effect of a given intervention (treatment or policy) in the data generating process. Causal inference has been used in medicine, public health, and economics; in addition, it has received recent attention as a tool for data-driven decision making processes. Many recent datasets are observational, rather than experimental, which makes the causal inference theory more complex. This review introduces key concepts and recent trends of statistical causal inference in observational studies. We first introduce the Neyman-Rubin's potential outcome framework to formularize from causal questions to average treatment effects as well as discuss popular methods to estimate treatment effects such as propensity score approaches and regression approaches. For recent trends, we briefly discuss (1) conditional (heterogeneous) treatment effects and machine learning-based approaches, (2) curse of dimensionality on the estimation of treatment effect and its remedies, and (3) Pearl's structural causal model to deal with more complex causal relationships and its connection to the Neyman-Rubin's potential outcome model.

주제어

표/그림 (1)

그림 Figure 4.1. 구조적 인과모형식에 대응되는 방향성 비순환 그래프들. 좌측: (4.2), 우측: (4.3).

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 절에서는 간단한 가상실험 데이터를 생성하여 (조건부) 평균처치효과 추정량들을 직접 계산하고 비교하여 본다. 먼저 아래와 같이 X, A, Y 를 생성하자.
본 종설논문의 목적은 관찰자료로부터의 인과적 추론을 위한 핵심적 개념틀과 최근 연구 동향을 소개하는 데 있다. 본 논문의 구성은 다음과 같다.
쉬운 예제를 통하여 인과모형을 방향성 비순환 그래프로 나타내고 개입의 효과를 do-계산법으로 나타내는 방법을 알아보자. 먼저 다음과 같은 함수 관계는 Figure 4.
통계적 인과 추론의 목표는 인간의 인위적인 개입에 대한 효과를 정확하게 추정하는 것이다. 임의실험이 아닌 관찰자료로부터 효과를 측정하기 위하여는 관찰자료 자체에서는 검증할 수 없는 가정을 하는 점에서 근본적인 한계가 있으나, 임의실험이 윤리적으로 불가능하거나 고비용을 소모하는 상황에서도 개입의 효과를 측정하기 위한 개념틀을 제공한다는 점에서 유용하다.

가설 설정

(X, A, Y)는 알려지지 않은 분포 P를 따를 때, 우리는 확률표본 #를 관찰하였다고 가정한다.
위 셋을 Bayes 정리와 조합하면, 아래와 같이 계산이 가능하다(편의상 이산확률변수를 가정하였다).

제안 방법

위의 두 모형을 이용하여, 방향성 비순환 그래프를 이용하여 관찰자료로부터 인과 효과를 계산하는 방법을 알아보자. 예를 들어, 관찰된 자료 (X, Y, Z)는 식 (4.
예를 들어 “복지정책은 거주민들의 소득을 향상시키는가?”가 관심 질문이라고 하자. 이에 대답하는 이상적인 방법은, 동일한 개체 둘을 상정하여 각각을 실험군(복지정책을 적용함)과 대조군(복지정책을 적용하지 않음)에 배정하고, 두 개체의 추후 소득을 비교하는 것이다. 잠재 결과 모형에서는, 단일 개체 i에 대하여 만약 실험군과 대조군에 배정하였을 경우의 결과값을 각각 Y_i(0), Y_i(1)로 나타낸다.

이론/모형

전통적 구조방정식과 비교하면, 비모수적 구조적 인과 모형은 DAG으로 표현된 인과관계 하에서 데이터셋이 생성됨을 가정한다는 점에서는 동일하나, 각 화살표의 인과관계를 Y = β/X + U_Y 처럼 닫힌 형태의 방정식으로 나타낼 필요가 없이 Y = f(X, U_Y )처럼 입력/출력만 적시하여도 충분하다는 점에서 가장 큰 차이가 있다. 그럼에도 불구하고 특정 변수에의 개입이 다른 변수에 영향을 미치는지 그래프이론을 이용하여 판단할 수있고, 만약 영향을 미친다면 그 크기를 do-계산법을 이용하여 유도해 낼 수 있다. 구조적 인과모형에 대한 자세한 설명은 Pearl (2009a) 및 Pearl (2009b)를 참조할 수 있고, 직관적이고 쉬운 설명은 Pearl 등(2016) (한국어 번역판은 Kim (2018))를 참조할 수 있다.

성능/효과

이중 로버스트 추정량은 성향점수 모형족 혹은 결과값 회귀모형족 둘 중 하나라도 참 모형을 포함하고 있을 경우에는 일치성을 가진 추정량을 얻을 수 있는 장점이 있다. 또한 두 모형족 모두 참 모형을 포함하고 있는 경우에는 제안된 추정량이 효율성(eﬃciency)을 달성할 수 있음이 증명되었다. 그러나, 성향점수 및 결과값 회귀모형 둘 다 올바르지 않게 적시된 경우에는, 이중 로버스트 추정량이 성향점수 기반 추정량이나 회귀분석 기반 추정량보다 더 편향된 추정치를 제공할 수 있음이 예증된 바 있다 (Kang과 Schafer, 2007).

질의응답

핵심어	질문	논문에서 추출한 답변
	인과 추론에서 발생하는 차원의 저주를 직관적으로 말하면?	인과 추론에서도 차원의 저주는 여전히 발생한다. 직관적으로는, 가능한 모든 종류의 교란변수를 공변량 X에 포함하면 무시가능성 가정을 만족시킬 가능성이 더 높아질 수도 있다. 문제는 양수성 가정의 위반인데, 공변량의 차원이 증가할수록 단위 개체의 근접 이웃 개체들을 찾기가 힘들게 되고, 따라서 어떤 공변량 x0에 대하여 P(A = 1\|X0 = x0) = 1 또는 0일 가능성이 더 커지게 된다.
	임의실험은 어떤 방법이었는가?	Fisher RA가 실험계획법을 체계화한 이래로, 인과관계를 규명하는 가장 확실한 방법은 임의실험이었다. 하지만 현실에서 다루게 되는 대부분의 자료는 임의실험보다는 비실험 관찰로 수집된 자료이고, 이에 대한 인과성 추론을 위한 이론 개발이 요구되었다.
	인과성 추론이 발전하게 된 계기는?	하지만 현실에서 다루게 되는 대부분의 자료는 임의실험보다는 비실험 관찰로 수집된 자료이고, 이에 대한 인과성 추론을 위한 이론 개발이 요구되었다. 비실험 관찰자료로부터의 인과성 추론은 흡연과폐암의 인과관계 논쟁에서 급격하게 발전하였다 (Cornﬁeld 등, 2009). 특히 Rubin D와 그의 연구 그룹은 1970년대 이래로 관찰자료로부터의 인과적 효과의 측정을 가능케 하는 개념틀을 확립하여 왔다(자세한 종설은 Rubin (2005)에서 확인할 수 있다).

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

[국내논문] 비실험 자료로부터의 인과 추론: 핵심 개념과 최근 동향
Causal inference from nonrandomized data: key concepts and recent trends 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

표/그림 (1)

표/그림 (1)

AI 본문요약
AI-Helper

문제 정의

가설 설정

제안 방법

이론/모형

성능/효과

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

[국내논문] 비실험 자료로부터의 인과 추론: 핵심 개념과 최근 동향 Causal inference from nonrandomized data: key concepts and recent trends 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

표/그림 (1)

표/그림 (1)

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

제안 방법

이론/모형

성능/효과

질의응답

이 논문을 인용한 문헌

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

[국내논문] 비실험 자료로부터의 인과 추론: 핵심 개념과 최근 동향
Causal inference from nonrandomized data: key concepts and recent trends 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper