[논문]모수, 비모수, 베이지안 출산율 모형을 활용한 합계출산율 예측과 비교

오진호

doi:10.5351/kjas.2018.31.6.677

모수, 비모수, 베이지안 출산율 모형을 활용한 합계출산율 예측과 비교
A comparison and prediction of total fertility rate using parametric, non-parametric, and Bayesian model 원문보기

응용통계연구 = The Korean journal of applied statistics, v.31 no.6, 2018년, pp.677 - 692

초록
AI-Helper

최근 2017년 우리나라 합계출산율은 1.05명로 2005년 1.08명 수준으로 회귀하는 현상을 보이고 있다. 1.05명은 인구대체선(2.1명), 안전선(1.5명)과도 거리가 먼 초저출산 수준이고 마치 초저출산 덫에 빠질 우려가 있다. 이에 합계출산율의 합리적인 예측과 이를 통한 출산정책에 유용한 자료를 제공하는 것은 그 어느 때 보다도 중요하다. 그 동안 다양한 통계적 방법으로 합계출산율 추이를 예측하였는데, 데이터 완비성이 높고 품질이 좋은 경우 모형 접근인 모수적 방법, 데이터 추이가 단절되거나 변동이 심한 경우 평활과 가중치를 적용한 비모수적 방법, 데이터 부족과 품질 등으로 선진국의 출산율 3단계 전이현상을 참고하여 이들의 사전분포를 활용하는 베이지안 방법 등이 적용되어 왔다. 본 연구는 최근 변동이 심한 우리나라 출산율에 모수, 비모수, 그리고 베이지안 방법을 적용하여 추정과 예측을 실시하고 도출된 결과 비교를 통해 적합성과 타당성 측면에서 어떤 방법이 합리적인지 모색하고자 한다. 분석결과 합계출산율 예측값 순위는 통계청 합계출산율이 가장 높고, 베이지안, 모수, 비모수 순으로 나타났다. 2017년 TFR 1.05명 수준을 감안할 때 모수, 비모수모형으로 도출된 합계출산율 예측값이 합리적이다. 또한 출산율 자료완비성이 높고 품질이 우수할 경우 계산 효율성과 적합도 관점에서 모수적 추정과 예측 접근 방법이 타 방법보다 우수한 것으로 도출되었다.

Abstract ▼ AI-Helper

The total fertility rate of Korea was 1.05 in 2017, showing a return to the 1.08 level in the year 2005. 1.05 is a very low fertility level that is far from replacement level fertility or safety zone 1.5. The number may indicate a low fertility trap. It is therefore important to predict fertility than at any other time. In the meantime, we have predicted the age-specific fertility rate and total fertility rate by various statistical methods. When the data trend is disconnected or fluctuating, it applied a nonparametric method applying the smoothness and weight. In addition, the Bayesian method of using the pre-distribution of fertility rates in advanced countries with reference to the three-stage transition phenomenon have been applied. This paper examines which method is reasonable in terms of precision and feasibility by applying estimation, forecasting, and comparing the results of the recent variability of the Korean fertility rate with parametric, non-parametric and Bayesian methods. The results of the analysis showed that the total fertility rate was in the order of KOSTAT's total fertility rate, Bayesian, parametric and non-parametric method outcomes. Given the level of TFR 1.05 in 2017, the predicted total fertility rate derived from the parametric and nonparametric models is most reasonable. In addition, if a fertility rate data is highly complete and a quality is good, the parametric model approach is superior to other methods in terms of parameter estimation, calculation efficiency and goodness-of-fit.

주제어

표/그림 (11)

그림 Figure 2.1. Trend of TFR and ASFR for 1970–2017. TFR = total fertility rate; ASFR = age-speciﬁc fertility rate.
그림 Figure 2.2. Trend of childbearing population and total parity.
그림 Figure 2.3. The three phases for TFR and trajectory on decline function.
그림 Figure 3.1. Parameter estimate of GLG. GLG = generalized log gamma.
그림 Figure 3.2. Prediction for birth-order and TFR by GLG. TFR = total fertility rate; GLG = generalized log gamma.
그림 Figure 3.3. Estimation and prediction for TFR by FDM. TFR = total fertility rate; FDM = functional data model.
표 Table 3.1. TFR for Korea of WPP 2017
그림 Figure 3.4. Prediction by Bayesian and pattern on declined function for Korea. TFR = total fertility rate.
표 Table 3.2. Results on prediction of scenarios for bayesTFR
표 Table 3.3. A comparison of TFR on various fertility models
표 Table 3.4. The results of various fertility models

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

따라서 본 연구는 2015년 이후 하락세를 보이는 우리나라 2016–2017년 TFR 패턴을 반영할 수 있도록bayesTFR의 run.tfr.mcmc 옵션설정에서 TFR 하한과 상한을 다양하게 설정해 보았다.
첫째, 우리나라 ASFR에 대해서 모수적 방법에 기초한 추정, 예측결과가 주류이며 상대적으로 비모수와 베이지안 방법을 적용한 연구결과는 미약한 수준이다. 따라서 이들 방법론의 차이점을 모색하고 우리나라 ASFR과 TFR에 어떠한 모형이 적합한지 논의하고자 한다.
본 논문은 변동이 작지 않고 2005년 TFR 수준으로 회귀하는 우리나라 출산율에 대해서 3가지 출산율모형을 적용한 결과를 비교하여 어느 방법이 더 우수하고 합리적인지 살펴보았다.
이들 모형에 대해 추정 모수 개수의 계산 효율성, 모형 적합도와 정확도, 그리고 결측치에 대한 강건도 관점에서 비교해 보고자 한다.
지금까지 서술한 베이지안 방법을 기초로, 본 연구는 우리나라 출산율을 추정하기 위해 bayesTFR 패키지를 활용한 R 프로그램을 부록에 제시하였다. 관심 있는 독자는 참고하길 바란다.

가설 설정

그리고 국가별 모수 δc는 널리 퍼진 사전분포(diffuse prior distribution)를 가지는 21개국 선진국 출산율 분포로부터 도출되는 것을 가정한다.
둘째, 베이지안의 MCMC 과정에 대한 명확성이다. Raftery 등 (2014)의 논문에서도 사전분포는 밝히고 있으나 각 모수들의 사후분포는 제시하지 않고 있다.
한계점으로는 첫째, GLG모형의C₁과 C₂ 출산순위 예측이다. 본 연구는 출산율 미래 추이의 복원성 가정으로 정상시계열을 간주하여 분석하였다. 만약 미래 출산율이 지속적인 감소를 보인다면 출산율 전이 2, 3단계가 비정상 시계열에 해당되므로 예측 결과는 다를 것이다.
2처럼 완만한 상승으로 이어진다. 이러한 결과는 출산율 미래 추이의 복원성 가정(under a stationary fertility policy)에 기초하고 있다. 만약 이런 가정과 달리 출산율 전이 2, 3단계를 비정상 시계열로 간주하여 예측할 때 본연구 결과와는 다를 수 있음을 밝힌다.

제안 방법

제 2장은 출산관련 인구학적 변수들과 1970년부터 2017년까지의 TFR 추이를 살펴본다. 그리고 모수, 비모수, 그리고 베이지안 방법을 소개한다. 제 3장에서는 3가지 통계적 방법 적용과 도출된 출산율 예측을 알아보고, 결과를 비교하여 시사점을 제시한다.
둘째, 우리나라 출산율에 3가지 통계적 방법의 결과를 통해 시사점을 도출하고자 한다. 그리고 최근 우리나라 TFR은 12년 만에 2005년 1.
4)조건보다 나머지 두 결과가 합리적으로 판단된다. 본 연구는 △_c4의 하한(0.9), 상한(1.3)과 mu = 1.5,mintfr = 0.9 가정 결과를 채택해 타 모형과 비교한다. 이 조건의 결과는 2020년 1.
끝으로 베이지안 모형적합과 예측결과이다. 분석 전 WPP 2017의 우리나라 TFR 추이를 살펴보았으며(Table 3.1), 우리나라 TFR 추세와 유사한 패턴으로 보여진다.
우선 FDM의 주성분 결정은 mean absolute error (MAE,∑|fx − ˆfx|/n), mean absolute percentile error (MAPE, ∑|(fx − ˆfx)/ˆfxn| ∗ 100%)를 기준치로 선택하였다.
1 참조). 이들 추정값을 토대로 시계열 방법을 적용해 미래 모수값들의 추이를 알아보았다 (Figure 3.2 참조).
둘째, 우리나라처럼 변동이 큰 출산율의 경우에는 출산율 패턴이 미래에도 계속되어야 한다는 가정에 기초한 모수적 접근 방식에 개선이 필요하다. 출산연령의 상승과 ASFR 중심축이 비대칭에서 대칭으로 전환되고 있으므로 GLG 모형이 아닌 서로 다른 분포가 합쳐진 출산율 모형을 제안해 볼 수 있다.

대상 데이터

분석을 위해 통계청 공식통계인 1970–2017년의 ASFR 자료(1970–2017년 통계청 ‘KOSIS인구,가구-인구동향조사-인구동태건수 및 동태율 추이’에서 제공)와 BayesTFR에서 제공하는 WPP2017(WPP2017에 사용된 자료는 UNSD(유엔 통계부)가 매년 여러 국가 통계청에서 제공하는 인구동태 통계를 통합한 것으로, 이 자료를 토대로 UNPD는 세계인구를 추정)를 활용하였으며, 2045년 이후 동일한 수준을 보이는 통계청의 TFR과 비교하기 위해 2045년까지 예측하기로 한다.
특히, 1980년대 이후 선진국 출산율은 예전과 다른 상수적인 패턴특성을 보이고 사망률과 국제이동률과는 다르게 쉽게 변화하지 않는 변수 형태가 아닌 일정한 수준을 유지하는 상수적인 패턴, 한번 상승이나 감소기조로 흘러가면 다시 되돌리기 쉽지 않은 비가역성(irreversibility)을 나타낸다. 여기서 선진국은 일본, 프랑스, 독일이다. 특히 프랑스와 독일은 출산장려정책을 성공리에 마쳐 출산 제고를 이룬 나라들로, 프랑스는 1993년, 독일은 1994년, 일본과 한국은 2005년이 출산율 최저점이다.

이론/모형

본 연구는 통계 R 프로그램을 활용하여 모수적 모형인 GLG모형을 구현하고, 4개 모수 미래 시계열 예측에 ARIMA모형을 적용하였다. 그리고 비모수와 베이지안 분석을 위해 오픈 소스로 제공하는 R 프로그램 Demography 패키기 (Hyndman 등, 2013)와 bayesTFR 패키지 (Sevcikova 등, 2018)를 활용하였다. 분석을 위해 통계청 공식통계인 1970–2017년의 ASFR 자료(1970–2017년 통계청 ‘KOSIS인구,가구-인구동향조사-인구동태건수 및 동태율 추이’에서 제공)와 BayesTFR에서 제공하는 WPP2017(WPP2017에 사용된 자료는 UNSD(유엔 통계부)가 매년 여러 국가 통계청에서 제공하는 인구동태 통계를 통합한 것으로, 이 자료를 토대로 UNPD는 세계인구를 추정)를 활용하였으며, 2045년 이후 동일한 수준을 보이는 통계청의 TFR과 비교하기 위해 2045년까지 예측하기로 한다.
또한 식 (2.4)의 βˆn+h|n,j을 추정하기 위해 지수형 평활 상태공간 모형(exponential smoothingstate space model; ets), ARIMA, 확률보행(random walk; RW), 절편이 있는 확률보형(RW drift) 등과 같은 시나리오를 고려하였다.
FDM은 첫 번째 주성분에 직교하는 고차원 주성분에 대해서는 다른 시계열 모형들의 주성분 점수가 도출된다. 모든 성분에 FDM 방법은 최적 시계열 모형을 Akaike information criterion (AIC) 등과 같은 모형 판별 기준에 의거하여 선택한다. 이 모형에 대한 자세한 설명은 Hyndman과 Ullah (2007),Hyndman과 Booth (2008), Hyndman 등 (2013), Kim과 Oh (2017), Kim 등 (2018)을 참조하면 된다.
Park 등 (2013)은 출산율예측으로 결정론적(deterministic)과 확률론적(probabilistic) 방법을 소개하고 각각의 장단점을 제시했다. 모수화 모형(parameterized model)으로 감마 (Hoem 등, 1981), Hadwiger (Hadwiger, 1940), 베타 (Hoem 등, 1981), 혼합 Hadwiger (Chandola 등, 1999), PK 1, 2 (Peristera과 Kostaki, 2007) 함수 등에 적용하여 모수를 추정한다. 다음 단계로 이 추정된 모수를 시계열 모형에 적합하여 미래의 출산율을 예측하는데 이러한 접근의 유용성은 과거 출산율 패턴이 미래에도 계속되어야 한다는 가정에 기초하고 있다.
본 연구는 통계 R 프로그램을 활용하여 모수적 모형인 GLG모형을 구현하고, 4개 모수 미래 시계열 예측에 ARIMA모형을 적용하였다. 그리고 비모수와 베이지안 분석을 위해 오픈 소스로 제공하는 R 프로그램 Demography 패키기 (Hyndman 등, 2013)와 bayesTFR 패키지 (Sevcikova 등, 2018)를 활용하였다.
둘째, 모형 적합도와 정밀성(precision)이다. 비교를 위해 MAE를 활용한다. GLG모형, FDM모형, 베이지안 모형의 MAE 수치는 2.
일반적으로 출산율은 연도에 따른 이산형 자료이지만, 시간적 추이에 따른 출산율의 점진적 변화는 임의의 곡선으로 묘사 가능하므로 일종의 함수(function)라고 할 수 있으며 이러한 데이터를 분석하는 통계적 분야는 함수적 데이터 분석(functional data analysis; FDA)이다. 이런 이산형 자료를 가지고 모함수 형태를 근사시키기 위한 방법으로 보간법, 평활법, 기저의 선형결합이 있는데 본 연구는 평활법과 기저 함수의 선형결합을 활용하고, FDA에서 자료의 변동성을 알아보기 위해 FPCA를 사용하였다. 보다 자세한 설명은 Ramsay와 Silverman (2005)나 Kang과 Ahn (2006)을 참고하기 바란다.
통계청은 ASFR 적합, 예측을 위해 일반화 로그감마(generalized log gamma; GLG) 모형을 활용한다(KOSIS, 2011, 2016). 식 (2.

성능/효과

21명으로 산출되었다. 1.21명은 통계청의 장래인구추계 2045년 TFR의 중위수준보다 저위수준에 가깝고, 2045년까지의 TFR과는 상당한 차이를 보인다. 그 이유는 2017년까지의 최신 ASFR 자료 반영 유무와 4개모수 예측 시계열 모형의 차이 때문이다.
GLG모형을 활용하여 TFR을 살펴본 모수적 접근은 2045년 1.21명 수준까지, 비모수적 접근은 동일연도 1.19명으로 GLG 결과보다는 약간 낮게 예측되었으나 베이지안 방법은 2020년 1.18명 수준에서2045년 1.22명 수준으로 도출되어 모수와 비모수 결과보다 높은 수준을 보인다.
2는 다양한 가설을 적용한 우리나라 TFR 시나리오 예측 결과이다. GLG와 FDM 예측결과와2000년 이후의 출산율 추이를 참고할 때 4결과 중 기본 설정(default)과 △_c4의 하한(1.0), 상한(1.4)조건보다 나머지 두 결과가 합리적으로 판단된다. 본 연구는 △_c4의 하한(0.
05명 수준이 판단기준일 때 모수, 비모수적 모형으로 도출된 TFR 예측값이 합리적이다. 그리고 모수추정이나 계산 효율성과 적합도 관점에서는 모수적 방법이 타 방법보다 우수한 것으로 드러났다. 단, 출산율 자료 완비성이 높고 품질이 우수한 경우에만 성립한다.
넷째, 출산율 예측은 최근 시계열에 민감하다. 특히 변동이 큰 경우 예측값 도출시 최근 데이터에 의존하는 경향이 강하다.
3명을 넘어선 적이 없다. 둘째, 최근 우리나라 TFR은 1.1명 이하로 떨어졌고 가임연령인구와 출생아수 감소를 감안했을 때 향후 인구대체율2.1명 수준으로의 회귀는 비현실적이다.
셋째, 일부지역에 특별한 사건이나 정책 등으로 출산율이 갑자기 높거나 낮아질 경우, 그 이후 추이는 앞 시기와 동일하지 않을 가능성이 높다. 이러한 경우에 평활방법을 적용한 비모수 방법을 적용해 이상패턴의 영향을 최소화하여 합리적인 결과를 도출하는 연구가 필요하다.
예측치 비교에서는 대체적으로 통계청 TFR이 가장 높고, 베이지안, 모수, 비모수 순으로 나타났다.2017년 TFR 1.
종합해보면 가임여성과 출생아 수의 감소추세와 ASFR의 변곡점이 30대 초, 중반으로 이동되는 양상으로 인해 향후 TFR의 증가는 낙관적이지 못하다. 특히, 1980년대 이후 선진국 출산율은 예전과 다른 상수적인 패턴특성을 보이고 사망률과 국제이동률과는 다르게 쉽게 변화하지 않는 변수 형태가 아닌 일정한 수준을 유지하는 상수적인 패턴, 한번 상승이나 감소기조로 흘러가면 다시 되돌리기 쉽지 않은 비가역성(irreversibility)을 나타낸다.

후속연구

둘째, 우리나라처럼 변동이 큰 출산율의 경우에는 출산율 패턴이 미래에도 계속되어야 한다는 가정에 기초한 모수적 접근 방식에 개선이 필요하다. 출산연령의 상승과 ASFR 중심축이 비대칭에서 대칭으로 전환되고 있으므로 GLG 모형이 아닌 서로 다른 분포가 합쳐진 출산율 모형을 제안해 볼 수 있다.
따라서 TFR 예측에 있어 자료 완비성이 높고 예측에 대한 계산 효율성을 고려한다면 모수적 방법, 이를 충족하지 못한 경우라면 비모수와 베이지안 방법을 적용하는 것을 제안한다.
Raftery 등 (2014)의 논문에서도 사전분포는 밝히고 있으나 각 모수들의 사후분포는 제시하지 않고 있다. 이들에 대한 상세한 생성과정과 방법은 향후 연구로 남겨야 할 부분으로 판단된다.
본 연구를 통해 한계점과 몇 가지 향후 연구방향을 도출할 수 있다. 한계점으로는 첫째, GLG모형의C₁과 C₂ 출산순위 예측이다. 본 연구는 출산율 미래 추이의 복원성 가정으로 정상시계열을 간주하여 분석하였다.

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증