본 논문에서는 현재 우리 사회에서 큰 이슈가 되고 있는 사교육비에 영향을 미치는 요인을 분석하였다. 사교육비가 논란이 되는 이유 가운데 하나는 각 가정에서 소비되는 전체 교육비 가운데 사교육비가 차지하는 비중이 높으면 경제적으로 교육에 대한 기회균등이 이루어지지 않는 문제를 유발할 수 있기 때문이다. 또한, 과도한 사교육으로 인해 기본적인 학교 교육보다 더 많은 시간과 비용을 할애한다면, 계층 간, 지역 간의 양극화와 더불어 학교의 기능이 저하되는 요인으로 작용할 수 있기 때문이다. 우리는 다양한 회귀분석 방법론과 분류분석 방법론을 이용하여 사교육비에 영향을 미치는 중요변수가 무엇인지를 파악하고 또 각각의 변수들이 어떻게 사교육비에 영향을 미치는 지를 분석하였다. 그 결과 대도시가 중소도시 보다 사교육비 지출이 높았고, 일반 고등학교, 중학교, 전문 고등학교, 초등학교 순으로 사교육비 지출이 높았다. 그리고 가구소득이 높을수록 사교육비 지출도 높았다.
본 논문에서는 현재 우리 사회에서 큰 이슈가 되고 있는 사교육비에 영향을 미치는 요인을 분석하였다. 사교육비가 논란이 되는 이유 가운데 하나는 각 가정에서 소비되는 전체 교육비 가운데 사교육비가 차지하는 비중이 높으면 경제적으로 교육에 대한 기회균등이 이루어지지 않는 문제를 유발할 수 있기 때문이다. 또한, 과도한 사교육으로 인해 기본적인 학교 교육보다 더 많은 시간과 비용을 할애한다면, 계층 간, 지역 간의 양극화와 더불어 학교의 기능이 저하되는 요인으로 작용할 수 있기 때문이다. 우리는 다양한 회귀분석 방법론과 분류분석 방법론을 이용하여 사교육비에 영향을 미치는 중요변수가 무엇인지를 파악하고 또 각각의 변수들이 어떻게 사교육비에 영향을 미치는 지를 분석하였다. 그 결과 대도시가 중소도시 보다 사교육비 지출이 높았고, 일반 고등학교, 중학교, 전문 고등학교, 초등학교 순으로 사교육비 지출이 높았다. 그리고 가구소득이 높을수록 사교육비 지출도 높았다.
This paper studies what affects the private education cost for the elementary, middle, and high school students. It is a big issue now because there can be a problem in the equal opportunity for education if the portion of private education cost is very high in the total education cost. If we spend ...
This paper studies what affects the private education cost for the elementary, middle, and high school students. It is a big issue now because there can be a problem in the equal opportunity for education if the portion of private education cost is very high in the total education cost. If we spend more time and money on the private education than the school education, it can cause the polarization among the classes and regions. The excessive private education also can deteriorate the school system. we use various regression and classification methods to analyze the cost of private education and find the important variables in the models. we found that large cities spend more money on the private education than small cities. We also found that high school students spend more than middle school students and the elementary students and the household with more income spend more money on the private education.
This paper studies what affects the private education cost for the elementary, middle, and high school students. It is a big issue now because there can be a problem in the equal opportunity for education if the portion of private education cost is very high in the total education cost. If we spend more time and money on the private education than the school education, it can cause the polarization among the classes and regions. The excessive private education also can deteriorate the school system. we use various regression and classification methods to analyze the cost of private education and find the important variables in the models. we found that large cities spend more money on the private education than small cities. We also found that high school students spend more than middle school students and the elementary students and the household with more income spend more money on the private education.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
종속변수인 사교육비 응답에 0원의 응답이 전체 응답의 30%를 차지하고 있기 때문에 정확한 분석에 어려움이 있었다. 따라서 우리는 분류분석을 통하여 사교육비 0원과 0원 초과의 자료를 분류하는데 영향을 미치는 변수를 알아보고자 하였다. 즉 사교육을 시행하는 학생과 시행하지 않는 학생을 분류할 수 있는 변수가 무엇인지 알아보고자 하였다.
먼저 지역에 따른 월 평균 총 사교육비의 특징을 살펴보자. 다른 모든 조건들이 동등하고 지역만 다를때, 월 평균 총 사교육비는 서울을 기준으로 광역시는 1,200원 낮으며, 중소도시도 1,400원 낮고, 마지막으로 읍면 지역은 2,200원 낮다(e# − e# = 0.
본 논문에서는 2012년 초, 중, 고등학교 학생의 사교육비에 영향을 미치는 중요 변수와 이 변수들이 어떻게 사교육비에 영향을 미치는 지를 알아보았다. 우선 사교육비 응답에 있어서 0원에 대한 비율을 대표적인 변수 별로 알아보았다.
따라서 우리는 분류분석을 통하여 사교육비 0원과 0원 초과의 자료를 분류하는데 영향을 미치는 변수를 알아보고자 하였다. 즉 사교육을 시행하는 학생과 시행하지 않는 학생을 분류할 수 있는 변수가 무엇인지 알아보고자 하였다. 이때 사용한 도구로 변수의 중요도를 계산하였다.
가설 설정
총 86,182의 응답 가운데 결측값은 7,652개로 10% 미만으로 적고, 정확한 분석을 위하여 삭제하기로 한다. B. 단위의 표준화 시간에 관련한 변수는 주 단위이고, 금액에 관련한 변수는 연 단위이다. 따라서 시간에 관련한 변수에는 4배를 하여 월 단위로 바꾸었고, 연 단위의 변수는 12로 나누어 월단위로 바꾸어 분석하였다.
제안 방법
2012년 사교육비는 1년에 2번 조사되었다. 3, 4, 5월분의 사교육비를 6월 1일부터 20일 까지 1 차로 조사하였으며, 2 차 조사는 7, 8, 9월분의 사교육비를 9월 26일부터 10월 17일 까지 조사하였다.
모형 최적화 먼저 자료에 대한 분석 전에 3개의 모형에 대한 자료에 맞는 모수와 모형을 찾기 위하여 자료를 training data (70%) 와 test data(30%) 로 나누어서 test data에서 mean squared error (MSE)가 가장 작아지는 tuning parameter들을 선택하였다. Linear regression 모형 분석은 R에서 제공하는 step 함수를 사용하여 AIC값을 최소화하는 최적의 모형을 찾고, random forests 모형은 R package random forests 함수에서 제공하는 기본 옵션값을 사용하여 분석 하였다. Gradient boosting 모형의 경우에는 여러 가지 tuning parameter들이 있으나 우리는 shrinkage parameter만을 고려하였다.
Linear regression, random forests, gradient boosting 3가지 방법으로 월 평균 총 사교육비를 설명하는데 중요변수에 대해서 비교해 보도록 한다. Table 4.
이때 일반 및 예체능교과 사교육시간은 분류분석에서 중요변수인 것은 너무나도 당연한 결과이고, 학교 급 구분 변수는 전문 고등학교의 경우 사교육을 하지 않는 응답이 많고, 학생 성적이 낮을수록, 가구 소득이 낮을수록 사교육비 0원의 비율이 높아서 선택된 결과라고 판단한다. 그다음 분석으로 사교육비 0원이 아닌 자료, 즉 사교육을 시행하고 있는 학생을 대상으로세 가지의 다른 회귀 분석의 방법을 적용하여 사교육비에 영향을 미치는 중요변수에 대해 알아보았다. 총 사교육비를 설명하는데 중요 요인은 일반교과 사교육시간, 학교 급 구분, 지역 구분, 예체능교과 사교육시간, 가구 소득 순 이였다.
이 절에서는 stepwise regression을 이용한 linear regression model, random forests, 그리고 gradient boosting 방법론을 이용하여 자료를 분석하였다. 그리고 모든 경우에 사교육비는 log 변환을 한 후에 분석을 시행하였다.
또한 아버지의 연령이 높을수록 높았고, 아버지의 교육 수준이 낮을수록 사교육비 0 원에 대한 비율이 높았다. 그리고 사교육비에 영향을 미치는 요인을 밝히고자 실시한 분석 중 첫 번째로 분류 분석을 실시하였다. 그 결과 일반 및 예체능교과 사교육시간, 학교 급 구분, 가구 소득, 학생 성적 등이 중요변수로 선택되었다.
단위의 표준화 시간에 관련한 변수는 주 단위이고, 금액에 관련한 변수는 연 단위이다. 따라서 시간에 관련한 변수에는 4배를 하여 월 단위로 바꾸었고, 연 단위의 변수는 12로 나누어 월단위로 바꾸어 분석하였다. C.
세 가지 방법의 공통점은 월 평균 총 사교육비에 영향을 미치는 가장 중요한 변수가 일반교과 사교육시간이라는 점이다. 또한 변수의 중요도의 차이는 있지만, 중요한 5가지의 변수를 선택하는데 있어서는 일반교과 사교육시간, 예체능교과 사교육시간, 학교 급 구분, 가구 소득의 4개를 공통적으로 선택하였다. 차이점은 linear regression model, gradient boosting 방법에 대해서는 지역 구분이 중요변수로 선택되었지만.
분류분석은 세 가지의 방법으로 실시하였는데 logistic regression과 random forests, gradient boosting 방법이다. 또한, 일반교과 및 예체능교과 사교육시간이 중요변수인 것은 너무나도 당연하며, 중요변수를 구하는데 있어서도 너무 영향력이 큰 변수이므로 다른 변수들에 대해서 더 알아보고자 사교육시간이 없는 경우의 중요 변수에 대해서도 추가로 분석하였다. 그 결과는 Table 4.
2. 모형 성능 비교 앞에서 구한 모형을 이용하여 3가지 회귀분석 방법론의 성능을 비교하였다. 우리는 training data 와 test data를 7:3 으로 랜덤하게 나누어 training data에서 모형을 적합하고 test data에서 MSE 를 계산하는 과정을 100번 시행하였고 그 결과는 Table 4.
1. 모형 최적화 먼저 자료에 대한 분석 전에 3개의 모형에 대한 자료에 맞는 모수와 모형을 찾기 위하여 자료를 training data (70%) 와 test data(30%) 로 나누어서 test data에서 mean squared error (MSE)가 가장 작아지는 tuning parameter들을 선택하였다. Linear regression 모형 분석은 R에서 제공하는 step 함수를 사용하여 AIC값을 최소화하는 최적의 모형을 찾고, random forests 모형은 R package random forests 함수에서 제공하는 기본 옵션값을 사용하여 분석 하였다.
변수형 정의 변수형은 총 2가지로 동일한 성질을 가진 부류나 범위로 이루어진 범주형과, 숫자 값으로 된 연속형이다. 변수들 가운데 범주형이지만 숫자가 증가함에 따라서 자명하게 사교육비가 증가하는 변수들은 연속형으로 간주 하였으며, 각 구분마다 특징이 있는 변수들은 범주형으로 변환 하여 dummy변수로 간주 하였다. 범주형으로 변환한 변수들은 지역 구분, 학교 급 구분, 학생 성별, 부모의 경제 활동, 방과 후 학교 참여 총 5개의 변수이며, 범주형인데 연속형으로 분석한 변수는 지역 구분, 학생 성적 구분, 아버지 연령, 아버지 교육정도, 어머니의 연령, 어머니의 교육정도, 가구 소득이다.
분석에 앞서 사교육 시행 여부에 따라서 사교육비 응답이 0원이면 “0”, 사교육비 응답이 0원 초과면 “1”로 변환한 새로운 종속변수를 만들어 분석을 실시하였다.
본 논문에서는 2012년 초, 중, 고등학교 학생의 사교육비에 영향을 미치는 중요 변수와 이 변수들이 어떻게 사교육비에 영향을 미치는 지를 알아보았다. 우선 사교육비 응답에 있어서 0원에 대한 비율을 대표적인 변수 별로 알아보았다. 사교육비 0원에 대한 응답을 지역에 따라서 보면, 읍면지역, 중소도시, 광역시, 서울 순서로 높았다.
조사는 크게 학생에 대한 기본 조사 문항과 방과 후 학교에 관한 문항, 일반교과 사교육에 대한 문항, 예체능 사교육에 대한 문항, 취업 사교육에 관련한 문항으로 이루어져있다. 세부 조사된 항목은 Table 3.
3가지 방법으로는 인터넷 설문 조사와 설문지 배포를 통한 방법 그리고 2012년에 처음 실시된 모바일을 통한 조사 방법이다. 혼합 조사로 인터넷 조사를 기본으로 종이 조사를 보충적으로 실시하고, 배포 조사로는 표본 학급의 담임교사가 학생에게 설문지를 전달하여 학부모가 작성한 뒤 회수 하는 방법을 이용하였다.
대상 데이터
본 연구에서 사용한 자료는 2012년 우리나라 초, 중, 고 학생들의 사교육비 조사 자료이다. 본 자료는 총 86,182 개의 관측치와 53개의 변수로 이루어져 있다.
본 연구에서 사용한 자료는 2012년 우리나라 초, 중, 고 학생들의 사교육비 조사 자료이다. 본 자료는 총 86,182 개의 관측치와 53개의 변수로 이루어져 있다. 총 86,182명의 초, 중, 고 학생 분포는 Table 3.
데이터처리
3가지 방법에 대한 비교하기 위해서 linear regression 방법으로 중요변수를 얻어 보았다. Table 4.
일반교과 사교육비의 경우에는 순위가 조금 다른 것을 제외하고는 거의 동일한 변수들이 중요변수로 선택되었고 예체능 사교육비의 경우도 거의 유사하나 학생 성별과 모의 교육정도가 중요변수로 선택된 차이가 있었다. 우리는 일반교과 와 예체능교과 사교육비의 linear regression model에서 회귀계수를 이용하여 두 그룹을 비교하였다. 그 결과, 초등학교를 기준으로 중학교가 되면 일반교과 사교육비는 양수 계수로 증가 하지만 예체능교과 사교육비에 대해서는 음수 계수로 감소한다.
이론/모형
선형회귀모형을 적합하기 전에 all pairwise plot을 이용하여 반응변수와 설명변수들 간에 정말 선형관계가 있는 지를 확인하는 절차는 꼭 필요하며 모형 적합이 끝난 후에는 잔차산점도를 확인하여 오차항에 대한 가정이 맞는 지를 점검하는 것도 필수적인 절차이다. 모수추정은 잔차제곱합을 최소화하는 최소제곱추정량(least squared estimator) 방법을 이용한다. 만약 설명변수의 수가 많은 경우에는 변수선택방법을 이용하여 모형에 유용한 변수를 선택하는데 일반적으로 stepwise regression 방법론을 많이 이용한다.
본 논문에서는 회귀분석과 분류분석 방법론을 이용하여 자료를 분석하였다. 회귀분석에서는 선형회귀모형(linear regression model)과 stepwise regression(Venables와 Ripley, 2003), random forests(Breiman, 2001), gradient boosting(Friedman, 1999; Ridgeway, 2012) 방법론을 사용하였고 분류분석에서는 logistic regression, random forests, gradient boosting 방법론을 사용하였다.
이 절에서는 stepwise regression을 이용한 linear regression model, random forests, 그리고 gradient boosting 방법론을 이용하여 자료를 분석하였다. 그리고 모든 경우에 사교육비는 log 변환을 한 후에 분석을 시행하였다.
본 논문에서는 회귀분석과 분류분석 방법론을 이용하여 자료를 분석하였다. 회귀분석에서는 선형회귀모형(linear regression model)과 stepwise regression(Venables와 Ripley, 2003), random forests(Breiman, 2001), gradient boosting(Friedman, 1999; Ridgeway, 2012) 방법론을 사용하였고 분류분석에서는 logistic regression, random forests, gradient boosting 방법론을 사용하였다. 이 절에는 이런 방법론을 간단히 설명한다.
성능/효과
B. 일반교과 사교육비 일반교과 사교육비는 총 사교육비와 마찬가지로 월 단위의 사교육비 이며, 만원 단위 이다. 여기에 포함되는 과목은 국어, 영어, 수학, 사회, 과학, 제2외국어, 한문, 컴퓨터, 논술에 해당한다.
따라서 시간에 관련한 변수에는 4배를 하여 월 단위로 바꾸었고, 연 단위의 변수는 12로 나누어 월단위로 바꾸어 분석하였다. C. 변수형 정의 변수형은 총 2가지로 동일한 성질을 가진 부류나 범위로 이루어진 범주형과, 숫자 값으로 된 연속형이다. 변수들 가운데 범주형이지만 숫자가 증가함에 따라서 자명하게 사교육비가 증가하는 변수들은 연속형으로 간주 하였으며, 각 구분마다 특징이 있는 변수들은 범주형으로 변환 하여 dummy변수로 간주 하였다.
C. 예체능교과 사교육비 예체능교과 사교육비 예체능교과 사교육비 역시 월 단위, 만원 단위의 금액이다. 여기에 포함되는 과목은 음악, 미술, 체육, 취미, 교양 이며 다른 종속변수들 보다는 0원의 비율이 상당히 크다.
범주형으로 변환한 변수들은 지역 구분, 학교 급 구분, 학생 성별, 부모의 경제 활동, 방과 후 학교 참여 총 5개의 변수이며, 범주형인데 연속형으로 분석한 변수는 지역 구분, 학생 성적 구분, 아버지 연령, 아버지 교육정도, 어머니의 연령, 어머니의 교육정도, 가구 소득이다. D. 이상값 처리 총 사교육비를 보면 응답 가운데 일반교과 사교육시간과 예체능교과 사교육시간은 0인데 반해 총 사교육비가 0이 아닌 응답이 있다. 총 317개로 이상값이라고 생각하여 제외 하였다.
그리고 사교육비에 영향을 미치는 요인을 밝히고자 실시한 분석 중 첫 번째로 분류 분석을 실시하였다. 그 결과 일반 및 예체능교과 사교육시간, 학교 급 구분, 가구 소득, 학생 성적 등이 중요변수로 선택되었다. 이때 일반 및 예체능교과 사교육시간은 분류분석에서 중요변수인 것은 너무나도 당연한 결과이고, 학교 급 구분 변수는 전문 고등학교의 경우 사교육을 하지 않는 응답이 많고, 학생 성적이 낮을수록, 가구 소득이 낮을수록 사교육비 0원의 비율이 높아서 선택된 결과라고 판단한다.
우리는 일반교과 와 예체능교과 사교육비의 linear regression model에서 회귀계수를 이용하여 두 그룹을 비교하였다. 그 결과, 초등학교를 기준으로 중학교가 되면 일반교과 사교육비는 양수 계수로 증가 하지만 예체능교과 사교육비에 대해서는 음수 계수로 감소한다. 따라서 초등학교까지는 예체능 사교육을 시키지만 중학교로 들어가면서 예체능 사교육을 줄이고 일반교과 사교육을 늘리는 현상을 알 수 있다.
따라서 초등학교까지는 예체능 사교육을 시키지만 중학교로 들어가면서 예체능 사교육을 줄이고 일반교과 사교육을 늘리는 현상을 알 수 있다. 그리고 학생에 관한 변수에서도 차이가 나는데, 학생의 성별에 따라서 일반교과 사교육의 경우 남학생이 더 높고, 예체능교과 사교육의 경우에는 여학생의 사교육비가 더 높았다. 또한, 성적에 따라서도 다른 결과를 얻을 수 있었다.
또한 학교 급에 따르면 전문계 고등학교가 가장 많았고, 그 다음으로 일반계 고등학교, 중학교, 초등학교 순서였으며, 성적에 따라서는 상위에서 하위로 갈수록 사교육비 0원에 대한 비율이 늘어났다. 또한 아버지의 연령이 높을수록 높았고, 아버지의 교육 수준이 낮을수록 사교육비 0 원에 대한 비율이 높았다. 그리고 사교육비에 영향을 미치는 요인을 밝히고자 실시한 분석 중 첫 번째로 분류 분석을 실시하였다.
공통으로 선택된 변수 가운데 학교 급 구분에 대하여 살펴보면, 전문 고등학교일 때 0원에 대한 비율이 높아서 분류하는데 중요변수로 선택 되었을 것으로 생각된다. 또한, 가구 소득이 낮을 때 0원에 비율이 높고, 일반교과의 경우 성적이 낮을수록 0 원의 비율이 높고, 예체능교과의 경우에는 작은 차이지만 성적이 상위권일 때 0원의 비율이 높으므로 중요 변수로 선택되었다고 판단된다.
따라서 초등학교보다 중학교에 진학하면서 일반교과에 대한 사교육은 증가하지만 예체능교과에 대해서는 감소함을 알 수 있다. 또한, 일반교과 사교육비를 설명하는데 있어서 예체능교과 사교육시간이 음수 계수이며, 예체능 교과 사교육비를 설명할 때는 일반교과 사교육시간의 계수가 음수이다. 따라서 한쪽 사교육비를 증가시키기 위해서는 다른 쪽 사교육비는 감소시켜야 한다는 것을 유추할 수 있다.
일반교과의 경우 성적이 높을수록 일반교과 사교육비가 높은데 반해 예체능교과는 성적이 낮을수록 예체능교과 사교육비가 증가한다. 마지막으로 일반교과 사교육비에서는 부모님의 경제활동이 최종 모형에 선택되었고, 계수도 유의한 반면, 예체능교과 사교육비를 설명하는데 있어서는 최종 모형에 선택되지 않았다.
변수들 가운데 범주형이지만 숫자가 증가함에 따라서 자명하게 사교육비가 증가하는 변수들은 연속형으로 간주 하였으며, 각 구분마다 특징이 있는 변수들은 범주형으로 변환 하여 dummy변수로 간주 하였다. 범주형으로 변환한 변수들은 지역 구분, 학교 급 구분, 학생 성별, 부모의 경제 활동, 방과 후 학교 참여 총 5개의 변수이며, 범주형인데 연속형으로 분석한 변수는 지역 구분, 학생 성적 구분, 아버지 연령, 아버지 교육정도, 어머니의 연령, 어머니의 교육정도, 가구 소득이다. D.
이때 사용한 도구로 변수의 중요도를 계산하였다. 변수 중요도 값은 퍼센트 값으로 logistic regression 경우에는 분산분석표를 구하여 각 변수에 해당하는 sum of square 값을 sum of square 값의 전체 합으로 나눠 얻은 값이며, random forests와 gradient boosting 분석 방법에서는 통계 프로그램 중 하나인 R 에서 제공하는 relative influence를 이용하여 얻은 결과 값으로 각 변수가 모형을 만드는데 차지하는 상대적인 설명력을 나타내었다. 분석에 앞서 사교육 시행 여부에 따라서 사교육비 응답이 0원이면 “0”, 사교육비 응답이 0원 초과면 “1”로 변환한 새로운 종속변수를 만들어 분석을 실시하였다.
부모님의 경제활동에 대해서 보면, 아버지 외벌이를 기준으로 어머니 외벌이일 경우에는 월 평균 총 사교육비는 700원 감소하며, 두 분 모두 맞벌이일 경우에는 500원 감소하고, 마지막으로 두 분 모두 경제활동에 참여 하지 않으시면 아버지 외벌이에 비해 약 900원 감소한다(e # − e # = e# = 0.095).
예체능교과 자료 분석의 결과로 얻은 중요변수는 예체능교과 사교육시간, 학교 급 구분, 가구 소득, 일반교과 사교육시간이다. 예체능교과 사교육시간과 가구 소득이 증가할수록 예체능교과 사교육비는 증가하고, 일반교과 사교육시간이 증가할수록 예체능교과 사교육비는 감소하였다. 또한, 학교 급 구분에 따른 비교는 일반 고등학교, 전문 고등학교, 초등학교, 중학교 순서이다.
이는 총 사교육비를 구성하는데 있어서 일반교과 사교육비가 많은 부분을 차지하고 있기 때문이다. 예체능교과 자료 분석의 결과로 얻은 중요변수는 예체능교과 사교육시간, 학교 급 구분, 가구 소득, 일반교과 사교육시간이다. 예체능교과 사교육시간과 가구 소득이 증가할수록 예체능교과 사교육비는 증가하고, 일반교과 사교육시간이 증가할수록 예체능교과 사교육비는 감소하였다.
2과 같다. 이때 logistic regression의 경우 적합과정에서 경고가 발생하였고, 최종 모형의 유의성은 아주 낮지만 그럼에도 불구하고 예측력은 좋았다. 총 사교육비, 일반교과 및 예체능교과 사교육시간이 포함된 분석에서는 일반교과 사교육시간과 예체능교과 사교육시간, 학교 급 구분 등이 중요변수로 다수 선택되었고, 사교육시간이 제외된 분석에서는 학교 급 구분, 가구 소득, 학생 성적 등이 다수 선택되었다.
Decision tree는 사실 아주 비선형 모델이고 이런 tree를 사용하는 random forests와 gradient boosting 방법론도 비선형일 수밖에 없으므로 linear regression model과 차이가 날 수 밖에 없다고 생각한다. 이번 연구를 통하여 얻은 결론으로 볼 때, 우리나라 초, 중, 고 학생의 사교육은 일반교과 사교육시간, 예체능교과 사교육시간, 학교 급 구분, 지역구분, 가구 소득 등에 많은 영향을 받고 있다. 여기서 학교 급 구분 변수에 대해서는 ‘초등학교에는 예체능교과에 대한 사교육을 많이 시행한다.
또한, 성적에 따라서도 다른 결과를 얻을 수 있었다. 일반교과의 경우 성적이 상위권일수록 사교육비가 높았으며, 예체능교과의 경우 성적이 하위권일수록 사교육비가 높았다.
이때 logistic regression의 경우 적합과정에서 경고가 발생하였고, 최종 모형의 유의성은 아주 낮지만 그럼에도 불구하고 예측력은 좋았다. 총 사교육비, 일반교과 및 예체능교과 사교육시간이 포함된 분석에서는 일반교과 사교육시간과 예체능교과 사교육시간, 학교 급 구분 등이 중요변수로 다수 선택되었고, 사교육시간이 제외된 분석에서는 학교 급 구분, 가구 소득, 학생 성적 등이 다수 선택되었다. 공통으로 선택된 변수 가운데 학교 급 구분에 대하여 살펴보면, 전문 고등학교일 때 0원에 대한 비율이 높아서 분류하는데 중요변수로 선택 되었을 것으로 생각된다.
그다음 분석으로 사교육비 0원이 아닌 자료, 즉 사교육을 시행하고 있는 학생을 대상으로세 가지의 다른 회귀 분석의 방법을 적용하여 사교육비에 영향을 미치는 중요변수에 대해 알아보았다. 총 사교육비를 설명하는데 중요 요인은 일반교과 사교육시간, 학교 급 구분, 지역 구분, 예체능교과 사교육시간, 가구 소득 순 이였다. 총 사교육비는 일반교과 사교육비와 양상이 비슷하였다.
후속연구
3에서 볼 수 있듯이 random forests가 3가지 경우 모두에서 가장 좋은 성능을 보여주었고 gradient boosting도 거의 비슷한 성능을 보여주었다. linear regression model은 가장 떨어지는 성능을 보여주었지만 그 차이가 별로 크지 않고, 모형 설명력에 있어서는 가장 좋은 모형이므로 앞으로의 분석에도 계속 사용할 것이다. 앞으로 분석에는 모든 training과 test로 나누지 않은 모든 자료를 이용하여서 최종 결과를 내릴 것이며, linear regression은 모형에 대한 해석과 함께, random forests와 gradient boosting 방법과 같이 비교하여 각 변수들에 대한 모형에 영향을 끼치는 정도를 알아봄으로써 중요변수를 알아내는 해석을 중점으로 진행하겠다.
linear regression model은 가장 떨어지는 성능을 보여주었지만 그 차이가 별로 크지 않고, 모형 설명력에 있어서는 가장 좋은 모형이므로 앞으로의 분석에도 계속 사용할 것이다. 앞으로 분석에는 모든 training과 test로 나누지 않은 모든 자료를 이용하여서 최종 결과를 내릴 것이며, linear regression은 모형에 대한 해석과 함께, random forests와 gradient boosting 방법과 같이 비교하여 각 변수들에 대한 모형에 영향을 끼치는 정도를 알아봄으로써 중요변수를 알아내는 해석을 중점으로 진행하겠다.
질의응답
핵심어
질문
논문에서 추출한 답변
사교육비가 논란이 되는 이유는?
본 논문에서는 현재 우리 사회에서 큰 이슈가 되고 있는 사교육비에 영향을 미치는 요인을 분석하였다. 사교육비가 논란이 되는 이유 가운데 하나는 각 가정에서 소비되는 전체 교육비 가운데 사교육비가 차지하는 비중이 높으면 경제적으로 교육에 대한 기회균등이 이루어지지 않는 문제를 유발할 수 있기 때문이다. 또한, 과도한 사교육으로 인해 기본적인 학교 교육보다 더 많은 시간과 비용을 할애한다면, 계층 간, 지역 간의 양극화와 더불어 학교의 기능이 저하되는 요인으로 작용할 수 있기 때문이다. 우리는 다양한 회귀분석 방법론과 분류분석 방법론을 이용하여 사교육비에 영향을 미치는 중요변수가 무엇인지를 파악하고 또 각각의 변수들이 어떻게 사교육비에 영향을 미치는 지를 분석하였다.
사교육비 0원에 대한 응답을 지역에 따라서 보면?
우선 사교육비 응답에 있어서 0원에 대한 비율을 대표적인 변수 별로 알아보았다. 사교육비 0원에 대한 응답을 지역에 따라서 보면, 읍면지역, 중소도시, 광역시, 서울 순서로 높았다. 또한 학교 급에 따르면 전문계 고등학교가 가장 많았고, 그 다음으로 일반계 고등학교, 중학교, 초등학교 순서였으며, 성적에 따라서는 상위에서 하위로 갈수록 사교육비 0원에 대한 비율이 늘어났다.
통계청에서 주관하는 사교육비 조사의 방법은?
통계청에서 주관하는 사교육비 조사는 3가지 방법으로 실시하였다. 3가지 방법으로는 인터넷 설문 조사와 설문지 배포를 통한 방법 그리고 2012년에 처음 실시된 모바일을 통한 조사 방법이다. 혼합 조사로 인터넷 조사를 기본으로 종이 조사를 보충적으로 실시하고, 배포 조사로는 표본 학급의 담임교사가 학생에게 설문지를 전달하여 학부모가 작성한 뒤 회수 하는 방법을 이용하였다.
참고문헌 (9)
김진희 (2010). 2008년 한국 초중고 학생에 대한 사교육비 자료분석, 이화여대 석사논문.
박창이 외 (2011). R을 이용한 데이터 마이닝. 교우사.
김수현 (2010). 사교육비 결정요인 분석으로 본 사교육 실태, 새로운 사회를 여는 연구원.
윤영회, 장수안 (2013). 2012년 사교육비조사 결과, 통계청 사회통계국 복지통계과.
Breiman, L. (2001). Random forests. Machine Learning, 45, 5-32.
Friedman, J. H. (2002) Stochastic gradient boosting. Computational Statistics & Data Analysis, 38, 367-378, http://statweb.stanford.edu/ jhf/ftp/stobst.pdf
※ AI-Helper는 부적절한 답변을 할 수 있습니다.