머신러닝을 활용한 중학교 수학 기초학력 미달 비율 예측모형 탐색 Exploring the prediction model for middle school low-performing students ratio in mathematics using machine learning원문보기
학교 교육은 모든 학생들이 소외받지 않고 각자의 재능을 계발하여 스스로 성장 및 발달하도록 지원하는 것을 목적으로 한다(유미경, 2016). 교육부는 국가수준 학업성취도 평가를 교육 성취 기준을 감독하고 점검하는 여러 가지 모니터링 체제 중 하나로써 규정하며, 그 시행 목적을 국가가 교육의 책무성을 준수하고 교육의 질을 관리하는 데 있다고 밝히고 있다(김명숙 외, 2001). 국가수준 학업성취도 평가는 우수학력, 보통학력, 기초학력, 기초학력 미달의 4개 수준으로 구분한다(김성열, 권은경, 2018). 기초학력 미달은 초등학교부터 시작된 학습 결손이 중학교, 고등학교로 이어지며 누적되는 것으로 인식되고 있다(임현정, 2009). 기초학력 미달로 인해 학업에 뒤처진 학생은 학교에 부적응하게 되고, 우울, 불안, ...
학교 교육은 모든 학생들이 소외받지 않고 각자의 재능을 계발하여 스스로 성장 및 발달하도록 지원하는 것을 목적으로 한다(유미경, 2016). 교육부는 국가수준 학업성취도 평가를 교육 성취 기준을 감독하고 점검하는 여러 가지 모니터링 체제 중 하나로써 규정하며, 그 시행 목적을 국가가 교육의 책무성을 준수하고 교육의 질을 관리하는 데 있다고 밝히고 있다(김명숙 외, 2001). 국가수준 학업성취도 평가는 우수학력, 보통학력, 기초학력, 기초학력 미달의 4개 수준으로 구분한다(김성열, 권은경, 2018). 기초학력 미달은 초등학교부터 시작된 학습 결손이 중학교, 고등학교로 이어지며 누적되는 것으로 인식되고 있다(임현정, 2009). 기초학력 미달로 인해 학업에 뒤처진 학생은 학교에 부적응하게 되고, 우울, 불안, 학교폭력, 따돌림 등 여러 가지 문제점에 노출되기도 한다. 또한 이러한 문제점은 졸업 후에도 사회 부적응의 원인으로 이어져 사회에서 소외되고 삶의 낙오자로 낙인찍히는 결과를 초래할 수도 있게 된다(황진숙, 2011). 교육부는 학교급이 올라갈수록 교육에 흥미를 잃는 학생의 증가를 예방하기 위해 학습부진 학생 조기 진단‧보정 기능을 강화하는 정책을 꾸준히 추진하고 있다. 하지만 이와 같은 노력에도 불구하고 2019년 교육부가 발표한 국가수준 학업성취도 평가결과를 살펴보면 우리나라의 기초학력 미달 학생 비율은 지속 증가 추세에 있다. 특히 중학교 수학의 기초학력 미달 비율이 11.1%로 가장 높았다(교육부, 2019). 학교 교육의 목적 달성을 위해 학생 차원의 기초학력 미달 요인분석 중심의 연구 한계를 극복할 수 있는 새로운 방식의 연구가 필요하였다. 즉, 학생을 둘러싼 학교 환경을 종합적으로 고려하면서 선제적인 교육정책의 적용이 가능한 예측분석 중심의 연구가 모색되어야 하였다. 이에 본 연구는 기존 선행연구가 학생이나 학교 수준에서 기초학력 미달 요인을 탐색하고 영향도를 분석하는 데 그쳤던 한계점을 극복하기 위해, 기초학력 미달 비율 예측모형을 개발하고 이를 활용해 현안문제 해결을 위한 예방적 접근이 가능한 방안을 제시하고자 하였다. 연구를 위해 국가수준 학업성취도 평가에 관한 선행연구, 기초학력 미달에 관한 선행연구, 머신러닝분석 기법 선행연구에 대한 문헌고찰을 진행하였다. 국가수준 학업성취도 평가에 관한 선행연구는 주로 학업성취도 평가 자체가 학생들의 학습에 긍정적 또는 부정적인 영향을 끼치는지 여부를 분석하는 데 주로 초점을 맞춰왔다. 2010년대 초반부터는 학업성취도 평가결과에 대한 축적에 관심을 갖기 시작하였고, 막연하지만 축적된 데이터를 활용하여 학생들의 학습능력을 신장시키는 데 도움을 주는 방안을 탐색하였다. 우리나라도 이와 같은 흐름에 따라 최근 학업성취도 평가결과 데이터를 활용하여 학생의 학업성취도에 미치는 요인을 분석하고 있다. 하지만 국가 수준의 학업성취도 통계 데이터를 활용함에 있어, 분석기간이 1년 또는 3년으로 비교적 짧고, 분석대상도 표집평가 결과를 활용하는 등 종합적인 관점에서의 분석은 미흡한 상황이다. 기초학력 미달에 관한 선행연구는 주로 내용이론(content theory)를 기반으로 학생 차원의 기초학력 미달에 영향을 미치는 요인 분석이 주류를 이루고 있다. 이 범주의 논문들은 학생 요인, 교사 요인, 가정 요인이 기초학력 미달 개별 학생에 영향을 미치는 내용을 규명하고 더 나아가 이들 요인을 제거, 감소하거나 또는 강화시키는 연구를 수행하였다(유미경, 2016). 최근에는 학생 차원의 연구범주를 학교 차원, 교육청 차원으로 확대하고 있고, 학생 개인의 동기유발 요인을 분석하는 내용이론 뿐만 아니라 상황이론(contingency theory)에 기반하여 학교가 처한 상황조건에 적합한 조직구조와 관리방식을 취해야 기초학력 미달 비율 개선에 효과성이 증대된다는 연구들도 증가하고 있다(유미경, 2016). 즉, 상황이론에 기초한 연구들은 학교 차원 또는 교육청 차원의 교육활동 및 교육 환경이 기초학력에 영향을 준다는 입장을 취하고 있다. 학교 차원의 교육활동, 교과 내용 등 학교활동 요인이 직접적으로 기초학력에 영향을 주며, 학교여건 요인, 교육청 요인 등의 상황 요인이 간접적으로 기초학력에 영향을 미친다는 통합적 차원의 접근 방법이다(Symonds, 2004). 한편 머신러닝에 관한 선행연구를 통해 개념을 살펴보면, 머신러닝은 사전에 프로그램 되어있지 않은 컴퓨터가 데이터로부터 패턴을 학습하여 이후 새롭게 입력되는 데이터에 대해 적절한 작업을 수행하는 일련의 처리 과정을 의미한다. 이 과정에서 컴퓨터가 입력 값을 처리하는 방법을 예측모형이라고 부른다. 머신러닝의 주목적은 기존 데이터의 패턴을 학습하여 새로운 데이터에 적합한 처리 과정을 제공하는 것이고, 머신러닝은 학습 데이터에 종속변인이 있는 경우 지도학습 방식을 활용한다. 지도학습 방식은 분류와 예측 알고리즘을 활용하여 예측모형을 개발하게 된다. 머신러닝은 학습데이터를 기반으로 만들어진 예측모형을 활용해 새로운 데이터를 처리하거나 결과를 예측하는 데 매우 유용할 수 있다(오미애 외, 2017). 본 연구는 선행연구의 시사점을 반영하여 머신러닝을 활용한 중학교 수학을 대상으로 기초학력 미달 비율 예측모형을 개발하고자 하였다. 이를 위해 연구모형을 구성하였다. 연구모형은 기초학력 미달에 영향을 미치는 요인으로 크게 학생요인, 교사요인, 학교요인, 교육청요인을 구분하였고, 각 요인별 하위요인으로 11개를 구성하였다. 학생요인의 4개 하위요인은 학부모 지원, 방과후학교 참여정도, 남녀학생 비율, 독서향유 정도였고, 교사요인의 하위요인은 교수방법(교사 전문성)이었다. 학교요인의 5개 하위요인은 방과후학교 프로그램 제공, 학생 1인당 교육비, 학급당 학생수, 교사당 학생수, 주요 교과 시수로 구성하였고, 마지막 교육청요인의 하위요인은 방과후학교 지원비로 구성하였다. 예측모형 구현을 위해 11개 영향요인 측정을 위한 데이터를 수집하였다. 데이터 수집은 교육부와 한국교육학술정보원이 운영하는 에듀데이터 서비스 시스템을 이용하였다. 수집한 데이터는 분석을 위해 결측치 제거 등 전처리 과정을 진행하였다. 전처리 완료된 분석대상 데이터는 학습데이터(2009년~2016년)와 시험데이터(2017년)로 구분하였다. 예측모형 개발을 위해 학습데이터와 시험데이터의 종속변인을 범주화하였다. 범주화는 머신러닝 알고리즘이 학습데이터를 학습하여 예측모형을 개발할 수 있도록 종속변인인 기초학력 미달 비율의 평균값과 중위값을 기준으로 미달 비율이 높은 학교와 낮은 학교를 구분하는 것이다. 평균값(6.0799%)과 중위값(4.7619%)으로 범주화한 학습데이터는 정보획득 지수 분석을 실시하여 기초학력 미달 비율이 높은 학교와 낮은 학교 간의 차이에 영향을 미치는 주요 변인을 확인하고, 기초학력 부진 개선을 위한 시사점을 도출하였다. 이후 범주화 완료한 학습데이터는 Bayes Net 등 11개 머신러닝 알고리즘에 입력하여 예측모형을 만드는 데 활용하고 시험데이터는 예측모형의 예측유효성을 검증하는 데 활용하였다. 중학교 수학 기초학력 미달 비율이 높은 학교의 판단기준을 마련하기 위해서 학습데이터와 시험데이터를 대상으로 중학교 수학 기초학력 미달 비율 평균값과 중위값을 분석하였다. 전체 16개 속성에 대한 관측수, 평균값, 중위값, 표준편차, 첨도, 왜도를 분석하였다. 학습데이터를 분석한 결과 2009년부터 2016년까지 전수평가 기간 수학 기초학력 미달 비율은 평균값이 6.0799%이고 중위값은 4.7619%이었다. 왜도는 2.2725로 최빈값이 평균값과 중위값 보다 작은 값을 가지고 있고, 첨도는 9.7932로 기준값인 3보다 크므로 최빈값이 정규분포 보다 높이가 높은 형태였다(홍종선, 1996; Triola, 1992). 머신러닝을 활용해서 중학교 수학 기초학력 미달 비율이 높은 학교의 특징을 식별하기 위해서 앞선 기술통계 분석결과로 얻어진 학습데이터의 중학교 수학 기초학력 미달 비율 평균값과 중위값을 기준으로 학습데이터를 분류하고 정보획득 지수(IG) 분석을 실시하였다. 평균값(6.0799%)을 기준으로 범주화된 학습데이터를 분석하여 변인별 영향력을 분석하였다. 분석결과 기초학력 미달 비율이 높은 학교와 낮은 학교를 구분할 수 있는 주요 영향력 변인은 학생당 방과후학교 지원비, 학생당 기간제교사수, 남녀학생수 비율, 급식비 지원 학생수 비율 순이었고, 영향력이 높은 변인별로 평균값 차이 검증을 진행하여 시사점을 도출하고자 하였다. 이를 위해 주요 변인별 기초학력 미달 비율이 낮은 학교와 높은 학교의 학생 1인당 평균을 계산하고 t검정을 실시하였다. 분석결과 기초학력 미달 비율이 높은 학교는 낮은 학교 보다 학생당 방과후학교 지원비 비율이 낮았고(103,412원/학생 1인당), 학생당 기간제교사수가 적었다(0.0079명/학생 1인당). 또한 여학생수 비율이 낮았고(0.4328명/학생 1인당), 급식비 지원 학생수 비율이 높았다(0.541명/학생 1인). 다음으로 중위값(4.7619%)을 기준으로 범주화된 학습데이터를 분석하여 변인별 영향력을 분석하였다. 분석결과 기초학력 미달 비율이 높은 학교와 낮은 학교를 구분할 수 있는 주요 영향력 변인은 학생당 방과후학교 지원비, 학생당 학교예산, 남녀학생수 비율, 방과후학교 프로그램 참여학생수 비율 순이었고, 영향력이 높은 변인별로 구분하여 평균값 차이 검증을 진행하여 시사점을 도출하고자 하였다. 이를 위해 주요 변인별 기초학력 미달 비율이 낮은 학교와 높은 학교의 학생 1인당 평균을 계산하고 t검정을 실시하였다. 분석결과 기초학력 미달 비율이 높은 학교는 낮은 학교 보다 학생당 방과후학교 지원비가 적었고(96,998원/학생 1인당), 학생당 학교예산(1,719,806원/학생 1인당)도 적었다. 또한 여학생 비율이 낮았고(0.4433명/학생 1인당), 방과후학교 프로그램 참여학생수 비율도 낮았다(0.8329명/학생 1인당). 머신러닝을 활용해서 중학교 수학 기초학력 미달 비율이 높은 학교를 예측하기 위해서 앞선 기술통계 분석결과로 얻어진 학습데이터의 중학교 수학 기초학력 미달 비율 평균값과 중위값을 기준으로 예측모형을 개발하였다. 예측모형은 11개 주요 머신러닝 알고리즘별로 평균값과 중위값으로 범주화된 학습데이터를 입력하여 각 2개씩 총 22개를 개발하였다. 먼저 머신러닝 알고리즘이 평균값으로 범주화된 학습데이터를 학습하여 개발한 예측모형 11개의 분류정확도(Accuracy)를 측정한 결과는 IBk, KStar, Random Forest가 1.0으로 가장 높았고, 다음으로 J48(0.735), Part(0.703), Bayes Net(0.672), Multilayer Perceptron(0.633), Simple Logistics(0.625), SMO(0.61), ZeroR(0.61), Naive Bayesian(0.43) 순으로 분류정확도가 높았다. 예측유효성(ROCarea)을 측정한 결과는 Random Forest(0.74), Part(0.721), Multilayer Perceptron(0.707), Simple Logistics(0.682), J48(0.668), Bayes Net(0.663), Naive Baysian(0.585), KStar(0.568), IBk(0.553), SMO(0.5), ZeroR(0.5) 순으로 예측유효성이 높았다. 이어서 예측유효성이 가장 높았던 Random Forest 알고리즘 기반 예측모형 최적화를 진행하였다. Random Forest 알고리즘은 대표적인 앙상블 분류기법으로서 학습과정에서 생성한 다수의 트리형태의 분류기들을 경쟁시켜 가장 신뢰도 높고 안정적인 예측모형을 만들어내는 기법이다(Duda, 2002; Lepetit&Fua, 2006). Random Forest 최적화 방법 중 하나는 분류기 수를 결정하는 반복횟수를 조정하는 것이다. 실험결과, 반복횟수를 100회로 설정하고 속성데이터 중 급식비 지원 학생수 비율을 제외할 경우 예측유효성은 0.763으로 가장 높았다. 이어서 머신러닝 알고리즘이 중위값으로 범주화된 학습데이터를 학습하여 개발한 11개 예측모형의 분류정확도(Accuracy)를 측정한 결과는 IBk, KStar, Random Forest가 1.0으로 가장 높았고, 다음으로 J48(0.711), Part(0.659), Bayes Net(0.647), Multilayer Perceptron(0.613), Simple Logistics(0.591), SMO(0.583), Naive Bayesian(0.522), ZeroR(0.504) 순으로 분류정확도가 높았다. 예측유효성(ROC area)을 측정한 결과는 Random Forest(0.752), J48(0.661), Part(0.645), Multilayer Perceptron(0.64), Bayes Net(0.626), KStar(0.616), Simple Logistics(0.606), SMO(0.585), IBk(0.569), ZeroR(0.5), Naive Baysian(0.469) 순으로 예측유효성이 높았다. 이어서 예측유효성이 가장 높았던 Random Forest 알고리즘 기반 예측모형 최적화를 진행하였다. 실험결과, 반복횟수를 60회로 설정하고 속성데이터 중 학급당 학생수 비율을 제외할 경우 예측유효성은 0.774로 가장 높았다.
학교 교육은 모든 학생들이 소외받지 않고 각자의 재능을 계발하여 스스로 성장 및 발달하도록 지원하는 것을 목적으로 한다(유미경, 2016). 교육부는 국가수준 학업성취도 평가를 교육 성취 기준을 감독하고 점검하는 여러 가지 모니터링 체제 중 하나로써 규정하며, 그 시행 목적을 국가가 교육의 책무성을 준수하고 교육의 질을 관리하는 데 있다고 밝히고 있다(김명숙 외, 2001). 국가수준 학업성취도 평가는 우수학력, 보통학력, 기초학력, 기초학력 미달의 4개 수준으로 구분한다(김성열, 권은경, 2018). 기초학력 미달은 초등학교부터 시작된 학습 결손이 중학교, 고등학교로 이어지며 누적되는 것으로 인식되고 있다(임현정, 2009). 기초학력 미달로 인해 학업에 뒤처진 학생은 학교에 부적응하게 되고, 우울, 불안, 학교폭력, 따돌림 등 여러 가지 문제점에 노출되기도 한다. 또한 이러한 문제점은 졸업 후에도 사회 부적응의 원인으로 이어져 사회에서 소외되고 삶의 낙오자로 낙인찍히는 결과를 초래할 수도 있게 된다(황진숙, 2011). 교육부는 학교급이 올라갈수록 교육에 흥미를 잃는 학생의 증가를 예방하기 위해 학습부진 학생 조기 진단‧보정 기능을 강화하는 정책을 꾸준히 추진하고 있다. 하지만 이와 같은 노력에도 불구하고 2019년 교육부가 발표한 국가수준 학업성취도 평가결과를 살펴보면 우리나라의 기초학력 미달 학생 비율은 지속 증가 추세에 있다. 특히 중학교 수학의 기초학력 미달 비율이 11.1%로 가장 높았다(교육부, 2019). 학교 교육의 목적 달성을 위해 학생 차원의 기초학력 미달 요인분석 중심의 연구 한계를 극복할 수 있는 새로운 방식의 연구가 필요하였다. 즉, 학생을 둘러싼 학교 환경을 종합적으로 고려하면서 선제적인 교육정책의 적용이 가능한 예측분석 중심의 연구가 모색되어야 하였다. 이에 본 연구는 기존 선행연구가 학생이나 학교 수준에서 기초학력 미달 요인을 탐색하고 영향도를 분석하는 데 그쳤던 한계점을 극복하기 위해, 기초학력 미달 비율 예측모형을 개발하고 이를 활용해 현안문제 해결을 위한 예방적 접근이 가능한 방안을 제시하고자 하였다. 연구를 위해 국가수준 학업성취도 평가에 관한 선행연구, 기초학력 미달에 관한 선행연구, 머신러닝 분석 기법 선행연구에 대한 문헌고찰을 진행하였다. 국가수준 학업성취도 평가에 관한 선행연구는 주로 학업성취도 평가 자체가 학생들의 학습에 긍정적 또는 부정적인 영향을 끼치는지 여부를 분석하는 데 주로 초점을 맞춰왔다. 2010년대 초반부터는 학업성취도 평가결과에 대한 축적에 관심을 갖기 시작하였고, 막연하지만 축적된 데이터를 활용하여 학생들의 학습능력을 신장시키는 데 도움을 주는 방안을 탐색하였다. 우리나라도 이와 같은 흐름에 따라 최근 학업성취도 평가결과 데이터를 활용하여 학생의 학업성취도에 미치는 요인을 분석하고 있다. 하지만 국가 수준의 학업성취도 통계 데이터를 활용함에 있어, 분석기간이 1년 또는 3년으로 비교적 짧고, 분석대상도 표집평가 결과를 활용하는 등 종합적인 관점에서의 분석은 미흡한 상황이다. 기초학력 미달에 관한 선행연구는 주로 내용이론(content theory)를 기반으로 학생 차원의 기초학력 미달에 영향을 미치는 요인 분석이 주류를 이루고 있다. 이 범주의 논문들은 학생 요인, 교사 요인, 가정 요인이 기초학력 미달 개별 학생에 영향을 미치는 내용을 규명하고 더 나아가 이들 요인을 제거, 감소하거나 또는 강화시키는 연구를 수행하였다(유미경, 2016). 최근에는 학생 차원의 연구범주를 학교 차원, 교육청 차원으로 확대하고 있고, 학생 개인의 동기유발 요인을 분석하는 내용이론 뿐만 아니라 상황이론(contingency theory)에 기반하여 학교가 처한 상황조건에 적합한 조직구조와 관리방식을 취해야 기초학력 미달 비율 개선에 효과성이 증대된다는 연구들도 증가하고 있다(유미경, 2016). 즉, 상황이론에 기초한 연구들은 학교 차원 또는 교육청 차원의 교육활동 및 교육 환경이 기초학력에 영향을 준다는 입장을 취하고 있다. 학교 차원의 교육활동, 교과 내용 등 학교활동 요인이 직접적으로 기초학력에 영향을 주며, 학교여건 요인, 교육청 요인 등의 상황 요인이 간접적으로 기초학력에 영향을 미친다는 통합적 차원의 접근 방법이다(Symonds, 2004). 한편 머신러닝에 관한 선행연구를 통해 개념을 살펴보면, 머신러닝은 사전에 프로그램 되어있지 않은 컴퓨터가 데이터로부터 패턴을 학습하여 이후 새롭게 입력되는 데이터에 대해 적절한 작업을 수행하는 일련의 처리 과정을 의미한다. 이 과정에서 컴퓨터가 입력 값을 처리하는 방법을 예측모형이라고 부른다. 머신러닝의 주목적은 기존 데이터의 패턴을 학습하여 새로운 데이터에 적합한 처리 과정을 제공하는 것이고, 머신러닝은 학습 데이터에 종속변인이 있는 경우 지도학습 방식을 활용한다. 지도학습 방식은 분류와 예측 알고리즘을 활용하여 예측모형을 개발하게 된다. 머신러닝은 학습데이터를 기반으로 만들어진 예측모형을 활용해 새로운 데이터를 처리하거나 결과를 예측하는 데 매우 유용할 수 있다(오미애 외, 2017). 본 연구는 선행연구의 시사점을 반영하여 머신러닝을 활용한 중학교 수학을 대상으로 기초학력 미달 비율 예측모형을 개발하고자 하였다. 이를 위해 연구모형을 구성하였다. 연구모형은 기초학력 미달에 영향을 미치는 요인으로 크게 학생요인, 교사요인, 학교요인, 교육청요인을 구분하였고, 각 요인별 하위요인으로 11개를 구성하였다. 학생요인의 4개 하위요인은 학부모 지원, 방과후학교 참여정도, 남녀학생 비율, 독서향유 정도였고, 교사요인의 하위요인은 교수방법(교사 전문성)이었다. 학교요인의 5개 하위요인은 방과후학교 프로그램 제공, 학생 1인당 교육비, 학급당 학생수, 교사당 학생수, 주요 교과 시수로 구성하였고, 마지막 교육청요인의 하위요인은 방과후학교 지원비로 구성하였다. 예측모형 구현을 위해 11개 영향요인 측정을 위한 데이터를 수집하였다. 데이터 수집은 교육부와 한국교육학술정보원이 운영하는 에듀데이터 서비스 시스템을 이용하였다. 수집한 데이터는 분석을 위해 결측치 제거 등 전처리 과정을 진행하였다. 전처리 완료된 분석대상 데이터는 학습데이터(2009년~2016년)와 시험데이터(2017년)로 구분하였다. 예측모형 개발을 위해 학습데이터와 시험데이터의 종속변인을 범주화하였다. 범주화는 머신러닝 알고리즘이 학습데이터를 학습하여 예측모형을 개발할 수 있도록 종속변인인 기초학력 미달 비율의 평균값과 중위값을 기준으로 미달 비율이 높은 학교와 낮은 학교를 구분하는 것이다. 평균값(6.0799%)과 중위값(4.7619%)으로 범주화한 학습데이터는 정보획득 지수 분석을 실시하여 기초학력 미달 비율이 높은 학교와 낮은 학교 간의 차이에 영향을 미치는 주요 변인을 확인하고, 기초학력 부진 개선을 위한 시사점을 도출하였다. 이후 범주화 완료한 학습데이터는 Bayes Net 등 11개 머신러닝 알고리즘에 입력하여 예측모형을 만드는 데 활용하고 시험데이터는 예측모형의 예측유효성을 검증하는 데 활용하였다. 중학교 수학 기초학력 미달 비율이 높은 학교의 판단기준을 마련하기 위해서 학습데이터와 시험데이터를 대상으로 중학교 수학 기초학력 미달 비율 평균값과 중위값을 분석하였다. 전체 16개 속성에 대한 관측수, 평균값, 중위값, 표준편차, 첨도, 왜도를 분석하였다. 학습데이터를 분석한 결과 2009년부터 2016년까지 전수평가 기간 수학 기초학력 미달 비율은 평균값이 6.0799%이고 중위값은 4.7619%이었다. 왜도는 2.2725로 최빈값이 평균값과 중위값 보다 작은 값을 가지고 있고, 첨도는 9.7932로 기준값인 3보다 크므로 최빈값이 정규분포 보다 높이가 높은 형태였다(홍종선, 1996; Triola, 1992). 머신러닝을 활용해서 중학교 수학 기초학력 미달 비율이 높은 학교의 특징을 식별하기 위해서 앞선 기술통계 분석결과로 얻어진 학습데이터의 중학교 수학 기초학력 미달 비율 평균값과 중위값을 기준으로 학습데이터를 분류하고 정보획득 지수(IG) 분석을 실시하였다. 평균값(6.0799%)을 기준으로 범주화된 학습데이터를 분석하여 변인별 영향력을 분석하였다. 분석결과 기초학력 미달 비율이 높은 학교와 낮은 학교를 구분할 수 있는 주요 영향력 변인은 학생당 방과후학교 지원비, 학생당 기간제교사수, 남녀학생수 비율, 급식비 지원 학생수 비율 순이었고, 영향력이 높은 변인별로 평균값 차이 검증을 진행하여 시사점을 도출하고자 하였다. 이를 위해 주요 변인별 기초학력 미달 비율이 낮은 학교와 높은 학교의 학생 1인당 평균을 계산하고 t검정을 실시하였다. 분석결과 기초학력 미달 비율이 높은 학교는 낮은 학교 보다 학생당 방과후학교 지원비 비율이 낮았고(103,412원/학생 1인당), 학생당 기간제교사수가 적었다(0.0079명/학생 1인당). 또한 여학생수 비율이 낮았고(0.4328명/학생 1인당), 급식비 지원 학생수 비율이 높았다(0.541명/학생 1인). 다음으로 중위값(4.7619%)을 기준으로 범주화된 학습데이터를 분석하여 변인별 영향력을 분석하였다. 분석결과 기초학력 미달 비율이 높은 학교와 낮은 학교를 구분할 수 있는 주요 영향력 변인은 학생당 방과후학교 지원비, 학생당 학교예산, 남녀학생수 비율, 방과후학교 프로그램 참여학생수 비율 순이었고, 영향력이 높은 변인별로 구분하여 평균값 차이 검증을 진행하여 시사점을 도출하고자 하였다. 이를 위해 주요 변인별 기초학력 미달 비율이 낮은 학교와 높은 학교의 학생 1인당 평균을 계산하고 t검정을 실시하였다. 분석결과 기초학력 미달 비율이 높은 학교는 낮은 학교 보다 학생당 방과후학교 지원비가 적었고(96,998원/학생 1인당), 학생당 학교예산(1,719,806원/학생 1인당)도 적었다. 또한 여학생 비율이 낮았고(0.4433명/학생 1인당), 방과후학교 프로그램 참여학생수 비율도 낮았다(0.8329명/학생 1인당). 머신러닝을 활용해서 중학교 수학 기초학력 미달 비율이 높은 학교를 예측하기 위해서 앞선 기술통계 분석결과로 얻어진 학습데이터의 중학교 수학 기초학력 미달 비율 평균값과 중위값을 기준으로 예측모형을 개발하였다. 예측모형은 11개 주요 머신러닝 알고리즘별로 평균값과 중위값으로 범주화된 학습데이터를 입력하여 각 2개씩 총 22개를 개발하였다. 먼저 머신러닝 알고리즘이 평균값으로 범주화된 학습데이터를 학습하여 개발한 예측모형 11개의 분류정확도(Accuracy)를 측정한 결과는 IBk, KStar, Random Forest가 1.0으로 가장 높았고, 다음으로 J48(0.735), Part(0.703), Bayes Net(0.672), Multilayer Perceptron(0.633), Simple Logistics(0.625), SMO(0.61), ZeroR(0.61), Naive Bayesian(0.43) 순으로 분류정확도가 높았다. 예측유효성(ROC area)을 측정한 결과는 Random Forest(0.74), Part(0.721), Multilayer Perceptron(0.707), Simple Logistics(0.682), J48(0.668), Bayes Net(0.663), Naive Baysian(0.585), KStar(0.568), IBk(0.553), SMO(0.5), ZeroR(0.5) 순으로 예측유효성이 높았다. 이어서 예측유효성이 가장 높았던 Random Forest 알고리즘 기반 예측모형 최적화를 진행하였다. Random Forest 알고리즘은 대표적인 앙상블 분류기법으로서 학습과정에서 생성한 다수의 트리형태의 분류기들을 경쟁시켜 가장 신뢰도 높고 안정적인 예측모형을 만들어내는 기법이다(Duda, 2002; Lepetit&Fua, 2006). Random Forest 최적화 방법 중 하나는 분류기 수를 결정하는 반복횟수를 조정하는 것이다. 실험결과, 반복횟수를 100회로 설정하고 속성데이터 중 급식비 지원 학생수 비율을 제외할 경우 예측유효성은 0.763으로 가장 높았다. 이어서 머신러닝 알고리즘이 중위값으로 범주화된 학습데이터를 학습하여 개발한 11개 예측모형의 분류정확도(Accuracy)를 측정한 결과는 IBk, KStar, Random Forest가 1.0으로 가장 높았고, 다음으로 J48(0.711), Part(0.659), Bayes Net(0.647), Multilayer Perceptron(0.613), Simple Logistics(0.591), SMO(0.583), Naive Bayesian(0.522), ZeroR(0.504) 순으로 분류정확도가 높았다. 예측유효성(ROC area)을 측정한 결과는 Random Forest(0.752), J48(0.661), Part(0.645), Multilayer Perceptron(0.64), Bayes Net(0.626), KStar(0.616), Simple Logistics(0.606), SMO(0.585), IBk(0.569), ZeroR(0.5), Naive Baysian(0.469) 순으로 예측유효성이 높았다. 이어서 예측유효성이 가장 높았던 Random Forest 알고리즘 기반 예측모형 최적화를 진행하였다. 실험결과, 반복횟수를 60회로 설정하고 속성데이터 중 학급당 학생수 비율을 제외할 경우 예측유효성은 0.774로 가장 높았다.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.