[논문]교육종단연구 분석을 위한 빅데이터 플랫폼 개발 및 적용

박정; 조완섭

doi:10.36498/kbigdt.2020.5.1.11

문제 정의

또한 이 과정을 상세히 기술하여 교육학 연구자의 연구방법론에 대한 선택의 폭을 넓혀 데이터 분석 연구의 활성화에 도움이 되도록 한다. 나아가 교육정책입안자의 교육종단연구 분석의 활용성을 제고하고, 데이터 기반 교육정책 수립의 기반을 마련하도록 함에 본 연구의 특징이 있다.
이처럼 데이터 증가에 따른 데이터 전처리, 데이터 웨어하우스 구축 및 적절한 분석 기법의 부재와 같은 일련의 문제들은 교육종단연구에 대한 데이터 관점의 논의와 사례가 절대적으로 부족하다는 한계점을 보여주는 것이다. 따라서 이러한 한계를 극복하기 위해 본 논문은 교육종단연구 데이터에 적합한 데이터 플랫폼을 개발하고 이에 실제적인 적용을 통해 교육종단연구 데이터 분석을 효과적으로 수행할 수 있는 방법을 제안한다.
본 연구는 각 시도교육청이 수집하는 교육종단연구 데이터의 보다 실제적 활용을 위해 데이터 관리를 위한 플랫폼 구축방안과 적합한 전처리, OLAP 및 DM 기법을 활용한 분석기법을 제시한다. 또한 이 과정을 상세히 기술하여 교육학 연구자의 연구방법론에 대한 선택의 폭을 넓혀 데이터 분석 연구의 활성화에 도움이 되도록 한다. 나아가 교육정책입안자의 교육종단연구 분석의 활용성을 제고하고, 데이터 기반 교육정책 수립의 기반을 마련하도록 함에 본 연구의 특징이 있다.
본 논문에서는 교육종단연구 데이터를 분석하기 위한 데이터 플랫폼을 개발하였으며 이를 위한 데이터 전처리 및 분석 기법을 제안하였다. 또한 개발한 플랫폼을 SELS에 적용해 수학 학업성취도를 중심으로 그 타당성을 확인하였다.
본 연구는 각 시도교육청이 수집하는 교육종단연구 데이터의 보다 실제적 활용을 위해 데이터 관리를 위한 플랫폼 구축방안과 적합한 전처리, OLAP 및 DM 기법을 활용한 분석기법을 제시한다. 또한 이 과정을 상세히 기술하여 교육학 연구자의 연구방법론에 대한 선택의 폭을 넓혀 데이터 분석 연구의 활성화에 도움이 되도록 한다.
본 연구의 핵심 아이디어는 데이터 기반 교육정책 수립을 위해 필수적인 교육종단연구 분석 활성화를 위한 데이터 플랫폼을 개발하는데 있다. 교육종단연구 데이터 플랫폼 아키텍처는 Han, Kamber & Pei(2016)에서 제시한 3-계층 데이터 웨어하우징 아키텍처를 기반으로 하여 본 연구 목적에 적합하게 설계하였으며, <그림 1>과 같다.

제안 방법

2) OLAP 기반의 다차원 질의를 통한 데이터의 손쉬운 분석과 분석결과의 시각화를 통해 분석에 관하 이해도를 높였다. 3) 또한 DM을 통한 깊이 있는 분석을 통해 인사이트를 도출하여 데이터 기반 교육정책 수립에 기초자료를 제공하였다.
3단계로 Tableau를 활용하여 OLAP을 수행하였다. 측정값과 다른 차원 값의 관계를 살펴보기 위해, 차원 값이 명목형(Nominal Data) 데이터인 경우 해당 범주에 따라 측정값의 평균을 살펴보았다.
가장 먼저, 앞서 구축한 데이터 웨어하우스를 기반으로 다차원 데이터 모델을 설계하고 이를 통해 OLAP을 수행한다. 구체적으로 측정값 선정, 다차원 데이터 모델 설계, OLAP 분석 과정을 거친다.
특히 모형학습의 목적은 학생의 수학 학업성취도가 평균 초과인지 이하인지를 분류하는데 활용되는 변수를 파악하여 교육정책의 시사점을 도출하는데 있다. 각 학년별 특성을 파악하기 위해 의사결정나무, XGBoost 모형을 횡단연구에, 랜덤포레스트를 종단연구에 적용하였으며, 3장에서 설계한 방법에 따라 성능을 평가하였다.
교육종단연구 데이터 플랫폼 아키텍처는 Han, Kamber & Pei(2016)에서 제시한 3-계층 데이터 웨어하우징 아키텍처를 기반으로 하여 본 연구 목적에 적합하게 설계하였으며, 과 같다.
가장 먼저, 앞서 구축한 데이터 웨어하우스를 기반으로 다차원 데이터 모델을 설계하고 이를 통해 OLAP을 수행한다. 구체적으로 측정값 선정, 다차원 데이터 모델 설계, OLAP 분석 과정을 거친다. 측정값을 선정하고 <그림 4>와 같은 스타 스키마를 설계한 뒤, OLAP 툴을 활용하여 다차원 분석을 수행며, 이를 통해 여러 가지 측정값(Measure)과 다양한 차원간의 관계를 매우 빠른 속도로 분석할 수 있게 된다.
다음은 의사결정나무, XGBoost, 랜덤포레스트 모형을 학습시키고 모형을 평가하였다. 특히 모형학습의 목적은 학생의 수학 학업성취도가 평균 초과인지 이하인지를 분류하는데 활용되는 변수를 파악하여 교육정책의 시사점을 도출하는데 있다.
데이터 웨어하우징과정을 통해 앞서 생성된 데이터 테이블을 각 테이블별 키 값인 ‘학생 ID’, ‘학교 Code’, ‘지역 Code’를 기준으로 조인(Join) 연산을 통해 제1∼6차 년도 분석 데이터 테이블을 생성하였다.
데이터 유도 과정은 요인화 과정을 통해 생성된 학교 요인화 데이터 중 연구자의 판단에 따라 일부 데이터를 산술하여 제1∼6차년도 학교 비율 데이터를 생성하였다.
따라서 팩트 테이블에 수학 학업성취도를 측정값으로 구성하였고 디멘션 테이블은 학생⋅학부모⋅학교⋅지역 4개의 차원으로 설정하였다.
즉, 목표변수 평균에 미치지 못하는 학생을 사전에 예측하여 보정하는 것이 공교육의 책무성이다. 따라서 평균 이하의 학생을 판별해 내기 위해 분류(Classification) 모형을 사용하였으며 이를 위해 목표변수가 평균을 초과할 경우 1, 평균값 이하인 경우 0으로 값을 수정하였다.
본 논문에서는 교육종단연구 데이터를 분석하기 위한 데이터 플랫폼을 개발하였으며 이를 위한 데이터 전처리 및 분석 기법을 제안하였다. 또한 개발한 플랫폼을 SELS에 적용해 수학 학업성취도를 중심으로 그 타당성을 확인하였다. 그 결과 1) 초등학교 5학년 수학 학습부진 최소화 정책 추진, 2) 자기주도학습능력 향상을 위한 프로젝트 학습 및 학습하는 방법의 학습 지원, 3) 가계 소득 격차에 따른 적극적 보정 정책 및 지역과 협력 사업 추진과 같은 시사점이 도출되었다.
또한 선택한 모형에 적합하게 데이터를 수정하였다. 특히 의사결정나무의 경우 생성된 트리의 해석력을 높이기 위해 독립변수값을 평균 초과 1, 이하 0으로 데이터를 수정하였다.
먼저 의사결정나무를 적용하여 초등학교 5학년∼중학교 3학년 수학 학업성취도 모형을 학습하였으며 결과는 과 같다.
모형의 학습과 평가를 위해 훈련용 데이터와 테스트 데이터를 7:3의 비율로 분할하였다. 모형의 과적합을 확인하기 위한 성능평가 지표는 혼동행렬을 기반으로 정확도, 민감도, 특이도, 카파 계수를 활용하였고, 이후 결과를 해석하는 과정을 수행하였다.
마지막 모형 학습과 평가 및 해석단계는 연구 모형과 데이터, 최적의 인수 조합을 활용하여 모형을 학습하는 과정이다. 모형의 학습과 평가를 위해 훈련용 데이터와 테스트 데이터를 7:3의 비율로 분할하였다. 모형의 과적합을 확인하기 위한 성능평가 지표는 혼동행렬을 기반으로 정확도, 민감도, 특이도, 카파 계수를 활용하였고, 이후 결과를 해석하는 과정을 수행하였다.
본 단계는 앞서 구축한 데이터 웨어하우스를 기반으로 다차원 데이터 모델을 설계하고 이를 통해 OLAP을 수행하였다. 1단계에 따라 측정값을 ‘수학 학업성취도’로 선정하였다.
또한, 정책입안자들도 데이터 웨어하우스에 직접 접근하여 다차원 분석을 통해 온라인으로 분석할 수 있어 신속하게 과학적인 의사결정이 가능하게 된다. 본 연구에서는 개발된 플랫폼의 유용성을 입증하기 위해 SELS 데이터를 플랫폼 상에서 구축하고, 수학 학업성취도를 측정값으로 선정하여 OLAP 및 DM을 수행하였으며, 측정값에 영향을 주는 다양한 요인을 DM 기법을 사용하여 분석하였다. 이를 통해 데이터 기반 교육정책 시사점을 빠르고 효과적으로 도출할 수 있었다.
본 장에서는 데이터 플랫폼의 적용사례로 서울시교육종단연구 데이터를 저장, 다양한 분석을 수행할 수 있도록 하는 시스템 구축 결과를 소개한다.
세 번째로, 초5∼6, 초5∼중1, 초5∼중2, 초5∼중3까지 총 4개의 종단적 시계열 데이터에 랜덤 포레스트 모형을 학습하였다.
수학 학업성취도를 측정값으로 하여 OLAP을 실시하였다. 먼저 수학 학업성취도의 학년별 평균값을 확인하였고 결과는 <그림 6>과 같았다.
다섯째, 전처리 과정의 마지막인 데이터 웨어하우징은 지금까지 수행한 결과를 통합하여 교육종단연구 데이터 웨어하우스를 생성하는 단계이다. 앞선 과정의 결과를 조인(Join) 연산을 통해 동일 연차인 제n차 년도 분석 데이터로 변환한다. 나아가 제n차 년도 분석 데이터를 종단연구의 특성상 제1차 년도 학생 데이터의 고유키를 기준으로 다시 통합하여 종단연구 시계열 데이터로 변환하며 이 과정을 통해 데이터 웨어하우스가 생성된다.
요인화 과정은 서울교육연구정보원에서 데이터와 함께 제공된 코드북을 활용하여 해당 요인의 하위 문항의 총합을 산술하는 방식으로 코드북에 제시된 문항코드에 따라 요인화 과정을 수행하였다. 그 결과 제1∼6차 년도 학생⋅학부모⋅학교 요인화 데이터를 생성하였다.
우선 MICE R 패키지를 활용하여 마스킹 과정을 통해 제1∼6차 년도 학생⋅학부모⋅학교 마스킹 데이터를 생성하였다.
대부분의 교육종단연구는 학생의 인지적 성취, 비인지적 성취, 학교생활 등과 같은 영역의 요인을 측정하는 문항을 배치하고 있다. 이러한 문항을 요인으로 처리하기 위해 문항간 총합 연산을 수행하였다. 이를 통해 마스킹 데이터에서 하나의 열이 하나의 요인을 나타내는 제n차 년도 학생, 학부모, 학교 요인화 데이터가 도출된다.
지역 데이터 또한 정규화 과정을 거쳤다. 이진화 과정은 마찬가지로 요인화 결과 중 범주형 변수를 R의 dummies 패키지 를 활용하여 이항 가변수로 변환하였다. 그 결과 제1∼6차 년도 학생⋅학부모⋅학교⋅지역 정규화 데이터를 생성하였다.
이후 제1∼6차 년도 분석 데이터를 다시 한번 1차년도 ‘학생 ID’ 값을 고유키로 설정하여 조인 연산을 통해 교육종단연구 시계열 데이터 테이블을 생성하였으며, 각 데이터 테이블의 크기는 과 같다.
이후 초등학교 4학년∼중학교 3학년까지 RFE를 활용하여 변수를 선택하였다.
학생, 학부모, 학교, 환경 DB에 적재된 데이터는 데이터 전처리 과정을 거치게 된다. 전처리된 데이터를 바탕으로 데이터 웨어하우스를 구축하게 되고, OLAP 툴을 이용해 다차원 분석을 진행하며, 나아가 DM을 수행하게 된다.
3단계로 Tableau를 활용하여 OLAP을 수행하였다. 측정값과 다른 차원 값의 관계를 살펴보기 위해, 차원 값이 명목형(Nominal Data) 데이터인 경우 해당 범주에 따라 측정값의 평균을 살펴보았다. 이외의 데이터의 경우에는 평균값을 기준으로 높은 집단(초과)과 낮은 집단(이하)으로 나눈 뒤, 각 집단별 측정값 평균을 활용하였다.
1) 교육종단연구 데이터 전처리를 통한 데이터 웨어하우스 구축으로 정책입안자가 해당 시도의 데이터를 직접⋅즉시 분석이 가능함을 보였다. 특히 많은 시간과 노력이 필요한 데이터 전처리 결과를 데이터 플랫폼에 저장하고 이후 연구에서 재활용 함으로써 연구자들의 시간과 노력을 대폭 절감할 수 있는 방안을 제시하였다. 2) OLAP 기반의 다차원 질의를 통한 데이터의 손쉬운 분석과 분석결과의 시각화를 통해 분석에 관하 이해도를 높였다.
또한 선택한 모형에 적합하게 데이터를 수정하였다. 특히 의사결정나무의 경우 생성된 트리의 해석력을 높이기 위해 독립변수값을 평균 초과 1, 이하 0으로 데이터를 수정하였다. 인수 튜닝을 위해 XGBoost의 경우 그리드 서치를 활용하였다.
학교 차원 요인(초등학교: 교육복지사업 운영 여부)과 수학 학업성취도와 관계를 분석하였고 그 결과는 과 같았다.
학부모 차원 요인(월간 가계 소득, 여성 보호자 학력)과 수학 학업성취도와 관계를 분석하였으며 그 결과는 , 과 같았다.

대상 데이터

자가설문방식으로 수집되었기 때문에 결측치를 일정부분 포함하고 있다. 또한 SELS 데이터 이외에 학생의 교육 환경과 관련된 데이터는 서울특별시 공공데이터 포털 및 한국감정원 홈페이지에서 자치구 단위로 가장 최근에 공개된 공공 데이터를 활용하였다. 최종적으로 본 논문에 활용한 원시데이터 테이블은 <표 1>, <표 2>와 같다.
본 플랫폼을 SELS에 적용 할 때, 학생, 학부모, 학교 데이터 셋을 활용하였다. 자가설문방식으로 수집되었기 때문에 결측치를 일정부분 포함하고 있다.
위와 같은 데이터 분석 방법은 데이터의 특징에 따라 활용하는 순서와 방법이 달라지나, 교육종단연구 데이터를 활용하는 연구에서의 데이터 분석 기법의 절차는 <그림 3>과 같다. <그림 3>의 절차는 횡단 연구를 시행할 때 제n차 년도 분석데이터를 활용하며, 종단 연구를 수행할 때는 시계열 분석데이터를 활용하게 된다. 전체적인 과정은 (1) OLAP (2) 변수 선택(Feature Selection) (3) 연구 모형 선택과 데이터 수정(Data Modify) 및 인수 튜닝(Parameter Tuning) (4) 모형 학습과 평가 및 해석 단계로 구성된다.
이를 바탕으로 2019년 2월 교육부장관은 산하기관장과 교육부 실⋅국장이 참석한 가운데 ‘빅데이터 활용을 위한 회의’를 주재했다(문보경, 2019).

데이터처리

측정값과 다른 차원 값의 관계를 살펴보기 위해, 차원 값이 명목형(Nominal Data) 데이터인 경우 해당 범주에 따라 측정값의 평균을 살펴보았다. 이외의 데이터의 경우에는 평균값을 기준으로 높은 집단(초과)과 낮은 집단(이하)으로 나눈 뒤, 각 집단별 측정값 평균을 활용하였다.

이론/모형

DM 단계 중 첫 번째로 RFE 방법을 통해 변수를 선택하였다. R의 caret(Classification And REgression Training) 패키지 중 RFE함수를 활용하였으며 5겹 교차검증 방법을 통해 변수 선택의 타당함을 확인하였다.
RFE를 활용하여 수학 학업성취도 예측 모형을 학습하기 위해 변수를 선택하였다. 우선 RFE 적용에 앞서 변수 간 상관이 높은 변수는 사전에 제거해야 하기 때문에 Kuhn & Johnson(2018)에 따라 변수 간 상관계수가 0.
다음으로 본 논문에서 제안한 데이터 분석 기법에 따라 의사결정나무, XGBoost, 랜덤포레스트 모형을 선택하였다. 의사결정나무 모형은 현재까지 교육종단연구 데이터를 활용한 DM 연구에 있어서 가장 많이 활용된 모델이다.
인수 튜닝을 위해 XGBoost의 경우 그리드 서치를 활용하였다. 랜덤포레스트의 경우 Breiman(2001)에 따라 ntry 1000, mtry #(예측 변수 개수의 제곱근)을 활용하였다.
본 논문에서는 모델에 활용될 최적의 입력변수를 결정하기 위해 Guyon, Weston, Barnhill & Vapnik(2002)의 재귀적 변수 제거(Recursive Feature Elimination: RFE) 방법을 활용하였다.
우선 RFE 적용에 앞서 변수 간 상관이 높은 변수는 사전에 제거해야 하기 때문에 Kuhn & Johnson(2018)에 따라 변수 간 상관계수가 0.75 이상인 변수를 먼저 삭제하였다.
의사결정나무 모형은 현재까지 교육종단연구 데이터를 활용한 DM 연구에 있어서 가장 많이 활용된 모델이다. 의사결정나무 모형은 높은 설명력을 갖고 있으나 모형의 성능 및 표본 선택에 따른 모형의 불안정성이란 단점을 보완하기 위해 앙상블 기법 중의 하나인 XGBoost와 랜덤포레스트를 사용하였으며, R의 rpart, xgboost, randomForest 패키지를 활용하였다.
기 변환된 요인화 데이터 중 수치형 데이터의 경우 이전 단계인 문항별 합산을 통해 생성된 요인화 데이터로서 각 요인별로 값의 범위가 다르다. 이러한 척도의 문제는 데이터 분석에 영향을 주어 결과를 왜곡하게 되므로, 이를 해결하기 위해 최소-최대 정규화(Min-Max Normailization) 방식을 많이 사용하고 있으며 최솟값을 0, 최댓값을 1로 설정하는 방식이 DM에 널리 활용되고 있는바(이현호, 2016), 본 논문에서는 이 정규화 방법을 사용하였다. 이진화는 범주형 변수의 경우 이항 가변수를 만들어 범주의 각각의 정보에 대한 이항 값을 넣는 방법이다(Kuhn & Johnson, 2018).
데이터 수정 단계에서는 앞서 선택한 연구 모형이 가정하고 있는 데이터 타입으로 데이터를 수정하는 단계이다. 인수 튜닝에서는 인수들의 하위 집합을 모두 탐색하여 목표 값이 가장 좋은 조합을 선택하는 그리드 서치(Grid Search)를 활용하였다(김슬람, 2018).

성능/효과

1) 교육종단연구 데이터 전처리를 통한 데이터 웨어하우스 구축으로 정책입안자가 해당 시도의 데이터를 직접⋅즉시 분석이 가능함을 보였다.
특히 많은 시간과 노력이 필요한 데이터 전처리 결과를 데이터 플랫폼에 저장하고 이후 연구에서 재활용 함으로써 연구자들의 시간과 노력을 대폭 절감할 수 있는 방안을 제시하였다. 2) OLAP 기반의 다차원 질의를 통한 데이터의 손쉬운 분석과 분석결과의 시각화를 통해 분석에 관하 이해도를 높였다. 3) 또한 DM을 통한 깊이 있는 분석을 통해 인사이트를 도출하여 데이터 기반 교육정책 수립에 기초자료를 제공하였다.
또한 개발한 플랫폼을 SELS에 적용해 수학 학업성취도를 중심으로 그 타당성을 확인하였다. 그 결과 1) 초등학교 5학년 수학 학습부진 최소화 정책 추진, 2) 자기주도학습능력 향상을 위한 프로젝트 학습 및 학습하는 방법의 학습 지원, 3) 가계 소득 격차에 따른 적극적 보정 정책 및 지역과 협력 사업 추진과 같은 시사점이 도출되었다.
이를 해석하면 학생의 ‘수학 학업성취도’가 평균보다 높은지 낮은지를 XGBoost 모형으로 분류할 때, 중요하게 활용되는 변수가 1) 영어 학업성취도 2) 국어 학업성취도 3) 사교육비 순이라는 것을 의미한다. 또한 2)와 3) 사이의 격차가 학년이 올라갈수록 점차 벌어져 지는 것은 고학년이 될수록 교과간의 학업성취도가 고착화됨을 의미한다. 따라서 교육 현장에서는 저학년부터 교과별 학업성취도를 함께 높이기 위한 정책을 펼쳐야 함은 물론이며, 사교육비와 같은 가정의 사회⋅경제적 격차를 보정하는 적극적 정책이 필요하다.
DM 단계 중 첫 번째로 RFE 방법을 통해 변수를 선택하였다. R의 caret(Classification And REgression Training) 패키지 중 RFE함수를 활용하였으며 5겹 교차검증 방법을 통해 변수 선택의 타당함을 확인하였다.
각 학년별로 수학 학업성취도에 가장 큰 영향을 미치는 변수로는 ‘영어 학업성취도’와 ‘국어 학업성취도’였으며, 다음으로는 학년별로 다소 차이는 있지만 ‘자기주도학습능력-학습태도’와 ‘수업태도’ 요인이 나타났다.
교육복지사업 운영 여부와 수학 학업성취도 평균값은 초등학교 4학년에서 큰 차이가 없었으나, 초등학교 5∼6학년에서는 교육복지사업 미운영 학교의 수학 학업성취도가 다소 높은 것을 찾을 수 있었다.
데이터 유도 과정은 요인화 과정을 통해 생성된 학교 요인화 데이터 중 연구자의 판단에 따라 일부 데이터를 산술하여 제1∼6차년도 학교 비율 데이터를 생성하였다. 그 결과 남녀학생 비율, 학급당 학생수 등 제1차 년도 2개, 제2차 년도 7개, 제3차 년도 7개, 제4차 년도 12개, 제5차 년도 7개, 제6차 년도 7개를 생성하였다.
둘째, 초등학교부터 자기주도학습능력을 신장시키기 위해, 프로젝트 학습 및 학습하는 방법의 학습과 같은 교수⋅학습 방법을 학교에서 운영해야 하며 교육 당국은 이를 적극적으로 추진할 수 있도록 지원해야 한다.
초등학교 6학년을 제외한 초 5, 중 1, 2, 3학년 모형에서 모두 영어 학업성취도가 수학 학업성취도에 영향을 미치는 첫 번째 변수로 나타났다. 또한 OLAP 결과 초등학교 4학년 시가와 초등학교 5학년 이후 시기의 특성이 크게 차이가 나며, 5학년 이후 시기에서 이와 유사한 경향을 보이는 것을 확인할 수 있었다. 따라서 초등학교 5학년 시기가 이후 학년의 수학 학업성취도를 결정하는 중요한 시기임을 의미한다고 해석할 수 있다.
세번째, 정규화⋅이진화 과정을 통해 요인화 데이터 중 수치형 변수의 경우 척도를 조정하는 정규화(Normalization), 범주형 변수의 경우 이항 가변수(Binary Dummy Variables)를 생성하는 이진화 과정을 거친다.
이 변수 중요도를 통해 학년별 ‘수학 학업성취도’ 분류모형은 ‘영어 학업성취도’, ‘국어 학업성취도’, ‘사교육비’, ‘수업 태도’ 등이 ‘수학 학업성취도’의 평균 초과⋅이하를 분류하는 주요한 변수임을 확인하였다.
본 연구에서는 개발된 플랫폼의 유용성을 입증하기 위해 SELS 데이터를 플랫폼 상에서 구축하고, 수학 학업성취도를 측정값으로 선정하여 OLAP 및 DM을 수행하였으며, 측정값에 영향을 주는 다양한 요인을 DM 기법을 사용하여 분석하였다. 이를 통해 데이터 기반 교육정책 시사점을 빠르고 효과적으로 도출할 수 있었다.
추후 데이터 분석에서 결측값 그대로 유지될 경우 향후 분석의 결과가 왜곡될 수 있어 최근에는 다중 대체법(Multiple Imputation)을 통해 이를 해결하고 있다(최형철, 2019). 이에 본 논문에서는 다중 대체법을 활용하여 결측치를 대체한 마스킹 데이터로 변환하며, 그 결과 제n차 년도 학부모 마스킹 데이터 테이블, 제n차 년도 학교 마스킹 데이터 테이블이 함께 도출된다.
종단 모형의 결과를 살펴보면 지속적으로 학생의 국어, 영어 학업성취도가 매우 높은 중요도를 보이고 있었다. 특히 직전 학년의 수학 학업성취도와 해당 학년의 국어, 영어 학업성취도가 매 모형별로 1∼3위 그룹을 형성하는 것을 찾을 수 있었다.
횡단 연구 결과를 살펴보면, XGBoost 모형에서 초5를 제외하고는 영어와 국어의 학업성취가 다른 변수들과 큰 차이를 보일 정도로 높은 변수 중요도를 보였다. 초등학교 6학년을 제외한 초 5, 중 1, 2, 3학년 모형에서 모두 영어 학업성취도가 수학 학업성취도에 영향을 미치는 첫 번째 변수로 나타났다. 또한 OLAP 결과 초등학교 4학년 시가와 초등학교 5학년 이후 시기의 특성이 크게 차이가 나며, 5학년 이후 시기에서 이와 유사한 경향을 보이는 것을 확인할 수 있었다.
또한 학교급에 따라 조금 상이한 특징을 찾을 수 있었다. 초등학생 시기에는 사교육비, 자녀 공부 학업 지원, 월간 가계 소득, 시민의식, 주당 독서시간, 진로성숙도, 자기주도학습능력 관련 변수가 높은 변수 중요도를 보였다. 반면 중학생 시기에는 학교풍토, 주당 사교육시간, 교내 문화활동 참여정도, 주당 혼자 공부하는 시간과 같은 변수가 높은 변수 중요도를 보였다.
트리 그래프를 종합해보면, 영어⋅국어 학업성취도가 평균 이하인 학생들의 ‘수학 학업성취도’ 또한 평균 이하로 분류될 수 있는 확률이 72, 76, 81, 82, 84%로 학년이 올라갈수록 그 확률이 높아진다.
랜덤 포레스트 모형의 파라미터 중 ntree는 모두 1000, mtry는 7, 9, 10, 14로 설정하였다. 학습 결과 트리의 개수가 200개 이상일 때부터 오류 값이 일정 값에 수렴했기 때문에 본 모형에서 사용한 트리의 개수는 타당한 것으로 볼 수 있었다.
횡단 연구 결과를 살펴보면, XGBoost 모형에서 초5를 제외하고는 영어와 국어의 학업성취가 다른 변수들과 큰 차이를 보일 정도로 높은 변수 중요도를 보였다. 초등학교 6학년을 제외한 초 5, 중 1, 2, 3학년 모형에서 모두 영어 학업성취도가 수학 학업성취도에 영향을 미치는 첫 번째 변수로 나타났다.

후속연구

이렇게 되면 연구자의 연구 목적에 따라 데이터를 수령하는 방식이 달라질 것이며, 연구자⋅정책입안자들이 데이터 전처리보다 데이터 분석에 더 많은 시간과 역량을 투입할 수 있게 될 것이다. 나아가 본 논문에서 개발한 데이터 플랫폼에 기반하여 데이터를 제공하는 온라인 서비스 개발이 필요하다. 이러한 서비스가 개발⋅운영된다면 기존의 계획서 제출, 심사 후 이메일을 통해 제공되는 방식에서 벗어나 전처리 및 행정 등에 역량이 분산되지 않고 데이터 분석에 역량을 더욱 집중할 수 있을 것이다.
본 플랫폼에서는 전처리 과정을 거쳐 생성된 데이터 웨어하우스를 다양한 연구자들이 공유할 수 있으며, 지속적으로 연구결과 데이터 셋과 관련 분석기법을 축적해 나갈 수 있으므로 후속 연구자들은 추가적인 분석을 수월하게 수행할 수 있게 된다. 또한, 정책입안자들도 데이터 웨어하우스에 직접 접근하여 다차원 분석을 통해 온라인으로 분석할 수 있어 신속하게 과학적인 의사결정이 가능하게 된다.

핵심어	질문	논문에서 추출한 답변
	교육종단연구 데이터의 기능은 무엇인가?	교육종단연구 데이터의 기능은 연구대상의 동태를 파악하는 것으로 학생의 변화, 발달 및 성장을 측정 분석하는 것이다(강호수, 김종민, 최보미, 2017). 특히 앞서 논의한 시도교육청 단위의 교육종단연구는 각 시도별 교육환경의 특성과 정책에 적합하게 설계되었으며, 이렇게 수집된 데이터는 현장에 더욱 밀착한 데이터로서 교육 현황을 잘 반영하고 있다.
	교육종단연구의 목적은 무엇인가?	우리나라에서도 이러한 현상에 대응하기 위해 강원, 경기, 부산, 서울교육청은 학생, 학부모, 학교 등의 데이터를 장기간에 걸쳐 수집하고 이를 활용하여 데이터 기반 교육정책을 설계하기 위해 교육종단연구(부산교육정책연구소, 2019; 서울교육연구정보원, 2010; 성기선 외, 2013; 임성택, 어성민, 신미숙, 2013)를 수행하고 있다. 교육종단연구는 학생의 성장에 영향을 미치는 요인과 과정을 체계적으로 파악하기 위해 데이터를 생성하고 이를 활용하여 교육정책 및 예산투입 의사결정에 과학적 근거 마련을 목적으로 하고 있다(박현정 외, 2011). 경기, 부산, 서울의 교육종단연구는 중⋅장기 사업으로 운영되있어 그 데이터의 양은 시간이 갈수록 더욱 증가해 갈 것이며, 기존 파일 형태의 데이터 관리 체계는 그 한계를 드러낼 것이 분명하므로, 새로운 데이터 관리 체계로의 변화가 요구될 수밖에 없을 것이다.
	교육종단연구 데이터 플랫폼 아키텍처는 어떤 계층들로 구성되는가?	교육종단연구 데이터 플랫폼 아키텍처는 Han, Kamber & Pei(2016)에서 제시한 3-계층 데이터 웨어하우징 아키텍처를 기반으로 하여 본 연구 목적에 적합하게 설계하였으며, <그림 1>과 같다. 이는 데이터 웨어하우스, OLAP 서버, 프론트 엔드 툴의 3-계층으로 구성된다. 하위계층인 데이터 웨어하우스는 기본적으로 데이터 베이스(Data Base: DB)를 기반으로 한다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

교육종단연구 분석을 위한 빅데이터 플랫폼 개발 및 적용
Development and Application of a Big Data Platform for Education Longitudinal Study Analysis 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (30)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

교육종단연구 분석을 위한 빅데이터 플랫폼 개발 및 적용 Development and Application of a Big Data Platform for Education Longitudinal Study Analysis 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (30)

이 논문을 인용한 문헌

저자의 다른 논문 :

조완섭 (52)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

교육종단연구 분석을 위한 빅데이터 플랫폼 개발 및 적용
Development and Application of a Big Data Platform for Education Longitudinal Study Analysis 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper