[논문]비전공자 대상 기초 데이터과학 실습 커리큘럼

허경

doi:10.14702/jpee.2020.265

비전공자 대상 기초 데이터과학 실습 커리큘럼
Curriculum of Basic Data Science Practices for Non-majors 원문보기

JPEE : Journal of practical engineering education = 실천공학교육논문지, v.12 no.2, 2020년, pp.265 - 273

초록
AI-Helper

본 논문에서는 비전공자들을 위한 교양과목으로 적용할 수 있는 기초 데이터과학 실습 커리큘럼을 제안하고, 엑셀(스프레드시트) 데이터 분석 도구를 활용한 교육 방법을 제안하였다. 데이터 수집, 데이터 가공 및 데이터 분석을 위한 도구에는 엑셀, R, 파이썬, SQL(Structured Query Language) 등이 있다. R, 파이썬 및 SQL은 데이터 과학을 실습하는 데 있어, 프로그래밍 언어와 자료구조를 이해해야 한다. 반면에, 엑셀 도구는 비전공자들에게도 친숙한 데이터 분석도구로서, 프로그래밍 언어에 대한 학습 부담이 없다. 그리고 기초적인 데이터과학 실습을 엑셀로 진행하면, 데이터과학 이론을 습득하는 데 집중할 수 있는 장점이 있다. 본 논문에서는 한 학기 분량의 기초 데이터과학 실습 커리큘럼과 주별 엑셀 실습 내용을 제안하였다. 그리고, 교육 내용 실체를 실증하기위해, 엑셀 데이터분석 도구를 활용하여, 선형 회귀 분석(Linear Regression Analysis) 예제들을 제시하였다.

Abstract ▼ AI-Helper

In this paper, to design a basic data science practice curriculum as a liberal arts subject for non-majors, we proposed an educational method using an Excel(spreadsheet) data analysis tool. Tools for data collection, data processing, and data analysis include Excel, R, Python, and Structured Query Language (SQL). When it comes to practicing data science, R, Python and SQL need to understand programming languages and data structures together. On the other hand, the Excel tool is a data analysis tool familiar to the general public, and it does not have the burden of learning a programming language. And if you practice basic data science practice with Excel, you have the advantage of being able to concentrate on acquiring data science content. In this paper, a basic data science practice curriculum for one semester and weekly Excel practice contents were proposed. And, to demonstrate the substance of the educational content, examples of Linear Regression Analysis were presented using Excel data analysis tools.

주제어

표/그림 (10)

그림 그림 1. '기초 데이터과학 실습 커리큘럼' 개발에 적용된 ADDIE 모형의 절차 Fig. 1. Procedure of a ADDIE model applied to the basic data science practice curriculum development.
표 표 1. 엑셀 스프레드시트를 활용한 기초 데이터과학 실습 커리큘럼 Table 1. A basic data science practice curriculum using the Excel spreadsheet
그림 그림 2. 10개 변수로 이루어진 양적자료 Fig. 2. Quantitative data consisting of 10 variables.
그림 그림 3. 10개 변수 간의 상관계수 Fig. 3. Correlation coefficient between 10 variables.
그림 그림 4. 요인 변수7과 결과 변수10 간 단일 회귀분석 실행 결과 Fig. 4. Results of single regression analysis between factor 7 and outcome variable 10.
그림 그림 5. 요인 변수7과 결과 변수10 간 산포도와 선형모델 예측 값의 비교 Fig. 5. Comparison of the scatter and predicted values of the linear model between the factor 7 and the outcome variable 10.
그림 그림 6. 두 요인 변수6 및 변수7과 결과 변수10 간 다중 회귀분석 실행 결과 Fig. 6. Results of multiple regression analysis between two factor variables 6 & 7 and outcome variable 10.
그림 그림 7. 두 요인 변수6 및 변수7과 결과 변수10 간 다중 회귀분석 실행 결과 Fig. 7. Results of multiple regression analysis between two factor variables 6 & 7 and outcome variable 10.
표 표 2. 비전공자 학부생 대상 만족도 조사 결과(30명) Table 2. Results of satisfaction survey for non-major undergraduate students
표 표 3. 비전공자 현직교사 대상 만족도 조사 결과(30명) Table 3. Satisfaction survey results for current teachers of non-majors

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

그리고 엑셀로 실습하면, 기초적인 데이터 과학 내용을 습득하는 데에만 집중할 수 있는 장점이 있다. 본 논문에서는 한 학기 기초 데이터과학 실습 커리큘럼과 주별 엑셀 실습 내용을 제안하였다. 그리고, 교육 내용 실체를 실증하기위해, 엑셀 데이터분석 도구를 활용한 선형 회귀 분석(Linear Regression Analysis) 예제들을 제시하였다.
학습목표를 설계하기위해 기초데이터 과학 실습 교육과정이 비전공자 대상 교양과정으로 실시되는 상황(Condition)을 정의하고, 기초 데이터과학 과목을 이수한 학습자들이 실제적으로 데이터분석 활동을 할 수 있는 구체적인 목표 달성 기준들(Criteria)을 설정하여 학습 목표를 실천(Behavior) 하도록 설계하였다. 여기서는 엑셀 스프레드시트를 이용한 구체적인 데이터분석결과를 제시하도록 행동 변화의 목표를 구체화하였다. 학습내용 설계에서는 주 단위 강의 및 평가 내용을 세분화하였다.
또한, 제안한 엑셀 스프레드시트 데이터 과학 교육 프로그램을 수업에 적용하면, 컴퓨팅 사고력 향상에 효과적이라고 분석하였다[10]. 이러한 선행 연구를 바탕으로, 본 논문에서는 비전공자들을 위한 대학 교양과정으로, 기초 데이터과학 실습 커리큘럼을 설계하기 위해, 엑셀 스프레드시트 데이터 분석 도구를 활용한 교육 방법을 제안하였다[5]. 엑셀은 일반인들에게 친숙한 데이터분석 도구로, R 및 파이썬 도구와 달리 프로그래밍 언어에 대한 학습 부담이 없다.
이를 위해, 개발한 기초 데이터과학 커리큘럼에 대해 비전공자 현직교사 및 학부생 만족도 조사 계획을 수립하였고, 본 논문에 조사결과를 제시하였다. 이러한 현장평가 결과를 바탕으로, 개발된 커리큘럼의 효과성을 지속적으로 평가하고 보완한다. 또한, 교수자 스스로 커리큘럼을 운영하면서 발견된 오류들을 기록하고 지속적으로 수정해야 한다.

제안 방법

이를 위해, 기초 데이터과학 교육과정의 적절성을 검토하기 위해, 일부 강의내용에 대한 파일럿 테스트를 실시할 계획을 수립하였고 실제 실행하였다. 그리고 교육대상자, 교육일정, 교육과정 편성 및 교육장소 등 운영계획을 수립하였고, 교육과정 투입 후 강의평가를 통한 지속적인 유지 및 관리 계획을 수립하였다.
10주차에서는 속성의 차이로 나뉘어진 세 모집단의 표본으로부터 모집단 평균값의 차이 검정을 위한 방법으로 일원배치 분산 분석을 엑셀 함수를 사용하여 결과를 만들어 내는 방법을 실습한다[5]. 그리고 질적자료의 연관성 정도를 분석하는 방법을 실습한다. 한편, 11주차에서는 질적자료의 독립성 검정과 양적 자료 간 상관관계 측정을 실습한다.
5주차에서는 엑셀 차트 메뉴에서 단일 속성의 통계 데이터를 각 분석 목적에 따라, 원그래프, 막대그래프, 띠그래프 및 상자수염도 그래프로 표현하는 방법을 실습한다. 그리고, 2 종류 통계 데이터의 비례 반비례 상관 관계를 그래프로 표현하는 방법으로 분산형 그래프(산포도)를 생성하는 방법을 실습한다. 4주 차까지 학습한 질적자료와 양적자료의 개념을 이해해야, 질적 자료에 맞는 그래프와 양적자료에 맞는 그래프를 구분하여 만들 수 있다.
본 논문에서는 한 학기 기초 데이터과학 실습 커리큘럼과 주별 엑셀 실습 내용을 제안하였다. 그리고, 교육 내용 실체를 실증하기위해, 엑셀 데이터분석 도구를 활용한 선형 회귀 분석(Linear Regression Analysis) 예제들을 제시하였다.
학습자 분석에서는 컴퓨터공학 계열의 전공자가 아닌 비전공자들의 사전지식, 학습 동기 및 교육 수준 목표를 분석하였다. 내용 분석에서는 학습자의 지식, 기술 및 태도 역량 측면으로 기초 데이터 과학교육 과정 개발의 필요성과 가용여건을 종합적으로 분석하였다.
두 데이터 변수 간의 상관관계를 분석할 때, 상관 계수를 구하고 그 값에 따라 상관 관계를 해석한다. 상관계수는 -1 이상 1 이하의 값을 갖는다.
그리고 표 1에 제시한 내용은 기본 교재 내용을 실습한 후, 한국 공공데이터를 수집하여 매주 연계성을 갖고, 주별로 강의하고 실습하는 내용을 제안한 것이다. 또한 2회에 걸친 이론 평가의 요소들을 도출하고, 필수적인 과제 내용을 제안하였다.
6주차에서는 특정 속성을 갖는 데이터의 위치를 나타내는 통계값으로 평균값, 중앙값, 최빈값, 표본 분산 및 표본 표준편차 등을 산출한다. 또한 표본 데이터의 분포면적을 나타내는 통계값으로 사분위범위, 범위 및 변동계수를 구하는 방법을 실습한다. 여기서, 변동계수는 서로 다른 속성을같는 데이터들의 산포도를 비교하는 데 사용되는 통계 값이다[5].
미디어 등을 개발하였다. 본 기초 데이터과학 커리큘럼에 사용될 주 이론 교재를 선정하였고, 공공데이터를 이용하여 주별로 실습하는 실습교재를 개발하였다. 평가도구 부분에서는 학습자 이해도 평가문제 및 강의 평가 문항 내용을 설계하였고, 강의동영상 콘텐츠 개발에 사용되는 미디어 도구도 선정하였다.
본 논문에서 제안한 기초 데이터과학 실습 커리큘럼은 크게 통계적 추정 실습, 통계적 검정 실습, 질적 자료의 상관성 실습, 양적 자료의 상관성 실습, 선형 학습 모델 구현 실습 그리고 기초 데이터과학 이해도 평가로 구성되었다. 제안한 기초 데이터과학 실습 커리큘럼은 비전공자들을 위한 대학 교양과정 과목으로 적합하도록, 프로그래밍 언어에 대한 부담이 없는 데이터분석 도구로 엑셀 스프레드시트를 사용하였다.
추정 방법을 실습한다. 여기에서 95% 또는 99% 신뢰구간, 즉, 유의수준(오차허용수준) 5% 또는 1% 를 갖는 모집단 통계 값의 추정 방법을 학습하고 실습한다. 또한, 귀무가설 또는 대립가설에 의한 추정 값에 대한 판정 방법인 통계적 검정 방법을 강의한다.
단계이다. 이를 위해, 개발한 기초 데이터과학 커리큘럼에 대해 비전공자 현직교사 및 학부생 만족도 조사 계획을 수립하였고, 본 논문에 조사결과를 제시하였다. 이러한 현장평가 결과를 바탕으로, 개발된 커리큘럼의 효과성을 지속적으로 평가하고 보완한다.
실행(Implementation) 단계에서는 개발한 교육과정을 이후, 어떻게 활용, 유지 및 관리할 것인가에 대한 계획을 수립한다. 이를 위해, 기초 데이터과학 교육과정의 적절성을 검토하기 위해, 일부 강의내용에 대한 파일럿 테스트를 실시할 계획을 수립하였고 실제 실행하였다. 그리고 교육대상자, 교육일정, 교육과정 편성 및 교육장소 등 운영계획을 수립하였고, 교육과정 투입 후 강의평가를 통한 지속적인 유지 및 관리 계획을 수립하였다.
기초 데이터과학 이해도 평가로 구성되었다. 제안한 기초 데이터과학 실습 커리큘럼은 비전공자들을 위한 대학 교양과정 과목으로 적합하도록, 프로그래밍 언어에 대한 부담이 없는 데이터분석 도구로 엑셀 스프레드시트를 사용하였다. 이로 인해 얻는 효과는 데이터를 가공하는 과정에만 집중하여 교육할 수 있다는 것이다.
본 기초 데이터과학 커리큘럼에 사용될 주 이론 교재를 선정하였고, 공공데이터를 이용하여 주별로 실습하는 실습교재를 개발하였다. 평가도구 부분에서는 학습자 이해도 평가문제 및 강의 평가 문항 내용을 설계하였고, 강의동영상 콘텐츠 개발에 사용되는 미디어 도구도 선정하였다. 실행(Implementation) 단계에서는 개발한 교육과정을 이후, 어떻게 활용, 유지 및 관리할 것인가에 대한 계획을 수립한다.
여기서는 엑셀 스프레드시트를 이용한 구체적인 데이터분석결과를 제시하도록 행동 변화의 목표를 구체화하였다. 학습내용 설계에서는 주 단위 강의 및 평가 내용을 세분화하였다. 학습전략 및 매체선정 설계에서는 프로그래밍 언어 이해에 대한 부담을 줄이고, 데이터가공 과정에 대한 이해도를 높이는 엑셀 스프레드시트 도구라는 전달 수단을 선정하고 공공데이터를 활용한 주별 실습과정으로 학습전략을 설계하였다.
매체선정을 설계하였다. 학습목표를 설계하기위해 기초데이터 과학 실습 교육과정이 비전공자 대상 교양과정으로 실시되는 상황(Condition)을 정의하고, 기초 데이터과학 과목을 이수한 학습자들이 실제적으로 데이터분석 활동을 할 수 있는 구체적인 목표 달성 기준들(Criteria)을 설정하여 학습 목표를 실천(Behavior) 하도록 설계하였다. 여기서는 엑셀 스프레드시트를 이용한 구체적인 데이터분석결과를 제시하도록 행동 변화의 목표를 구체화하였다.
환경분석에서는 외부 교육 트렌드를 분석하여 데이터 과학 교육의 필요성이 높다고 판단하고, 교육 장소 및 기자재 등 내부 환경을 분석하였다. 학습자 분석에서는 컴퓨터공학 계열의 전공자가 아닌 비전공자들의 사전지식, 학습 동기 및 교육 수준 목표를 분석하였다. 내용 분석에서는 학습자의 지식, 기술 및 태도 역량 측면으로 기초 데이터 과학교육 과정 개발의 필요성과 가용여건을 종합적으로 분석하였다.
학습내용 설계에서는 주 단위 강의 및 평가 내용을 세분화하였다. 학습전략 및 매체선정 설계에서는 프로그래밍 언어 이해에 대한 부담을 줄이고, 데이터가공 과정에 대한 이해도를 높이는 엑셀 스프레드시트 도구라는 전달 수단을 선정하고 공공데이터를 활용한 주별 실습과정으로 학습전략을 설계하였다.
분석(Analysis) 단계에서는 환경분석, 학습자 분석 및 내용분석을 실시하여 커리큘럼을 설계할 준비를 하였다. 환경분석에서는 외부 교육 트렌드를 분석하여 데이터 과학 교육의 필요성이 높다고 판단하고, 교육 장소 및 기자재 등 내부 환경을 분석하였다. 학습자 분석에서는 컴퓨터공학 계열의 전공자가 아닌 비전공자들의 사전지식, 학습 동기 및 교육 수준 목표를 분석하였다.

데이터처리

9주차에서는 속성의 차이로 나뉘어진 두 모집단의 표본으로부터 모집단 평균값의 차이 검정을 위한 방법으로 2-표본 t 검정을 사용하는 방법을 실습한다. 그리고 조건을 바꾸어, 동일 대상에 대한 측정 결과의 차이 검정을 위한 방법으로 대응 표본 t 검정을 사용하는 방법을 실습한다.
사용하는 방법을 실습한다. 그리고 조건을 바꾸어, 동일 대상에 대한 측정 결과의 차이 검정을 위한 방법으로 대응 표본 t 검정을 사용하는 방법을 실습한다. 10주차에서는 속성의 차이로 나뉘어진 세 모집단의 표본으로부터 모집단 평균값의 차이 검정을 위한 방법으로 일원배치 분산 분석을 엑셀 함수를 사용하여 결과를 만들어 내는 방법을 실습한다[5].
예측 모델 중에 가장 단순한 선형 모델은 예측하려는 속성을 학습 속성의 1차 함수로 나타낸다. 학습데이터의 속성과 예측 데이터 속성 간의 차이를 최소화하는 함수의 계수값을 구하기 위해, 선형회귀 알고리즘을 사용한다. 실제로 성능이 뛰어난 다양한 학습모델과 알고리즘이 존재하지만, 선형모델은 해석이 쉽고, 학습속도가 빠르다는 장점이 있어, 많이 활용되고 있다[3].

이론/모형

3주차 질적 자료와 양적 자료의 전체 집계 방법을 실습하는 데에는 COUNTIF 함수를 사용한다. 4주차에서는 https:// kosis.
본 논문에서는 기초 데이터과학 실습 커리큘럼을 개발하기 위해, 그림 1의 ADDIE 교육과정 개발 모형을 적용하였다[12]. ADDIE 모형은 분석(Analysis), 설계(Design), 개발 (Development), 실행 (Implementation), 평가(Evaluation)의 5단계로 구성된다.

성능/효과

프로그램을 제안하였다[11]. 또한, 제안한 엑셀 스프레드시트 데이터 과학 교육 프로그램을 수업에 적용하면, 컴퓨팅 사고력 향상에 효과적이라고 분석하였다[10]. 이러한 선행 연구를 바탕으로, 본 논문에서는 비전공자들을 위한 대학 교양과정으로, 기초 데이터과학 실습 커리큘럼을 설계하기 위해, 엑셀 스프레드시트 데이터 분석 도구를 활용한 교육 방법을 제안하였다[5].
교육 통계학 과목을 학부 때 이수했던 현직교사들은 본 커리큘럼에 대해 70% 이상 긍정적인 답변을 하였고, 비전공자 학부생들은 50% 이상 긍정적인 답변을 하였다. 통계 분석의 필요성을 숙지하고 있는 현직 교사들이 본 논문에서 제안한 데이터 과학 커리큘럼의 효과를 보다 높게 평가하였다.
8주차에서는 7주차까지 실습한 내용을 바탕으로, 중간 평가를 실시한다. 핵심적인 평가 기준으로, 첫 번째, 수집한 1차 공공 데이터로부터 2차 데이터 생성 이해도, 두번째, 가공한 2차 데이터의 시각화 방법 이해도, 세 번째, 표본으로부터 95% 및 99% 신뢰구간 추정 방법 이해도, 네번째, 5% 및 1% 유의수준에 맞는 검정 방법 이해도를 제시할 수 있다.

후속연구

본 커리큘럼을 통해 기초데이터 과학 이론을 학습한 학생은 파이썬 및 R을 활용한 심화 데이터과학 교육 내용을 보다 쉽게 이해할 수 있다. 추후 연구로, 본 커리큘럼과 연계된 공공데이터분석 프로젝트 설계와 본 커리큘럼에서 강의하는 기초 데이터과학 이론 구성요소들을 R과 파이썬으로 학습할 수 있는 교재 및 커리큘럼 개발이 가능하다고 판단된다. 본 논문에서 제시한 커리큘럼 이후의 데이터과학 교육 내용은 머신러닝을 적용한 데이터분석과 딥러닝을 이용한 데이터분석이라고 할 수 있다.

참고문헌 (12)

Ministry of Science and ICT, "The 4th industrial revolution in history," R & D KIOSK, No. 40, September 2017.
Ministry of Science and ICT, "The various aspects of the fourth industrial revolution, The Realized Future," R & D KIOSK, No. 41, October 2017.
J. Y. Kim, "Hello data science," Seoul : Hanbit Media, 2016.
J. K. Kwon, "Learning data science," Seoul : Jpub, 2020.
U. Ichiro, N. Hiroaki, A. Masami, and M. Eichi, "Learning data science with excel," Seoul : Hanbit Media, 2020.
Ministry of Science and ICT, "Beyond an IT powerhouse to an AI powerhouse," Report Material, 2019.
Joint Ministries, Artificial intelligence national strategy, Report Material, 2019.
Y. J. Jang, "Searching for the direction of data science education in the era of the 4th industrial revolution," Integrated Humanities Research, vol. 9, no. 10, pp. 155-180, 2017.
Y. S. Park and S. J. Lee, "Study on the direction of universal big data and big data education-based on the survey of big data experts," Journal of the Korean Association of Information Education, vol. 24, no. 2, pp. 201-214, April 2020.

원문보기 상세보기
Y. M. Kim and J. H. Kim, "Effect of data science education program using spreadsheet on improvement of elementary school computational thinking," Journal of The Korean Association of Information Education, vol. 21, no. 2, pp. 219-230, April 2017.

원문보기 상세보기
J. S. Lee, "A study on visualization methods and expressions of information design for big data, basic formulation studies," vol. 14, no. 3, pp. 261-269, June 2013.
ADDIE Model, Wikipedia, 2020, [Online]. Available: https://ko.wikipedia.org/wiki/ADDIE _%EB%AA%A8%ED%98%95.

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증