[국내논문]정보공시 자료를 이용한 교육/연구성과 영향요인 추출 및 대학의 군집 분석 Data Mining Analysis of Educational and Research Achievements of Korean Universities Using Public Open Data Services원문보기
본 연구의 목적은 통계 분석과 데이터마이닝 기법을 이용하여 대학정보공시 자료 속의 새로운 패턴이나 의미 있는 결과를 도출함으로써 대학의 교육역량 및 경쟁력을 나타내는 지표 개선에 유용한 지식을 제공하는 것이다. 이를 위해 교육/연구성과를 나타내는 취업률, 기술이전건수, 전임교원 1인당 논문수 지표의 영향요인 탐색 및 의사결정나무 모형 도출과 대학평가 관련지표를 이용한 대학의 군집분석을 실시하였다. 연구 결과, 대학 교육/연구성과 지표의 공통 영향요인은 신입생충원율, 재학생충원율, 전임교원 1인당 학생수로 나타났다. 군집분석에서는 전체 대학, 대학규모별, 소재지별로 각각 실시하였을 때 유명대학, 예체능 비이공계 종교지도자양성 대학, 그 외 대학으로 군집이 형성되는 양상을 보였고, 그 주요 영향요인으로는 대학 교육/연구성과 지표인 취업률, 기술이전건수 등으로 나타났다.
본 연구의 목적은 통계 분석과 데이터마이닝 기법을 이용하여 대학정보공시 자료 속의 새로운 패턴이나 의미 있는 결과를 도출함으로써 대학의 교육역량 및 경쟁력을 나타내는 지표 개선에 유용한 지식을 제공하는 것이다. 이를 위해 교육/연구성과를 나타내는 취업률, 기술이전건수, 전임교원 1인당 논문수 지표의 영향요인 탐색 및 의사결정나무 모형 도출과 대학평가 관련지표를 이용한 대학의 군집분석을 실시하였다. 연구 결과, 대학 교육/연구성과 지표의 공통 영향요인은 신입생충원율, 재학생충원율, 전임교원 1인당 학생수로 나타났다. 군집분석에서는 전체 대학, 대학규모별, 소재지별로 각각 실시하였을 때 유명대학, 예체능 비이공계 종교지도자양성 대학, 그 외 대학으로 군집이 형성되는 양상을 보였고, 그 주요 영향요인으로는 대학 교육/연구성과 지표인 취업률, 기술이전건수 등으로 나타났다.
The purpose of this study is to provide useful knowledge for improving indicators that represent competitiveness and educational competency of the university by deriving a new pattern or the meaningful results from the data of information disclosure of universities using statistical analysis and dat...
The purpose of this study is to provide useful knowledge for improving indicators that represent competitiveness and educational competency of the university by deriving a new pattern or the meaningful results from the data of information disclosure of universities using statistical analysis and data mining techniques. To achieve this, a model of decision tree was made and various factors that affect education/research performance such as employment rate, the number of technology transfer and papers per full-time faculty were explored. In addition to this, the cluster analysis of universities was conducted using attributes related to evaluation of university. According to the analysis, common factors affecting higher education/research performance are following indicators ; incoming student recruitment rate, enrollment rate, and the number of students per full-time faculty. In the cluster analysis, when performed by the entire university, the size, location of the university respectively, clusters are mainly formed by well-known universities, art physical non-science and engineering religious leaders training universities, and others. The main influencing factors of this cluster are higher education/research performance indicators such as employment rate and the number of technology transfer.
The purpose of this study is to provide useful knowledge for improving indicators that represent competitiveness and educational competency of the university by deriving a new pattern or the meaningful results from the data of information disclosure of universities using statistical analysis and data mining techniques. To achieve this, a model of decision tree was made and various factors that affect education/research performance such as employment rate, the number of technology transfer and papers per full-time faculty were explored. In addition to this, the cluster analysis of universities was conducted using attributes related to evaluation of university. According to the analysis, common factors affecting higher education/research performance are following indicators ; incoming student recruitment rate, enrollment rate, and the number of students per full-time faculty. In the cluster analysis, when performed by the entire university, the size, location of the university respectively, clusters are mainly formed by well-known universities, art physical non-science and engineering religious leaders training universities, and others. The main influencing factors of this cluster are higher education/research performance indicators such as employment rate and the number of technology transfer.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
데이터마이닝 기법마다 장·단점이 존재하며, 서로 다른 형태의 결과물을 보여준다. 따라서 다양한 기법을 적용해보고 이를 종합하여 연구문제를 해결하고자 한다.
따라서 본 연구에서는 통계 분석과 데이터마이닝의 여러 기법을 활용하여 대학알리미 공시 지표들 간, 그리고 대학들 간의 새로운 패턴이나 의미 있는 지식을 도출하고자 한다. 이를 통해 대학의 지표 개선을 위한 전략 수립 시 유용한 지식을 제공할 것이다.
현재까지 교육부와 대학정보공시 총괄관리기관에서 실시한 공시자료 분석의 결과물은 보도자료이다. 보도자료는 공시자료의 정확한 통계치를 대국민에게 보도하는 데에 목적이 있다. 공시되는 각 항목의 합계, 평균값 등 기초 통계를 산출하고, 전년대비 증감률, 항목별 상위대학 리스트 등이 주요 내용으로 구성된다[8].
제안 방법
A ttributeSeletion – CfsSubsetEval 에서 검색방법으로는 BestFirst, GeneticSearch, GreedyStepwise, LinearForwardSelection, ScatterSearchV1로 각각 수행하고 결과를 비교해보았다.
결측치의 경우 실적이 없어 null값이면 0으로 입력하였다. 공시 지표 중 비율로 산출이 가능한 경우에는 비율데이터로 변환하였으며, 비슷한 정보를 가진 지표의 경우 데이터를 축소하기 위해 하나의 지표로 병합하였다. 또한 공시자료가 본교, 제2캠퍼스, 제3캠퍼스로 분리된 대학(17개교)의 경우 본교에 통합하였다.
교육/연구성과 영향요인 분석을 위해 선행연구, 논리적 타당성, 독립변수들간의 상관성을 토대로 변수를 선정하였다. 교육/연구성과 영향요인 분석에 사용되는 독립변수와 종속변수를 정리하면<표 1>과 같다.
군집분석에 쓰일 변수의 선정은 와 같이 각종 대학평가에 사용되는 공시지표 중 주요 지표인 재학생 A학점 비율, 외국인학생비율, 재학생충원율, 취업률, 전임교원확보율, 외국인전임교원비율, 전임교원 1인당 논문수, 전임교원 1인당 연구비, 소규모강좌비율, 전임교원 강의담당 비율, 재학생 1인당 장학금, 기술이전건수, 특허등록건수, 시간강사강의료단가를 최종적으로 선택 (14개 변수)하였다.
둘째로 대학정보공시 자료로 대학을 군집화하면 어떠한 유사성을 가진 그룹이 형성되는지 알아보고, 그 영향요인에 대해 분석하였다. 대학 평가에 쓰이는 지표를 선택하여 1차로 전체 연구대상 대학을 대상으로, 2차로 대학규모별, 소재지별로 군집분석을 실시하였다. 이 두 가지 분석을 종합하여 대학의 경쟁력을 나타내는 지표 개선에 유용한 지식을 도출하였다.
대학정보공시 자료 중에서 교육/연구성과 지표로 정의되어 있는 취업률, 기술이전실적, 논문실적의 영향요인에 관한 선행연구를 살펴보았다.
취업률은 학생역량, 교원역량, 대학여건 관련 지표를 변수로 선택하였으며, 기술이전건수와 전임교원 1인당 논문수는 교원역량, 대학여건 관련 지표를 변수로 선택하여 영향 요인을 알아보았다. 둘째로 대학정보공시 자료로 대학을 군집화하면 어떠한 유사성을 가진 그룹이 형성되는지 알아보고, 그 영향요인에 대해 분석하였다. 대학 평가에 쓰이는 지표를 선택하여 1차로 전체 연구대상 대학을 대상으로, 2차로 대학규모별, 소재지별로 군집분석을 실시하였다.
본 연구는 과 같이 대학알리미 사이트에서 추출한 대학정보공시 자료로 크게 두 가지의 분석을 실시하였다.
5) 알고리즘을 사용하였다. 설명력이 낮은 변수들을 제거하고, minNumObj값을 조정하면서 반복 수행 하였고, 모형의 타당성 검사를 위해 test options 에서 Use training set, 10 fold cross validation, Percentage split 90%의 3가지 방법으로 평가하였다.
대학알리미에서 추출된 자료를 바탕으로 인스턴스는 대학, 변수는 공시 지표로 하여 데이터 집합 (data set)을 생성하였다. 수집한 데이터 집합으로 전처리를 진행하였다. 기술통계분석으로 최댓값, 최솟값을 구하여 극단치 여부를 확인하였고, 극단치가 존재하는 지표의 경우 제외하였다.
연속형 변수인 취업률 지표에 대해 상위 20%대학을 1, 하위 20% 대학을 3, 그 외 대학을 2로 변환하여 분석하였다.
대학 평가에 쓰이는 지표를 선택하여 1차로 전체 연구대상 대학을 대상으로, 2차로 대학규모별, 소재지별로 군집분석을 실시하였다. 이 두 가지 분석을 종합하여 대학의 경쟁력을 나타내는 지표 개선에 유용한 지식을 도출하였다.
첫째로 교육/연구성과를 나타내는 취업률, 기술이전건수, 전임교원 1인당 논문수 지표에 대해 영향요인을 분석하였다. 취업률은 학생역량, 교원역량, 대학여건 관련 지표를 변수로 선택하였으며, 기술이전건수와 전임교원 1인당 논문수는 교원역량, 대학여건 관련 지표를 변수로 선택하여 영향 요인을 알아보았다.
첫째로 교육/연구성과를 나타내는 취업률, 기술이전건수, 전임교원 1인당 논문수 지표에 대해 영향요인을 분석하였다. 취업률은 학생역량, 교원역량, 대학여건 관련 지표를 변수로 선택하였으며, 기술이전건수와 전임교원 1인당 논문수는 교원역량, 대학여건 관련 지표를 변수로 선택하여 영향 요인을 알아보았다. 둘째로 대학정보공시 자료로 대학을 군집화하면 어떠한 유사성을 가진 그룹이 형성되는지 알아보고, 그 영향요인에 대해 분석하였다.
대상 데이터
3차 실험에서는 181개의 연구대상 중 이공계열 학과가 없는 예술, 체육, 종교지도자양성 대학(총 31개교)을 제외한 150개의 대학에 대해 동일한 방법으로 분석하였다.
본 연구의 대상은 2012년 대학정보공시 대상학교 중 고등교육법 제2조에 근거한 4년제 일반대학(194개교)의 공시자료이다. 4년제 일반대학 중 산업대학에서 일반대학으로 전환되거나 전문대학에서 일반대학으로 전환되는 등 학제가 변경된 대학 및 통폐합 대학(13개교)을 제외하고 최종적으로 181개교의 공시자료를 연구의 대상으로 선정하였다. 기술이전건수의 영향요인 분석 시에는 예술, 체육, 종교지도자양성 대학 등 이공계열이 없는 학교(31개교)를 제외한 150개교를 대상으로 분석을 추가적으로 진행하였다.
대학알리미 사이트로부터 통합비교검색과 주요 지표검색을 통해 PDF공시 항목을 제외한 공시년도 2012년의 전체 항목을 대상으로 자료를 추출 하였다. 공시자료의 추출시점은 2013년 9월 20일부터 23일까지이며, 추출 당시 2013년의 공시자료의 경우 미공시된 항목(10월 공시)이 존재하여 2012년 공시자료를 대상으로 하였다.
4년제 일반대학 중 산업대학에서 일반대학으로 전환되거나 전문대학에서 일반대학으로 전환되는 등 학제가 변경된 대학 및 통폐합 대학(13개교)을 제외하고 최종적으로 181개교의 공시자료를 연구의 대상으로 선정하였다. 기술이전건수의 영향요인 분석 시에는 예술, 체육, 종교지도자양성 대학 등 이공계열이 없는 학교(31개교)를 제외한 150개교를 대상으로 분석을 추가적으로 진행하였다.
대학알리미 사이트로부터 통합비교검색과 주요 지표검색을 통해 PDF공시 항목을 제외한 공시년도 2012년의 전체 항목을 대상으로 자료를 추출 하였다. 공시자료의 추출시점은 2013년 9월 20일부터 23일까지이며, 추출 당시 2013년의 공시자료의 경우 미공시된 항목(10월 공시)이 존재하여 2012년 공시자료를 대상으로 하였다.
본 연구의 대상은 2012년 대학정보공시 대상학교 중 고등교육법 제2조에 근거한 4년제 일반대학(194개교)의 공시자료이다. 4년제 일반대학 중 산업대학에서 일반대학으로 전환되거나 전문대학에서 일반대학으로 전환되는 등 학제가 변경된 대학 및 통폐합 대학(13개교)을 제외하고 최종적으로 181개교의 공시자료를 연구의 대상으로 선정하였다.
데이터의 분석이나 데이터를 통한 미래상황 예측을 위해 데이터마이닝은 오랜 기간 동안 과학적이고 객관적인 데이터 분석방법으로 활용되어 왔다[7]. 현재까지 교육부와 대학정보공시 총괄관리기관에서 실시한 공시자료 분석의 결과물은 보도자료이다. 보도자료는 공시자료의 정확한 통계치를 대국민에게 보도하는 데에 목적이 있다.
데이터처리
4개의 군집을 이루는데 영향을 미치는 요인이 무엇인지 알아보기 위하여 군집유형을 목표변수로 하고, 대학평가 관련변수를 독립변수로 하여 분류분석(의사결정나무)을 실시하였다. 그 결과<그림 7>과 같이 기술이전건수가 군집형성에 가장 큰 영향요인으로 나타났고, 건강보험 DB연계 취업률, 전임교원 1인당 논문수가 주요 영향요인으로 나타났다.
이 때 0과 1 사이의 값으로 표준화하여 변환된 값을 분석에 사용하였다. 그리고 군집형성에 영향을 미치는 요인과 군집의 특징을 알아보기 위하여 군집 번호를 목표변수로 하여 WEKA에서 분류분석(의사결정나무)을 실시하였다.
대학 교육/연구성과(취업률, 기술이전건수, 전임 교원 1인당 논문수)의 영향요인을 탐색하기 위해 상관관계 분석을 실시하였고, 데이터마이닝 기법으로 회귀분석, 특징 선택(Feature selection), 분류분석(의사결정나무)을 실시하였다. 상관관계 분석은 SPSS statistics 19로 Pearson 상관계수를 이용하여 각 변수들 간의 상관관계를 살펴보았다.
대학평가에 쓰이는 주요 지표를 이용하여 대학 간에는 어떤 유사성이 있는지 파악하기 위하여 SPSS로 k-means 군집분석을 실시하였다. 이 때 0과 1 사이의 값으로 표준화하여 변환된 값을 분석에 사용하였다.
대학 교육/연구성과(취업률, 기술이전건수, 전임 교원 1인당 논문수)의 영향요인을 탐색하기 위해 상관관계 분석을 실시하였고, 데이터마이닝 기법으로 회귀분석, 특징 선택(Feature selection), 분류분석(의사결정나무)을 실시하였다. 상관관계 분석은 SPSS statistics 19로 Pearson 상관계수를 이용하여 각 변수들 간의 상관관계를 살펴보았다.
회귀분석은 SPSS statistics 19, WEKA 3.6, Rattle 2.6.26(R Data Miner)을 이용하여 다중회귀 분석을 실시하였다. SPSS에서는 단계선택방법으로 진행하였고, WEKA에서는 Classifier – functions - LinearRegression을 이용하였으며, Rattle에서는 Model- Linear로 진행하였다.
이론/모형
분류분석은 의사결정나무방법으로 Classifier – trees – J48(C4.5) 알고리즘을 사용하였다.
SPSS에서는 단계선택방법으로 진행하였고, WEKA에서는 Classifier – functions - LinearRegression을 이용하였으며, Rattle에서는 Model- Linear로 진행하였다. 특징선택은 WEKA로 필터기법을 사용하였고, CFS알고리즘을 선택하였다. A ttributeSeletion – CfsSubsetEval 에서 검색방법으로는 BestFirst, GeneticSearch, GreedyStepwise, LinearForwardSelection, ScatterSearchV1로 각각 수행하고 결과를 비교해보았다.
성능/효과
1차 실험에서 목표변수를 기술이전건수로 하고, 11개의 독립변수(정원내 신입생충원율, 재학생충원율, 전임교원 1인당 학생수, 전임교원확보율, 전임교원 1인당 연구비, 전임교원 1인당 논문수, 전임교원 강의담당비율, 교사시설확보율, 재정지원사업금액, 산업체경력 전임교원비율, 특허등록건수)로 분류기를 실행하였을 때(binarySplits = True, confidenceFactor = 0.25, minNumObj = 50) 기술이전건수에 특허등록건수가 큰 영향을 미치는 것으로 나타났으며 이 때 의사결정나무의 타당성은 66.3-66.7%로 평가되었다. 특허등록건수 이외의 영향요인을 살펴보기 위하여 2차 실험에서 목표변수를 기술이전건수로 하고, 특허건수를 제외하여 분류기를 실행하였을 때(binarySplits = True, confidenceFactor = 0.
3-3차 의사결정나무 모형의 결과를 IF-THEN 분류규칙으로 해석해보면 전임교원 1인당 연구비가 56,816천원보다 크면 기술이전건수 상위 20%대학으로 분류되었다. 전임교원 1인당 연구비가 56,816천원 이하이고, 전임교원 1인당 논문수가 0.
3차 실험 의사결정나무의 타당성은 3가지 옵션 (Use training set, 10 fold cross validation, Percentage split 90%)에서 평가했을 때 53.3%-68%의 정확성을 보였다.
그 결과 를 보면 1차 실험에서와 같이 특허등록건수가 큰 영향요인으로 나타났고 (3-1차), 특허건수를 제외하고 재실험하였을 때 재정지원사업금액이 큰 영향요인으로 나타났다 (3-2차).
그 결과과 같이 기술이전건수가 군집형성에 가장 큰 영향요인으로 나타났고, 건강보험 DB연계 취업률, 전임교원 1인당 논문수가 주요 영향요인으로 나타났다.
기술이전건수에 영향을 미치는 요인은 분석방법별로 약간의 차이가 존재하나 전임교원 1인당 논문수, 재정지원사업금액, 특허등록건수, 전임교원 1인당 연구비, 정원내 신입생충원율, 재학생충원율, 전임교원 1인당 학생수(-), 전임교원확보율로 나타났다. 즉 교수역량과 대학여건 지표가 기술이전건수에 영향을 미치는 것을 알 수 있다.
<그림 9>를 보면 수도권대학 군집형성의 영향 요인은 기술이전건수와 전임교원 1인당 논문수, 지방대학 군집형성의 영향요인은 특허건수, 소규모강좌비율, 기술이전건수, 취업률 순으로 나타났다.
<그림 8>을 보면 대규모대학 군집형성의 영향 요인은 기술이전건수, 전임교원확보율로 나타났고, 중규모대학 군집형성의 영향요인은 시간당 시간강사강의료단가, 재학생충원율로 나타났으며, 소규모 대학 군집형성의 영향요인은 취업률로 나타났다.
의사결정나무의 타당성은 3가지 옵션(Use training set, 10 fold cross validation, Percentage split 90%)에서 평가했을 때 55.6%-68.5%의 정확성을 보였다.
이 의사결정나무 모형의 결과를 IF-THEN 분류규칙으로 해석해보면 전임교원 1인당 연구비가 11,808천원보다 크고, 특허건수가 63건보다 크면 전임교원 1인당 논문수 상위 20% 대학으로 분류되었다. 전임교원 1인당 연구비가 11,808천원 이하이고, 정원내 신입생충원율이 81.
취업률 하위 20% 대학 취업률에 영향을 미치는 요인은 정원내 신입생 충원율, 전임교원 강의담당비율, 전임교원 1인당 학생수 순으로 나타났다. 이 의사결정나무 모형의 결과를 IF-THEN 분류규칙으로 해석해보면 정원내 신입생충원율이 95.8%보다 크고, 전임교원강의 담당비율이 59.4%보다 크고, 전임교원 1인당 학생 수가 29.5명 이하이면 취업률 상위 20% 대학이될 수 있지만, 전임교원 1인당 학생수가 29.5명보다 크면 취업률 상위 20% 대학에서 벗어남을 알수 있었다. 정원내 신입생충원율이 95.
이 의사결정나무 모형의 타당성을 평가하기 위해 3가지 옵션에서 평가했을 때 64.1%-75.7%의 정확성을 보였다.
전임교원 1인당 논문수 하위 20% 대학 전임교원 1인당 논문수에 가장 영향을 미치는 요인은 전임교원 1인당 연구비로 나타났고, 정원 내 신입생충원율, 특허등록건수, 전임교원확보율이 전임교원 1인당 논문수의 영향요인으로 나타났다.
전임교원 1인당 논문수의 영향요인은 분석방법별로 차이를 보이나, 전임교원 1인당 연구비, 기술이전건수, 재학생충원율, 특허등록건수, 정원내 신입생충원율, 전임교원확보율, 전임교원 강의담당비율, 재정지원사업금액, 전임교원 1인당 학생수(-)로 나타났다. 즉 교수역량과 대학여건 지표가 전임교원 1인당 논문수에 영향을 미치는 것으로 나타났다.
이 의사결정나무 모형의 결과를 IF-THEN 분류규칙으로 해석해보면 전임교원 1인당 연구비가 11,808천원보다 크고, 특허건수가 63건보다 크면 전임교원 1인당 논문수 상위 20% 대학으로 분류되었다. 전임교원 1인당 연구비가 11,808천원 이하이고, 정원내 신입생충원율이 81.7%이하이면 전임교원 1인당 논문수 하위 20%로 분류되었고, 정원내 신입생충원율이 81.7%보다 큰 경우에는 전임교원확보율이 65.2%보다 크면 하위 20% 대학에서 벗어날 수 있지만, 65.2%이하이면 하위 20%대학으로 분류되는 것으로 나타났다.
전체 대학에 대한 군집분석의 타당성을 검증하기 위해 판별분석을 실시한 결과 91.7%가 올바로 분류되었음을 확인하였다.
종합적으로 대학의 교육/연구성과에 모두 영향을 미치는 요인은 과 같이 정원내 신입생충원율, 재학생충원율, 전임교원 1인당 학생수 (-)임을 확인하였다.
전임교원 1인당 논문수의 영향요인은 분석방법별로 차이를 보이나, 전임교원 1인당 연구비, 기술이전건수, 재학생충원율, 특허등록건수, 정원내 신입생충원율, 전임교원확보율, 전임교원 강의담당비율, 재정지원사업금액, 전임교원 1인당 학생수(-)로 나타났다. 즉 교수역량과 대학여건 지표가 전임교원 1인당 논문수에 영향을 미치는 것으로 나타났다.
취업률 하위 20% 대학 취업률에 영향을 미치는 요인은 정원내 신입생 충원율, 전임교원 강의담당비율, 전임교원 1인당 학생수 순으로 나타났다. 이 의사결정나무 모형의 결과를 IF-THEN 분류규칙으로 해석해보면 정원내 신입생충원율이 95.
취업률에 영향을 미치는 요인은 분석방법별로 약간 상이하나, 정원내 신입생충원율, 전임교원 강의담당비율, 산업체경력 전임교원비율, 현장실습 이수학생비율, 재학생충원율, 전임교원 1인당 논문수, 전임교원 1인당 학생수(-), 캡스톤디자인 이수학생비율, 졸업생평점 표준환산점수로 나타났다. 즉 학생역량, 교수역량, 대학여건 지표가 취업률에 영향을 미치는 것을 알 수 있다.
7%로 평가되었다. 특허등록건수 이외의 영향요인을 살펴보기 위하여 2차 실험에서 목표변수를 기술이전건수로 하고, 특허건수를 제외하여 분류기를 실행하였을 때(binarySplits = True, confidenceFactor = 0.5, minNumObj = 35) 재정지원사업금액, 전임교원 1인당 연구비가 기술이전건수의 영향요인으로 나타났다. 이 의사결정나무의 타당성은 70.
후속연구
이러한 통계 결과는 여러 항목과의 관계나 데이터 속의 숨어 있는 의미를 찾는 데에 한계점이 있다. 공시자료의 여러 항목 간에는 어떤 연관성이 있는지, 대학 간에는 어떤 데이터의 유사성이 있는지 데이터 속에 숨은 의미를 찾고, 예측 가능한 모형을 만들어본다면 대학의 지표 개선에 도움이 되는 지식을 마련할 수 있을 것이다.
둘째, 총괄관리기관에서는 공시자료의 신뢰성을 높이기 위한 방안으로 데이터마이닝의 기법을 활용하여 자료의 극단치, 결측치 등을 확인할 수 있을 것이다. 그리고 빅데이터 시대의 흐름에 맞추어 데이터를 보유, 관리, 서비스하는 것에서 더욱 발전하여 누적되는 데이터의 분석을 통한 미래 예측이나 의미 있는 지식을 도출하여 대학에 제공하는 역할을 한다면 고등교육 발전에 기여할수 있을 것이다.
둘째, 총괄관리기관에서는 공시자료의 신뢰성을 높이기 위한 방안으로 데이터마이닝의 기법을 활용하여 자료의 극단치, 결측치 등을 확인할 수 있을 것이다. 그리고 빅데이터 시대의 흐름에 맞추어 데이터를 보유, 관리, 서비스하는 것에서 더욱 발전하여 누적되는 데이터의 분석을 통한 미래 예측이나 의미 있는 지식을 도출하여 대학에 제공하는 역할을 한다면 고등교육 발전에 기여할수 있을 것이다.
또한 의사결정나무 모형으로 지표별 상위그룹에 포함되기 위한 분류기준치를 확인할 수 있을 것이며, 군집분석에 나타난 결과를 통해 유사한 그룹 내의 평균과 다른 그룹 간의 평균값 비교가 가능 하다. 또한 낮은 지표값, 경쟁력을 갖고 있는 지표 값이 무엇인지 발견할 수 있고, 이에 따라 지표 개선 전략을 수립할 수 있을 것이다.
또한 의사결정나무 모형으로 지표별 상위그룹에 포함되기 위한 분류기준치를 확인할 수 있을 것이며, 군집분석에 나타난 결과를 통해 유사한 그룹 내의 평균과 다른 그룹 간의 평균값 비교가 가능 하다. 또한 낮은 지표값, 경쟁력을 갖고 있는 지표 값이 무엇인지 발견할 수 있고, 이에 따라 지표 개선 전략을 수립할 수 있을 것이다.
그리고 취업률의 영향요인으로 나타난 현장실습 이수학생비율, 산업체경력 전임교원비율, 캡스톤디자인 이수학생비율 지표의 공통점은 산학협력과 관련된다는 점에서 대학이 산학협력을 강화할 필요성이 있다. 연구성과를 높이기 위해서는 연구비, 재정지원사업금액 등의 재정적인 확보가 중요하며, 대학정보공시 자료에서 연구비, 재정지원사업금액, 특허건수, 기술이전건수, 논문실적은 특히 연관성이 높은 것으로 나타나 이 지표들의 상관성을 고려하여 관리한다면 연구성과 지표 향상에 도움이 될 것이다.
이 연구의 결과가 단순히 지표값을 높이는 데에 활용되는 것이 아니라 실질적인 교육성과와 연구성과를 창출하고, 그 질을 제고하기 위한 지표 개선에 도움이 되는 지식으로 활용되기를 기대해본다.
질의응답
핵심어
질문
논문에서 추출한 답변
데이터마이닝은 무엇인가?
데이터마이닝은 대량의 데이터 속의 숨은 지식이나 패턴을 찾아내는 과정이다[7]. 데이터마이닝의 기법에는 회귀 분석, 분류 분석, 연관규칙 분석, 특징선택(Feature selection), 군집 분석 등으로 다양하다[10].
의사결정나무 기법의 장점은 무엇인가?
분류분석 방법 중 의사결정나무(Decision Tree)가 많이 사용되며, 이것은 변수 영역의 반복적 분할을 통해 규칙을 생성하는 기법이다[12]. 의사결정나무 기법은 영향요인의 탐색은 물론, 계층적으로 관계 구조를 파악할 수 있으며 결과의 적용이 용이하다는 장점이 있다. 또한 선형성, 정규성, 등분산성의 세 가지 가정이 불필요한 비모수적인 방법이다[12].
다른 데이터마이닝 기법에 비해 의사결정나무 기법의 단점은 무엇인가?
또한 선형성, 정규성, 등분산성의 세 가지 가정이 불필요한 비모수적인 방법이다[12]. 그러나 다른 데이터마이닝 기법에 비해 예측력이 대체로 떨어지며, 데이터의 약간의 변화에도 상이한 결과를 나타낼 수도 있어 불안정한 단점이 있다[10].
※ AI-Helper는 부적절한 답변을 할 수 있습니다.