보고서 정보
주관연구기관 |
한국교육과정평가원 Korea Institute Of Curriculum & Evaluation |
연구책임자 |
노은희
|
참여연구자 |
송미영
,
성경희
,
박소영
|
보고서유형 | 최종보고서 |
발행국가 | 대한민국 |
언어 |
한국어
|
발행년월 | 2015-12 |
과제시작연도 |
2015 |
주관부처 |
국무조정실 The Office for Government Policy Coordination |
등록번호 |
TRKO201800023007 |
과제고유번호 |
1105010420 |
사업명 |
한국교육과정평가원 |
DB 구축일자 |
2018-06-30
|
DOI |
https://doi.org/10.23000/TRKO201800023007 |
초록
▼
연구 목적
본 연구는 대규모 평가에서 서답형 문항채점의 효율화를 도모하기 위한 차원에서, 전년도에 설계한 한국어 문장수준 자동채점 프로그램의 프로토타입을 실제적용 가능한 시스템으로 구현하고 국가수준 학업성취도 평가 문항에 시범 적용하는 데 주된 목적이 있다. 또한 전년도에 개발완료 한 단어 구수준 자동채점 프로그램으로 올해 시행된 학업성취도 평가의 중3 표집학생의 답안을 실제 채점함으로써 자동채점 적용을 위한 기틀을 마련하고자 한다.
개발 이론 구축
한국어 문장수준 자동채점프로그램의 정확성을 제고하는 데는 기
연구 목적
본 연구는 대규모 평가에서 서답형 문항채점의 효율화를 도모하기 위한 차원에서, 전년도에 설계한 한국어 문장수준 자동채점 프로그램의 프로토타입을 실제적용 가능한 시스템으로 구현하고 국가수준 학업성취도 평가 문항에 시범 적용하는 데 주된 목적이 있다. 또한 전년도에 개발완료 한 단어 구수준 자동채점 프로그램으로 올해 시행된 학업성취도 평가의 중3 표집학생의 답안을 실제 채점함으로써 자동채점 적용을 위한 기틀을 마련하고자 한다.
개발 이론 구축
한국어 문장수준 자동채점프로그램의 정확성을 제고하는 데는 기계학습 기반의 자동분류 방법이 관건이 된다. 자동분류방법으로 학습용 답안의 정보기술적· 통계적 특징을 분석하여 일관성 있는 분류 기준을 세워 점수별로 분류하면, 그에 따라 남은 학생 답안들을 자동으로 채점하는 것이다. 즉, 자동채점에서 정확하고 일관성 있는 분류는 곧 채점의 정확성으로 이어진다. 자동분류 방법은 지도학습 기반, 비지도학습 기반, 준지도학습 기반, 앙상블학습 기반방법 등이 있는데, 이 가운데 한국적 평가상황을 고려하여 최적화된 방법을 찾아 이를 프로그램에 구현해야 한다.
본 연구의 자동채점 프로그램은 국가수준의 대규모 평가에 적용해야 하므로, 정확하고 신뢰로운 채점은 물론 매번검사 문항이 달라짐을 염두에 두어야 한다. 따라서 기계학습을 위한 학습용답안 구축이 충분하지 않은 상황에서도 채점성능이 담보되는 준지도 학습방법을 기반으로 하되, 여러 자동분류 방법의 결과들을 최종 조합하여 정확성을 높이는 앙상블학습 방법을 프로그램에 복합적으로 구현하는 것이 적합하다.
프로그램 개발
올해 문장 수준 자동채점 프로그램은 프로토타입의 성능 분석과 학업성취도 평가 문항분석을 토대로, 크게 언어처리 기술, 채점 방식, 사용자 인터페이스 측면에서 관련 기술을 보강하고 정교화하였다. 올해 개발한 프로그램의 시스템 구조도와 전년 대비 개선 항목은 다음과 같다.
먼저 언어처리 단계에서는 문서정규화 과정의 띄어쓰기 및 철자 교정 기능의 정확률을 제고하고, 두 문장 이상의 답안을 처리할 수 있도록 학습말뭉치와 기계학습 방법을 이용하여 문장 분리 기능을 추가하였다. 또한 형태소 분석 과정에서 불필요한 형태소 후보를 제거하는 기능과 유의어 추천 기능을 보강하고, 학생 답안에 포함된 부정표현을 기계학습의 자질로 제공하여 시스템의 성능을 개선하였다. 다음으로 채점 단계에서는 채점자 개입을 줄이면서 자동채점 정확률을 높이기 위해, 자질 가중치 부여 방안을 추가적으로 탐색하여 자질추출 기능을 강화하고, 학습모델 생성 기능과 자동채점 및 군집화 기능을 다양한 실험을 통해 개선하였다. 마지막으로 사용자 인터페이스 측면에서는 2014년 프로토타입에서 혼란을 일으켰던 메뉴명/버튼명 등을 이해하기 쉬운 용어로 변경하여 사용자 편의를 높였다. 또한 프로그램의 개선 결과로 일부 기능을 수정ㆍ보강하거나 새로운 기능을 개발함에 따라 필요한 인터페이스를 추가하였다.
적용 및 결과 분석
올해 개발한 문장 수준 자동채점 프로그램은 2014년 학업성취도 평가 국어·사회·과학 교과의 한 문장 수준 서답형 6문항에 시범 적용하여, 프로그램의 간결성과 정확성을 분석하였다. 본 프로그램은 학생답안을 의미유사도로 군집화하여 채점 진행의 간결성을 높인다. 이에 1차 군집화 결과, 문항별 답안유형 10개만 채점하여도 약 8,000개 중 최소4,200여개 답안을 채점할 수 있었다. 자동채점 결과와 인간채점과의 비교를 통한 정확성 분석 결과, 두 점수 간 완전일치도는 96.1~99.7%, 상관계수는 0.82~0.99로 매우 높았다. 한편, 자동채점 과정에 개입하는 채점자 효과를 통제한 경우 인간채점과의 완전일치도는 전년도 프로토타입에 비하여 평균 86.6%에서 96.1%로 높아져, 채점 정확성이 전년 대비 향상되었다.
전년도에 개발 완료한 단어 구 수준 자동채점 프로그램은 2015년 학업성취도 평가 사회 교과의 서답형 문항에 대해 실제표집학생 7,430명의 답안을 최초로 채점하였다. 답안길이와 프로그램의 완성도를 고려하여 단어 구 수준 12문항은 자동채점 방식, 문장 수준 3문항은 기존의 온라인 인간채점 방식으로 운용하였다. 자동채점 절차는 별도의 프로그램을 활용한 답안입력 단계를 거쳐, 동일답안에 대해 채점자 두명이 단어 구수준자동 채점프로그램을 활용하여 독립 채점하도록 하였다. 이때 채점자간 완전일치도는 평균99.5%로 양호하였고, 2014년 대비 채점 인력과 소요 비용은 각각 23.7%, 21.4% 절감할 수 있었다. 또한 단어 구 수준자동채점 프로그램을 사용한 기획·채점위원을 대상으로 사용자 편의성을 조사한 결과, 프로그램의 기능·화면 구성 및 조작·채점 절차측면에서 만족도가 높은 수준으로나타났다.
성과 및 제언
본 연구의 한국어 문장 수준 서답형 문항 자동채점 프로그램은 채점자가 개입하여 채점 과정을 진행하는 채점지원 도구로서, 채점 정확도를 위해 채점을 단계적으로 진행하는 순환형 모니터링 시스템으로 개발하였다. 이에 자동 채점적용은 대규모 평가의 답안을 정확하고 신뢰롭게 채점하면서도 채점 시간과 비용을 점차로 줄여나갈 수 있는 대안적 방편으로 볼 수 있다. 다만, 자동채점 프로그램은 문항 특성에 따라 채점 비율에 편차를 보이고 한국어 처리 기술의 한계로 오류 가능성은 상존하므로 이에 대한 개선책이 지속적으로 요구된다.
마지막으로, 본 연구가 한국어 자동채점 프로그램 구축을 위한 기초 연구이므로, 연구제언과 정책제언을 함께 제시하였다. 후속연구를 위한 제언으로‘한국어 자동채점 프로그램 후속 연구·개발 계획 수립’과 ‘학생 답안 기반 교과별 유의어 목록 및 오답 유형 구축’ 연구를 제안하였다. 이와 함께 프로그램 실용성을 제고하기 위한 정책 제언으로 ‘학업성취도 평가 한국어 자동채점프로그램 점진적 적용’, ‘지필평가 체제 자동채점 적용을 위한 답안 디지털화 개선’, ‘다른 대규모 평가의 한국어 자동채점 프로그램 적용 가능성 탐색’을 마련하고 세부 추진 방안을 제안하였다.
(출처 : 연구요약 7p)
Abstract
▼
Purpose of the Study
In order to effectively manage the scoring of constructed-response (CR) items for Korean large-scale assessments, this study aims to implement the automatic scoring (AS) system for sentence-level responses based on the prototype designed in 2014 and to score CR items for the
Purpose of the Study
In order to effectively manage the scoring of constructed-response (CR) items for Korean large-scale assessments, this study aims to implement the automatic scoring (AS) system for sentence-level responses based on the prototype designed in 2014 and to score CR items for the National Assessment of Educational Achievement (NAEA) 2014 using the AS system. A secondary goal of this study is to pave the way for the extended application of AS program by scoring CR items for NAEA 2015 using the AS system for word- and phrase- level responses.
Development theory using machine learning approach
Having automated classification with machine learning approach is crucial to the accuracy of the AS system for sentence-level responses. By building a consistent classifier from pre-classified answers for machine learning, students’ answers are classified into given set of categories and scored automatically. In order to figure out an optimal approach, we reviewed various machine learning algorithms and scoring circumstance of the NAEA as a large-scale assessment. Machine learning algorithms include supervised learning, unsupervised learning, semi-supervised learning, ensemble learning and so on. The NAEA needs highly accurate and reliable scores, while it has a large amount of students’ answers with a small amount of pre-classified answers for machine learning. Considering on the size and nature of the answers to CR items, we have developed the sentence-level AS system having classifiers based on both semi-supervised and ensemble learning.
Refinements of automatic scoring system
Based on performance analysis of the prototype program developed last year and CR item analysis of the NAEA, we have refined the Korean sentence-level AS system: the modules of the natural language processing phase and the scoring phase, and user interface. The following figure presents an overview of the phases and components involved in the AS system developed this year.
The improvements for the natural language processing phase are as follows: the precision of spacing and spelling correction raised and sentence separation added in normalization of answers, synonym recommendation reinforced in analyzing morphology, and recognizing negative expression added. In order to both reduce rater intervention and raise the precision of correct scoring, we have reinforced the modules in the scoring phase. The extraction and selection of features have been enhanced through simulation of exploration superior method for features weight learning, and reinforced machine learning modeling and automated scoring and clustering through simulation of classifiers.
Application of automatic scoring system and analysis
First, we scored answers to six CR items of Korean language, social studies, and science in the NAEA 2014 using the AS system for sentence-level responses. The analysis has been conducted in terms of scoring simplicity and accuracy. The AS system was designed to cluster students’ answers based on similarity of meaning.
After the initial clustering, by scoring ten types of answers for each item at least 4,200 answers were scored out of about 8,000 answers. This clustering makes the number of the types of answers decreased, thus the scoring process concise and simple. The scores from the AS system were highly consistent with the scores by human scoring showing 96.1 to 99.7% of the exact agreement and 0.82 to 0.99 of correlation coefficients between the scores from two scoring methods. The exact agreements for the AS system this year were higher than those for the prototype. This result means that the performance of the AS system has been improved.
Next, using the AS system for word- and phrase- level responses, we scored answers to twelve CR items of social studies in the NAEA 2015. The answers to the CR items with sentence-level responses were scored by human raters via the online scoring system rather than the AS system under development. The answers were double-scored by the AS system as well as human raters. The scores from the AS system showed a high exact agreement rate (average 99.5%). Furthermore, as compared with cost of scoring method using only the online system, the scoring method using the AS system decreased the personnel and expenses of scoring, 23.7% and 21.4%, respectively. These results imply that the AS system is a low-cost and high efficiency scoring method. Also, self-report survey found that most of participants in automated scoring were satisfied with the AS program function, the interface and operation, and scoring procedure.
Suggestions for policy
The AS program for Korean CR items is designed a human-machine collaborative and stepwise scoring method to guarantee the accuracy of scoring. This study provides evidence that automated scoring might be a reliable and efficient and could serve as a useful complement to human scoring for a large-scale assessment.
However, there is some deviation in scoring rates and scoring errors depending on answers of CR items, so elaboration and improvement of the AS program are needed.
This study makes suggestions on follow-up researches and proposes alternative policies to put the AS program to practical use.
First, the short- and long- term researches should be conducted to enhance the performance the AS program so that the program could accurately handle a variety of language unit in students’ answers to CR items. Also, the studies may be valuable for both assessment and instruction how to compile synonyms databases based on students’ answers and to categorize incorrect answers. Second, in order to maximize utilization of the AS system, we suggest ‘gradual application of the AS program to the NAEA’, ‘optical character recognition of handwritten answers’, and ‘expanding applicability of the AS program’.
(출처 : Abstract 171p)
목차 Contents
- 표지 ... 1
- 연구협력진 ... 3
- 머리말 ... 5
- 연구요약 ... 7
- 목차 ... 11
- 표목차 ... 13
- 그림목차 ... 15
- Ⅰ. 서론 ... 17
- 1. 연구 필요성 및 목적 ... 19
- 가. 관련 정책 및 연구의 필요성 ... 19
- 나. 선행 연구와 본 연구의 차별성 ... 23
- 다. 연구 목적 ... 26
- 2. 연구 내용 ... 26
- 가. 한국어 자동채점을 위한 자연언어처리 기술 이론 탐색 ... 26
- 나. 한국어 문장 수준 서답형 문항 자동채점 프로그램 정교화 개발 ... 26
- 다. 한국어 자동채점 프로그램의 적용 및 결과 분석 ... 27
- 라. 한국어 서답형 문항 자동채점 프로그램 활용 방안 도출 ... 27
- 3. 연구 추진 방법 ... 28
- 가. 문헌 연구 ... 28
- 나. 문항 분석 ... 28
- 다. 프로그램 개발 ... 29
- 라. 프로그램 적용 ... 30
- 마. 통계 분석 ... 30
- 바. 설문 조사 및 심층 면담 ... 31
- 사. 전문가 협의회 ... 31
- 아. 세미나 개최 ... 32
- Ⅱ. 한국어 자동채점을 위한 기계학습 기반 자동분류 이론 탐색 ... 33
- 1. 기계학습 기반 자동분류의 의미 및 원리 ... 35
- 가. 기계학습 기반 자동분류의 의미 ... 35
- 나. 기계학습 기반 자동분류의 원리 ... 36
- 2. 기계학습 기반 자동분류 유형 ... 42
- 가. 지도학습 기반 자동분류 ... 43
- 나. 비지도학습 기반 자동분류 ... 45
- 다. 준지도학습 기반 자동분류 ... 48
- 라. 앙상블학습 기반 자동분류 ... 51
- 3. 한국어 자동채점 프로그램을 위한 기계학습 방법의 선정 ... 53
- Ⅲ. 한국어 문장 수준 자동채점 프로그램 정교화 개발 ... 55
- 1. 2014년 개발 프로토타입 분석 및 개선 방향 탐색 ... 57
- 가. 프로토타입의 성능 분석 ... 57
- 나. 대상 문항의 채점기준 및 답안 분석 ... 60
- 다. 프로토타입의 개선 방향 수립 ... 63
- 2. 문장 수준 자동채점 프로그램의 정교화 설계 및 개발 ... 65
- 가. 언어처리 기술의 보완 및 정교화 ... 66
- 나. 채점 방식의 보완 및 정교화 ... 73
- 다. 사용자 인터페이스 개선 ... 79
- Ⅳ. 한국어 자동채점 프로그램의 적용 및 결과 분석 ... 87
- 1. 문장 수준 자동채점 프로그램의 시범 적용 ... 89
- 가. 분석 대상 및 방법 ... 89
- 나. 분석 결과 ... 94
- 2. 단어・구 수준 자동채점 프로그램의 적용 ... 108
- 가. 2015년 학업성취도 평가의 자동채점 적용 절차 ... 108
- 나. 서답형 문항 답안 입력 프로그램 개발 ... 113
- 다. 분석 대상 및 방법 ... 117
- 라. 분석 결과 ... 119
- Ⅴ. 결론 및 제언 ... 127
- 1. 결론 ... 129
- 가. 한국어 자동채점을 위한 기계학습 기반 자동분류 이론 탐색 ... 129
- 나. 한국어 문장 수준 자동채점 프로그램 정교화 개발 ... 130
- 다. 한국어 자동채점 프로그램의 적용 및 결과 분석 ... 131
- 라. 한국어 자동채점 프로그램의 성과와 한계 ... 133
- 2. 제언 ... 136
- 가. 자동채점 연구․개발 선도 ... 137
- 나. 자동채점 적용 확대 ... 148
- 참고 문헌 ... 165
- ABSTRACT ... 171
- 부록 ... 175
- 부록1. 한국어 문장 수준 자동채점 프로그램 적용 문항 및 예시 정답 ... 177
- 부록2. 한국어 단어·구 수준 자동채점 프로그램 적용 문항 및 예시 정답 ... 180
- 부록3. 한국어 단어·구 수준 자동채점 프로그램 사용자 매뉴얼 ... 182
- 부록4. 한국어 단어·구 수준 자동채점 프로그램 사용자 의견 조사 설문지 ... 194
- 끝페이지 ... 197
※ AI-Helper는 부적절한 답변을 할 수 있습니다.