[보고서]한국어 문장 수준 서답형 문항 자동채점 프로그램 개발 및 적용

노은희

한국어 문장 수준 서답형 문항 자동채점 프로그램 개발 및 적용
Refinements and Application of Automatic Scoring Programs for Korean Large-scale Assessments 원문보기

보고서 정보
주관연구기관	한국교육과정평가원 Korea Institute Of Curriculum & Evaluation
연구책임자	노은희
참여연구자	송미영 , 성경희 , 박소영
보고서유형	최종보고서
발행국가	대한민국
언어	한국어
발행년월	2015-12
과제시작연도	2015
주관부처	국무조정실 The Office for Government Policy Coordination
등록번호	TRKO201800023007
과제고유번호	1105010420
사업명	한국교육과정평가원
DB 구축일자	2018-06-30
DOI	https://doi.org/10.23000/TRKO201800023007

초록 ▼

연구 목적
본 연구는 대규모 평가에서 서답형 문항채점의 효율화를 도모하기 위한 차원에서, 전년도에 설계한 한국어 문장수준 자동채점 프로그램의 프로토타입을 실제적용 가능한 시스템으로 구현하고 국가수준 학업성취도 평가 문항에 시범 적용하는 데 주된 목적이 있다. 또한 전년도에 개발완료 한 단어 구수준 자동채점 프로그램으로 올해 시행된 학업성취도 평가의 중3 표집학생의 답안을 실제 채점함으로써 자동채점 적용을 위한 기틀을 마련하고자 한다.

개발 이론 구축
한국어 문장수준 자동채점프로그램의 정확성을 제고하는 데는 기계학습 기반의 자동분류 방법이 관건이 된다. 자동분류방법으로 학습용 답안의 정보기술적· 통계적 특징을 분석하여 일관성 있는 분류 기준을 세워 점수별로 분류하면, 그에 따라 남은 학생 답안들을 자동으로 채점하는 것이다. 즉, 자동채점에서 정확하고 일관성 있는 분류는 곧 채점의 정확성으로 이어진다. 자동분류 방법은 지도학습 기반, 비지도학습 기반, 준지도학습 기반, 앙상블학습 기반방법 등이 있는데, 이 가운데 한국적 평가상황을 고려하여 최적화된 방법을 찾아 이를 프로그램에 구현해야 한다.

본 연구의 자동채점 프로그램은 국가수준의 대규모 평가에 적용해야 하므로, 정확하고 신뢰로운 채점은 물론 매번검사 문항이 달라짐을 염두에 두어야 한다. 따라서 기계학습을 위한 학습용답안 구축이 충분하지 않은 상황에서도 채점성능이 담보되는 준지도 학습방법을 기반으로 하되, 여러 자동분류 방법의 결과들을 최종 조합하여 정확성을 높이는 앙상블학습 방법을 프로그램에 복합적으로 구현하는 것이 적합하다.

프로그램 개발
올해 문장 수준 자동채점 프로그램은 프로토타입의 성능 분석과 학업성취도 평가 문항분석을 토대로, 크게 언어처리 기술, 채점 방식, 사용자 인터페이스 측면에서 관련 기술을 보강하고 정교화하였다. 올해 개발한 프로그램의 시스템 구조도와 전년 대비 개선 항목은 다음과 같다.

먼저 언어처리 단계에서는 문서정규화 과정의 띄어쓰기 및 철자 교정 기능의 정확률을 제고하고, 두 문장 이상의 답안을 처리할 수 있도록 학습말뭉치와 기계학습 방법을 이용하여 문장 분리 기능을 추가하였다. 또한 형태소 분석 과정에서 불필요한 형태소 후보를 제거하는 기능과 유의어 추천 기능을 보강하고, 학생 답안에 포함된 부정표현을 기계학습의 자질로 제공하여 시스템의 성능을 개선하였다. 다음으로 채점 단계에서는 채점자 개입을 줄이면서 자동채점 정확률을 높이기 위해, 자질 가중치 부여 방안을 추가적으로 탐색하여 자질추출 기능을 강화하고, 학습모델 생성 기능과 자동채점 및 군집화 기능을 다양한 실험을 통해 개선하였다. 마지막으로 사용자 인터페이스 측면에서는 2014년 프로토타입에서 혼란을 일으켰던 메뉴명/버튼명 등을 이해하기 쉬운 용어로 변경하여 사용자 편의를 높였다. 또한 프로그램의 개선 결과로 일부 기능을 수정ㆍ보강하거나 새로운 기능을 개발함에 따라 필요한 인터페이스를 추가하였다.

적용 및 결과 분석
올해 개발한 문장 수준 자동채점 프로그램은 2014년 학업성취도 평가 국어·사회·과학 교과의 한 문장 수준 서답형 6문항에 시범 적용하여, 프로그램의 간결성과 정확성을 분석하였다. 본 프로그램은 학생답안을 의미유사도로 군집화하여 채점 진행의 간결성을 높인다. 이에 1차 군집화 결과, 문항별 답안유형 10개만 채점하여도 약 8,000개 중 최소4,200여개 답안을 채점할 수 있었다. 자동채점 결과와 인간채점과의 비교를 통한 정확성 분석 결과, 두 점수 간 완전일치도는 96.1～99.7%, 상관계수는 0.82～0.99로 매우 높았다. 한편, 자동채점 과정에 개입하는 채점자 효과를 통제한 경우 인간채점과의 완전일치도는 전년도 프로토타입에 비하여 평균 86.6%에서 96.1%로 높아져, 채점 정확성이 전년 대비 향상되었다.

전년도에 개발 완료한 단어 구 수준 자동채점 프로그램은 2015년 학업성취도 평가 사회 교과의 서답형 문항에 대해 실제표집학생 7,430명의 답안을 최초로 채점하였다. 답안길이와 프로그램의 완성도를 고려하여 단어 구 수준 12문항은 자동채점 방식, 문장 수준 3문항은 기존의 온라인 인간채점 방식으로 운용하였다. 자동채점 절차는 별도의 프로그램을 활용한 답안입력 단계를 거쳐, 동일답안에 대해 채점자 두명이 단어 구수준자동 채점프로그램을 활용하여 독립 채점하도록 하였다. 이때 채점자간 완전일치도는 평균99.5%로 양호하였고, 2014년 대비 채점 인력과 소요 비용은 각각 23.7%, 21.4% 절감할 수 있었다. 또한 단어 구 수준자동채점 프로그램을 사용한 기획·채점위원을 대상으로 사용자 편의성을 조사한 결과, 프로그램의 기능·화면 구성 및 조작·채점 절차측면에서 만족도가 높은 수준으로나타났다.

성과 및 제언
본 연구의 한국어 문장 수준 서답형 문항 자동채점 프로그램은 채점자가 개입하여 채점 과정을 진행하는 채점지원 도구로서, 채점 정확도를 위해 채점을 단계적으로 진행하는 순환형 모니터링 시스템으로 개발하였다. 이에 자동 채점적용은 대규모 평가의 답안을 정확하고 신뢰롭게 채점하면서도 채점 시간과 비용을 점차로 줄여나갈 수 있는 대안적 방편으로 볼 수 있다. 다만, 자동채점 프로그램은 문항 특성에 따라 채점 비율에 편차를 보이고 한국어 처리 기술의 한계로 오류 가능성은 상존하므로 이에 대한 개선책이 지속적으로 요구된다.

마지막으로, 본 연구가 한국어 자동채점 프로그램 구축을 위한 기초 연구이므로, 연구제언과 정책제언을 함께 제시하였다. 후속연구를 위한 제언으로‘한국어 자동채점 프로그램 후속 연구·개발 계획 수립’과 ‘학생 답안 기반 교과별 유의어 목록 및 오답 유형 구축’ 연구를 제안하였다. 이와 함께 프로그램 실용성을 제고하기 위한 정책 제언으로 ‘학업성취도 평가 한국어 자동채점프로그램 점진적 적용’, ‘지필평가 체제 자동채점 적용을 위한 답안 디지털화 개선’, ‘다른 대규모 평가의 한국어 자동채점 프로그램 적용 가능성 탐색’을 마련하고 세부 추진 방안을 제안하였다.

(출처 : 연구요약 7p)

Abstract ▼

Purpose of the Study
In order to effectively manage the scoring of constructed-response (CR) items for Korean large-scale assessments, this study aims to implement the automatic scoring (AS) system for sentence-level responses based on the prototype designed in 2014 and to score CR items for the National Assessment of Educational Achievement (NAEA) 2014 using the AS system. A secondary goal of this study is to pave the way for the extended application of AS program by scoring CR items for NAEA 2015 using the AS system for word- and phrase- level responses.

Development theory using machine learning approach
Having automated classification with machine learning approach is crucial to the accuracy of the AS system for sentence-level responses. By building a consistent classifier from pre-classified answers for machine learning, students’ answers are classified into given set of categories and scored automatically. In order to figure out an optimal approach, we reviewed various machine learning algorithms and scoring circumstance of the NAEA as a large-scale assessment. Machine learning algorithms include supervised learning, unsupervised learning, semi-supervised learning, ensemble learning and so on. The NAEA needs highly accurate and reliable scores, while it has a large amount of students’ answers with a small amount of pre-classified answers for machine learning. Considering on the size and nature of the answers to CR items, we have developed the sentence-level AS system having classifiers based on both semi-supervised and ensemble learning.

Refinements of automatic scoring system
Based on performance analysis of the prototype program developed last year and CR item analysis of the NAEA, we have refined the Korean sentence-level AS system: the modules of the natural language processing phase and the scoring phase, and user interface. The following figure presents an overview of the phases and components involved in the AS system developed this year.

The improvements for the natural language processing phase are as follows: the precision of spacing and spelling correction raised and sentence separation added in normalization of answers, synonym recommendation reinforced in analyzing morphology, and recognizing negative expression added. In order to both reduce rater intervention and raise the precision of correct scoring, we have reinforced the modules in the scoring phase. The extraction and selection of features have been enhanced through simulation of exploration superior method for features weight learning, and reinforced machine learning modeling and automated scoring and clustering through simulation of classifiers.

Application of automatic scoring system and analysis
First, we scored answers to six CR items of Korean language, social studies, and science in the NAEA 2014 using the AS system for sentence-level responses. The analysis has been conducted in terms of scoring simplicity and accuracy. The AS system was designed to cluster students’ answers based on similarity of meaning.

After the initial clustering, by scoring ten types of answers for each item at least 4,200 answers were scored out of about 8,000 answers. This clustering makes the number of the types of answers decreased, thus the scoring process concise and simple. The scores from the AS system were highly consistent with the scores by human scoring showing 96.1 to 99.7% of the exact agreement and 0.82 to 0.99 of correlation coefficients between the scores from two scoring methods. The exact agreements for the AS system this year were higher than those for the prototype. This result means that the performance of the AS system has been improved.

Next, using the AS system for word- and phrase- level responses, we scored answers to twelve CR items of social studies in the NAEA 2015. The answers to the CR items with sentence-level responses were scored by human raters via the online scoring system rather than the AS system under development. The answers were double-scored by the AS system as well as human raters. The scores from the AS system showed a high exact agreement rate (average 99.5%). Furthermore, as compared with cost of scoring method using only the online system, the scoring method using the AS system decreased the personnel and expenses of scoring, 23.7% and 21.4%, respectively. These results imply that the AS system is a low-cost and high efficiency scoring method. Also, self-report survey found that most of participants in automated scoring were satisfied with the AS program function, the interface and operation, and scoring procedure.

Suggestions for policy
The AS program for Korean CR items is designed a human-machine collaborative and stepwise scoring method to guarantee the accuracy of scoring. This study provides evidence that automated scoring might be a reliable and efficient and could serve as a useful complement to human scoring for a large-scale assessment.
However, there is some deviation in scoring rates and scoring errors depending on answers of CR items, so elaboration and improvement of the AS program are needed.
This study makes suggestions on follow-up researches and proposes alternative policies to put the AS program to practical use.

First, the short- and long- term researches should be conducted to enhance the performance the AS program so that the program could accurately handle a variety of language unit in students’ answers to CR items. Also, the studies may be valuable for both assessment and instruction how to compile synonyms databases based on students’ answers and to categorize incorrect answers. Second, in order to maximize utilization of the AS system, we suggest ‘gradual application of the AS program to the NAEA’, ‘optical character recognition of handwritten answers’, and ‘expanding applicability of the AS program’.

(출처 : Abstract 171p)

목차 Contents

표지 ... 1
연구협력진 ... 3
머리말 ... 5
연구요약 ... 7
목차 ... 11
표목차 ... 13
그림목차 ... 15
Ⅰ. 서론 ... 17
1. 연구 필요성 및 목적 ... 19
가. 관련 정책 및 연구의 필요성 ... 19
나. 선행 연구와 본 연구의 차별성 ... 23
다. 연구 목적 ... 26
2. 연구 내용 ... 26
가. 한국어 자동채점을 위한 자연언어처리 기술 이론 탐색 ... 26
나. 한국어 문장 수준 서답형 문항 자동채점 프로그램 정교화 개발 ... 26
다. 한국어 자동채점 프로그램의 적용 및 결과 분석 ... 27
라. 한국어 서답형 문항 자동채점 프로그램 활용 방안 도출 ... 27
3. 연구 추진 방법 ... 28
가. 문헌 연구 ... 28
나. 문항 분석 ... 28
다. 프로그램 개발 ... 29
라. 프로그램 적용 ... 30
마. 통계 분석 ... 30
바. 설문 조사 및 심층 면담 ... 31
사. 전문가 협의회 ... 31
아. 세미나 개최 ... 32
Ⅱ. 한국어 자동채점을 위한 기계학습 기반 자동분류 이론 탐색 ... 33
1. 기계학습 기반 자동분류의 의미 및 원리 ... 35
가. 기계학습 기반 자동분류의 의미 ... 35
나. 기계학습 기반 자동분류의 원리 ... 36
2. 기계학습 기반 자동분류 유형 ... 42
가. 지도학습 기반 자동분류 ... 43
나. 비지도학습 기반 자동분류 ... 45
다. 준지도학습 기반 자동분류 ... 48
라. 앙상블학습 기반 자동분류 ... 51
3. 한국어 자동채점 프로그램을 위한 기계학습 방법의 선정 ... 53
Ⅲ. 한국어 문장 수준 자동채점 프로그램 정교화 개발 ... 55
1. 2014년 개발 프로토타입 분석 및 개선 방향 탐색 ... 57
가. 프로토타입의 성능 분석 ... 57
나. 대상 문항의 채점기준 및 답안 분석 ... 60
다. 프로토타입의 개선 방향 수립 ... 63
2. 문장 수준 자동채점 프로그램의 정교화 설계 및 개발 ... 65
가. 언어처리 기술의 보완 및 정교화 ... 66
나. 채점 방식의 보완 및 정교화 ... 73
다. 사용자 인터페이스 개선 ... 79
Ⅳ. 한국어 자동채점 프로그램의 적용 및 결과 분석 ... 87
1. 문장 수준 자동채점 프로그램의 시범 적용 ... 89
가. 분석 대상 및 방법 ... 89
나. 분석 결과 ... 94
2. 단어･구 수준 자동채점 프로그램의 적용 ... 108
가. 2015년 학업성취도 평가의 자동채점 적용 절차 ... 108
나. 서답형 문항 답안 입력 프로그램 개발 ... 113
다. 분석 대상 및 방법 ... 117
라. 분석 결과 ... 119
Ⅴ. 결론 및 제언 ... 127
1. 결론 ... 129
가. 한국어 자동채점을 위한 기계학습 기반 자동분류 이론 탐색 ... 129
나. 한국어 문장 수준 자동채점 프로그램 정교화 개발 ... 130
다. 한국어 자동채점 프로그램의 적용 및 결과 분석 ... 131
라. 한국어 자동채점 프로그램의 성과와 한계 ... 133
2. 제언 ... 136
가. 자동채점 연구․개발 선도 ... 137
나. 자동채점 적용 확대 ... 148
참고 문헌 ... 165
ABSTRACT ... 171
부록 ... 175
부록1. 한국어 문장 수준 자동채점 프로그램 적용 문항 및 예시 정답 ... 177
부록2. 한국어 단어·구 수준 자동채점 프로그램 적용 문항 및 예시 정답 ... 180
부록3. 한국어 단어·구 수준 자동채점 프로그램 사용자 매뉴얼 ... 182
부록4. 한국어 단어·구 수준 자동채점 프로그램 사용자 의견 조사 설문지 ... 194
끝페이지 ... 197

표/그림 (81)

표 한국어 자동채점 프로그램의 연차별 개발 계획
표 2015년 한국어 자동채점 프로그램 개발․적용 연구 개요
표 2012년 학업성취도 평가 중3 국어 5번 문항
표 2012년 학업성취도 평가 중3 국어 5번 문항에 대한 학생 답안 예시
표 기계학습 기반 자동분류 과정
표 자질벡터 공간에 표현된 학생 답안
표 2012년 학업성취도 평가 중3 국어 5번 문항의 학생 답안 자질벡터 추출 예시
표 2012년 학업성취도 평가 중3 국어 5번 문항의 학생 답안 자질벡터에 대한 tf-idf 표현 예시
표 지도학습 기반 자동분류의 예
표 나이브 베이즈 분류 방법에 의한 지도학습의 예
표 비지도학습 기반 자동분류의 예
표 점증적 준지도학습 기반 자동분류
표 점증적 준지도학습을 통한 학습용 답안의 확장 예
표 앙상블학습 기반 자동분류
표 앙상블학습 방법의 예
표 AdaBoost 알고리즘을 이용한 앙상블학습 기반 자동분류의 예
표 기계학습 기반 자동분류 방법 비교
표 2014년 개발 문장 수준 자동채점 프로그램 프로토타입의 시스템 구조도
표 2014년 문장 수준 자동채점 프로토타입의 성능 분석
표 2014년 학업성취도 평가 중3 국어 6-(1)-㉠번 문항 채점기준
표 2014년 학업성취도 평가 중3 사회 2번 문항 채점기준
표 2014년 학업성취도 평가 중3 과학 8-(1)번 문항 채점기준
표 2015년 개발 문장 수준 자동채점 프로그램 시스템 구조도 및 개선 항목
표 언어처리 단계의 세부 구조도
표 자질 집합을 이용한 문장 분리 예
표 채점 단계의 세부 구조도
표 자질 선택을 위한 2차원 분할표
표 2015년 문장 수준 자동채점 프로그램 개선 항목
표 2015년 개발 문장 수준 자동채점 프로그램의 메인 화면
표 단순 군집화에 따른 학생 답안 유형 빈도별 제시 화면
표 철자 교정 사전
표 유의어 사전
표 자동채점 및 군집화 결과
표 부분 점수 추가를 확인하기 위한 인터페이스
표 미채점 답안에 대한 수작업 채점 옵션 적용 인터페이스
표 한국어 자동채점 프로그램 적용 개요
표 2014년 학업성취도 평가 자동채점 대상 1문장 수준 서답형 문항 정보
표 자동채점 결과의 정확성 평가를 위한 답안 분류
표 문장 수준 자동채점 프로그램 시범 적용에 따른 문항별 답안 유형 수
표 문장 수준 자동채점 프로그램 시범 적용에 따른 문항별 채점 정보
표 2015년 문장 수준 자동채점 프로그램의 전년 대비 채점 정보 비교
표 문장 수준 자동채점 프로그램 채점 결과의 문항별 정확성
표 문장 수준 자동채점 프로그램 채점 결과의 정확성 평균
표 2015년 문장 수준 자동채점 프로그램의 전년 대비 정확성 비교
표 2015년 학업성취도 평가 사회 교과 자동채점 절차
표 자동채점 절차 결정 틀
표 2015년 학업성취도 평가 사회 교과 자동채점 단계의 세부 절차
표 2015년 학업성취도 평가 사회 교과 표집채점 일정
표 2015년 학업성취도 평가 사회 교과 입력 및 채점 인원 구성
표 서답형 문항 답안 입력 프로그램 구성도
표 답안 입력 프로그램의 답안 입력 화면
표 답안 입력 프로그램의 답안 검토 화면
표 2015년 학업성취도 평가 중3 사회 서답형 문항 정보
표 2015년 학업성취도 평가 중3 사회 단어 구 수준 자동채점의 채점자 간 일관성
표 학업성취도 평가중3 사회 단어 구 수준문항 자동채점과인간채점의 채점자 간 일관성 비교
표 학업성취도 평가 중3 사회 교과 서답형 문항의 연도별 표집채점 비용
표 중3 사회 교과의 채점 방식에 따른 채점 인원과 비용 비교
표 단어·구 수준 자동채점 프로그램의 사용자 만족도
표 단어·구 수준 자동채점 프로그램의 개선 필요 사항
표 한국어 자동채점 프로그램 구현을 위한 자동분류 방법 비교
표 2015년 개발 문장 수준 자동채점 프로그램 개선 항목 및 시스템 구조도
표 한국어 자동채점 프로그램 관련 연구 및 정책 제언
표 2016년 문장 수준 자동채점 프로그램 연구·개발 수행 계획 (안)
표 2016년 단어·구 수준 자동채점 프로그램 연구 개발 수행 계획 (안)
표 문단 수준 자동채점 프로그램 개발 계획 (안)
표 한국어 자동채점 프로그램 단계적 연구․개발 로드맵
표 문장 수준 자동채점 프로그램의 교과별 유의어 작성 화면
표 문장 수준 자동채점 프로그램의 학생 답안 유형 빈도별 제시 화면
표 2015년 학업성취도 평가 교과별 서답형 문항 비율 (%)
표 학업성취도 평가 자동채점 연도별 적용 계획(안)
표 학업성취도 평가 자동채점 적용에 따른 예상 절감 비용
표 학업성취도 평가 전체 채점 절차 개요(안)
표 학업성취도 평가 문항별 채점 단계의 세부 절차(안)
표 필기체 문자 인식 처리 과정
표 필기체 한글과 숫자 인식 예시
표 학업성취도 평가 서답형 문항별 공백 답란 제외에 따른 예상 절감 비용
표 문자 인식을 위한 답란 형태 수정 예시(안)
표 2015학년도 제1차 중등교사임용시험 전공 과목의 문항 구성
표 2015학년도 제1차 중등교사임용시험 일반사회 전공A 과목의 자동채점 시범 적용 결과
표 중등교사임용시험 기입형 문항의 채점 절차 (안)
표 Automatic scoring process for sentence-level responses

과제명(ProjectTitle) :	-
연구책임자(Manager) :	-
과제기간(DetailSeriesProject) :	-
총연구비 (DetailSeriesProject) :	-
키워드(keyword) :	-
과제수행기간(LeadAgency) :	-
연구목표(Goal) :	-
연구내용(Abstract) :	-
기대효과(Effect) :	-

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 제목(한글), 저자명(한글), 발행일자, 전자원문, 초록(한글), 초록(영문) 관리번호, 제목(한글), 제목(영문), 저자명(한글), 저자명(영문), 주관연구기관(한글), 주관연구기관(영문), 발행일자, 총페이지수, 주관부처명, 과제시작일, 보고서번호, 과제종료일, 주제분류, 키워드(한글), 전자원문, 키워드(영문), 입수제어번호, 초록(한글), 초록(영문), 목차
저장형식	Text(ASCII format) Excel format
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

한국어 문장 수준 서답형 문항 자동채점 프로그램 개발 및 적용
Refinements and Application of Automatic Scoring Programs for Korean Large-scale Assessments 원문보기