보고서 정보
주관연구기관 |
한국교육과정평가원 Korea Institute Of Curriculum & Evaluation |
연구책임자 |
노은희
|
참여연구자 |
이상하
,
임은영
,
성경희
,
박소영
|
보고서유형 | 최종보고서 |
발행국가 | 대한민국 |
언어 |
한국어
|
발행년월 | 2014-12 |
주관부처 |
국무조정실 The Office for Government Policy Coordination |
과제관리전문기관 |
한국교육과정평가원 Korea Institute Of Curriculum & Evaluation |
등록번호 |
TRKO201800022971 |
DB 구축일자 |
2018-06-30
|
DOI |
https://doi.org/10.23000/TRKO201800022971 |
초록
▼
연구 목적
본 연구는 대규모 평가에서 서답형 문항 채점의 효율화를 도모하기 위한 차원에서, 기 개발된 단어·구 수준의 한국어 서답형 자동채점 프로그램의 실용성을 강화함과 동시에 이를 문장 수준의 자동채점 프로그램으로 확장·개발하는 데 목적을 두었다.
개발 이론 구축
한국어 특징을 고려하여 최적화된 자동채점 프로그램을 구현하기 위해서는, 자연언어 처리 기술로 학생 답안의 형태소와 문장성분을 정밀하게 분석하여 문장성분 생략이 빈번하고 어순이 비교적 자유로운 한국어의 특징적 한계를 극복해야 한다. 자동채점에서 한국
연구 목적
본 연구는 대규모 평가에서 서답형 문항 채점의 효율화를 도모하기 위한 차원에서, 기 개발된 단어·구 수준의 한국어 서답형 자동채점 프로그램의 실용성을 강화함과 동시에 이를 문장 수준의 자동채점 프로그램으로 확장·개발하는 데 목적을 두었다.
개발 이론 구축
한국어 특징을 고려하여 최적화된 자동채점 프로그램을 구현하기 위해서는, 자연언어 처리 기술로 학생 답안의 형태소와 문장성분을 정밀하게 분석하여 문장성분 생략이 빈번하고 어순이 비교적 자유로운 한국어의 특징적 한계를 극복해야 한다. 자동채점에서 한국어는 문장 분석 전처리, 문장 분석, 문장 비교의 세 단계를 거친다. 문장 분석 전처리 단계에서는 문장 분리·기호 제거·철자 오류 교정·띄어쓰기 오류 교정 등의 기술이, 문장분석 단계에서는 형태소 분석 및 품사 부착, 기본구 인식, 구문 분석, 의미역 분석 등의 기술이 요구된다. 문장 비교 단계에서는 학생 답안과 모범 답안을 형태소열, 개념기반, 문장구조기반을 근거로 비교하여 채점 점수를 산출한다.
프로그램 개발
올해 한국어 서답형 문항 자동채점 프로그램은 단어·구 수준의 경우 실용성 강화를 목표로, 문장 수준의 경우 프로토타입 설계를 목표로 이원화하여 개발하였다.
전년도에 개발한 단어·구 수준 자동채점 프로그램은 개별 문항별로 채점하는 시스템이다. 올해는 프로그램의 실용성을 강화하기 위해 단일 교과의 전체 서답형 문항을 대상으로 일련의 통합된 채점 처리 과정을 지원하고, 학생별로 최종 채점 결과를 보고하여 교수ㆍ학습 과정에 실질적인 피드백을 제공할 수 있는 도구를 보강하였다. 또한, 답안 정규화 과정을 자동채점과 분리하여 미리 진행함으로써, 기존에 자동채점 전후 단계로 분산되어 있던 정규화 과정에서의 전문가 개입을 최소화하였다. 이와 함께 채점의 정확도에 영향을 줄 수 있는 개념 편집, 지식베이스 연계 등의 기능을 제고하고, 유사한 답안에 대한 채점 결과를 비교·점검할 수 있는 기능도 보강하였다.
한편, 올해 처음으로 문장 수준 답안을 처리할 수 있는 자동채점 프로그램의 프로토타입을 설계하였다. 먼저 2009년~2013년 학업성취도 평가 국어, 사회 교과의 문장 수준 서답형 문항 및 학생 답안을 분석하여 개발에 필요한 자연언어처리 기술을 도출하였다. 이는 현재의 자연언어처리 기술을 고려하여 서답형 문항을 처리하는 데 필요한 최적화된 구현 방안을 모색하고자 함이다. 이에 프로그램은 문장 수준 답안을 처리하기 위해 ‘언어분석 및 처리 단계’를 강화하여 ‘채점 단계’와 별도로 마련하였다. 언어 분석 및 처리 단계는 학생 답안의 언어 정보를 자동채점이 가능하도록 분석하는 단계이고, 채점 단계는 학생 답안과 모범 답안의 언어 분석 결과로부터 군집화에 필요한 자질을 추출하고 의미적으로 유사한 학생 답안을 반복적으로 군집화하여 채점을 지원하는 단계이다. 올해 개발한 두 프로그램의 시스템 구조는 다음과 같다.
시범 적용 결과
먼저, 단어·구 수준 프로그램의 채점 정확성 분석을 위해 2014년 학업성취도 평가 중3 사회 서답형 14문항의 각 7,442개 답안에 적용하여 합숙채점 최종점수와 자동채점 점수간 상관관계와 일치도를 분석한 결과, 두 점수 간 완전일치도는 97.76%~99.99%, 상관계수는 0.97~1.00, 카파계수는 0.94~1.00로 매우 우수한 것으로 나타났다. 이것은 단어·구 수준 서답형 문항의 자동채점 결과가 채점 전문가만큼 정확하다는 것을 의미한다. 또한 단일 교과를 기준으로 프로그램의 비용 절감 측면을 분석한 결과, 기존 합숙채점 방식과 비교하여 인력은 1/3 수준, 비용은 20% 수준인 것으로 나타났다.
다음으로, 문장 수준 프로그램의 프로토타입은 간결성과 정확성 측면으로 나누어 분석하였다. 본 프로그램은 채점 진행의 간결성을 높이기 위해 의미 유사도로 답안을 군집화한 후 채점을 누적하면서 답안 유형 수를 감소시키는데, 2013년 학업성취도 평가 국어 9문항, 사회 2문항의 각 1,000개 답안에 적용한 결과, 1차로 답안을 군집화하면 문항별 답안 유형 수가 3.1%~37.5%로 감소하고 이를 바탕으로 채점하면 평균 55.9%의 답안이 채점되었다. 이처럼 군집화를 통해 답안 유형 수를 줄이고 동시에 기계학습에 필요한 기준답안을 다수 확보함으로써, 채점의 간결성이 곧 정확성과도 연결됨을 확인하였다. 또한, 프로그램의 채점 정확성 분석을 위해 국어 9문항, 사회 2문항의 각 1,000개 답안에 적용하여 기준점수와 자동채점 점수 간 상관관계와 일치도를 분석한 결과, 두 점수 간 완전일치도는 91.5~100%, 상관계수는 0.82~1.00, 카파계수는 0.8~1.00로 적정하게 우수한 것으로 나타났다.
성과 및 제언
본 연구의 한국어 서답형 문항 자동채점 프로그램은 채점 전문가가 개입하여 채점 과정을 진행하는 채점 지원 도구로서, 채점 정확도를 위해 채점을 단계적으로 진행하는 순환형 모니터링 시스템으로 설계하였다. 다만, 자동채점 프로그램은 문항 특성에 따라 채점 비율과 채점 오류에 편차를 보이고 자연언어처리 기술의 한계로 오류 가능성이 있어서 이에 대한 개선책이 추후 요구된다.
마지막으로, 본 연구가 한국어 서답형 문항 자동채점 프로그램 체제 구축을 위한 기초 연구이므로, 후속의 연구와 실용성 제고 방안에 대하여 제안하였다. 후속 연구를 위해 ‘한국어 문장 및 다문장 수준 자동채점 프로그램 연구·개발 계획’ 추진을 제안하고, 세부추진 과제로 ‘단·중기 프로그램 개발 계획’과 ‘장기 프로그램 연계 계획’의 개발 로드맵을 보여주었다. 이와 함께 프로그램 실용성을 제고하기 위한 정책 제언으로 ‘한국어 자동채점 프로그램의 실용성 제고 방안’을 제시하고, ‘대규모 평가의 채점 지원 도구로서의 프로그램 활용’, ‘학교 단위의 교수·학습 지원 도구로서의 프로그램 활용’으로 나누어 세부추진 과제를 제안하였다.
(출처 : 연구요약 9p)
Abstract
▼
Purpose of the Study
In order to enhance the efficiency of scoring constructed response items for large scale assessment, this study aims to enhance the practicality of an automatic scoring system for word- and phrase-level responses and develop a prototype of an automatic scoring system for sent
Purpose of the Study
In order to enhance the efficiency of scoring constructed response items for large scale assessment, this study aims to enhance the practicality of an automatic scoring system for word- and phrase-level responses and develop a prototype of an automatic scoring system for sentence-level responses.
Development Theory using natural language processing
In order to implement an automatic scoring system to optimize the features of the Korean language, we need to overcome two distinctive aspects of Korean—frequent abbreviation of sentence constituents and variable word order—by thoroughly analyzing the morphemes and sentence constituents of students’ answer sheets via natural language processing.
There are three steps involved in automatically scoring constructed responses in Korean: pre-processing of sentence analysis, sentence analysis, and comparison of sentences. The pre-processing stage is comprised of sentence separation, symbol elimination, and correction of spelling and spacing errors. The sentence analysis stage includes skills such as morpheme analysis, attachment of parts of speech, recognition of basic phrases, and thematic role analysis. Finally, in the comparison of sentences stage, students’ answers are scored automatically based on comparisons of morpheme lists, concepts, and sentence structures between a student’s answer and the right answer.
Automatic scoring system Development
This year, the Korean constructed response automatic scoring program was devised by dualizing the goals of its development: a) reinforcing the practicality of the word- and phrase-level program, and b) designing a prototype of a sentence-level program. The word- and phrase-level automatic scoring program developed last year is a system that scores each question. However, this year we have built an integrated scoring processing system both to score all constructed response items of a single subject, and to provide substantial feedback to help teaching and learning by reporting the results of final scores and explanations of scores for each student, in order to fortify the usefulness of the program.
Furthermore, by setting apart the normalization process for answers from the automatic scoring and proceeding with it in advance, professional intervention in the normalization process, which used be dispersed across before/after stages, has been minimized. In addition, functionalities such as concept-editing and knowledge base association, which can influence the accuracy of the scoring process and the capacity to compare and examine the results of similar answers, have been enhanced.
Meanwhile, we have developed a prototype of an automatic scoring program to deal with the sentence level for the first time this year. To begin with, the natural language processing technology required for the program has been explored using sentence-level constructed response items from the 2009-2013 National Assessment Educational Achievement (NAEA). Also, we established a separate scoring stage and strengthened the language analysis and processing step to handle sentence-level answers.
In the language analysis and processing step, student answers are decomposed to obtain language information for automatic scoring, and in the scoring step, language features are extracted and the student’s answers are grouped with other answers that have similar language features. Finally, grouped answers are automatically scored by comparing them with the language features of standard answers. The two programs developed this year are as follows.
The results of trial application of automatic scoring system
First, we scored 14 9th grade social studies constructed response items from the 2014 NAEA in terms of scoring accuracy for the automatic scoring system for the word and phrase levels. The results of the 2014 constructed response items show a high exact agreement rate (97.76∼99.9%), high correlation coefficients (0.97∼1.00), and high Kappa coefficients(.94∼1.00). These results indicate that the automatic scoring of word- and phrase-level responses is as accurate as the scoring of the scoring experts. Furthermore, in terms of cost efficiency, the price of scoring constructed response items using an automatic scoring program was about 25% of the cost of using scoring experts, and the manpower was about 1/3.
Next, the prototype of the sentence-level program was separated into simplicity and accuracy. In order to enhance the simplicity of the scoring process, the answers were grouped based on similarity of meaning, and the grouped answers were scored with the automatic scoring program. These scored answers were used for machine-learning, to update the similarity in meaning for the next grouping of answers. This process is intended to decrease the number of grouped answers and to accumulate scoring results. Upon implementing the program using 11 social studies constructed response items in the Korean language from the 2013 NAEA, the types of answers for each question diminished by 3.1%-37% for the initial grouping stage, and an average of 55.9% of the answers were scored at the first stage of grouping. Grouping answers by similarity in meaning enhanced simplicity of scoring while also contributing to improved accuracy.
In order to examine the program’s scoring accuracy, we calculated the exact agreement, correlation coefficients, and kappa coefficients between the criterion scores and the scores from the automatic scoring program for the sentence level, and it was revealed that the exact agreement between the two scores was 91.5-100%, the correlation coefficient was 0.82-1.00 and the Kappa coefficient was 0.8-1.00, which is fairly remarkable.
Suggestions for policy
The automatic scoring system for Korean constructed response items is designed as a complementary monitoring system between humans and machines to guarantee the accuracy of scoring.
However, there is some deviation in scoring rates and error depending on answers, so improvements are required. This study presents two suggestions with respect to follow-up research and for the utilization of an automatic scoring system.
First, we suggest that the program should be studied step by step in concert with coherent research and development plans. We present short- and long-term plans of development by reviewing the development and utilization of automatic scoring systems. Second, we suggest plans for the use of the automatic scoring program in both classrooms and large-scale assessments.
(출처 : Abstract 201p)
목차 Contents
- 표지 ... 1
- 연구협력진 ... 5
- 머리말 ... 7
- 연구요약 ... 9
- 목차 ... 13
- 표목차 ... 17
- 그림목차 ... 21
- Ⅰ. 서론 ... 23
- 1. 연구 필요성 및 목적 ... 25
- 가. 연구 배경 및 필요성 ... 25
- 나. 선행 연구와의 관련성 ... 27
- 다. 연구 의의 및 목적 ... 29
- 2. 연구 내용 ... 32
- 가. 한국어 자동채점을 위한 자연언어처리 기술 이론 탐색 ... 32
- 나. 단어․구 수준 자동채점 프로그램 분석 및 실용화 개발 ... 32
- 다. 단어․구 수준 자동채점 프로그램의 시범 적용 및 통계 분석 ... 32
- 라. 문장 수준 자동채점 프로그램 프로토타입 설계 및 개발 ... 33
- 마. 문장 수준 자동채점 프로그램의 시범 적용 및 통계 분석 ... 33
- 3. 연구 추진 방법 ... 34
- 가. 문헌 연구 ... 34
- 나. 문항 분석 ... 34
- 다. 자동채점 프로그램 개발 ... 35
- 라. 자동채점 프로그램 적용 ... 35
- 마. 채점 및 통계 분석 ... 36
- 바. 전문가 협의회 ... 36
- 사. 워크숍 ... 37
- Ⅱ. 한국어 자동채점을 위한 자연언어처리 기술 이론 탐색 ... 39
- 1. 한국어 답안 자연언어처리 과정의 개요 ... 41
- 2. 문장 분석 전처리 단계 ... 44
- 가. 문장 분리 ... 44
- 나. 기호 제거 ... 45
- 다. 철자 오류 교정 ... 46
- 라. 띄어쓰기 오류 교정 ... 48
- 3. 문장 분석 단계 ... 50
- 가. 형태소 분석 및 품사 부착 ... 50
- 나. 기본구 인식 ... 53
- 다. 구문 분석 ... 55
- 라. 의미역 분석 ... 57
- 4. 문장 비교 단계 ... 58
- Ⅲ. 2014년 한국어 서답형 문항 자동채점 프로그램 개발 ... 61
- 1. 단어․구 수준 자동채점 프로그램 분석 및 개선 ... 63
- 가. 2013년 단어․구 수준 자동채점 프로그램 분석 ... 63
- 나. 단어․구 수준 자동채점 프로그램 개선 ... 65
- 다. 단어․구 수준 자동채점 프로그램의 사용자 인터페이스 개선 ... 77
- 2. 문장 수준 자동채점 프로그램 프로토타입 설계 및 개발 ... 84
- 가. 문장 수준 문항 분석을 통한 자연언어처리 기술 선정 ... 84
- 나. 문장 수준 자동채점 프로그램의 프로토타입 설계 ... 89
- 다. 문장 수준 자동채점 프로그램의 사용자 인터페이스 개발 ... 100
- Ⅳ. 2014년 한국어 서답형 문항 자동채점 프로그램 채점 결과 분석 ... 109
- 1. 단어․구 수준 자동채점 프로그램 채점 결과 분석 ... 111
- 가. 분석 대상 ... 111
- 나. 분석 방법 ... 115
- 다. 분석 결과 ... 120
- 2. 문장 수준 자동채점 프로그램 채점 결과 분석 ... 136
- 가. 분석 대상 ... 136
- 나. 분석 방법 ... 140
- 다. 분석 결과 ... 142
- Ⅴ. 결론 및 제언 ... 157
- 1. 결론 ... 159
- 가. 한국어 자동채점을 위한 자연언어처리 기술 이론 탐색 ... 159
- 나. 한국어 서답형 문항 자동채점 프로그램 개발 ... 160
- 다. 한국어 서답형 문항 자동채점 프로그램 채점 결과 분석 ... 163
- 라. 한국어 서답형 문항 자동채점 프로그램의 성과와 한계 ... 166
- 2. 후속 연구 및 정책 제언 ... 170
- 가. 연구 확장을 위한 후속 연구 제언 ... 171
- 나. 자동채점 프로그램 활용 방안을 위한 정책 제언 ... 182
- 참고문헌 ... 193
- 관련 자료 목록 ... 199
- ABSTRACT ... 201
- 끝페이지 ... 206
※ AI-Helper는 부적절한 답변을 할 수 있습니다.