보고서 정보
주관연구기관 |
한국교육과정평가원 Korea Institute Of Curriculum & Evaluation |
연구책임자 |
노은희
|
참여연구자 |
김명화
,
성경희
,
김학수
|
보고서유형 | 최종보고서 |
발행국가 | 대한민국 |
언어 |
한국어
|
발행년월 | 2013-12 |
과제시작연도 |
2013 |
주관부처 |
국무조정실 |
과제관리전문기관 |
한국교육과정평가원 Korea Institute Of Curriculum & Evaluation |
등록번호 |
TRKO201400003800 |
과제고유번호 |
1105007298 |
사업명 |
한국교육과정평가원 |
DB 구축일자 |
2014-05-17
|
초록
▼
□ 연구 목적
본 연구는 대규모 평가에서 서답형 문항의 활용을 제고하고 채점의 효율화를 도모하기위해, 전년도에 기 개발된 단어・구 수준의 한국어 서답형 문항 자동채점 프로토타입 프로그램을 정교화하고 그 적용 가능성을 제고하는 데 목적을 두었다.
□ 개발 이론 구축
2012년 기 개발된 자동채점 프로그램을 분석한 결과, 유사 답안 처리 기능, 정답 템플릿 설계 지원 및 결과 점검 기능, 정답 템플릿 작성 기능 측면에서 보완이 요구되었다. 이러한 사항을 개선하기 위해 단・중기 개발 계획을 지속적으로 추진할 수 있도록 자
□ 연구 목적
본 연구는 대규모 평가에서 서답형 문항의 활용을 제고하고 채점의 효율화를 도모하기위해, 전년도에 기 개발된 단어・구 수준의 한국어 서답형 문항 자동채점 프로토타입 프로그램을 정교화하고 그 적용 가능성을 제고하는 데 목적을 두었다.
□ 개발 이론 구축
2012년 기 개발된 자동채점 프로그램을 분석한 결과, 유사 답안 처리 기능, 정답 템플릿 설계 지원 및 결과 점검 기능, 정답 템플릿 작성 기능 측면에서 보완이 요구되었다. 이러한 사항을 개선하기 위해 단・중기 개발 계획을 지속적으로 추진할 수 있도록 자동채점프로그램 관련 기술의 이론적 토대를 다음과 같이 탐색하였다.
□ 프로그램 개발
2013년에는 기 개발된 서답형 문항 자동채점 프로그램의 프로토타입 설계를 토대로, 실제 대규모 평가에 적용 가능한 시스템으로 정교화하였다. 올해는 사용자 편의성과 실용성을 염두에 두고 시스템 전문가의 도움 없이도 프로그램을 사용할 수 있도록 사용자 친화적인 인터페이스를 제공하고, 정답 템플릿 자동 작성 도구, 자동채점과 인간채점 결과 비교 도구 등과 같이 채점자를 지원하는 도구들도 프로토타입을 설계하여 제시하였다. 또한 대규모 평가 시 채점의 정확성과 효율성이 제고되도록 고빈도 답안을 먼저 처리할 수 있는 채점 단계로 조정하고, 미판단 답안을 클러스터링 기술을 통해 유사 답안끼리 모아 수작업 채점할 수 있는 기능도 보강하였다. 전년 대비 개발된 자동채점 프로그램의 개발 항목과 이에 따른 올해 시스템 구조도를 제시하면 다음과 같다.
□ 시범 적용 결과
본 프로그램의 실용성을 제고하기 위해, ‘교과 및 문항 확대 측면(시범 적용 1)’과 ‘대규모 답안 처리 및 연계 방안 측면(시범 적용 2)’으로 나누어 프로그램을 검증하였다.
먼저 ‘시범 적용 1’에서는 2012년 학업성취도 평가의 국어(초・중・고), 사회(초・중), 과학(초・중)의 총 38문항 각 3,010개 답안을 대상으로 자동채점의 채점 비율, 표집 채점을 통해 확정된 기준 점수와 자동채점 점수 간 일치도(Kappa계수), 채점 불일치 비율을 분석하였다. 교과별로 보면, 채점 비율 측면에서는 국어 문항이 평균 99.73%로 가장 높았으며,사회 문항과 과학 문항이 각각 99.66%, 98.38%로 그 뒤를 이었다. 그런데 채점 신뢰도 측면에서는 사회 문항의 Kappa계수가 평균 1.00으로 나타나 가장 높은 일치도를 보여주었으며 국어 문항과 과학 문항이 .99, .94로 그 뒤를 이었다. 정답 패턴별로 살펴보면, 단어・구 수준에 해당하는 P1~P3 문항은 채점 비율 약 99∼100%, Kappa계수 .95~1.00으로 거의 완벽하게 자동채점하였으나, 문장 수준인 P4・P5 문항처럼 언어 단위가 길어질수록 채점 비율과 일치도가 떨어지는 경향을 보였다.
다음으로 ‘시범 적용 2’에서는 2013년 학업성취도 평가의 중・고 국어 총 4문항의 각 8,000개 정도 답안을 대상으로 채점한 결과, 약 3,000개의 답안과 비교하여 답안 규모가 약 8,000개로 확장되어도 채점 비율이나 채점 신뢰도가 적정한 수준으로 유지되는 것을 확인하였다. 또한 자동채점과 채점자 연계 방안으로 「연계 2」(인간+자동), 「연계 3」(고빈도 답안 처리→인간+자동) 방안별 채점 비용, 시간, 채점자 수를 4개 문항을 통해 비교한 결과, 문항에 따라 비용 절감 효과가 다르게 나타났다. 자동채점 비율이 높은 P3까지의 문항은 고빈도 답안 일치 채점 단계에서 대다수 답안이 정확하게 채점되므로, 채점자가 채점할 분량이 상대적으로 적은 「연계 3」이 「연계 2」 방안보다 비용 절감 면에서 훨씬 효과적이다. 반면, 문장 수준의 P4 문항은 자동채점 비율이 상대적으로 떨어져 「연계 2」 와 「연계 3」 방안에서 비용 절감 효과의 차이가 크지 않다.
□ 성과 및 제언
본 연구는 최초로 대규모 평가의 한국어 답안을 기계로 채점하는 시스템을 구축하였다는 점, 단어・구 수준은 물론 문장 수준 답안의 채점 가능성을 확보하였다는 점, 단계적개발로 현 시점에서도 프로그램 적용이 가능하다는 점, 채점 결과를 교수・학습을 위한 정보로 제공할 수 있다는 점, 한국어 자연언어 처리 분야에서 최초로 텍스트 함의 인식 연구를 기반으로 하고 있다는 점 등에서 그 의의를 찾을 수 있다.
본 연구와 프로그램 개발로 다음 효과를 기대할 수 있다. 첫째, 대규모 평가에서 서답형 문항 채점에 소요되는 예산과 교사의 부담을 완화한다. 둘째, 단답형 문항을 대상으로 채점자가 갖는 채점 오류 및 채점 일관성 문제를 보완한다. 셋째, 학교 단위의 평가에도 활용하여 교육 현장의 평가 방법을 개선한다. 넷째, 학제간 연구들을 촉발하여 자연언어처리 기술 및 지식베이스 구축 연구를 선도한다.
마지막으로, 본 연구가 한국어 자동채점 프로그램 구축을 위한 기초 연구이므로, 후속 연구와 실용성 제고 방안에 대하여 제시하였다. 후속 연구를 위한 제언으로 ‘한국어 문장 및 다문장 수준 자동채점 프로그램 연구・개발 계획’ 수립을 제안하고, 세부 추진 과제로‘문장 및 다문장 수준 프로그램 단중기 연구・개발 계획’과 이러한 ‘단중기 프로그램 개발계획에 따른 자원 개발 계획’의 개발 로드맵을 보여주었다. 이와 함께 프로그램 실용성을 제고하기 위한 정책 방안으로 ‘한국어 서답형 문항 자동채점 프로그램의 실용성 제고 방안’을 제시하고, 이를 구체적으로 실행하기 위해 ‘대규모 평가 도구별 단계적 적용 방안’,‘자동채점 프로그램 활용에 따른 채점 방식 및 절차’, ‘학교 단위 활용 가능한 자동채점 프로그램 전환 및 보급 방안’으로 나누어 세부 추진 과제를 제안하였다.
Abstract
▼
○ Purpose of the study
There are a lot of benefits to using supply-type items in large scale assessments such as measuring higher order thinking skills and improving learning attitudes and teaching environments. Because most of supply-type items in large scale assessment are very short and requir
○ Purpose of the study
There are a lot of benefits to using supply-type items in large scale assessments such as measuring higher order thinking skills and improving learning attitudes and teaching environments. Because most of supply-type items in large scale assessment are very short and require well-defined answers they do not call for sharp human judgements and need rather to precise scoring. But most of large scale assessments are expensive and a good deal of time is necessary to score those supply-type items through accurate scoring, even though multiple choice items score automatically by using OMR and do somewhat reduce the costs of that scoring. For example, the National Assessments of Educational Achievement(NAEA) office spends about 6 million dollars(6.3 billion won) and inputs 11,000 scorers to score supply-type items. We need some measures to lessen those scorer's burdens and costs. And also we need to solve problems of scorer's inconsistency because of fatigue, halo effects, error of standard, etc. An automatic scoring program could be an alternative to solve those problems.
We developed and validated prototype of automatic scoring program(KASS 1.0) last year. The program showed the possibility of automatic scoring with regard to those supply-type items of the NAEA and the 3R’s Basic Competency Test, granting that the scoring rate and error rates differ slightly depending on the item types. The program is needed to elaborate and expand for accurate scoring and increasing the scoring rate. Furthermore, the program should be validated to increase its potential for application to several types of items and several subjects.
The purpose of this study is to improve the automatic scoring program of Korean supply-type items(KASS 1.0) for effectiveness of scoring and reliable scoring which was developed last year and to increase application of the program.
○ Review of the literature on automatic scoring program of supply-type items
We analyzed the program which was developed last year and found room for improvement in the functioning of similar answer clusters, and in the writing and checking of the templates for correct answers. We reviewed the theory of natural language processing in relation to the similarity of spelling/ pronunciation/semantics in order to examine similarity of answers. We analyzed measurement models of similarity of spelling/ pronunciation/ semantics and presented strong/weak points and application of each model. Also, we reviewed the theory of scoring error checking and of clustering answers according to similarity in order to help scoring directors. We explored the automatic writing of the template of correct answers in order to overcome difficulties associated with the writing of templates for correct answers.
○ Improvement of automatic scoring programs
We improved methods of scoring, knowledge base, design and the writing template of correct answers, in addition to developing supporting functions to help scoring directors of the program developed last year. Scoring directors had to write scoring concepts and cue-words to the template of correct answer in the automatic scoring program (KASS 1.0). Writing scoring concepts and cue-words to the template of correct answers was very difficult for scoring directors who have no knowledge about programming language. We tried to reduce this kind of scoring directors' burden as much as possible and added the function to choose concepts, cue-words, correct answers in the sorted answers. We put a synonym dictionary on the program and developed a frame of the database to introduce data relating to stop-words, answers, analogous words, and to the template of correct answers, etc. Furthermore, we added a function concerning answer clusters with similar words and a means to check scored answers by comparing them with the results of the human scorer; this latter development was introduced to support scoring directors.
The revised program replaced the process of human correcting with the process of high-frequency matching which extracts high frequency answers prior to the scoring and then the scoring directors themselves give marks to high frequency answers and this promotes efficiency in the automatic scoring. [Figure 1] and [Figure 2] show the revised program engine and the interface of users.
There are three main steps involved in the automatic scoring engine. The first step consists of the analysis and normalization of students answers where a set of model answers are generated(either manually or automatically). The second step of the program is the automatic scoring component, which is represented in the middle part of [figure 1]. The methods of scoring consist of four parts-the matching of correct answers(string matching), high-frequency matching, concept based scoring, and the cue-words based scoring. The revised program introduces the process of high-frequency matching which extracts high frequency answers prior to the scoring; the human scorers then give marks to the high frequency answers to promote efficiency in the automatic scoring. The program scores students' answers according to concepts and cue-words which the scoring directors write template of correct answers to in the concept based scoring and cue-word based scoring phase.
Student answers are analysed and classified in terms of “Correct”, “Incorrect”, and “Not-judged”. The third step involved in the automatic scoring is post processing.
This is represented in the lower part of [Figure 1]. After automatic scoring, “Not-judged” student answers are clustered with semantic similarity and presented in the user interface [see Figure 2]. Subject matter experts then check the results of scoring and give marks to the clustered answers. New correct answers and incorrect answers are at that point added to the database. The program repeats this process until the percentage of accurate scoring is 90%. After the automatic scoring has been completed, the results of scoring are saved and reported.
○ Trial application of automatic scoring program
The trial application of the automatic scoring program consisted of two parts. First, we scored 38 supply-type items of the 2012 NAEA using the automatic scoring program to cope with various items. The subjects were Korean (17 items), social studies (13 items), science (8 items) and the level of school were six-year grade of elementary, third-year grade of middle school, second-year grade of high school. The numbers of answer were 3,010 of each subject, and level of school.
This study surveyed scoring rates, scoring errors, and Kappa(correlation) coefficients in order to ensure scoring reliability. We also analyzed the sources of errors, where the automatic scoring program failed. The results of the 2012 NAEA items demonstrated that the scoring rate was quite high, 97∼100%, and Kappa coefficients were high (at over .98) when compared with the results of study last year. The rate of scoring errors was 0~30.2%. The error rate of most items were very small(under 1%). The sources of scoring errors were either spelling errors or the non-recognition of analogous terms, and symbols.
Second, we scored 4 supply-type items of the 2013 NAEA Korean using both the automatic scoring program and the human scorer to check for the possibility of application in large scale assessments. The purposes of this application were to check accuracy of scoring and to check the effectiveness of using the automatic scoring program in conjunction with human scoring. We presented 3 conjunctions with human scoring from the previous year. The first conjunction concerned the using of the automatic scoring program as an auxiliary scoring system for human scoring. The second conjunction related to the scorer and the automatic scoring program scoring independently and scoring directors then dealing with practically with cases of discrepancy between the human scorer and the automatic scoring program. The third conjunction involved a human scorer and the automatic scoring program scoring independently only the not-judged answers of the automatic scoring program after that program had first scored the high frequency answers.
We applied only the second and third conjunctions because the supply-type items which we applied very short and well-defined and so were less reliant on human judgement. Two items were involved in this testing concerned the third-year grade of middle school and the remaining two concerned the second-year grade of high school. The numbers of answer were about 8,000 for each grade. The results of the 2013 NAEA items demonstrated that the scoring rate was quite high, over 95%, and that the Kappa coefficients were high (.96∼.99). The rate of scoring errors was 0~14.5%. The sources of scoring errors were either spelling errors or the non-recognition of analogous terms and symbols. We found that rate and reliability of scoring were maintained optimal level even though numbers of students answers increased to about 8,000. Compared to the current scoring methods, both the second and third conjunctions were effective in terms of cost, number of scorers, and scoring time. The third conjunction was more effective in regard to the items in which rates of scoring were higher than the second conjunction. But there is no big difference in case of items in which the rate of scoring was low.
○ Suggestions for policy
This study presented two suggestions with respect to follow-up research and for the utilization of an automatic scoring program. First, we suggest that the program should be studied step by step in concert with coherent research and development plans. We presented short and long term plans of development by reviewing the development and the utilization of automatic scoring program. Second, we suggest plans indicating that the automatic scoring program can be used in case of both classroom and large scale assessments.
○ Significance of the study
The value and effectiveness of automatic scoring technologies has been demonstrated in several research studies. Several automatic scoring programs are used as part of the operational scoring process for large scale assessment. The ability to use automatic scoring program in operational scoring environments, such as the NAEA, reduces the time and cost associated with having multiple human scorers score answers of supply-type items. Therefore, an automatic scoring would appear to be a favorable solution with respect of both the introduction of more supply-type items on high-stakes standardized tests and on the lower stakes classroom-instruction environment. Moreover, the availability of these technologies may well provide an incentive to make more assessment and instructional materials available online and the utilization of supply-type items may well increase in the classroom assessment environment. Furthermore, an automatic scoring would move to rectify the inconsistency and the low inter-rater reliability of human raters.
Finally, this study may prompt future research concerning internet based assessment, natural language processing related to the scoring of essays.
목차 Contents
- 표지 ... 1
- 연구협력진 ... 5
- 머리말 ... 7
- 연구요약 ... 9
- 차례 ... 13
- 표차례 ... 17
- 그림차례 ... 21
- Ⅰ. 서론 ... 25
- 1. 연구 필요성 및 목적 ... 27
- 가. 연구 배경 및 필요성 ... 27
- 나. 선행 연구와의 관련성 ... 29
- 다. 연구의 의의 및 목적 ... 32
- 2. 연구 내용 ... 34
- 가. 기 개발된 서답형 문항 자동채점 프로그램 분석 및 개선 방향 수립 ... 34
- 나. 서답형 문항 자동채점 프로그램 보완 및 정교화 개발 ... 35
- 다. 확장 개발된 서답형 문항 자동채점 프로그램의 확대 적용 ... 35
- 라. 확장 개발된 서답형 문항 자동채점 프로그램과 채점자 연계 적용 ... 35
- 3. 연구 추진 방법 ... 36
- 가. 문헌 연구 ... 36
- 나. 문항 분석 ... 36
- 다. 자동채점 프로그램 개발 ... 36
- 라. 자동채점 프로그램 시범 적용 ... 37
- 마. 채점 및 통계 분석 ... 37
- 바. 전문가 협의회 ... 37
- 사. 워크숍 ... 38
- Ⅱ. 2012년 개발 서답형 문항 자동채점 프로그램 분석 및 이론적 탐색 ... 41
- 1. 기 개발 서답형 문항 자동채점 프로그램 분석 ... 43
- 가. 유사 답안 처리 기능 ... 43
- 나. 정답 템플릿 설계 지원 및 결과 점검 기능 ... 44
- 다. 정답 템플릿 작성 기능 ... 46
- 2. 자동채점 프로그램 개선을 위한 이론적 탐색 ... 48
- 가. 철자/발음/의미 유사도 측정 방안 ... 48
- 나. 답안 클러스터링을 통한 정답 템플릿 설계 지원 및 오류 점검 방안 ... 55
- 다. 정답 템플릿 구축의 자동화 방안 ... 56
- Ⅲ. 서답형 문항 자동채점 프로그램 보완 및 정교화 개발 ... 61
- 1. 채점 방식의 보완 및 정교화 ... 63
- 가. 채점 단계의 조정 ... 63
- 나. 자동채점과 인간채점 결과 비교 제시 ... 70
- 다. 오답과 부분 점수 피드백 제공 ... 71
- 2. 채점 기준 작성 도구의 보완 및 정교화 ... 72
- 가. 학생 답안의 입출력 파일 형식 설계 ... 72
- 나. 정답 템플릿 형식의 재설계 ... 73
- 다. 정답 템플릿 작성의 자동화 설계 ... 76
- 3. 언어 처리 기술의 보완 및 정교화 ... 87
- 가. 유의어 사전 적용 ... 87
- 나. 답안 클러스터링 기술 적용 ... 88
- 4. 지식베이스의 보완 및 정교화 ... 91
- 가. 문항 및 모범 답안 정보 구축 ... 91
- 나. 유의어・불용어 데이터베이스 확장 구축 ... 92
- Ⅳ. 2013년 개발 서답형 문항 자동채점 프로그램 시범 적용 ... 99
- 1. 시범 적용 1 : 교과 및 문항 확대 측면 검증 ... 101
- 가. 적용 대상 문항 분석 ... 101
- 나. 검증 절차 ... 120
- 다. 검증 결과 ... 123
- 2. 시범 적용 2 : 대규모 답안 처리 및 연계 방안 측면 검토 ... 180
- 가. 적용 대상 문항 및 채점 결과 분석 ... 180
- 나. 연계 방안 검증 ... 192
- Ⅴ. 결론 및 제언 ... 203
- 1. 결론 ... 205
- 가. 서답형 문항 자동채점 프로그램의 개발 이론 구축 ... 205
- 나. 서답형 문항 자동채점 프로그램의 보완 및 정교화 개발 ... 206
- 다. 서답형 문항 자동채점 프로그램 적용 결과 ... 210
- 라. 서답형 문항 자동채점 프로그램 개발의 성과와 한계 ... 214
- 2. 후속 연구 및 정책 제언 ... 221
- 가. 연구 확장을 위한 후속 연구 제언 ... 222
- 나. 자동채점 프로그램 활용 방안을 위한 정책 제언 ... 229
- 참고문헌 ... 239
- 관련 자료 목록 ... 244
- ABSTRACT ... 245
- 부록 ... 253
- [부록 1] 자동채점 프로그램 KASS 2.0 사용자 설명서 ... 255
- [부록 2] 정답 패턴별 서답형 문항 예시 ... 288
- 끝페이지 ... 291
※ AI-Helper는 부적절한 답변을 할 수 있습니다.