보고서 정보
주관연구기관 |
한국교육과정평가원 Korea Institute Of Curriculum & Evaluation |
연구책임자 |
노은희
|
참여연구자 |
송미영
,
박종임
,
김유향
,
이도길
|
보고서유형 | 최종보고서 |
발행국가 | 대한민국 |
언어 |
한국어
|
발행년월 | 2016-12 |
과제시작연도 |
2016 |
주관부처 |
국무조정실 The Office for Government Policy Coordination |
과제관리전문기관 |
한국교육과정평가원 Korea Institute Of Curriculum & Evaluation |
등록번호 |
TRKO201900002353 |
과제고유번호 |
1105011790 |
사업명 |
한국교육과정평가원 |
DB 구축일자 |
2019-06-15
|
DOI |
https://doi.org/10.23000/TRKO201900002353 |
초록
▼
❏ 연구 목적
본 연구의 주된 목적은 전년도에 개발한 한국어 문장 수준 서답형 문항 자동채점 프로그램을 고도화하여 대규모 평가인 국가수준 학업성취도 평가에 시범 적용해 봄으로써 자동채점으로 처리 가능한 답안 범위를 확대하는 데 있다. 이와 함께 기개발 완료한 단어․구 수준 자동채점 프로그램에 대해서는 전년도 사회 교과 적용에서 나아가 올해는 다른 교과에도 적용하여 자동채점 프로그램의 활용 기반을 공고히 마련하고자 한다.
❏ 개발 방향 탐색
문장 수준 자동채점 프로그램의 고도화 방향을 수립하기 위해 기개발 프로
❏ 연구 목적
본 연구의 주된 목적은 전년도에 개발한 한국어 문장 수준 서답형 문항 자동채점 프로그램을 고도화하여 대규모 평가인 국가수준 학업성취도 평가에 시범 적용해 봄으로써 자동채점으로 처리 가능한 답안 범위를 확대하는 데 있다. 이와 함께 기개발 완료한 단어․구 수준 자동채점 프로그램에 대해서는 전년도 사회 교과 적용에서 나아가 올해는 다른 교과에도 적용하여 자동채점 프로그램의 활용 기반을 공고히 마련하고자 한다.
❏ 개발 방향 탐색
문장 수준 자동채점 프로그램의 고도화 방향을 수립하기 위해 기개발 프로그램의 채점결과, 채점 대상 문항의 채점기준 및 답안 특성, 사용자의 개선 요구, 인간 개입 양상 등의 4측면으로 나누어 분석하였다. 기개발 프로그램의 채점 결과 분석을 통해 군집화 성능과 채점기준 설정 기능의 개선이 필요하고, 문항의 채점기준 및 답안 특성 분석을 통해 문장분리․통합 처리 기능, 채점기준 설정 기능 등의 개선이 필요한 것으로 나타났다. 또한 사용자의 요구를 분석한 결과, 교과 및 문항 특성을 고려한 언어처리 관련 기능 개선, 학습용 답안 수 설정 시 정보 제공, 수작업 채점 시 사용자 편의성 개선 등을 요청하였다. 끝으로 인간 개입 양상 분석을 통해서는 학습용 답안 생성에 대한 가이드라인 제공, 결과 확인이 우선 필요한 답안에 대한 표시 기능, 군집화 방법 개선 등이 필요한 것으로 나타났다. 이러한 분석 결과를 종합적으로 고려하여, 올해 문장 수준 자동채점 프로그램은 언어처리 단계,채점 단계, 사용자 인터페이스 측면에서 고도화 방향을 수립하였다.
❏ 프로그램 개발 및 성능 분석
올해 문장 수준 자동채점 프로그램은 크게 언어처리 단계, 채점 단계, 사용자 인터페이스 측면에서 관련 기술을 보강하고, 복문을 포함한 1문장 이상 답안 처리를 목표로 프로그램을 개선하였다. 올해 프로그램은 2015년 시스템 구조를 기반으로, 전년 대비 다음 기능들을 고도화하였다.
올해 고도화한 문장 수준 프로그램은 2014년~2015년 학업성취도 평가 국어ㆍ사회ㆍ과학교과의 복문 1문장 서답형 5문항에 시범 적용하였다. 정확성 분석 결과, 인간채점과 자동 채점의 점수 간 완전일치도는 88.9~99.1%, 상관계수는 .871~.993으로 매우 높고, 전년도 프로그램에 비하여 정확률이 평균 89.9%에서 92.5%로 높아져, 채점 정확성이 향상되었음을 확인하였다. 또한 시범적으로 적용해본 2문장과 3문장 답안의 채점 결과, 2문장 이상도 정확률이 80% 이상으로 나타나 자동채점 가능성을 확인할 수 있었다. 다음으로 인간 개입적정성 분석 결과, 인간 개입의 효율성은 증가하였으며 사용자의 편의성도 제고되었다.
❏ 프로그램 적용
기개발 완료한 단어․구 수준 자동채점 프로그램을 2016년 학업성취도 평가의 표집 채점에 실제 적용하였다. 지필평가 체제에서 자동채점을 지원하기 위해, 문자 인식 기술을 활용한 답안 입력 프로그램을 개발․사용하였다. 그 결과 문항별 공백 답안을 추출하여 전체 채점대상 답안의 17.4%를 감축하였다. 답안의 문자 인식 정확률은 평균 61.0%로서 인식 작업후에 사람이 교정 작업을 진행하였다. 그런 다음에 2016년 학업성취도 평가 중3 국어․사회․과학 교과의 15문항에 대해 각 7,500여 명의 답안을 자동채점하였다. 자동채점 프로그램을 통한 문항별 채점자 간 일치율은 99~100%로 매우 높으며, 온라인 채점 시스템을 통한 채점자 간 일치율 97~99% 대비 양호한 수준이었다. 이와 같이 단어․구 수준 문항에 대한 자동채점을 작년에 이어 사회 교과에서 안정적으로 적용하였고, 올해 국어와 과학교과에 대해서는 자동채점 확대 적용 가능성을 확인하였다.
자동채점 연속 과제를 마무리하는 차원에서, 2012년~2016년에 걸쳐 적용한 결과를 토대로,한국어 자동채점 프로그램의 적용 대상 및 절차를 종합적으로 진단하였다. 먼저 단어․구 수준 프로그램은 대규모 평가 가운데 학업성취도 평가와 직업기초능력평가에 적용 가능한 데, 한국어 답안을 작성하는 국어․사회․과학 교과에 우선 적용하는 것이 적합하다. 단어수준 문항, 형식적 제약이 있는 구 수준 문항은 정확하게 채점할 수 있다. 다만, 고부담 시험의 경우는 완전한 채점을 위해 복수 채점과 재채점 과정을 거칠 필요가 있다. 다음으로,문장 수준 프로그램은 형식적 제약이 있는 1문장 답안을 안정적으로 처리할 수 있다. 문장 수준 프로그램을 실제 적용할 때에는 복수 채점과 재채점 과정이 필요한데, 최소 3차에 걸쳐 채점 과정을 진행하는 것이 안전하다.
❏ 연구 및 정책 제언
그간 개발한 단어·구 수준 프로그램(2012~2014년)과 문장 수준 프로그램(2014~2016년)을 대상으로, 이를 지속적으로 개선하기 위한 연구 방안과 활용도를 제고할 수 있는 정책 방안을 종합적으로 마련하였다. 한국어 자동채점 프로그램의 지속적인 연구․개발 수행을 위한 제언으로 ‘한국어 자동채점 프로그램 유지․보수 및 발전 계획 수립’, ‘인공지능 기술 활용 한국어 문단 수준 자동채점 프로그램 연구․개발’, ‘한국어 자동채점 활용 교수․학습용 프로그램 연구・개발’을 제안하였다. 이와 함께 프로그램 실용성을 제고하기 위한 정책 제언으로 ‘국가수준 학업성취도 평가의 자동채점 적용 종합 계획 수립’, ‘국가수준 학업성취도 평가의 문자 인식 프로그램 활용 및 자동채점 지원 방안’, ‘온라인 형성평가 시스템의 자동채점 프로그램 연계 방안’, ‘상공회의소 직업기초능력평가의 자동채점 적용 및 업무 협약방안’을 마련하고 세부 추진 방안을 제안하였다.
(출처 : 연구요약 7p)
Abstract
▼
■ Objective of the Study
The main objective of this study is to advance the sentence-level automated scoring system developed int eh previous year and expand the range of solutions to be automatically scored by applying them on the questionnaires in the large-scaled assessment for national level
■ Objective of the Study
The main objective of this study is to advance the sentence-level automated scoring system developed int eh previous year and expand the range of solutions to be automatically scored by applying them on the questionnaires in the large-scaled assessment for national level academic achievement as an example. In addition, it isplanned to apply the assessment of academic achievement in the words-phrase levelautomated scoring system in the previous year to the scoring for the subject ofsociology in this year preparing for the foundation to expand the application of automated scoring system.
■ Exploration of the Direction of Development
In order to advance sentence-level automated scoring system, we have analyzed previously-developed system in multi-angles and established the direction of development. After performing the analysis on four aspects including scoring result in previously-developed system, scoring criteria and solution characteristics of questions to be scored, request from users for improvement, and circumstances of human intervention, we have proceeded the development of sentence-level automated scoring system in this year based on the results.
■ Development of System and Analysis on Performance
Sentence-level automated scoring system in this year has reinforced related skills in the language processing stage, scoring stage, and user interface based on the analysis on system performance, relevant questions, and request from users in 2015 and improved the system to process solutions complex sentences or above. System in this year has reinforced following functions compared to the previous year based on thesystem structure in 2015.
Sentence-level system advanced in this year has been applied to five essay type questions with complex sentences or above in subjects including Korean literature, sociology, and science in the academic achievement assessment in the year 2014-2015 while analyzing the accuracy of system. According to the results of analysis, complete conformity degree between two scores turned out to be very high from 88.9 to 99.1%, and correlation coefficient was also high from 0.871 to 0.993. On the other hand, accuracy rate has been improved from 89.7% to 92.5% compared to the system in the previous year. Hereupon, it has been confirmed that scoring accuracy was improved.
■ Application of System
In order to support automated scoring in the paper examination system, prototype of the system that computerized the solutions of script in 2015 has been designed while developing and applying the solution entering system in the use of character recognizing technology in 2016. Empty answer in each question has been extracted through character recognizing technology in the academic achievement assessment sample scoring in 2016 reducing 17.4% of the entire answers to be scored. Precision of character recognition in solutions was 61.0% in average. Corrective procedure is normally applied to improve accuracy by humans after recognizing characters. However, since corrective work is performed on results of character recognition and predicted candidates, we have much efficiently performed computerizing work over input method.
Answers from students computerized by applying character recognizing technology in the assessment sample scoring in the academic achievement in 2016 were scored in the word/phrase level system. Considering the length of answers and question characteristics to be processed in this system, automated scoring method and human-led scoring methods were applied at the same time scoring answers from 7,100 students on 15 questions in subjects including Korean literature, sociology, and science among three graders in middle school. Accordance rate (99 to 100%) among graders in each questions in the use of automated scoring system turned out to be very high and also satisfactory level compared to the accordance rate (97 to 99%) among grades in the online scoring system. Automated scoring on words/sentence has been stably applied in the subject of sociology since the last year confirming the feasibility of extended application of automated scoring on the subjects of Korean literature andscience.
According to the results of application of sentence-level system in academic achievement, precision turned out to be outstanding from 92.5 to 100.0% when it was one sentence (complex sentence) in Korean literature. However, when there were more than two sentences, precision turned out to be 80.6% that performance of the system was degraded. In addition, when it was one sentence (complex sentence) if comparing with Korean literature, precision in subjects of science and sociology turned out to be 85.8% and 86.0%, respectively. Therefore, they were lower than the one in Korean literature. Automated scoring system represented deviation on scoring depending on the characteristics of subjects and length of answer. Since there is also possibility on error due to limitations of processing technology in Korean language, solution on the issue has been consistently requested. Therefore, it is expected that answers with more than two sentences and also other subjects are to be extended in the range to be scored after seeking for actual application of automated scoring on answers with one sentence in particular subject with high level of precision of automated scoring system in priority and improving the performance of system thereafter.
■ Suggestions for Research and Policies
Finalizing the continued automated scoring assignment in this year, we have comprehensively prepared for institutional plans to improve usability and also the research-oriented measures to continuously enhance previously developed words/phrase level system (2012 to 2014) and sentence-level system (2014-2016). As for suggestion to perform continuous research and development for improving automated scoring system in Korean language, I have proposed 'maintenance of automated scoring system in Korean language and establishment of development plans,' 'research and development of Korean language phrase-level automated scoring system in the use of artificial intelligence,' 'and research and development of instruction/learning system in the use of Korean language automated scoring.' In addition, as for suggestion of policies in improving the practicality of system, we have prepared and proposed detailed plans for proceeding of 'establishment of comprehensive plans in the application of automated scoring in national-level academic achievement evaluation,' 'utilization of character recognizing system in the national-level academic achievement evaluation and support plans for automated scoring,' 'plans for connection of automated scoring system in the online evaluation system,' and 'application of automated scoring in core competency evaluation in the Chamber of Commerce and Industry and plans for work cooperation.'
(출처 : ABSTRACT 189p)
목차 Contents
- 표지 ... 1
- 연구협력진 ... 3
- 머리말 ... 5
- 연구요약 ... 7
- 목차 ... 11
- 표목차 ... 14
- 그림목차 ... 16
- Ⅰ 서론 ... 19
- 1. 연구의 필요성 및 목적 ... 21
- 가. 관련 정책 및 연구의 필요성 ... 21
- 나. 선행 연구와 본 연구의 차별성 ... 24
- 다. 연구 목적 ... 27
- 2. 연구 내용 ... 28
- 가. 문장 수준 자동채점 프로그램의 고도화 방향 탐색 ... 28
- 나. 문장 수준 자동채점 프로그램 고도화 개발 및 성능 분석 ... 28
- 다. 한국어 서답형 문항 자동채점 프로그램 적용 ... 29
- 3. 연구 추진 방법 ... 30
- 가. 문헌 연구 ... 30
- 나. 국제 학술대회 발표 및 워크숍 참여 ... 31
- 다. 문항 분석 ... 31
- 라. 프로그램 개발 ... 32
- 마. 프로그램 적용 ... 32
- 바. 통계 분석 ... 33
- 사. 설문 조사 및 심층 면담 ... 33
- 아. 전문가 협의회 ... 34
- 자. 세미나 개최 ... 34
- Ⅱ 문장 수준 자동채점 프로그램 고도화 방향 탐색 ... 35
- 1. 기개발 프로그램 분석 및 개선 요구 검토 ... 37
- 가. 기개발 프로그램의 채점 결과 분석 ... 37
- 나. 문항의 채점기준 및 답안 특성 분석 ... 39
- 다. 사용자의 개선 요구 사항 분석 ... 44
- 2. 자동채점 단계의 인간 개입 양상 검토 ... 45
- 가. 언어처리 단계의 인간 개입 ... 47
- 나. 학습용 답안 생성 단계의 인간 개입 ... 48
- 다. 자질추출 및 학습모델 생성 단계의 인간 개입 ... 58
- 라. 자동채점 결과 확인 및 수작업 채점 단계의 인간 개입 ... 67
- Ⅲ 문장 수준 자동채점 프로그램 고도화 및 성능 분석 ... 71
- 1. 문장 수준 자동채점 프로그램의 고도화 설계 및 개발 ... 73
- 가. 프로그램의 개선 방향 수립 ... 74
- 나. 언어처리 기술의 보완 및 고도화 ... 76
- 다. 채점 단계의 보완 및 고도화 ... 81
- 라. 사용자 인터페이스 및 기타 기능 개선 ... 85
- 2. 문장 수준 자동채점 프로그램의 성능 분석 ... 92
- 가. 시범 적용 대상 및 분석 방법 ... 92
- 나. 성능 분석 결과 ... 93
- Ⅳ 한국어 서답형 문항 자동채점 프로그램 적용 ... 107
- 1. 자동채점 적용을 위한 학생 답안 전산화 ... 109
- 가. 문자 인식 및 입력 프로그램 개발 ... 109
- 나. 학생 답안의 자동 인식 적용 결과 ... 113
- 2. 2016년 학업성취도 평가 자동채점 적용 ... 117
- 가. 학업성취도 평가의 표집채점 적용 계획 ... 117
- 나. 학업성취도 평가의 표집채점 적용 결과 ... 120
- 3. 한국어 자동채점 프로그램의 적용 범위 ... 125
- 가. 단어・구 수준 자동채점 프로그램의 적용 대상 및 절차 ... 125
- 나. 문장 수준 자동채점 프로그램의 적용 대상 및 절차 ... 130
- Ⅴ 결론 및 제언 ... 139
- 1. 결론 ... 141
- 가. 문장 수준 자동채점 프로그램 고도화 방향 탐색 ... 141
- 나. 문장 수준 자동채점 프로그램 고도화 개발 및 성능 분석 ... 142
- 다. 한국어 서답형 문항 자동채점 프로그램 적용 ... 144
- 2. 제언 ... 146
- 가. 자동채점 프로그램 개선 종합 계획 ... 148
- 나. 자동채점 프로그램 활용 종합 계획 ... 166
- 참 고 문 헌 ... 183
- ABSTRACT ... 189
- 부 록 ... 195
- [부록 1] 한국어 문장 수준 자동채점 프로그램 적용 문항 및 예시 정답 ... 197
- [부록 2] 한국어 단어・구 수준 자동채점 프로그램 적용 문항 및 예시 정답 ... 202
- 끝페이지 ... 206
※ AI-Helper는 부적절한 답변을 할 수 있습니다.