서답형 문항은 학생들의 종합적인 사고력을 평가할 수 있다는 장점이 있으나, 채점 비용이 많이 들고 채점자의 주관이 개입될 수 있다는 단점이 있다. 이런 단점을 개선하기 위해 영어권에서는 자동채점 시스템을 개발하여 사용하고 있으나, 한국어의 경우에는 아직 여전히 연구 단계에 있다. 본 논문에서는 준지도학습 방법을 이용한 한국어 서답형 문항의 채점 시스템을 제안한다. 제안된 시스템은 모범답안을 초기 모델로 학생답안의 일부를 채점하고 그 결과를 이용해서 점진적으로 학생답안의 채점을 늘려가는 준지도학습 방법을 이용한다. 제안된 시스템을 평가하기 위해서 2013학년도 학업성취도 평가의 국어 및 사회 과목의 서답형 문항을 사용했다. 채점 시간과 일관성에 관해서 매우 좋은 결과를 얻었다. 그 결과 채점 시간을 크게 단출할 수 있었으며 다양한 채점 방법을 적용하여 객관성을 확보한다면 현장에서 바로 적용할 수 있을 것으로 기대된다.
서답형 문항은 학생들의 종합적인 사고력을 평가할 수 있다는 장점이 있으나, 채점 비용이 많이 들고 채점자의 주관이 개입될 수 있다는 단점이 있다. 이런 단점을 개선하기 위해 영어권에서는 자동채점 시스템을 개발하여 사용하고 있으나, 한국어의 경우에는 아직 여전히 연구 단계에 있다. 본 논문에서는 준지도학습 방법을 이용한 한국어 서답형 문항의 채점 시스템을 제안한다. 제안된 시스템은 모범답안을 초기 모델로 학생답안의 일부를 채점하고 그 결과를 이용해서 점진적으로 학생답안의 채점을 늘려가는 준지도학습 방법을 이용한다. 제안된 시스템을 평가하기 위해서 2013학년도 학업성취도 평가의 국어 및 사회 과목의 서답형 문항을 사용했다. 채점 시간과 일관성에 관해서 매우 좋은 결과를 얻었다. 그 결과 채점 시간을 크게 단출할 수 있었으며 다양한 채점 방법을 적용하여 객관성을 확보한다면 현장에서 바로 적용할 수 있을 것으로 기대된다.
Through short-answer questions, we can reflect the depth of students' understanding and higher-order thinking skills. Scoring for short-answer questions may take long time and may be an issue on consistency of grading. To alleviate such the suffering, automated scoring systems are widely used in Eur...
Through short-answer questions, we can reflect the depth of students' understanding and higher-order thinking skills. Scoring for short-answer questions may take long time and may be an issue on consistency of grading. To alleviate such the suffering, automated scoring systems are widely used in Europe and America, but are in the initial stage in research in Korea. In this paper, we propose a semi-automatic scoring system for short Korean free-text responses using semi-supervised learning. First of all, based on the similarity score between students' answers and model answers, the proposed system grades students' answers and the scored answers with high reliability have been included in the model answers through the thorough test. This process repeats until all answers are scored. The proposed system is used experimentally in Korean and social studies in Nationwide Scholastic Achievement Test. We have confirmed that the processing time and the consistency of grades are promisingly improved. Using the system, various assessment methods have got to be developed and comparative studies need to be performed before applying to school fields.
Through short-answer questions, we can reflect the depth of students' understanding and higher-order thinking skills. Scoring for short-answer questions may take long time and may be an issue on consistency of grading. To alleviate such the suffering, automated scoring systems are widely used in Europe and America, but are in the initial stage in research in Korea. In this paper, we propose a semi-automatic scoring system for short Korean free-text responses using semi-supervised learning. First of all, based on the similarity score between students' answers and model answers, the proposed system grades students' answers and the scored answers with high reliability have been included in the model answers through the thorough test. This process repeats until all answers are scored. The proposed system is used experimentally in Korean and social studies in Nationwide Scholastic Achievement Test. We have confirmed that the processing time and the consistency of grades are promisingly improved. Using the system, various assessment methods have got to be developed and comparative studies need to be performed before applying to school fields.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
본 논문에서는 학생들의 종합적인 이해능력 및 사고능력을 판단하는데 적합한 서답형 문항을 채점할 때 발생하는 문제점을 개선하기 위한 반자동채점 시스템을 제안하였다. 먼저 언어처리 기법을 이용하여 학생들의 답안을 분석 및 처리한 뒤, 이 결과가 일치하는 답안들을 묶어 고빈도 순으로 정렬하여 채점자가 채점할 수 있게 했다.
본 논문에서는 한국어 서답형 문항에 대한 반자동채점 시스템을 제안한다. 제안된 시스템은 크게 분석 단계와 채점 단계로 구성되어 있다.
제안 방법
평가에 사용된 서답형 문항은 2013년에 실시된 “국가 수준 학업성취도 평가”의 국어 과목(중3, 고2)과 사회 과목(중3)에서 선택했다[26]. 각 문항마다 추출한 1,000개의 학생답안9)과 출제자가 제안한 모범답안으로 구성된 자료를 통해 시스템의성능을 평가했다. 각 문항의 모범답안 및 배점 분포는 표 1과 같다.
본 논문에서는 학생들의 종합적인 이해능력 및 사고능력을 판단하는데 적합한 서답형 문항을 채점할 때 발생하는 문제점을 개선하기 위한 반자동채점 시스템을 제안하였다. 먼저 언어처리 기법을 이용하여 학생들의 답안을 분석 및 처리한 뒤, 이 결과가 일치하는 답안들을 묶어 고빈도 순으로 정렬하여 채점자가 채점할 수 있게 했다. 이렇게 채점된 결과에서 자질을 추출하여 각 자질들의 가중치를 학습한 뒤, 미채점답안들에 대해 로지스틱 회귀분석과 k-NN 알고리즘을 이용하여 점수별로 답안을 분류하는 기법을 사용하여 반자동채점 시스템을 구현했다.
본 논문에서 제안된 반자동채점 시스템을 평가하는데 사용한 점수들로는 인간채점점수, 반자동채점점수, 기준점수가 있다. 인간채점점수는 총 3라운드로 진행되며, 각 라운드는 두 명의 채점자가 같은 문항의 답안을 채점하여 점수가 일치하는지 확인하고, 해당 문항의 답안이 일치하지 않으면 다음 라운드로 넘겨서 확정한 점수이다.
그림 2는 미채점답안의 군집화 알고리즘을 기술한다. 본 논문에서 제안한 군집화 알고리즘은 분류 확률과 분류 결과를 이용한다. 즉 분류 확률이 임계값(threshold)보다 큰 각 분류(class)를 하나의 군집으로 간주한다.
분석 단계는 학생답을 입력으로 받아 자동채점에 필요한 언어 정보를 분석하는 단계로서 많은 언어 자원이 필요하다. 분석 단계가 끝난 답안들 중, 분석 결과가 같은 답안들을 묶어 고빈도 순으로 정렬한 뒤 상위 몇 개의 답안에 대해 채점하여 모범답안을 구축한다. 이 모범답안이 초기 학습말뭉치가 된다.
먼저 언어처리 기법을 이용하여 학생들의 답안을 분석 및 처리한 뒤, 이 결과가 일치하는 답안들을 묶어 고빈도 순으로 정렬하여 채점자가 채점할 수 있게 했다. 이렇게 채점된 결과에서 자질을 추출하여 각 자질들의 가중치를 학습한 뒤, 미채점답안들에 대해 로지스틱 회귀분석과 k-NN 알고리즘을 이용하여 점수별로 답안을 분류하는 기법을 사용하여 반자동채점 시스템을 구현했다. 2013년에 실시된 “국가 수준 학업성취도 평가”의 국어, 사회 과목의 서답형 문항을 선택하여 샘플로 추출된 1000개의 답안에 대해 시스템의 성능을 분석했다.
일치도 분석에는 다양한 분석 방법이 있으나 본 논문에서는 피어슨 상관계수와 Kappa 계수를 분석하였다. 반자동채점과 기준점수의 일치도 중 피어슨 상관계수 평균은 0.
형태소분석(morphological analysis)은 CYK 알고리즘[21]을 수정하여 사용한다. 이 알고리즘을 이용하면 어미의 활용이 존재하지 않더라도, 사전 정보만으로 가능한 모든 형태소 분석 결과를 찾아낼 수 있다는 장점이 있다.
대상 데이터
2013년에 실시된 “국가 수준 학업성취도 평가”의 국어, 사회 과목의 서답형 문항을 선택하여 샘플로 추출된 1000개의 답안에 대해 시스템의 성능을 분석했다.
이론/모형
문장부호 제거는 정규표현식(regular expression)을 통해 간단하게 구현한다. 띄어쓰기 교정(spacing correction)은 세종말뭉치[20]를 띄어쓰기 사전으로 사용하여 기계학습 방법 중 최대 엔트로피 모델(maximum entropy model)을 통해 구현한다. 철자교정(spelling correction)은 최소편집거리(minimum edit distance) 알고리즘을 이용하여 구현한다.
분류 확률을 계산하기 위해서는 로지스틱 회귀분석(Logistic Regression) 모델[25]을 사용하고, 학생답안의 분류를 위해서는 로지스틱 회귀분석 분류기와 k-NN(k-Nearest neighbors) 분류기[16]를 사용한다. 로지스틱 회귀분석 분류기는 학습 시간을 절약하기 위해 확률 계산과 분류의 목적으로 사용된다.
이 기능은 스웨덴의 Växjö 대학교와 Uppsala 대학교에서 공동으로 개발한 의존구문 분석기인 MaltParser를 사용하여 구현한다[23].
구문 자질은 의존어와 지배어 그리고 의존관계를 자질로 추출한다. 자질 가중치는 정보검색에서 널리 사용되는 TF-IDF를 사용한다[24]. 본 논문에서 하나의 학생답안을 하나의 문서로 간주한다.
띄어쓰기 교정(spacing correction)은 세종말뭉치[20]를 띄어쓰기 사전으로 사용하여 기계학습 방법 중 최대 엔트로피 모델(maximum entropy model)을 통해 구현한다. 철자교정(spelling correction)은 최소편집거리(minimum edit distance) 알고리즘을 이용하여 구현한다.
평가에 사용된 서답형 문항은 2013년에 실시된 “국가 수준 학업성취도 평가”의 국어 과목(중3, 고2)과 사회 과목(중3)에서 선택했다[26].
성능/효과
2013년에 실시된 “국가 수준 학업성취도 평가”의 국어, 사회 과목의 서답형 문항을 선택하여 샘플로 추출된 1000개의 답안에 대해 시스템의 성능을 분석했다. 그 결과, 반자동채점 결과와 기준채점 결과 평균 95.6%의 높은 일치율을 보였다. 피어슨 상관계수와 Kappa 상관계수에서도 각각 0.
5%이므로 전자가 후자보다 채점이 어렵다는 것을 의미한다. 네 번째 열의 답안의 유형 수는 분석 단계를 거친 후, 학생답안들의 군집 수이며 분석 단계만 수행하더라도 많은 유형 수가 줄어들고 있음을 확인할 수 있다. 평균적으로 102개의 유형이 줄어들었으며 19.
각 점수에 대한 학습 말뭉치의 양이 부족 상대적으로 부족하게 되므로 불일치율이 높게 나온 것으로 추측할 수 있다. 두 번째로 채점 기준이 다른 문항들에 비해 복잡한 문항들이 불일치율이 높았다. 예를 들어 고2 국어 과목의 4-(1) 문항의 경우에 모범답안으로 “B는 예시를 통해 주지 A를 뒷받침한다.
한국어 서답형 문항 반자동채점 시스템에서는 위에서 설명한 일련의 작업을 효과적으로 수행할 수 있고 채점자가 채점에만 집중할 수 있도록 사용자 인터페이스를 제공한다. 제안된 시스템은 11개 문항에 대해서 각 문항 당 1000개의 학생답안을 채점했을 때 평균 채점 시간은 약 23분이였고 정답일치율이 95.6% 로 매우 좋은 결과를 보였다.
네 번째 열의 답안의 유형 수는 분석 단계를 거친 후, 학생답안들의 군집 수이며 분석 단계만 수행하더라도 많은 유형 수가 줄어들고 있음을 확인할 수 있다. 평균적으로 102개의 유형이 줄어들었으며 19.2%가 감소되었다. 따라서 분석 단계가 답안의 유형수를 줄여주는데 유용하다고 판단할 수 있다.
표 2에서 일곱 번째 열은 채점이 완료되기 까지 채점 단계의 반복 횟수를 나타내고 있다. 평균적으로 17번 반복으로 채점이 완료되었다. 이 반복 횟수는 채점 복잡도와 정비례하지는 않는다.
6%의 높은 일치율을 보였다. 피어슨 상관계수와 Kappa 상관계수에서도 각각 0.92와 0.88이라는 유효한 값을 얻을 수 있었다.
후속연구
이를 개선하기 위해서는 일차적으로는 반자동채점 시스템의 성능이 개선되어야 할 것이다. 또 인간 채점자들과 같이 여러 명이 같은 문항을 채점하거나 여러 라운드를 통해서 채점함으로써 일치율을 개선할 수 있을 것이다.
향후에는 본 논문에서 제안한 반자동채점 시스템의 성능을 높이기 위해 초기 학습말뭉치의 크기 선정과 각 배점별로 적절한 수의 학습말뭉치의 확보 등을 연구하여 적용할 계획이다. 채점자의 편의성을 위한 개선방향으로 채점할 때 사용자가 직접 유의어 사전을 등록하고 편집할 수 있도록 하는 인터페이스의 추가와 채점에 필요한 키워드를 제공하는 방식을 적용할 예정이다.
향후에는 본 논문에서 제안한 반자동채점 시스템의 성능을 높이기 위해 초기 학습말뭉치의 크기 선정과 각 배점별로 적절한 수의 학습말뭉치의 확보 등을 연구하여 적용할 계획이다. 채점자의 편의성을 위한 개선방향으로 채점할 때 사용자가 직접 유의어 사전을 등록하고 편집할 수 있도록 하는 인터페이스의 추가와 채점에 필요한 키워드를 제공하는 방식을 적용할 예정이다.
질의응답
핵심어
질문
논문에서 추출한 답변
서답형 문항의 장점은?
서답형 문항은 학생들의 종합적인 사고력을 평가할 수 있다는 장점이 있으나, 채점 비용이 많이 들고 채점자의 주관이 개입될 수 있다는 단점이 있다. 이런 단점을 개선하기 위해 영어권에서는 자동채점 시스템을 개발하여 사용하고 있으나, 한국어의 경우에는 아직 여전히 연구 단계에 있다.
서답형 문항의 단점은?
서답형 문항은 학생들의 종합적인 사고력을 평가할 수 있다는 장점이 있으나, 채점 비용이 많이 들고 채점자의 주관이 개입될 수 있다는 단점이 있다. 이런 단점을 개선하기 위해 영어권에서는 자동채점 시스템을 개발하여 사용하고 있으나, 한국어의 경우에는 아직 여전히 연구 단계에 있다.
서답형 문항의 단점을 개선하기 위해 영어권에서 개발하여 사용하고 있는 시스템은?
서답형 문항은 학생들의 종합적인 사고력을 평가할 수 있다는 장점이 있으나, 채점 비용이 많이 들고 채점자의 주관이 개입될 수 있다는 단점이 있다. 이런 단점을 개선하기 위해 영어권에서는 자동채점 시스템을 개발하여 사용하고 있으나, 한국어의 경우에는 아직 여전히 연구 단계에 있다. 본 논문에서는 준지도학습 방법을 이용한 한국어 서답형 문항의 채점 시스템을 제안한다.
참고문헌 (26)
이양락 외 (2010). 2014학년도 대학수학능력시험체제 개발을 위한 기초 연구, 한국교육과정평가원 연구보고서 대수능 CAT 2010-3.
진경애 (2007). "영작문 자동 채점 시스템 개발 연구", 영어어문교육, 13(1): 236-237.
S. Dikli (2006). "An Overview of Automated Scoring of Essays", The Journal of Technology, Learning, and Assessment, 5(1): 5-35.
E. Jang, S. Kang, E. Noh, M. Kim, K. Sung, and T. Seong, "KASS: Korean Automatic Scoring System for Short-answer Questions", Proceedings of the 6th International Conference on Computer Supported Education, pp.226-230.
Y. Chen, C. Liu, C. Lee, and T. Chang (2010). "An Unsupervised Automated Essay-Scoring System", IEEE Intelligent Systems, September/October, 61-67.
C. Leacock and M. CHodorow (2003). "C-rater: Automated Scoring of Short-Answer Questions", Computers and the Humanities 37: 389-405.
Y. Attali and J. Burstein (2005). Automated Essay Scoring with E-rator v.2.0, ETS Research Report RR-04-45.
L. M. Rudner, V. Garcia, and C. Welch (2006). "An Evaluation of the IntelliMetric $^{SM}$ Essay Scoring System", The Journal of Technology, Learning, and Assessment, 4(4).
조우진, 오정석, 이재영, 김유섭 (2005). "의미 커널과 한글 워드넷에 기반한 지능형 채점 시스템", 정보처리학회논문지 A, 12(6): 539-546.
노은희 외 (2014). 한국어 서답형 문항 자동채점 프로그램 개발 및 실용성검증, 한국교육과정평가원, 연구보고서 RRE 2014-6.
P. Harrington (2012). Machine Learning in Action, Manning Publications.
O. Chapelle, B. Scholkopf, and A. Zien (2006). Semi-supervised learning. The MIT Press, pp.1-8.
A. Sogaard (2013). Semi-Supervised Learning and Domain Adaptation in Natural Language Processing, Morgan & Claypool Publishers.
S. Bergsma (2010). Large-Scale Semi-Supervised Learning for Natural Language Processing, PhD Dissertation, Department of Computing Science, University of Alberta.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.