서답형 문항이 포함된 대규모 평가에서 학생들의 답안이 어떻게 채점자들에게 분배되고 어떠한 체계적인 채점 과정을 거쳐야 하는 지에 대한 채점의 효율성은 전반적인 평가의 성공에 중요한 사안이다. 서답형 문항 채점에서 채점자 신뢰도를 확보하기 위해 채점자의 채점 결과가 얼마나 일관성이 있으며, 또한 채점자 간의 채점 결과 또한 서로 일관성을 유지해야하는 것이 중요하다. 이 연구의 목적은 지필 평가로 시행된 서답형 문항 채점을 위한 온라인 채점 시스템을 설계하고 개발한 후, 이를 시행한 결과를 기반으로 온라인 채점 시스템에 대한 신뢰도를 확인하고자 하였다. 이러한 서답형 문항 온라인 채점은 채점자들의 채점 과정에 대한 정보로, 기존의 전통적인 채점 방식과의 비교와 함께 채점자 내 및 채점자 간의 신뢰도를 제공하고 있다. 그 결과로 온라인 채점 시스템이 신뢰롭고 타당한 서답형 문항 채점 결과를 얻는데 효과적이었다는 것을 알 수 있었다.
서답형 문항이 포함된 대규모 평가에서 학생들의 답안이 어떻게 채점자들에게 분배되고 어떠한 체계적인 채점 과정을 거쳐야 하는 지에 대한 채점의 효율성은 전반적인 평가의 성공에 중요한 사안이다. 서답형 문항 채점에서 채점자 신뢰도를 확보하기 위해 채점자의 채점 결과가 얼마나 일관성이 있으며, 또한 채점자 간의 채점 결과 또한 서로 일관성을 유지해야하는 것이 중요하다. 이 연구의 목적은 지필 평가로 시행된 서답형 문항 채점을 위한 온라인 채점 시스템을 설계하고 개발한 후, 이를 시행한 결과를 기반으로 온라인 채점 시스템에 대한 신뢰도를 확인하고자 하였다. 이러한 서답형 문항 온라인 채점은 채점자들의 채점 과정에 대한 정보로, 기존의 전통적인 채점 방식과의 비교와 함께 채점자 내 및 채점자 간의 신뢰도를 제공하고 있다. 그 결과로 온라인 채점 시스템이 신뢰롭고 타당한 서답형 문항 채점 결과를 얻는데 효과적이었다는 것을 알 수 있었다.
In high-stakes tests for large groups, the efficiency with which students' responses are distributed to raters and how systematic scoring procedures are managed is important to the overall success of the testing program. In the scoring of constructed response items, it is important to understand whe...
In high-stakes tests for large groups, the efficiency with which students' responses are distributed to raters and how systematic scoring procedures are managed is important to the overall success of the testing program. In the scoring of constructed response items, it is important to understand whether the raters themselves are making consistent judgments on the responses, and whether these judgments are similar across all raters in order to establish measures of rater reliability. The purpose of this study was to design, develop and carry out a pilot test of an online scoring system for constructed response items administered in a paper-and-pencil test to large groups, and to verify the system's reliability. In this study, we show that this online system provided information on the scoring process of individual raters, including intra-rater and inter-rater consistency, compared to conventional scoring methods. We found this system to be especially effective for obtaining reliable and valid scores for constructed response items.
In high-stakes tests for large groups, the efficiency with which students' responses are distributed to raters and how systematic scoring procedures are managed is important to the overall success of the testing program. In the scoring of constructed response items, it is important to understand whether the raters themselves are making consistent judgments on the responses, and whether these judgments are similar across all raters in order to establish measures of rater reliability. The purpose of this study was to design, develop and carry out a pilot test of an online scoring system for constructed response items administered in a paper-and-pencil test to large groups, and to verify the system's reliability. In this study, we show that this online system provided information on the scoring process of individual raters, including intra-rater and inter-rater consistency, compared to conventional scoring methods. We found this system to be especially effective for obtaining reliable and valid scores for constructed response items.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
채점과정을 온라인으로 수행하기 위해서는 답안지 이미지 스캐닝, 이미지 분할, 답안지 배분, 온라인 채점 수행, 채점 결과 검증과 같은 일련의 과정이 필요하다. 본 연구에서는 서답형 문항의 온라인 채점 과정에서 답안지의 배분, 채점 수행, 채점 결과 검증, 채점자 신뢰도 점검에 주안점을 두었다.
본 연구의 목적은 대규모 집단을 대상으로 실시하는 지필평가에서 적용 가능한 서답형 문항의 온라인 채점시스템을 설계․개발하고, 이의 시범 적용을 통하여 채점시스템의 효율성을 검증하는데 있다.
제안 방법
실험에 참가한 피험자는 서울에 위치하고 있는 10개 초등학교의 6학년 학생 총 2443명으로 대상으로 검사를 시행하였다. 검사시간은 문항을 제작한 교과 전문가와의 협의를 거쳐 30분으로 결정하였다.
다음으로 2번 문항에 대한 10명의 채점자에 대한 Phase 1의 채점자간 신뢰도를 산출하기 위하여 동일한 답안을 채점한 두 채점자들 간의 점수의 적률상관계수를 산출하였다().
둘째, 응답지를 컴퓨터 알고리즘으로 효율적으로 배분이 가능하고, 모든 응답지에 두 사람이 채점하는 방식을 도입함으로써 개별 채점자는 다른 채점자들과 답지를 공유하기 때문에 채점자내 일관성과 신뢰성을 파악할 수 있는 정보를 제공한다. 나아가 이러한 정보를 통하여 채점 초기 혹은 진행 중 일관되지 못한 채점자의 채점을 중지시킬 수도 있다.
따라서 채점자들 간의 신뢰도를 알아보기 위하여 두 채점자에 의하여 일치 또는 유사한 채점을 받은 응시자의 수를 전체 채점 답안의 수로 나누어 이를 채점의 pass/fail rate를 산출하였다().
모의실험의 기본 원칙과 방향으로는 모든 피험자의 개별 답안 모두 2명의 채점자가 채점하도록 하는 복수채점 설계를 하였다. 또한 채점자들의 채점의 분량과 채점의 효율성 등을 고려하여 문항, 채점자, 피험자가 부분적으로 연계되도록 하는 방식으로 설계되어 답지 분배가 이루어졌다.
온라인 채점은 총 4일에 걸쳐서 진행이 되었다. 모든 채점자에게 ID를 부여하고 동일한 날에 온라인 채점 시스템에 접속할 수 있게 하였고 4일간의 진행은 각 채점자들의 재량에 맡기어 진행을 하였다.
모의실험의 기본 원칙과 방향으로는 모든 피험자의 개별 답안 모두 2명의 채점자가 채점하도록 하는 복수채점 설계를 하였다. 또한 채점자들의 채점의 분량과 채점의 효율성 등을 고려하여 문항, 채점자, 피험자가 부분적으로 연계되도록 하는 방식으로 설계되어 답지 분배가 이루어졌다.
응시자가 답을 작성하는 구역 범위를 벗어난 위치에 답안을 작성한 경우에는 전체 답안 이미지를 참고할 필요가 있기 때문에 전체이미지와 분할된 이미지는 구분하여 저장할 필요가 있다. 문항별로 분할된 이미지는 온라인 채점을 위해 온라인 채점 서버로 이동하여 저장하였다.
본 실험에서 사용한 검사지는 국어 과목 2개의 문항으로 구성하였다. 첫 번째 문항은 전체적인 이야기를 읽고 이야기 속에 나오는 인물의 성격이나 태도를 파악하여 주어진 이야기의 다음에 이어질 이야기를 흐름에 맞게 작성하는 8점 문항이다([그림 9]).
본 실험의 점수 산출 과정에서 두 채점자들 간의 차이점수에 대한 기준치 값은 1번 문항의 경우 배점 8점의 50% 즉 4점을 기준값으로 설정을 하였고 2번 문항의 경우는 배점 12점의 33%인 4점을 기준값으로 설정을 하여 진행하였다.
본 연구에서 적용한 온라인 채점 시스템에서는 동일한 답안에 두 채점자가 일치하게 평정하는 대각선 부분의 점수와 더불어 대각선에 인접한 cell을 오차 허용 범위로 설계하였다. 따라서 채점자들 간의 신뢰도를 알아보기 위하여 두 채점자에 의하여 일치 또는 유사한 채점을 받은 응시자의 수를 전체 채점 답안의 수로 나누어 이를 채점의 pass/fail rate를 산출하였다(<표 9>).
특정 문항의 모든 답안을 채점자들에게 배분하는 경우, 랜덤 추출 배정 방식의 효과를 유지하면서 데이터베이스 설계 및 활용이 편리해야 한다. 본 연구에서는 답안 ID를 기준으로 채점자를 배정하였으며, [그림 6]의 Phase 1부터 Phase 4까지의 점수를 데이터베이스에 저장함으로써 채점 과정 또는 채점 종료 후에 채점자간의 신뢰도 추정이 가능하도록 배분하였다. 국가 수준의 평가에서 특정 지역, 특정학교 학생 답안지가 연속적으로 특정 채점자에게 집중하여 배정되는 것을 시스템적으로 방지하였다.
본 연구에서는 모든 학생의 모든 응답지는 서로 다른 두 명의 채점자에 의한 복수 채점을 전제로 한다. 특정 답안에 대하여 서로 다른 두 채점자에 의해 부여된 두 점수가 주어진 범위를 벗어나게 되면, 재 채점을 하게 된다.
서답형 답안지를 답안 이미지 전체를 스캐닝한 후, 문항별로 이미지를 분할한다. 응시자가 답을 작성하는 구역 범위를 벗어난 위치에 답안을 작성한 경우에는 전체 답안 이미지를 참고할 필요가 있기 때문에 전체이미지와 분할된 이미지는 구분하여 저장할 필요가 있다.
서답형 문항 채점의 신뢰도 분석은 국어 검사지 2개 각각의 문항 당 모든 채점자들의 공통분량인 약 54~55개 정도의 피험자 답지에 대해 수행되었고 채점자간 및 채점자내 신뢰성을 중심으로 분석하였다.
온라인 채점 시스템의 효율성은 채점 소요시간,복수 채점에서 점수 일치도, 채점자 신뢰도를 근거로 이루어졌다.
서답형 문항의 답안지를 이미지로 스캐닝한 후각 문항별로 답안 이미지를 분할하여 온라인 채점 시스템에서 활용한다. 온라인 채점과정에서 개인 정보는 답안 내역 정보와 분리하여 관리하고 각 답안은 별도의 관리번호를 부여하여 개인 정보의 유출을 방지하도록 하였다. 서답형 답안지의 스캐닝에서 온라인 채점 완료시까지의 주요 단계는 [그림 2]와 같이 설정하였다.
이 장에서는 앞에서 개발한 온라인 채점 시스템을 이용하여 서답형 문항을 실제로 채점하는 모의실험을 통하여 온라인 채점 시스템의 효율성을 검증하였다.
채점자는 초등학교에 재직 중인 10명의 교사로 구성하였다. 채점자를 결정한 후 실제 온라인 채점이 진행되기 전에 채점자 연수 자료를 준비하여 1일간 채점자 연수를 실시하여 채점 기준에 대한 동일한 해석을 할 수 있는 이해를 도왔고 또한 채점 시스템에 대한 설명으로 원활한 채점 진행을 위한 준비를 하였다.
하드웨어 구성은 크게 답안지를 스캔하여 이미지를 변환하고 분할하는 이미지 처리서버, 답안지 이미지(PDF)와 채점결과를 저장, 관리, 채점자에 대한 작업을 관리하는 온라인 채점서버 등으로 구성하였다([그림 1]).
대상 데이터
검사의 목적과 결과 활용 등에 적절한 채점자의 선정과 구성은 매우 중요하다. 본 연구에서는 응시 학생들을 직접 가르치는 학교 현장 교사를 중심으로 채점자를 선정하였다. 채점 결과의 공정성과 신뢰성을 높이는데 직접적인 효과를 기대할 수 있는 중요한 과정의 하나는 채점자 연수이다.
실험에 참가한 피험자는 서울에 위치하고 있는 10개 초등학교의 6학년 학생 총 2443명으로 대상으로 검사를 시행하였다. 검사시간은 문항을 제작한 교과 전문가와의 협의를 거쳐 30분으로 결정하였다.
온라인 채점은 총 4일에 걸쳐서 진행이 되었다. 모든 채점자에게 ID를 부여하고 동일한 날에 온라인 채점 시스템에 접속할 수 있게 하였고 4일간의 진행은 각 채점자들의 재량에 맡기어 진행을 하였다.
채점자는 초등학교에 재직 중인 10명의 교사로 구성하였다. 채점자를 결정한 후 실제 온라인 채점이 진행되기 전에 채점자 연수 자료를 준비하여 1일간 채점자 연수를 실시하여 채점 기준에 대한 동일한 해석을 할 수 있는 이해를 도왔고 또한 채점 시스템에 대한 설명으로 원활한 채점 진행을 위한 준비를 하였다.
데이터처리
상관계수로 채점자 간 신뢰도를 산출하는 경우 서로 다른 채점자가 동일한 수험생의 서답형 문항 답안에 얼마나 유사하게 점수를 부여하였나를 분석하기 위해 Pearson 단순적률상관계수 을 산출한다[9].
채점자 신뢰도를 산출하기 위하여 동일한 답안을 채점한 두 채점자들 간의 점수의 적률상관계수를산출하였다().
성능/효과
1번 문항에 대한 채점자 간의 상관은 대체로 상관계수 0.7을 넘고 있어 채점자 간의 일관성 있는 채점이 이루어지고 있는 것으로 나타났다.
종전 채점방식에서의 복수 채점은 답지분배 및 결과 정리의 어려움이 많으나 온라인 채점방식에는 답안지 분배와 채점 결과 처리가 온라인 전송을 통해 이루어지기 때문에 복수 채점을 편리하게 수행할 수 있다. 또한 한 채점자의 답지를 다른 한사람의 채점자와 겹치는 수준을 넘어 모든 채점자와 겹치게 함으로써 채점자간 신뢰도뿐만 아니라 채점자내 신뢰도를 평가할 수 있었다.
마지막으로 채점관리자가 관여하는 3차 채점과정에 이른 문항은 70개(3%,), 112개(5%)로 전체응시자 규모를 고려할 때 매우 작은 숫자로 1, 2차 채점과정을 통하여 전반적으로 채점결과가 안정적으로 산출되었음을 나타낸다.
무엇보다도 대규모 서답형 평가에서 종전의 채점자를 집합시켜 문항을 채점하는 방식과 비교할 때, 온라인 채점은 채점자의 채점과정, 채점자내및 채점자간 채점 일관성에 대한 다양한 정보를 제공한다는 점에서 신뢰성이 높고, 타당성 있는 채점 결과를 산출할 수 있는 유용한 방안임을 알 수 있다.
셋째, 채점자가 직접 컴퓨터에 개별 점수를 입력하기 때문에 paper and pencil 채점 방식에 비해 채점 결과의 관리가 용이하며 최종 결과산출을 위한 소요 시간을 단축할 수 있다.
즉, 약 94%의 채점 결과는 주어진 허용 기준값의 범위를 만족하였다. 주목할 점은 채점자 U07은 재 채점 문항수가 63개로 매우 많은 숫자를 보인 것을 알 수 있었고, 이러한 절차를 통하여 채점자별 채점신뢰도를 점검하였다.
후속연구
이러한 온라인 채점의 장점에도 불구하고 최초 채점 시스템을 개발, 활용하기 위한 비용이 많이 든다는 점과 온라인상의 보안 유지의 문제는 지속적으로 해결되어야 할 과제일 것이다. 또한 채점자 연수를 온라인으로 시행하는 경우 이에 대한 효과성에 대한 검증이 필요할 것이다. 그러나 최초의 시스템 개발이 이루어진 이후에는 안정적으로 채점과정을 진행할 수 있으며, 시스템의 수정을 통하여 다양한 평가 프로그램에 유연하게 적용할 수 있다는 것은 온라인 채점 시스템의 유용한 장점일 것이다.
즉 모든 채점자간 신뢰도 정보를 활용하여 특정 채점자의 일관성, 공정성의 수준을 판단할 수 있는 자료가 제공된다.
질의응답
핵심어
질문
논문에서 추출한 답변
인터넷이나 웹을 이용한 컴퓨터 기반 검사 방식을 이용하기 위해 필요한 것은?
이에 대한 대안으로 인터넷이나 웹을 이용한 컴퓨터 기반 검사(CBT, WBT 등) 방식을 이용하기도 하지만 대규모의 집단을 대상으로 동시에 실시하는 경우에는 이를 뒷받침 할 수 있는 방대한 인프라 구축비용이 소요될 뿐만 아니라 검사를 실시하는 시간 동안 모든 시스템이 정상적으로 작동하는 것이 담보되어야 한다.
이전의 지필평가 방식에서 서술형 답안지를 채점할 때 발생하는 문제는?
종전과 같은 지필평가 방식으로 대규모 집단을 대상으로 실시하는 고부담 시험에 있어서는 서답형 문항의 답안지를 채점하는 과정에서 많은 문제점이 발생한다. 채점자 전원이 동시에 동일한장소에 집결하여 피험자가 작성한 응답지를 일일이 채점하게 되므로, 대규모의 채점 공간 확보 및 비용이 증가하고, 많은 시간과 노력이 필요하다.
서답형 문항 채점에서 중요하게 고려해야 하는 것은?
서답형 문항이 포함된 대규모 평가에서 학생들의 답안이 어떻게 채점자들에게 분배되고 어떠한 체계적인 채점 과정을 거쳐야 하는 지에 대한 채점의 효율성은 전반적인 평가의 성공에 중요한 사안이다. 서답형 문항 채점에서 채점자 신뢰도를 확보하기 위해 채점자의 채점 결과가 얼마나 일관성이 있으며, 또한 채점자 간의 채점 결과 또한 서로 일관성을 유지해야하는 것이 중요하다. 이 연구의 목적은 지필 평가로 시행된 서답형 문항 채점을 위한 온라인 채점 시스템을 설계하고 개발한 후, 이를 시행한 결과를 기반으로 온라인 채점 시스템에 대한 신뢰도를 확인하고자 하였다.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.