중등학교 과학 수행평가의 평가 유형과 채점 방식 및 신뢰도 분석 Analysis of Assessment Types, Scoring Methods and Reliability of Science Performance Assessment in Middle and High School원문보기
본 연구에서는 중등학교 과학 수행평가가 어떤 평가 유형과 채점 방식을 사용하고 있는지 분석하였으며, 이를 토대로 일반화가능도 이론을 이용하여 과학 수행평가 점수가 얼마나 신뢰로운지 분석하였다. 연구 결과, 과학 수행평가의 유형은 크게 지필형과 과제형으로 나눌 수 있었다. 지필형으로는 중등학교 모두 응답제한형 서술형검사만을 실시하고 있었다. 과제형은 과정 평가와 결과물 평가로 나눌 수 있었다. 채점 방식은 1명의 교사가 모든 서술형문항과 수행과제를 채점하거나, 2명의 교사가 수행과제를 나누어 채점하고 있었다. 그러나 2명 이상의 교사가 서술형문항을 나누거나 교차하여 채점하는 경우는 없었다. 표집된 7개 중등학교 과학 수행평가의 신뢰도 분석 결과는 다음과 갇다: (1) 서술형 문항의 특성이 수행과제의 특성보다 학생들의 수행평가 점수에 미치는 영향이 더 큰것으로 나타났다. (2) 수행과제 채점에서 채점자가 피험자를 다르게 채점하는 정도는 학교에 따라 상당한 차이가 있었다. (3) 7개 중등학교 과학 수행평가의 일반화가능도(신뢰도)는 대부분 적정 수준인 0.80에 미치지 못하는 것으로 나타났으며, 적정 수준의 일반화가능도를 얻기 위해서는 지금보다 더 많은 수의 서술형 문항과 수행과제 그리고 채점자가 필요한 것으로 분석되었다.
본 연구에서는 중등학교 과학 수행평가가 어떤 평가 유형과 채점 방식을 사용하고 있는지 분석하였으며, 이를 토대로 일반화가능도 이론을 이용하여 과학 수행평가 점수가 얼마나 신뢰로운지 분석하였다. 연구 결과, 과학 수행평가의 유형은 크게 지필형과 과제형으로 나눌 수 있었다. 지필형으로는 중등학교 모두 응답제한형 서술형검사만을 실시하고 있었다. 과제형은 과정 평가와 결과물 평가로 나눌 수 있었다. 채점 방식은 1명의 교사가 모든 서술형문항과 수행과제를 채점하거나, 2명의 교사가 수행과제를 나누어 채점하고 있었다. 그러나 2명 이상의 교사가 서술형문항을 나누거나 교차하여 채점하는 경우는 없었다. 표집된 7개 중등학교 과학 수행평가의 신뢰도 분석 결과는 다음과 갇다: (1) 서술형 문항의 특성이 수행과제의 특성보다 학생들의 수행평가 점수에 미치는 영향이 더 큰것으로 나타났다. (2) 수행과제 채점에서 채점자가 피험자를 다르게 채점하는 정도는 학교에 따라 상당한 차이가 있었다. (3) 7개 중등학교 과학 수행평가의 일반화가능도(신뢰도)는 대부분 적정 수준인 0.80에 미치지 못하는 것으로 나타났으며, 적정 수준의 일반화가능도를 얻기 위해서는 지금보다 더 많은 수의 서술형 문항과 수행과제 그리고 채점자가 필요한 것으로 분석되었다.
In this study, we questioned what assessment types and scoring methods of science performance assessment(SPA) were being used in middle and high school, and how much these SPA scores were reliable(generalizable). To answer these questions, SPA data obtained from the seven schools were classified acc...
In this study, we questioned what assessment types and scoring methods of science performance assessment(SPA) were being used in middle and high school, and how much these SPA scores were reliable(generalizable). To answer these questions, SPA data obtained from the seven schools were classified according to assessment type and scoring method. Based upon this classification, we analyzed the reliability by applying generalizability theory. The result, from the classification of assessment type and scoring method, showed that SPA types of the seven schools were divided into two types: paper-pencil type and task type. Paper-pencil type included answer(content)-restricted essay-type test solely. Task type has two parts: process and outcome assessment. As the results of analyzing scoring methods of the seven schools, there were two cases in the way of scoring methods: one case is scoring all essay-type items and performance tasks by one teacher, the other is scoring assigned performance tasks by two teachers. But the case of scoring assigned essay-type items or the case of cross scoring by two or more teachers were not found. The findings of the reliability analysis are as follows: (1) Effect of essay-type item to SPA score was larger than that of performance task. (2) There was remarkable difference among the seven schools' interaction effect of person and rater in scoring performance tasks. (3) Most of generalizability(reliability) coefficients of SPA for the seven schools were smaller than the acceptable generalizability coefficient(0.80). Therefore, the population of statistical parameters such as number of item, task and rater, should be increased for approaching the acceptable generalizability level.
In this study, we questioned what assessment types and scoring methods of science performance assessment(SPA) were being used in middle and high school, and how much these SPA scores were reliable(generalizable). To answer these questions, SPA data obtained from the seven schools were classified according to assessment type and scoring method. Based upon this classification, we analyzed the reliability by applying generalizability theory. The result, from the classification of assessment type and scoring method, showed that SPA types of the seven schools were divided into two types: paper-pencil type and task type. Paper-pencil type included answer(content)-restricted essay-type test solely. Task type has two parts: process and outcome assessment. As the results of analyzing scoring methods of the seven schools, there were two cases in the way of scoring methods: one case is scoring all essay-type items and performance tasks by one teacher, the other is scoring assigned performance tasks by two teachers. But the case of scoring assigned essay-type items or the case of cross scoring by two or more teachers were not found. The findings of the reliability analysis are as follows: (1) Effect of essay-type item to SPA score was larger than that of performance task. (2) There was remarkable difference among the seven schools' interaction effect of person and rater in scoring performance tasks. (3) Most of generalizability(reliability) coefficients of SPA for the seven schools were smaller than the acceptable generalizability coefficient(0.80). Therefore, the population of statistical parameters such as number of item, task and rater, should be increased for approaching the acceptable generalizability level.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
G 연구에서 산출된 오차원의 분산성분을 토대로 고전검사이론의 신뢰도 계수와 유사한 개념인 일반화가능도 계수를 산출한다. 또한 오차 분산의 각 국면의 수를 늘림으로써 적정 수준(0.80)의 일반화 가능도 계수를 산출하기 위한 최적의 조건을 제시한다.
제안 방법
7개 중등학교의 과학 수행평가 자료를 수집하여 이들 수행평가의 유형과 채점 방식에 맞게 G 연구를 설계하였다. D 연구 설계는 G 연구 설계와 동일하게 하였으며, 서술형 문항(1)과 수행과제(t) 그리고 채점자(r) 국면은 모두 임의(random)라고 규정하였다.
하는지 알아내기 위하여 실시한다. G 연구에서 산출된 오차원의 분산성분을 토대로 고전검사이론의 신뢰도 계수와 유사한 개념인 일반화가능도 계수를 산출한다. 또한 오차 분산의 각 국면의 수를 늘림으로써 적정 수준(0.
우선 오차요인에 따라 국면(facet)을 설정하고자료 수집 형태가 교차{crossed)모형인지 내재(nested)모형인지 결정하여 분산분석(ANOVA) 설계를 적용한다. 그 다음은 분산분석 결과 얻어진 각 분산원의 제곱평균(MS) 으로부터 분산성분(variance component)을 추정하여, 분산성분의 상대적 크기를 비교하여 각 오차원의 영향력을 분석한다.
본 연구에서는 중등학교 과학 수행평가 자료를 수집하여 평가 유형과 채점 방식을 분석하고, 이를 토대로 지필형 및 과제형 수행평가 자료에 일반화가능도 이론을 적용하여 신뢰도(일반화가능도)를 분석하였다.
대상 데이터
본 연구는 Table 1에서 보는 바와 같이 서울특별시와 경기도에 소재한 중학교 4개와 고등학교 3개의 과학 수행평가 자료를 대상으로 하였다. 중학교는 경기도 소재 2개 학교와 서울 소재 2개 학교의 과학 과목에서 총 178명, 고등학교는 서울시 소재 3개 학교 10학년 과학과 11학년 지구과학 I 과목에서 총 161명의 과학 수행평가 자료를 수집하였다.
자료를 대상으로 하였다. 중학교는 경기도 소재 2개 학교와 서울 소재 2개 학교의 과학 과목에서 총 178명, 고등학교는 서울시 소재 3개 학교 10학년 과학과 11학년 지구과학 I 과목에서 총 161명의 과학 수행평가 자료를 수집하였다. 수집된 자료에는 각 학교별 과학 교과 수행평가 계획과 한 학기 동안 실시한 구체적인 수행평가 목록, 서술형문항 및 수행과제 원본과 이에 따른 채점 기준표와 채점 결과(학생별 원점수) 그리고 각 학교 담당 교사와의 면담을 통해 파악한 채점 방식이 포함된다.
데이터처리
연구 분석의 기본적인 자료 처리는 GENOVA(GENera- lized analysis Of VAriance) 프로그램을 사용하였다. GENOVA는 Brennan(1983)에 의해 일반화7]능도 이론을적용시키기 위해 개발되었으며, 다른 통계 프로그램에서는 계산되지 않는 분산성분의 추정치와 비율, 일반화가능도 계수, 각 국면의 조건 변화에 따른 일반화가능도 계수의 변화와 같은 다양하고 상세한 결과를 제공한다(Crick & Brennan, 1983).
이론/모형
본 연구에서는 과학 수행평가의 신뢰도를 분석하기 위해 고전검사이론이 아닌 일반화가능도 이론을 적용하였다. 일반화가능도 이론은 크게 일반화 연구(generalizability study, G 연구)와 결정 연구(decision study, D 연구)로 나뉘어진다.
우선 오차요인에 따라 국면(facet)을 설정하고자료 수집 형태가 교차{crossed)모형인지 내재(nested)모형인지 결정하여 분산분석(ANOVA) 설계를 적용한다. 그 다음은 분산분석 결과 얻어진 각 분산원의 제곱평균(MS) 으로부터 분산성분(variance component)을 추정하여, 분산성분의 상대적 크기를 비교하여 각 오차원의 영향력을 분석한다.
일반적으로 신뢰도의 산출은 고전검사이론(classical test theory)에서의 4개 신뢰도 추정 방법(재검사 신뢰도, 동형검사 신뢰도, 반분 신뢰도, 내적 일치도)을 사용한다. 그러나 고전검사이론을 통해 산출되는 이러한 신뢰도는 측정 도구의 신뢰도 즉, 측정 결과의 일관성(consistency) 에 대한 추정 방법에 집중되어 왔기 때문에 관찰대상과 관찰자, 시기, 환경 및 상황 등의 오차요인(sources of error)을 복합적으로 고려하지 못한 약점을 가지고 있다.
성능/효과
G 계수를 비교한 것이다. D 연구 결과, 국면의 기본조건(Nt=l)에 의한 G 계수는 B 중학교가 0.417, K 고등학교가 0.318로 B 중학교의 일반화가능도가 더 높은 것으로 나타났다. 두 학교 모두 G 연구에 사용된 수행과제 수정도로는 적정 수준의 일반화가능도에 미치지 못하며, 일반화 가능한 과제형 수행평가가 되기 위해서는 더 많은수의 수행과제가 필요한 것으로 판단된다.
G 계수를 비교한 것이다. D 연구 결과, 국면의 기본조건(Nt=l, Nr=l)에 의한 G 계수는 S1 중학교가 0.530 으로 가장 크게 나타났으며, H 중학교가 0.145로 가장 작게 나타났다. 이것은 교사 2명이 수행과제를 나누어 채점하는 방식을 채택하고 있는 네 학교 중 S1 중학교의 일반화가능도가 가장 높다는 것을 의미한다.
과학 수행평가 유형과 채점 방식을 토대로 일반화가능도 이론을 적용한 결과, 서술형문항과 수행과제를 국면으로 한 1국면 교차 설계에서는 잔차성분이 매우 크게 산출되었으며, 서술형 문항과 수행과제 국면에 의한 효과가작게 산출되었다. 또한 서술형 문항 국면에 의한 분산성분에 비해 수행과제 국면에 의한 분산성분이 매우 작게나타나 서술형 문항 국면이 오차 분산에 더 크게 기여하는 것으로 나타났다.
3%로 매우 큰 것으로 나타났다. 네학교 모두 채점자간 차이는 0.0~3.3%로 없거나 매우 작은 것으로 나타나 채점자 특성이 학생들의 수행평가 점수에 거의 영향을 미치지 않는 것으로 나타났으며, 채점자내 수행과제간의 차이 또한 G 고등학교를 제외하고 매우작게 나타났다 .
산성분을 비교한 것이다. 두 학교에서 과제분산이 차지하는 비율은 1.7%와 0.0%로 매우 작게 나타난 반면, 잔차분산이 차지하는 비율이 57.3%와 68.3%로 매우 크게 산출되었다. 과제분산이 차지하는 비율이 매우 작게 나타난것은 수행과제 간에 차이가 매우 작아 수행과제의 특성이학생들의 수행평가 점수에 미치는 영향이 거의 없는 것으로 해석할 수 있다.
산출되었다. 또한 서술형 문항 국면에 의한 분산성분에 비해 수행과제 국면에 의한 분산성분이 매우 작게나타나 서술형 문항 국면이 오차 분산에 더 크게 기여하는 것으로 나타났다. 이것은 두 가지로 해석이 가능하다.
이것 또한 1국면교차 설계에서와 마찬가지로 수행과제 점수간의 간격이작고 70%의 기본 점수를 부여하였기 때문인 것으로 판단할 수 있다. 또한 일반화가능도 계수를 산출해본 결과, 7 개 학교에서 사용하는 서술형 문항이나 수행과제 수로는대부분이 적정 수준의 일반화가능도에 도달하지 못하며, 더 많은 수의 문항과 과제가 필요한 것으로 나타났다. P XI 설계에서는 서술형 문항이 5~10개 정도가 필요한 것으로 나타났으며, pXT 설계에서는 수행과제가 6~12개정도가 필요한 것으로 나타났다.
비교한 것이다. 세 학교에서 문항분산이 차지하는 비율은 각각 15.0%, 13.5%, 9.8%로 다른 분산성분보다 낮게 나타났는데, 이는 문항 간에 차이가 크지 않아 학생들의 수행평가 점수에 문항의 특성이 미치는 영향이 작음을 의미한다. 그러나 잔차분산이 차지하는 비율이 각각 45.
원점수를 확인해 본 결과 서술형 문항에는 기본 점수가 없는 반면, 수행과제는 최하 만점의 70%에 해당되는 기본 점수를 부여하고 있었다. 수행과제와 채점자 또는 서술형 문항과 채점자를 국면으로 한 2국면 부분 내재 설계에서는 채점자간 차이가 거의 없는 것으로 나타났으며, 각 채점자들이 채점한 수행과제들간의차이는 대체로 작은 것으로 나타났다. 이것 또한 1국면교차 설계에서와 마찬가지로 수행과제 점수간의 간격이작고 70%의 기본 점수를 부여하였기 때문인 것으로 판단할 수 있다.
연구 결과, 국면의 기본 조건(Ni=l)에 의한 G 계수는 C 중학교가 0.464로 가장 크게 나타났으며, K 고등학교가 0.294로 가장 작게 나타났다. 이것은 교사 1명이 모든 서술형 문항을 채점하는 방식을 채택하고 있는 세 학교 중 C 중학교의 일반화가능도가 가장 높다는 것을 의미한다.
H와 S2 학교는 피험자분산에 비해 오차분산이 매우 크게 산출되었다. 오차분산 중에는 잔차분산이 62.5%와 56.8%로 가장 크게 산출되었으며, 잔차분산을 제외한 나머지 오차분산 중에서는 피험자와 채점자의상호작용분산이 21.3%와 20.5%로 가장 크게 산출되었다. 그러나 S1과 G 학교는 피험자분산이 오차분산에 비해 크게 산출되었다.
측정 결과를 어느 정도 일반화할 수 있느냐 하는 정도. 일반화가능도 이론에서 측정의 정확도는 그 측정의 안정성이나 일관성보다는 그 측정 결과의 일반성 혹은 보편성으로 파악하는 것이 더 타당하다고 보며, 신뢰도 계수 대신 일반화가능도 계수가 측정의 정확도에 더적절하다고 본다.
전체 7개 학교의 과학 수행평가 자료를 수집하여 그 평가 유형을 분류한 결과, 과학 수행평가의 유형이 다양하지 않으며, 과학 수행평가로 사용할 수 있는 많은 유형 중에서 일부분만을 사용하고 있는 것으로 분석되었다. 지필형 수행평가로는 과학 교과의 특성상 응답이 제한되고 내용도 제한되는 서술형 검사만을 실시하고 있었고 논술형은 사용하지 않고 있었다.
후속연구
또한 하부문항이 없는 단일 문항을 사용하거나, 채점 기준에 부분점수가 없는 경우 신뢰도가 낮아질 수 있을 것이다. 과제를 이용한 수행평가의 경우는 정량적인 연구 결과로만 보아서는 서술형 문항보다 신뢰도가 높은 평가 도구라는 판단을 내릴 수도 있겠으나, 이러한 결과는 기본 점수를 부여하여 학생간의 점수 차이가 작은 것에 기인한 것이므로여기에 대한 정성적인 판단이 필요할 것으로 본다. 또한 2명 이상의 채점자가 과제를 나누어 채점할 경우는 채점자에 따라 많은 차이가 발생할 수 있다.
그러므로일반화가능도 이론에서 신뢰도의 오차가 되는 요인들의분산을 줄일 수 있는 방안을 찾아야 할 것이다. 본 연구의결과를 토대로 하여 그 방안을 생각해보면 다음과 같다.
Crick, J. E., & Brennan, R. L.(1983). Manual of GENOVA: A GENeralized Analysis Of VAriance System. Iowa city, IA: American College Testing Program
Cronbach, L. J., Gieser, G. C., Nanda, H., & Rajaratnam, N.(1972). The dependability of behavioral measurements: Theory of generalizability of scores and profiles. John Wiley: New York
Doran, R., Chan, F., & Tamir, P.(1998). Science educator's guide to assessment. National Science Teachers Association, Virginia
Linn, R. L., Baker. E. L., & Dunbar, S. B.(1991). Complex, performance-based assessment: Expectations and validation criteria. Educational Researcher, 20(8), 15-21
※ AI-Helper는 부적절한 답변을 할 수 있습니다.