최소 단어 이상 선택하여야 합니다.
최대 10 단어까지만 선택 가능합니다.
다음과 같은 기능을 한번의 로그인으로 사용 할 수 있습니다.
NTIS 바로가기Journal of the Korean Data & Information Science Society = 한국데이터정보과학회지, v.21 no.1, 2010년, pp.87 - 98
This research deals the method to assess the validity and reliability of students' evaluation for lectures. Most papers for student's evaluation have focused the procedures for controlling the external effects, but this paper is trying to answer for "How reliable is the student rating?" An empirical...
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
핵심어 | 질문 | 논문에서 추출한 답변 |
---|---|---|
우리나라 대학교에서 실시하는 강의평가는 평가의 목적에 따라 어떻게 나눌 수 있는가? | 우리나라의 대부분의 대학교에서 실시하는 강의평가 (students’ evaluation)는 평가의 목적에 따라 형성적 (formative) 평가와 종합적 (summative) 평가로 나눌 수 있다. 형성적 평가는 학기 중에 학생들의 의견을 반영하여 강의의 질을 향상시키기 위한 목적으로 실시하며, 종합적 평가는 교수의 승진, 연봉 산정, 정년보장 임면 등 관리적 목적으로 주로 사용된다 (Crumbley와 Fliedner, 2002). | |
타당성은 무엇인가? | 타당성은 검사 (test)가 측정하고자 하는 내용을 얼마나 정확하게 (accurate) 측정하였는가에 관한 측도이다. AERA, APA, NCME (American Educational Research Association, American Psychological Association, National Council on Measurement in Education) (1999)의 Standards for Educational and Psychological Testing에서는 제안된 검사도구에 의해 얻어진 검사점수의 해석에 증거나 이론이 지지하여주는 정도로 정의하고 있다. | |
강의평가 중 형성적 평가는 무엇을 목적으로 실시되는가? | 우리나라의 대부분의 대학교에서 실시하는 강의평가 (students’ evaluation)는 평가의 목적에 따라 형성적 (formative) 평가와 종합적 (summative) 평가로 나눌 수 있다. 형성적 평가는 학기 중에 학생들의 의견을 반영하여 강의의 질을 향상시키기 위한 목적으로 실시하며, 종합적 평가는 교수의 승진, 연봉 산정, 정년보장 임면 등 관리적 목적으로 주로 사용된다 (Crumbley와 Fliedner, 2002). 교수의 강의에 대하여 점검하고 의견을 들어 다음 강의의 개선자료로 활용하는 교수적 기능이 강의평가 실시의 초기단계의 목적이었다면 근래에 들어서는 업적평가, 승진 등에 반영하는 행정적인 기능이 점차 강조되고 있다. |
김성연, 권치명 (2005). 통계적 기법을 활용한 균등화법에 의한 강의평가 개선방안 연구. , 7, 1705-1721.
현재까지의 논문은 대부분 자신의 학교자료를 대상으로 어떠한 요인이 강의평가에 영향을 주는가에 대한 기술적 (descriptive) 분석과 강의평가에 영향을 주는 요인을 통제하는 방법을 제시하는 내용이 대부분이다 (김종태, 2004; 김성연과 권치명, 2005; 조장식 등, 2009; 박노진, 2009; Lee와 Lee, 2006; Baik와 Yang, 2008).
김영진 (1994). 교수강의평가제-과연 생산성이 있는가. , 8, 252-235.
김종태 (2004). A study of reliability of lecture evaluation by students. , 15, 183-191.
현재까지의 논문은 대부분 자신의 학교자료를 대상으로 어떠한 요인이 강의평가에 영향을 주는가에 대한 기술적 (descriptive) 분석과 강의평가에 영향을 주는 요인을 통제하는 방법을 제시하는 내용이 대부분이다 (김종태, 2004; 김성연과 권치명, 2005; 조장식 등, 2009; 박노진, 2009; Lee와 Lee, 2006; Baik와 Yang, 2008).
류춘호, 이정호 (2003). 대학의 강의평가에 영향을 미치는 학생관련 요인에 관한 연구. , 32, 789-807.
박노진 (2009). 핵심 문항들을 활용한 모델링-강의 평가 자료를 활용한 사례연구. , 20, 1075-1083.
현재까지의 논문은 대부분 자신의 학교자료를 대상으로 어떠한 요인이 강의평가에 영향을 주는가에 대한 기술적 (descriptive) 분석과 강의평가에 영향을 주는 요인을 통제하는 방법을 제시하는 내용이 대부분이다 (김종태, 2004; 김성연과 권치명, 2005; 조장식 등, 2009; 박노진, 2009; Lee와 Lee, 2006; Baik와 Yang, 2008).
성태제 (2002). , 학지사, 서울.
또한 오차점수는 우리가 통제하기 어려운 측정과정에서 발생하는 오차로 평가점수 중에서 오차점수의 비중이 낮으면 평가가 신뢰할 수 있다고 판단한다 (성태제, 2002).
이는 ‘검사내용에 기초한 근거’, ‘반응절차에 기초한 근거’, ‘내부구조에 기초한 근거’, ‘다른 변수들과의 관계에 기초한 근거’, ‘검사결과에 기초한 근거’ 등이다 (성태제, 2002).
이는 ‘수렴과 판별근거 (convergent and discriminant evidence)’와 ‘검사-준거 관련성 (test-criterion relationship)’, ‘타당도 일반화 (validity generalization)’ 등으로 이루어져 있다 (성태제, 2002).
이기훈 (2008). 크론바하 신뢰도 계수에 관한 이해. , 28, 43-54.
본 논문에서는 크론바하 알파가 신뢰도의 하한과 동일하다는 증명 (Novick와 Lewis, 1967; 이기훈, 2008)을 재인용하여 알파의 특성에 관하여 논의하도록 하겠다.
이종승 (1995). , 배영사, 서울.
그리고 안정성은 동일 교수의 강의를 시기를 달리하여 두 번 이상 평가한 결과 사이에 어느 정도 일치하는 가에 따라 결정된다 (이종승, 1995).
조장식, 강창완, 최승배 (2009). 강의평가에 대한 균등화방법의 비교. , 20, 65-75.
현재까지의 논문은 대부분 자신의 학교자료를 대상으로 어떠한 요인이 강의평가에 영향을 주는가에 대한 기술적 (descriptive) 분석과 강의평가에 영향을 주는 요인을 통제하는 방법을 제시하는 내용이 대부분이다 (김종태, 2004; 김성연과 권치명, 2005; 조장식 등, 2009; 박노진, 2009; Lee와 Lee, 2006; Baik와 Yang, 2008).
한신일 (2002). 강좌규모와 강의평가의 관계분석. , 13, 155-173.
우리나라에서 많은 학교들이 강의평가를 실시하고 이를 교수의 업적에 반영함에도 불구하고 강의평가 제도의 문제점을 인식하고 이를 개선하려는 노력은 크게 이루어지지 않고 있다 (한신일, 2002; 류춘호와 이정호, 2003).
Ahmadi, M., Helms, M. and Ralszadeh, F. (2001). Business students' perceptions of faculty evaluations. The International Journal of Educational Management, 15, 12-22.
American educational research association, American psychological association and national council on measurement in education (AERA, APA and NCME) (1999). Standard for educational and psychological testing, American Psychological Association, Washington D. C..
AERA, APA, NCME (American Educational Research Association, American Psychological Association, National Council on Measurement in Education) (1999)의 Standards for Educational and Psychological Testing에서는 제안된 검사도구에 의해 얻어진 검사점수의 해석에 증거나 이론이 지지하여주는 정도로 정의하고 있다.
AERA 등 (1999)는 타당도를 다섯 가지로 분류하였다.
AERA 등 (1999)는 신뢰도는 피험자들에 동일한 시험을 반복적으로 시행하였을 때 그 측정의 일관성 (consistency)이라고 정의한다.
Baik, T. and Yang, G. (2008). Classroom lecture monitoring case study. Journal of the Korean Data & Information Science Society, 19, 1191-1200.
Brennan, R. L. (2001). Generalizability theory, Springer, New York.
일반화가능도 이론에서 p번째 피험자가 t번째 시기 (occasion)에 r번째 평가자 (rater)에게 받은 평가 점수의 모형을 다음과 같이 정의한다 (Brennan, 2001).
Cronbach, L. J. (2004). My current thoughts on coefficient alpha and successor procedures. Educational and Psychological Measurement, 64, 391-418.
Cronbach (2004)의 회상에 의하면 조사의 신뢰도를 언급해야하는 논문에서 2003 년까지 최소한 5,590번 인용되었고 2000년대에도 연평균 약 325번의 사회과학인용빈도 (social science citation)를 기록하고 있다고 한다.
크론바하 본인은 계속적으로 신뢰도 계수가 개선되리라 예상하고 자신의 통계량을 α라 명명했지만 그 뒤로 β, γ 등의 영향력 있는 새로운 계수가 출현하지는 못하였다 (Cronbach, 2004).
분산분석 (ANOVA)에 의해 요소별 분산을 검출하고 각 분산성분 (variance component)을 추정하고 분산의 비율로 신뢰도를 추정하는 일반화가능도 분석은 근래 들어 크론바하 신뢰도 계수보다 신뢰성을 파악하는 데 더 우수한 방법으로 인식되고 있다 (Shavelson과 Webb, 1991; Cronbach, 2004).
Cronbach, L. J., Gleser, G. C., Nanda, H. and Rajaratnam, N. (1972). The dependability of behavioral measurements: Theory of generalizability for scores and profiles, Wiley, New York.
Cronbach, L. J., Rajaratnam, N. and Gleser, G. C. (1963). Theory of generalizability: A liberalization of reliability theory. The British Journal of Statistical Psychology, 16, 137-163.
Crumbley, D. L. and Fliedner, E.(2002). Accounting administrators' perceptions of student evaluation of teaching(SET) information. Quality Assurance in Education, 10, 213-222.
Kulik, J. A. and McKeachie, W. J. (1975). The evaluation of teachers in higher education. Review of Research in Education, 3, 210-230.
미국의 경우 대체로 학생에 의한 교수강의평가는 내적 일관성과 안정성이라는 관점에서 볼 때 비교적 만족할만한 신뢰도를 나타내고 있는 것으로 보고되고 있다 (Kulik와 McKeachie, 1975).
Lee, K. H. and Lee, S. W. (2006). A study on controlling the external effect in student evaluation of testing. The Korean Communications in Statistics, 12, 589-601.
Linn, R. L. (1997). Evaluating the validity of assessments: The consequences of use. Educational Measurement: Issue and Practice, 16, 14-15.
Messick (1998)이 평가점수 사용에 대한 윤리적 문제를 제기하며 결과타당도를 제안하였고 이를 타당도 범주 안에 포함시켜야 하는가에 대한 논란은 Shepard (1997), Linn (1997), Popham (1997), Mehrens (1997) 등의 논문에 의해 찬반이 엇갈리고 있다.
Linn, R. L. and Gronlund, N. E. (2000). Measurement and assessment in teaching, 8th Ed., Upper Saddle River, NJ: Merrill.
Mehrens, W. A. (1997). The consequences of consequential validity. Educational Measurement: Issues and Practice, 16, 16-18.
Messick (1998)이 평가점수 사용에 대한 윤리적 문제를 제기하며 결과타당도를 제안하였고 이를 타당도 범주 안에 포함시켜야 하는가에 대한 논란은 Shepard (1997), Linn (1997), Popham (1997), Mehrens (1997) 등의 논문에 의해 찬반이 엇갈리고 있다.
Popham, W. J. (1997). Consequential validity: Right concern-wrong concept. Educational Measurement: Issues and Practice, 16, 9-13.
Shavelson, R. J. and Webb, N. M. (1991). Generalizability theory: A primer, Sage, Newbury Park, CA.
분산분석 (ANOVA)에 의해 요소별 분산을 검출하고 각 분산성분 (variance component)을 추정하고 분산의 비율로 신뢰도를 추정하는 일반화가능도 분석은 근래 들어 크론바하 신뢰도 계수보다 신뢰성을 파악하는 데 더 우수한 방법으로 인식되고 있다 (Shavelson과 Webb, 1991; Cronbach, 2004).
Shepard, L. A. (1997). The centrality of test use and consequences for test validity. Educational Measurement: Issues and Practice, 16, 13-24.
Messick (1998)이 평가점수 사용에 대한 윤리적 문제를 제기하며 결과타당도를 제안하였고 이를 타당도 범주 안에 포함시켜야 하는가에 대한 논란은 Shepard (1997), Linn (1997), Popham (1997), Mehrens (1997) 등의 논문에 의해 찬반이 엇갈리고 있다.
Spearman, C. (1910). Correlation calculated with faulty data. British Journal of Psychology, 3, 271-295.
Spearman (1910)은 자료를 양분 (split-half)하여 이들 간의 상관계수로 신뢰도를 추정하였는데, 이 값은 문항을 어떻게 둘로 나누는가 (예. 홀수번 문항 대 짝수번 문항)에 따라 신뢰도가 달리 계산될 수 있다는 단점이 있었으나 시험을 두 번에 걸쳐 반복할 필요가 없이 한번 실험만으로도 신뢰도를 구할 수 있다는 장점을 가졌다.
Webb, N. M., Rowley, G. L. and Shavelson, R. J. (1988). Using generalizability theory in counseling and development. Measurement & Evaluation in Counseling & Development, 21, 81-90.
이 다양한 방법을 종합하는 방법도 개발되어있지 않기 때문에 각 원인의 중요도, 상호작용 그리고 이들을 어떻게 결합하여야 최적의 믿을 만한 검사법을 구성할 수 있는가에 대한 정보도 얻을 수 없다 (Webb 등, 1988).
*원문 PDF 파일 및 링크정보가 존재하지 않을 경우 KISTI DDS 시스템에서 제공하는 원문복사서비스를 사용할 수 있습니다.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.