이 연구에서는 면접점수 표준화 방법으로 흔히 사용되고 있는 절사평균 방법, 순위평균 방법 및 z-점수평균 방법을 모의실험을 통해 비교하고자 한다. 모의실험 기법은 피면 접자의 참값 점수와 이것과 독립적인 잡음 변수가 심사자의 전문성에 의해 가중평균 형태로 심사자의 평가점수에 영향을 미친다고 가정한다. 다시 말해 심사자의 전문성이 커지면 개인의 참값 점수에 가까운 심사자의 점수가 관측되고, 심사자의 전문성이 작아지면 참값 점수 대신에 잡음 변수에 더 가까운 심사자의 점수가 관측된다. 여기에 심사자의 성향편의가 더해져 심사자의 최종 평가점수가 관측된다고 가정한다. 이 모의실험에서는 각 표준화 방법에 의한 심사자의 평균점수와 참값의 순위상관 값을 계산하여 이 값이 큰 방법을 좋은 방법으로 평가하였다. 그 결과 참값의 분포가 정규분포이면 z-점수평균이 가장 좋은 성능을 보였으며, 라플라스 분포이면 전체면접에서는 z-점수평균이 순위평균보다 다소 성능이 좋았으나 반분면접에서는 순위평균이 z-점수평균보다 다소 성능이 좋았다. 절사평균은 일반적으로 성능이 가장 낮게 나타났다.
이 연구에서는 면접점수 표준화 방법으로 흔히 사용되고 있는 절사평균 방법, 순위평균 방법 및 z-점수평균 방법을 모의실험을 통해 비교하고자 한다. 모의실험 기법은 피면 접자의 참값 점수와 이것과 독립적인 잡음 변수가 심사자의 전문성에 의해 가중평균 형태로 심사자의 평가점수에 영향을 미친다고 가정한다. 다시 말해 심사자의 전문성이 커지면 개인의 참값 점수에 가까운 심사자의 점수가 관측되고, 심사자의 전문성이 작아지면 참값 점수 대신에 잡음 변수에 더 가까운 심사자의 점수가 관측된다. 여기에 심사자의 성향편의가 더해져 심사자의 최종 평가점수가 관측된다고 가정한다. 이 모의실험에서는 각 표준화 방법에 의한 심사자의 평균점수와 참값의 순위상관 값을 계산하여 이 값이 큰 방법을 좋은 방법으로 평가하였다. 그 결과 참값의 분포가 정규분포이면 z-점수평균이 가장 좋은 성능을 보였으며, 라플라스 분포이면 전체면접에서는 z-점수평균이 순위평균보다 다소 성능이 좋았으나 반분면접에서는 순위평균이 z-점수평균보다 다소 성능이 좋았다. 절사평균은 일반적으로 성능이 가장 낮게 나타났다.
In this study, we perform a simulation study to compare frequently used standardization methods for interview scores based on trimmed mean, rank mean, and z-score mean. In this simulation study we assume that interviewer's score is influenced by a weighted average of true interviewee's true score an...
In this study, we perform a simulation study to compare frequently used standardization methods for interview scores based on trimmed mean, rank mean, and z-score mean. In this simulation study we assume that interviewer's score is influenced by a weighted average of true interviewee's true score and independent noise whose weight is determined by the professionality of the interviewer. In other words, as interviewer's professionality increases, the observed score becomes closer to the true score and if interviewer's professionality decreases, the observed score becomes closer to the noise instead of the true score. By adding interviewer's tendency bias to the weighed average, final interviewee's score is assumed to be observed. In this simulation, the interviewers's cores for each method are computed and then the method is considered best whose rank correlation between the method's scores and the true scores is highest. Simulation results show that when the true score is from normal distributions, z-score mean is best in general and when the true score is from Laplace distributions, z-score mean is better than rank mean in full interview system, where all interviewers meet all interviewees, and rank mean is better than z-score mean in half split interview system, where the interviewers meet only half of the interviewees. Trimmed mean is worst in general.
In this study, we perform a simulation study to compare frequently used standardization methods for interview scores based on trimmed mean, rank mean, and z-score mean. In this simulation study we assume that interviewer's score is influenced by a weighted average of true interviewee's true score and independent noise whose weight is determined by the professionality of the interviewer. In other words, as interviewer's professionality increases, the observed score becomes closer to the true score and if interviewer's professionality decreases, the observed score becomes closer to the noise instead of the true score. By adding interviewer's tendency bias to the weighed average, final interviewee's score is assumed to be observed. In this simulation, the interviewers's cores for each method are computed and then the method is considered best whose rank correlation between the method's scores and the true scores is highest. Simulation results show that when the true score is from normal distributions, z-score mean is best in general and when the true score is from Laplace distributions, z-score mean is better than rank mean in full interview system, where all interviewers meet all interviewees, and rank mean is better than z-score mean in half split interview system, where the interviewers meet only half of the interviewees. Trimmed mean is worst in general.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
요약하면 세 가지 방법에 의해 관측되는 심사자의 점수는 절사평균을 제외하고는 모두 피면접자의 참값과 다른 척도를 가지게 된다. 따라서 이 연구에서의 모의실험에서는 순위의 중요성만 따지는 Kendall (1938)의 순위상관계수를 이용하여 세 가지 방법이 얼마나 충실히 피면접자의 참값의 순서를 유지하는지 비교하고자 한다. 순위상관계수를 사용함으로 해서 z-점수평균과 순위평균에 어떠한 단조증가함수 (monotone increasing function)에 의한 변환을 하여 최종 면접점수를 부과하더라도 동일한 상관계수값을 얻을 수 있게 된다.
이 연구에서는 면접점수 표준화 방법으로 흔히 사용되고 있는 절사평균 방법, 순위평균 방법 및 z-점수평균 방법을 모의실험을 통해 비교하고자 한다. 모의실험 기법은 피면접자의 참값 점수와 이것과 독립적인 잡음 변수가 심사자의 전문성에 의해 가중평균 형태로 심사자의 평가점수에 영향을 미친다고 가정한다.
이 연구에서는 모의실험을 통해 세 가지 표준화 방법, 즉 절사평균, 순위평균 및 z-점수 (z score)평균 방법을 비교하고자 한다. 모의실험의 기법은 피면접자의 참값 점수와 이것과 독립적인 잡음 변수가 심사자의 전문성에 의해 가중평균 형태로 심사자의 평가점수로 관측된다고 가정한다.
이 절에서는 먼저 심사자가 피면접자의 면접점수를 부여하는 간단한 모형을 제시하고자 한다. 이 모형에서는 심사자의 면접점수가 피면접자의 참값과 이와 독립인 잡음 변수의 가중평균으로 얻어지게 되며, 그 가중값은 심사자의 전문성에 의해 결정된다고 가정한다.
가설 설정
이 연구에서는 면접점수 표준화 방법으로 흔히 사용되고 있는 절사평균 방법, 순위평균 방법 및 z-점수평균 방법을 모의실험을 통해 비교하였다. 모의실험 기법은 피면접자의 참값 점수와 이것과 독립적인 잡음 변수가 심사자의 전문성에 의해 가중평균 형태로 심사자의 평가점수에 영향을 미친다고 가정하였다. 다시 말해 심사자의 전문성이 커지면 개인의 참값 점수에 가깝게 심사자의 점수가 관찰되고, 심사자의 전문성이 작아지면 참값 점수 대신에 잡음 변수에 더 가깝게 심사자의 점수가 관찰되는 것이다.
이 연구에서는 면접점수 표준화 방법으로 흔히 사용되고 있는 절사평균 방법, 순위평균 방법 및 z-점수평균 방법을 모의실험을 통해 비교하고자 한다. 모의실험 기법은 피면접자의 참값 점수와 이것과 독립적인 잡음 변수가 심사자의 전문성에 의해 가중평균 형태로 심사자의 평가점수에 영향을 미친다고 가정한다. 다시 말해 심사자의 전문성이 커지면 개인의 참값 점수에 가까운 심사자의 점수가 관측되고, 심사자의 전문성이 작아지면 참값 점수 대신에 잡음 변수에 더 가까운 심사자의 점수가 관측된다.
이 연구에서는 모의실험을 통해 세 가지 표준화 방법, 즉 절사평균, 순위평균 및 z-점수 (z score)평균 방법을 비교하고자 한다. 모의실험의 기법은 피면접자의 참값 점수와 이것과 독립적인 잡음 변수가 심사자의 전문성에 의해 가중평균 형태로 심사자의 평가점수로 관측된다고 가정한다. 다시 말해 심사자의 전문성이 커지면 피면접자의 참값 점수에 가깝게 심사점수가 관찰되고, 심사자의 전문성이 작아지게 되면 피면접자의 참값 대신에 잡음 변수에 가깝게 심사자의 점수가 관측된다.
다시 말해 심사자의 전문성이 커지면 개인의 참값 점수에 가까운 심사자의 점수가 관측되고, 심사자의 전문성이 작아지면 참값 점수 대신에 잡음 변수에 더 가까운 심사자의 점수가 관측된다. 여기에 심사자의 성향편의가 더해져 심사자의 최종 평가점수가 관측된다고 가정한다. 이 모의 실험에서는 각 표준화 방법에 의한 심사자의 평균점수와 참값의 순위상관 값을 계산하여 이 값이 큰 방법을 좋은 방법으로 평가하였다.
이 모형에서는 심사자의 면접점수가 피면접자의 참값과 이와 독립인 잡음 변수의 가중평균으로 얻어지게 되며, 그 가중값은 심사자의 전문성에 의해 결정된다고 가정한다. 여기에 심사자의 성향편의가 더해져 최종 평가점수가 구해진다고 가정한다. 그 다음에 이 모형의 여러 모수의 변화에 따른 모의실험 결과를 토대로 세 가지 표준화 방법을 비교하고자 한다.
이 절에서는 먼저 심사자가 피면접자의 면접점수를 부여하는 간단한 모형을 제시하고자 한다. 이 모형에서는 심사자의 면접점수가 피면접자의 참값과 이와 독립인 잡음 변수의 가중평균으로 얻어지게 되며, 그 가중값은 심사자의 전문성에 의해 결정된다고 가정한다. 여기에 심사자의 성향편의가 더해져 최종 평가점수가 구해진다고 가정한다.
전문성 θ, 피면접자의 참값 X, 잡음 변수 W 및 성향편의 B가 주어졌을 때 심사자의 평가점수 Y 는 다음과 같이 관측된다고 가정한다.
또한 피면접자의 참값의 분포로는 표준정규분포와 라플라스분포를 고려하였으며 심사자의 전문성의 분포는 균일분포를 고려하였다. 추가로 심사자의 성향편의가 존재한다고 가정하였으며 또한 피면접자 개개인에 따라 심사자의 관측오차가 존재한다고 가정하였다. 성향편의와 관측오차의 분포는 평균이 0이되 참값의 분산보다 작은 분산을 가지는 정규분포를 사용하였다.
제안 방법
여기에 심사자의 성향편의가 더해져 최종 평가점수가 구해진다고 가정한다. 그 다음에 이 모형의 여러 모수의 변화에 따른 모의실험 결과를 토대로 세 가지 표준화 방법을 비교하고자 한다. 심사자가 모든 피면접자를 심사하느냐에 따라 전체면접과 반분면접으로 나누어 고려하였으며, 피면접자를 평가하는 심사자의 수는 절사평균에 적합한 3명과 5명인 경우를 고려하였다.
세 가지 방법의 성능을 비교하는 기준은 서론에서도 언급되었듯이 Kendall (1938)의 순위상관계수이다. 다시 말해 참값과 세 가지 방법의 최종 면접점수 간의 순위상관계수를 계산하여 이 값이 가장 큰 방법을 최고의 성능을 가지는 방법으로 인정하는 것이다.
따라서 전체면접 시 필요한 심사자는 p명이고 100명을 모두 면접하게 되며, 반분면접 시는 2p명의 심사자가 두 그룹으로 나뉘어 각 50명을 면접하게 된다. 다음으로 면접자의 수 p가 3 혹은 5가 될 때 세 가지 방법의 성능이 어떻게 달라지는지 비교한다. 이는 절사평균이 사용될 수 있는 현실적인 심사자의 인원이라 생각되어 사용되었다.
즉 심사자들의 평균 z-점수를 z-점수평균 방법에 의한 최종 면접점수로 간주하였다. 또한 심사자들의 순위평균을 순위평균 방법에 의한 최종 면접점수로 간주하였다.
또한 심사자 수를 절사평균이 잘 적용될 수 있으며 현실적인 3인과 5인을 고려하였다. 또한 피면접자의 참값의 분포로 표준정규분포와 라플라스분포를 고려하였으며, 심사자 집단으로는 전문성 지수가 평균적으로 좋은 전문가 집단과 전문성이 다소 떨어지는 비전문가 집단을 고려하였다. 모의실험 결과 참값의 분포가 정규분포이면 z-점수평균이 가장 좋은 성능을 보였으며, 라플라스분포이면 전체면접에서는 z점수평균이 순위평균보다 다소 성능이 좋았으나 반분면접에서는 순위평균이 z-점수평균보다 다소 성능이 좋았다.
심사자가 모든 피면접자를 심사하느냐에 따라 전체면접과 반분면접으로 나누어 고려하였으며, 피면접자를 평가하는 심사자의 수는 절사평균에 적합한 3명과 5명인 경우를 고려하였다. 또한 피면접자의 참값의 분포로는 표준정규분포와 라플라스분포를 고려하였으며 심사자의 전문성의 분포는 균일분포를 고려하였다. 추가로 심사자의 성향편의가 존재한다고 가정하였으며 또한 피면접자 개개인에 따라 심사자의 관측오차가 존재한다고 가정하였다.
모의실험에서는 여러 가지 모수의 변화를 시도하였다. 먼저 심사자가 모든 피면접자를 평가하는 전체면접과 심사자를 반분하여 각각 피면접자 절반을 면접하는 반분면접을 고려하였다. 또한 심사자 수를 절사평균이 잘 적용될 수 있으며 현실적인 3인과 5인을 고려하였다.
모의실험에서는 여러 가지 모수의 변화를 시도하였다. 먼저 심사자가 모든 피면접자를 평가하는 전체면접과 심사자를 반분하여 각각 피면접자 절반을 면접하는 반분면접을 고려하였다.
구체적인 모의실험 설계는 다음과 같다. 세 가지 표준화 방법을 비교하기 위해 제일 먼저 심사자 모두가 피면접자 모두를 면접하는 전체면접과 심사자가 두 그룹으로 나뉘어 피면접자의 절반만 면접하는 반분면접으로 나누어 모의실험한다. 따라서 전체면접 시 필요한 심사자는 p명이고 100명을 모두 면접하게 되며, 반분면접 시는 2p명의 심사자가 두 그룹으로 나뉘어 각 50명을 면접하게 된다.
그 다음에 이 모형의 여러 모수의 변화에 따른 모의실험 결과를 토대로 세 가지 표준화 방법을 비교하고자 한다. 심사자가 모든 피면접자를 심사하느냐에 따라 전체면접과 반분면접으로 나누어 고려하였으며, 피면접자를 평가하는 심사자의 수는 절사평균에 적합한 3명과 5명인 경우를 고려하였다. 또한 피면접자의 참값의 분포로는 표준정규분포와 라플라스분포를 고려하였으며 심사자의 전문성의 분포는 균일분포를 고려하였다.
여기에 심사자의 성향편의가 더해져 심사자의 최종 평가점수가 관측된다고 가정한다. 이 모의 실험에서는 각 표준화 방법에 의한 심사자의 평균점수와 참값의 순위상관 값을 계산하여 이 값이 큰 방법을 좋은 방법으로 평가하였다. 그 결과 참값의 분포가 정규분포이면 z-점수평균이 가장 좋은 성능을 보였으며, 라플라스분포이면 전체면접에서는 z-점수평균이 순위평균보다 다소 성능이 좋았으나 반분면접에서는 순위평균이 z-점수평균보다 다소 성능이 좋았다.
이 연구에서는 면접점수 표준화 방법으로 흔히 사용되고 있는 절사평균 방법, 순위평균 방법 및 z-점수평균 방법을 모의실험을 통해 비교하였다. 모의실험 기법은 피면접자의 참값 점수와 이것과 독립적인 잡음 변수가 심사자의 전문성에 의해 가중평균 형태로 심사자의 평가점수에 영향을 미친다고 가정하였다.
심사자의 성향편의는 심사 자가 모든 피면접자를 심사하지 않는 면접에서는 흔히 발생하는 문제이기 때문에 이 모형에 포함시켰다. 피면접자를 대하는 심사자의 관측오차 ϵ는 통상적으로 사용되는 평균이 0인 정규분포를 사용하였다. 전문성에 의한 가중평균을 사용하기 때문에 X와 W의 분산은 1로 고정시켰으며 B와 ϵ의 표준편차는 각각 1/2과 1/3로 잡아 체계적인 변동부분의 1/2, 1/3에 해당되도록 하였다.
대상 데이터
먼저 심사자가 모든 피면접자를 평가하는 전체면접과 심사자를 반분하여 각각 피면접자 절반을 면접하는 반분면접을 고려하였다. 또한 심사자 수를 절사평균이 잘 적용될 수 있으며 현실적인 3인과 5인을 고려하였다. 또한 피면접자의 참값의 분포로 표준정규분포와 라플라스분포를 고려하였으며, 심사자 집단으로는 전문성 지수가 평균적으로 좋은 전문가 집단과 전문성이 다소 떨어지는 비전문가 집단을 고려하였다.
데이터처리
z-점수평균과 순위평균 간의 차이가 미세해 보이는 것 같아 통계적으로 의미가 있는 차이인지 알아보기 위해 가능한 모든 두 집단 간 차이를 비교하는 쌍체 t검정 (paired t-test)을 시도하였다. 여기서 쌍체 t검정을 이용한 이유는 세 개의 평균 사이에는 양의 상관성이 강하게 나타나기 때문이다.
이론/모형
황형태 (2005)에서도 언급되었듯이 z-점수를 과목별 표준점수로 변환하기 위해 수능시험에서 사용하고 있는 선형변환에도 문제가 발생할 수 있기 때문에, 이 연구에서는 z-점수 자체를 사용하였다. 즉 심사자들의 평균 z-점수를 z-점수평균 방법에 의한 최종 면접점수로 간주하였다.
성능/효과
이 모의 실험에서는 각 표준화 방법에 의한 심사자의 평균점수와 참값의 순위상관 값을 계산하여 이 값이 큰 방법을 좋은 방법으로 평가하였다. 그 결과 참값의 분포가 정규분포이면 z-점수평균이 가장 좋은 성능을 보였으며, 라플라스분포이면 전체면접에서는 z-점수평균이 순위평균보다 다소 성능이 좋았으나 반분면접에서는 순위평균이 z-점수평균보다 다소 성능이 좋았다. 절사평균은 일반적으로 성능이 가장 낮게 나타났다
또한 피면접자의 참값의 분포로 표준정규분포와 라플라스분포를 고려하였으며, 심사자 집단으로는 전문성 지수가 평균적으로 좋은 전문가 집단과 전문성이 다소 떨어지는 비전문가 집단을 고려하였다. 모의실험 결과 참값의 분포가 정규분포이면 z-점수평균이 가장 좋은 성능을 보였으며, 라플라스분포이면 전체면접에서는 z점수평균이 순위평균보다 다소 성능이 좋았으나 반분면접에서는 순위평균이 z-점수평균보다 다소 성능이 좋았다. 절사평균은 일반적으로 성능이 가장 낮게 나타났다.
이 표에서 다음과 같은 일반적인 경향을 읽을 수 있다. 반분면접보다 전체면접에서, 심사자 3인보다 심사자 5인에서, 라플라스분포보다 표준정규분포에서 또한 비전문가보다 전문가 심사자 집단에서 각각 더 높은 순위상관계수 값을 얻을 수 있다. 이는 심사가가 상대하는 피면접자의 수가 많은 경우, 심사자가 많은 경우, 꼬리가 얇아 이상값이 적게 나오는 분포인 경우 및 전문가인 경우 각각 훨씬 신뢰성이 높은 심사점수를 얻을 수 있다는 상식을 반영하고 있다.
절사평균은 다른 두 가지 방법에 비해 성능이 떨어지는 것을 관측할 수 있다. 비록 미세한 차이처럼 보이지만 표준정규분포인 경우에는 z-점수평균이 순위평균보다 더 좋은 성능을 보이고 있으며, 라플라스분포인 경우에는 전체면접에서는 z-점수평균이, 반분면접에서는 순위평균이 더 좋은 성능을 보였다.
이 심사점수는 평균적으로 θXj + (1 − θi)Wj + Bi이며 ϵij 만큼의 관측오차를 동반하게 된다. 안정적인 모의실험 결과를 얻기 위해서는 m이 커지면 좋겠지만, 현실적으로 한 심사자가 면접할 수 있는 피면접자의 수에는 한계가 있기 때문에 m = 50 (반분면접) 혹은 m = 100 (전체면접)으로 고정하였으며, 결과적으로 전체 피면접자의 수는 n = 100으로 고정되었다.
여기에 심사자의 성향편의가 더해져 심사자의 최종 평가점수가 관측된다고 가정한다. 이 모의 실험에서는 각 표준화 방법에 의한 심사자의 평균점수와 참값의 순위상관 값을 계산하여 이 값이 큰 방법을 좋은 방법으로 평가하였다. 그 결과 참값의 분포가 정규분포이면 z-점수평균이 가장 좋은 성능을 보였으며, 라플라스분포이면 전체면접에서는 z-점수평균이 순위평균보다 다소 성능이 좋았으나 반분면접에서는 순위평균이 z-점수평균보다 다소 성능이 좋았다.
01 유의수준에서 유의적인 차이가 있는 경우이다. 이 유의성 검정의 결과 전체면접, 심사자가 5명, 라플라스분포이며 비전문가 심사자 집단의 조건을 모두 만족하는 경우에 z-점수평균과 순위평균 간에 유의적인 차이가 없을 뿐 모든 짝에 대해서 유의적인 차이가 존재하는 것으로 나타났다. 물론 다중비교에 따른 실제 유의확률의 변화를 생각하더라도 t검정통계량 값의 절대값이 상당히 커서 소수 몇 개의 짝을 제외하고는 대부분 유의적인 차이가 있는 것으로 판정될 것이라 생각한다.
절사평균은 일반적으로 성능이 가장 낮게 나타났다. 이는 z-점수평균이 정규분포에서 좋은 성능을 나타내지만, 꼬리가 두꺼운 분포에서는 순위평균의 성능이 좋아져 전체면접에서 성능의 차이가 줄어 들고 반분면접에서는 마침내 z-점수를 능가한다는 결론이다.
후속연구
예를 들어 피면접자의 외모는 평가점수 결정에 영향을 미치며 참값과 연관되어 있다고 볼 수도 있기 때문에 이런 변수를 장애 변수라는 이름으로 모형에 포함시킬 필요가 있는 것이다. 다른 연구 방향은 참값과 잡음 혹은 장애 변수를, 가중평균이 아니라 쉽게 이해할 수 있으면서 현실적으로 적용 가능한 다른 함수를 사용하여 결합하는 시도가 될 수 있을 것이다.
질의응답
핵심어
질문
논문에서 추출한 답변
순위평균 방법이란?
먼저 절사평균 방법은 Yij , i = 1, 2, · · · , p 중 최소값과 최대값을 제외한 표본평균으로 최종 면접접수를 정한다. 순위평균 방법은 Yij , j = 1, 2, · · · , m 중의 순위 Rij를 구한 후 심사자들의 순위평균 Σi Rij/p로서 최종 면접점수를 정한다. 마지막으로 z-점수평균 방법은 Yij , j = 1, 2, · · · , m의 z-점수 Zij를 구한 후 심사자들의 z-점수평균 Σi Zij/p로서 최종 면접점수를 정한다.
모의실험의 기법은 무엇을 가정했는가?
이 연구에서는 모의실험을 통해 세 가지 표준화 방법, 즉 절사평균, 순위평균 및 z-점수 (z score)평균 방법을 비교하고자 한다. 모의실험의 기법은 피면접자의 참값 점수와 이것과 독립적인 잡음 변수가 심사자의 전문성에 의해 가중평균 형태로 심사자의 평가점수로 관측된다고 가정한다. 다시 말해 심사자의 전문성이 커지면 피면접자의 참값 점수에 가깝게 심사점수가 관찰되고, 심사자의 전문성이 작아지게 되면 피면접자의 참값 대신에 잡음 변수에 가깝게 심사자의 점수가 관측된다.
z-점수평균과 순위평균 간의 차이가 미세해 보이는 것 같아 통계적으로 의미가 있는 차이인지 알아보기 위해 가능한 모든 두 집단 간 차이를 비교하는 쌍체 t검정 (paired t-test)을 사용하는 이유는 무엇인가?
z-점수평균과 순위평균 간의 차이가 미세해 보이는 것 같아 통계적으로 의미가 있는 차이인지 알아보기 위해 가능한 모든 두 집단 간 차이를 비교하는 쌍체 t검정 (paired t-test)을 시도하였다. 여기서 쌍체 t검정을 이용한 이유는 세 개의 평균 사이에는 양의 상관성이 강하게 나타나기 때문이다. 쌍체 t검정의 결과는 표 2.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.