대한치과보철학회지에 게재된 논문의 통계적 오류: 국문논문과 영문논문의 비교 An assessment of statistical errors of articles in the Journal of Korean Academy of Prosthodontics: Comparison between Korean version and English version원문보기
연구목적: 대한치과보철학회지에 사용된 통계적 방법의 통계적 오류현황을 파악하여 통계적 방법의 잘못된 활용으로 인한 치의학 연구논문에서의 문제를 검토하고, 또한 통계적 오류의 유형과 빈도를 파악하여 동일문제의 재발 방지 및 효율적 대처의 기회로 삼고자 함이다. 연구 재료 및 방법: 2000년부터 2006년까지의 대한치과보철학회지에 게재된 총 399편의 논문 중 통계적 방법이 사용된 292편의 논문을 조사했고, 이를 위해 1997년 국제의학학술지 편집위원회의 "생의학 학술지에 투고하는 원고의 통일양식의 통계학적 방법론에 관한 서술지침" 15개항을 기초로 하여 1) 통계 프로그램의 불명시, 2) 통계 방법의 부적절한 기술, 3) 통계용어의 오용 등으로 크게 3가지 범주로 구성된 점검표를 사용하여 통계적 방법의 종류 및 통계적 오류부분을 확인하고 이를 한글판과 영문판으로 비교해 보았다. 그 결과는 다음과 같다. 결과 및 결론: 1. 통계 프로그램 명시 오류는 한글판에선 54%가, 영문판에선 59%가 있었으나 통계적으로 유의한 차이를 보이진 않았다 (P = .66). 2. 통계 방법의 부적절한 기술에 관한 오류는 한글판에선 49%가, 영문판에선 33%가 있었으나 통계적으로 유의한 차이를 보이진 않았다 (P = .09). 3. 통계용어의 오용오류는 한글판에선 54%가, 영문판에선 24%가 있었으며 통계적으로도 유의한 차이가 있었다 (P = .01). 상기 결과로 볼 때 통계용어의 오용 오류 이외엔 통계적 유의성을 보이진 않아서 한글판과 영문판의 통계적 오류의 비율은 유사하게 나타난 걸로 추정되며, 전체적으로 대한치과보철학회지의 통계적 타당성은 다소 부족하게 나타났다. 따라서 향후 치의학 연구자는 통계적 방법을 기술하고 적용할 때 통계적 오류를 피하기 위해 주의를 기울여야 할 것이며, 아울러 치의학 논문에서의 통계학적 방법론에 대한 인식의 제고가 필요하다고 보인다.
연구목적: 대한치과보철학회지에 사용된 통계적 방법의 통계적 오류현황을 파악하여 통계적 방법의 잘못된 활용으로 인한 치의학 연구논문에서의 문제를 검토하고, 또한 통계적 오류의 유형과 빈도를 파악하여 동일문제의 재발 방지 및 효율적 대처의 기회로 삼고자 함이다. 연구 재료 및 방법: 2000년부터 2006년까지의 대한치과보철학회지에 게재된 총 399편의 논문 중 통계적 방법이 사용된 292편의 논문을 조사했고, 이를 위해 1997년 국제의학학술지 편집위원회의 "생의학 학술지에 투고하는 원고의 통일양식의 통계학적 방법론에 관한 서술지침" 15개항을 기초로 하여 1) 통계 프로그램의 불명시, 2) 통계 방법의 부적절한 기술, 3) 통계용어의 오용 등으로 크게 3가지 범주로 구성된 점검표를 사용하여 통계적 방법의 종류 및 통계적 오류부분을 확인하고 이를 한글판과 영문판으로 비교해 보았다. 그 결과는 다음과 같다. 결과 및 결론: 1. 통계 프로그램 명시 오류는 한글판에선 54%가, 영문판에선 59%가 있었으나 통계적으로 유의한 차이를 보이진 않았다 (P = .66). 2. 통계 방법의 부적절한 기술에 관한 오류는 한글판에선 49%가, 영문판에선 33%가 있었으나 통계적으로 유의한 차이를 보이진 않았다 (P = .09). 3. 통계용어의 오용오류는 한글판에선 54%가, 영문판에선 24%가 있었으며 통계적으로도 유의한 차이가 있었다 (P = .01). 상기 결과로 볼 때 통계용어의 오용 오류 이외엔 통계적 유의성을 보이진 않아서 한글판과 영문판의 통계적 오류의 비율은 유사하게 나타난 걸로 추정되며, 전체적으로 대한치과보철학회지의 통계적 타당성은 다소 부족하게 나타났다. 따라서 향후 치의학 연구자는 통계적 방법을 기술하고 적용할 때 통계적 오류를 피하기 위해 주의를 기울여야 할 것이며, 아울러 치의학 논문에서의 통계학적 방법론에 대한 인식의 제고가 필요하다고 보인다.
Statement of problem: The aim of dental research is to advance scientific knowledge and leads to improvement in the treatment and prevention of dental disease. Utilizing an effective research design and adequate statistical methods are essential procedures ensuring that the results of researches are...
Statement of problem: The aim of dental research is to advance scientific knowledge and leads to improvement in the treatment and prevention of dental disease. Utilizing an effective research design and adequate statistical methods are essential procedures ensuring that the results of researches are based on evidences. A research should utilize proper statistical methods without statistical errors; Otherwise, it could adversely affect clinical practice and future research. Purpose: This study was made to investigate the statistical methods used in the Journal of Korean Academy of Prosthodontics (JKAP) and then to assess them for the statistical errors. Material and methods: Among the total of 399 articles in the JKAP published from 2000 to 2006, 292 articles using statistics were reviewed. The validity of the statistical methods used in them were assessed using a checklist based on the guideline for statistical reporting in the uniform requirements for manuscripts submitted to biomedical journals by International Committee of Medical Journal Editors. The checklist consisted of three categories of statistical errors: 1) Unspecified computer statistical packages, 2) Inadequate description of statistical methods, 3) Misuse of statistical terms. Then, the results were compared between the Korean version and the English version in the JKAP. Results: Among the 212 articles using statistics in the Korean version, 115 articles (54%) and among the 80 articles using statistics in the English version, 47 articles (59%) were shown to have unspecified computer statistical packages without statistically significant difference (P = .66). Likewise, 101 articles (48%) in the Korean version and 25 articles (31%) in the English version were shown to have the inadequate description of statistical methods without statistically significant difference (P = .09). However, 114 articles (54%) in the Korean version and 19 articles (24%) in the English version were shown to have the misuse of statistical terms with statistically significant difference (P = .01). Conclusion: Some of the articles in the JKAP had inadequate statistical validity, given the statistical errors identified in this assessment. Hence, dental researchers should be more careful when it comes to describing and applying statistical methods.
Statement of problem: The aim of dental research is to advance scientific knowledge and leads to improvement in the treatment and prevention of dental disease. Utilizing an effective research design and adequate statistical methods are essential procedures ensuring that the results of researches are based on evidences. A research should utilize proper statistical methods without statistical errors; Otherwise, it could adversely affect clinical practice and future research. Purpose: This study was made to investigate the statistical methods used in the Journal of Korean Academy of Prosthodontics (JKAP) and then to assess them for the statistical errors. Material and methods: Among the total of 399 articles in the JKAP published from 2000 to 2006, 292 articles using statistics were reviewed. The validity of the statistical methods used in them were assessed using a checklist based on the guideline for statistical reporting in the uniform requirements for manuscripts submitted to biomedical journals by International Committee of Medical Journal Editors. The checklist consisted of three categories of statistical errors: 1) Unspecified computer statistical packages, 2) Inadequate description of statistical methods, 3) Misuse of statistical terms. Then, the results were compared between the Korean version and the English version in the JKAP. Results: Among the 212 articles using statistics in the Korean version, 115 articles (54%) and among the 80 articles using statistics in the English version, 47 articles (59%) were shown to have unspecified computer statistical packages without statistically significant difference (P = .66). Likewise, 101 articles (48%) in the Korean version and 25 articles (31%) in the English version were shown to have the inadequate description of statistical methods without statistically significant difference (P = .09). However, 114 articles (54%) in the Korean version and 19 articles (24%) in the English version were shown to have the misuse of statistical terms with statistically significant difference (P = .01). Conclusion: Some of the articles in the JKAP had inadequate statistical validity, given the statistical errors identified in this assessment. Hence, dental researchers should be more careful when it comes to describing and applying statistical methods.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
물론 평가의 성격상 평가자 개인의 관점 및 평가능력에 따라 영향을 받을 수밖에 없는 한계가 있는 것도 사실이나, 본 연구의 목적은 게재 논문에서 사용된 통계처리 기법의 종류와 활용 빈도 및 이의 활용이 적절한 지 그 현황을 파악하여 통계적 오류를 줄이기 위한 노력의 필요성을 언급하고자 함이므로, 이를 위해 통계적 오류와 관련된 논문에서 공통적으로 자주 언급되었고 통계전문가가 아닌 사람도 발견할 수 있는 통계적 오류 위주로 (1) 대표값 및 산포도에 대한 부적절한 기술, (2) 부적합한 분석방법, (3) 중복 시행한 검정 등으로 크게 3가지 범주로 하여 반복 점검하였다.
이에 본 연구에서는 2000년 영문판 학회지의 발간 이후 대한치과보철학회지의 한글판과 영문판을 비교하여 통계적 방법이 사용된 논문의 빈도와 사용된 통계적 방법의 종류 및 통계적 오류의 현황을 살펴보고 그 타당성을 검토하여 보았다. 아울러 전체 대한치과보철학회지의 한글 논문과 영문 논문에서의 해당 통계적 오류의 비율을 추정해 본 결과 다소의 지견을 얻었으므로 이에 보고하는 바이다.
이에 관해 APA (American Psychological Association) 출판편람 (1994)에는 심리학 분야에서 통계치를 제시하는 방법에 대한 권장 사항이 있고, 한국학술진흥재단 등재 학술지로서 A등급 판정을 받은 학술지인 “교육학연구”를 발간하는 한국교육학회 (KSSE, Korean Society for the Study of Education)에서 2007년 편찬한 “KPM (KSSE Publication Manual) 논문 작성법”에서도 통계분석 결과를 제시할 때 각 통계기법의 목적과 기능, 사용방법에 따라 유형별로 일관된 형식의 표를 작성하는 지침을 제시하고 있다. 이는 통계치를 독자적인 방법이나 단순히 통계프로그램의 결과물의 나열로 인한 혼란을 피하고 각 통계방법마다 일관되고 명확한 정보를 분명하게 전달하여 독자의 이해를 돕고자 함이다.4,22,25
이에 본 연구에서는 2000년 영문판 학회지의 발간 이후 대한치과보철학회지의 한글판과 영문판을 비교하여 통계적 방법이 사용된 논문의 빈도와 사용된 통계적 방법의 종류 및 통계적 오류의 현황을 살펴보고 그 타당성을 검토하여 보았다. 아울러 전체 대한치과보철학회지의 한글 논문과 영문 논문에서의 해당 통계적 오류의 비율을 추정해 본 결과 다소의 지견을 얻었으므로 이에 보고하는 바이다.
가설 설정
이는 표본수가 적은 경우에는 효과적이나 표본수가 많은 경우 통계용 컴퓨터 프로그램을 이용하여 평가하는 방법으론 Kolomogorov-Smirnov test와 Shapiro-Wilk test가 있다. 둘째, 집단내 관찰 값들의 변동 크기가 서로 같다는 즉, 분산이 같다는 가정이 필요하다. 두개의 집단들 간의 등분산성을 검정하기 위한 방법으론 Levene's test가 있으며 세 집단 이상의 분산을 비교하기 위한 방법으론 Bartlett's test가 있다.
제안 방법
1) 통계 프로그램의 불명시, 2) 통계 방법의 부적절한 기술, 3)통계 용어의 오용 등으로 크게 3가지 범주로 구성된 점검표를 사용하여 통계적 오류부분을 확인하였다. 특히 두 번째의 통계적 오류 범주인 통계 방법의 부적절한 기술에선 1991년에 안과 이18가 개발한 “의학연구논문의 방법론 및 통계처리기법의 타당성 평가를 위한 점검표” 중 일목요연하게 정리된 통계처리기법의 타당성 평가 항목을 활용하였다.
2000년부터 2006년까지의 대한치과보철학회지의 총 399편의 논문 중 통계처리기법을 사용한 한글판 212편과 영문판 80편의 전체 292편의 논문에서 통계적 오류항목을 크게 3가지 범주로, 즉 1) 통계 프로그램의 불명시, 2) 통계방법의 부적절한 기술, 3) 통계 용어의 오용 등으로 나누어 점검하였다. 영문판과 한글판을 비교하여 살펴보고자 전체 대한치과보철학회지 한글판과 영문판에서의 통계적 오류 비율을 95% 신뢰구간으로 모수 추정하였으며, 전체 대한치과보철학회지의 한글판과 영문판에서 통계적 오류의 비율의 차이를 95% 신뢰구간으로 추정하고, Chi-square test로 Yates' correction for continuity 을 하여 유의수준 0.
Microsoft Excel 2003 (Microsoft, Seattle, WA, USA)을 이용하여 한글판과 영문판을 비교하여 연도별로 자료를 정리하고 기술하였다. 그리고 통계용 컴퓨터 프로그램인 dBSTAT for Windows version 4.
본 연구 중에도 여타 몇몇 연구들처럼32-34 그러한 통계적 오류의 항목 수의 나열만 되는 상황을 최대한 피해보고자, 점검표를 이용한 반복 평가 시에도 오류 건수의 나열이 아닌 논문의 편수로 표현하려 시도하였으며 무리하게 타당도 점수로 평가하진 않았다. 또한 언급이나 기술이 안 되었다고 무조건 통계적 오류로 단정하진 않고 가능한 한 기술되어 있는 것 중에서 명확한 통계적 오류로 판단되는 것을 위주로 반복 평가하였다. 하지만 향후 비통계전문가 입장에서 좀 더 용이하게 활용할 수 있는 점검표와 그에 관한 검토가 필요하다고 본다.
대상 데이터
이러한 통계용어의 오용에 관한 오류가 Table IV에서처럼 2000년부터 2006년까지의 대한치과보철학회지의 통계적 기법을 사용한 총 292편의 논문 중에서 통계학적 방법의 부적절한 기술의 오류가 한글판에선 114편 (54%), 영문판에선 19편 (24%)으로 전체 133편 (46%)의 논문에서 발견되었다.
이미 작성된 논문에 대한 통계적 오류의 파악은 그 나름의 의미는 있겠으나 발표한 후 시간이 많이 경과한 후에는 통계적 오류에 관심을 두고 해당 논문을 읽는 연구자가 많지도 않을 테고 논문에 사용된 자료의 원형을 찾기가 쉽지 않을 수도 있어 실제적으로는 큰 도움이 되지 않을 것이므로,16 본 연구에서는 연구 대상의 범위를 최근 2000년 영문판 학회지의 발간 이후 사용된 통계적 방법의 종류와 그 활용에 통계적 오류가 없는지 영문판과 한글판을 비교하여 살펴보고자 대한치과보철학회의 도움을 받아 2000년부터 2006년까지의 대한치과보철학회지의 총 399편의 논문 중 통계적 방법을 사용한 292편의 논문을 조사하였다.
데이터처리
4,12,21,22 그러나 정규성 언급 없이 단지 N < 30이므로 모수 검정인 t-test대신 비모수 검정인 Mann-Whitney U test를 시행했다고 한 경우도 있었고, 정규성 언급 없이 모수적 통계분석의 사용은 단지 표본크기가 30이상이 되어야한다고 서술한 경우도 있었다.
동일 논문에서 여러 가지 통계처리기법을 사용한 경우도 각각을 모두 포함시켜 살펴보니, 대한치과보철학회지에서 통계적 방법을 사용한 전체 292편의 논문 중에서 한글판 212편의 논문에 사용되어진 통계처리기법의 종류와 그 연도별 빈도는 Table II와 같았으며, 영문판 80편에 사용되어진 통계처리기법의 종류와 그 연도별 빈도는 Table III과 같았다. 가장 기본적이라 할 수 있는 통계처리기법인 t-test 및 실험설계와 주로 관련된 ANOVA (분산 분석, Analysis of Variance)와 특별한 분포나 가정에 큰 영향 없이 사용가능한 비모수 통계방법 (Non-parametric statistics)이 주로 사용되었으며, 그 외에는 상관 분석 (Correlation Analysis), 회귀분석 (Regression Analysis) 등이 있었다. 한글판에서는 통계처리기법의 명시가 불명확한 경우까지 포함한 전체 301건의 통계처리기법 중에서 ANOVA가 171건 (57%), t-test가 49건 (16%), 비모수 통계 방법이 43건 (14%)으로 다빈도를 차지하였으며, 영문판에서는 전체 109건의 통계처리기법 중에서 한글판에서와 마찬가지로 ANOVA가 61건 (56%), t-test가 17건 (16%), 비모수 통계방법이 20건 (18%)으로 다빈도를 보였다.
그 외에 일원 분산분석인 one-way ANOVA로 기술하고서 일차원 공분산 분석이라고 언급한 경우도 있었고, 등분산 분석을 하는 Levene's test로 사후검정을 했다고 하거나, 분산분석 후에 사후 검정하는 Duncan multiple range test로 사후 분산분석을 했다고 서술하거나, 비모수적인 t-test에 상응하는 Wilcoxon rank sum test를 비모수적인 분산분석이라 언급 한 경우 등이 있었다.
그리고 통계용 컴퓨터 프로그램인 dBSTAT for Windows version 4.5 (dBSTAT, Seoul, Korea)를 사용하여 전체 대한치과보철학회지 한글판과 영문판에서의 통계적 오류 비율을 95% 신뢰구간으로 모수추정하였으며, 전체 대한치과보철학회지의 한글판과 영문판에서 통계적 오류의 비율의 차이를 95% 신뢰구간으로 추정하고 Chi-square test로 Yates' correction for continuity (연속성 수정)을 하여 유의수준 0.05에서 통계 검정하였다.
또한 SPSS for Windows에서는 등분산성 검정을 먼저 하여 등분산성 가정을 위반하지 않는 경우에는 평균이 유사한 동질적인 그룹으로 분류하는 범위검정 (範圍檢定, range tests)만이 필요한 경우에는 Tukey 검정을, 모든 그룹의 평균을 쌍별로 비교하여 서로 다른지 확인하는 과정인 쌍별 다중비교 (雙別 多重比較, pairwise multiple comparisons)만 필요한 경우에는 Bonferroni 검정이나 Sidák 검정을, 쌍별 다중비교와 동질적인 그룹의 분류가 모두 연구목적인 경우에는 Gabriel 검정을 추천했다.
영문판과 한글판을 비교하여 살펴보고자 전체 대한치과보철학회지 한글판과 영문판에서의 통계적 오류 비율을 95% 신뢰구간으로 모수 추정하였으며, 전체 대한치과보철학회지의 한글판과 영문판에서 통계적 오류의 비율의 차이를 95% 신뢰구간으로 추정하고, Chi-square test로 Yates' correction for continuity 을 하여 유의수준 0.05에서 통계 검정한 결과는 다음과 같으며 Table IV로 정리하였다.
이론/모형
또한 비모수의 다중비교에서 다중비교 방법의 선택은 독립집단에 대한 비모수 다중비교방법에는 Kraft와 Eeden, Mcdonald와 Thompeon, Miller 등의 방법이 있으나 이 검정법들은 특별한 계산표 (table)가 요구되므로 표준정규분포를 이용할 수 있는 방법으로 Dunn의 방법을 사용하라고 하였다. 그리고 관련된 집단에 대한 비모수 다중비교방법에는 모든 처리간의 비교 시에는 Harter의 방법을, 하나의 대조군과 나머지 처리간의 비교시에는 Dunnett의 방법을 사용하라하였다. 아울러 이런 기준이 항상 옳은 것은 아니나 대부분의 논문심사 과정에서는 이 기준을 지키려는 경향이 있으므로 연구자의 입장에서는 가능한 위의 기준을 따르는 것이 바람직할 것이라고까지 하였다.
박29,30에 의하면 모수의 다중비교에서 간단한 선택지침은 표본수가 같을 때는 Tukey, Newman-Keuls, Duncan의 방법을, 표본수가 다를 때는 Scheffe´의 방법을, 대조군과 나머지군 과의 비교를 위해서는 Dunnett의 방법을 선택하라고 하였다. 또한 비모수의 다중비교에서 다중비교 방법의 선택은 독립집단에 대한 비모수 다중비교방법에는 Kraft와 Eeden, Mcdonald와 Thompeon, Miller 등의 방법이 있으나 이 검정법들은 특별한 계산표 (table)가 요구되므로 표준정규분포를 이용할 수 있는 방법으로 Dunn의 방법을 사용하라고 하였다. 그리고 관련된 집단에 대한 비모수 다중비교방법에는 모든 처리간의 비교 시에는 Harter의 방법을, 하나의 대조군과 나머지 처리간의 비교시에는 Dunnett의 방법을 사용하라하였다.
특히 두 번째의 통계적 오류 범주인 통계 방법의 부적절한 기술에선 1991년에 안과 이18가 개발한 “의학연구논문의 방법론 및 통계처리기법의 타당성 평가를 위한 점검표” 중 일목요연하게 정리된 통계처리기법의 타당성 평가 항목을 활용하였다.
성능/효과
1) 통계 프로그램의 불명시의 경우가 한글판에선 54%, 영문판에선 59%로 나타났으나, 그 차이는 95% 신뢰구간으로 모수추정 시 -13%에서 22%였으며 Chi-square test후 Yates 수정 결과도 통계적 유의성은 없었다 [χ2(1,N=292)=0.195, P> .05].
1. 사용된 통계 프로그램의 종류는 SPSS (73%), SAS (20%), Microsoft Excel (4%),Statgraphics plus (1%), SigmaStat for Windows (1%), Minitab (1%) 순으로 많이 사용되었으며, 통계 프로그램 불명시의 오류는 한글판에선 54%가, 영문판에선 59%가 있었으나 통계적으로 유의한 차이를 보이진 않았다 (P= .66).
2) 통계방법의 부적절한 기술의 경우가 한글판에선 48%, 영문판에선 33%로 나타났고, 그 차이는 95% 신뢰구간으로 모수추정 시 3%에서 28%였으나 Chi-square test 후 Yates 수정 결과는 통계적 유의성이 없었다[χ2(1,N=292)=2.841, P> .05].
2. 대표값 및 산포도에 대한 부적절한 기술, 부적합한 분석 방법 및 중복 시행한 검정의 오류 등을 포함한 통계 방법에 대한 부적절한 기술에 관한 오류는 한글판에선 49%가, 영문판에선 33%가 있었으나 통계적으로 유의한 차이를 보이진 않았다 (P= .09).
2000년부터 2006년까지의 대한치과보철학회지에 게재된 논문을 크게 3가지 통계적 오류의 범주로 반복 조사한 결과, 국내외 의학학술지의 통계적 오류의 심각성을 지적한 선학들의 결과와 마찬가지로 Table IV, VII에서처럼 통계적 오류가 중복되어 나타나는 경우도 있었고, 조금만 주의를 기울이면 피할 수 있는 통계적 오류에서부터 그 내용과 의미를 이해해야 하고 연구 결과에 영향을 미칠 수 있는 통계적 오류에 이르기까지 다양하게 나타났다. 본 연구에서의 주요 결과를 검토해보면 다음과 같다.
3) 통계 용어의 오용의 경우가 한글판에선 54%, 영문판에선 24%로 나타났으며, 그 차이는 95% 신뢰구간으로 모수추정 시 19%에서 42%였고 Chi-square test 후 Yates 수정 결과도 통계적 유의성이 있었다 [χ2(1,N=292)=10.369, P< .05].
3. 기술적 전문 통계용어를 비전문적으로 사용하거나, 통계용어, 약어, 기호의 의미를 잘못 정의하는 통계용어의 오용 오류는 한글판에선 54%가, 영문판에선 24%가 있었으며 통계적으로 유의한 차이가 있었다 (P= .01).
4. 상기와 같이 대한치과보철학회지의 통계적 오류현황은 통계 프로그램 불명시의 오류와 통계적 방법에 대한 부적절한 기술에 관한 오류 및 통계용어의 오용 오류에서 한글논문은 49% - 54%, 영문논문은 24% - 59%가 나타났다. 통계용어의 오용 오류 항목 이외엔 통계적으로 유의성이 있진 않았으므로 한글논문과 영문논문의 통계적 오류의 비율은 유사하게 나타난 걸로 추정된다.
그런데도 다수의 논문에서 유의도 95%라고 표현하거나 95% 수준에서 통계학적 유의성을 검증하였다거나, 95% 유의수준으로 정하였다고 표현되어 있었으며, 유의수준 α= .05가 아닌 P = .05 수준으로 표기하거나, 심지어 α< .05로 표현한 경우도 있었다.
대한치과보철학회지의 통계적 오류현황을 파악하고자 2000년부터 2006년까지의 대한치과보철학회지의 총 399편의 논문 중 통계적 방법을 사용한 전체 292편의 논문에서 한글판 212편과 영문판 80편의 통계적 오류 항목을 크게 3가지 범주로 나누어 비교 조사해 본 결과 전체적으로 대한치과보철학회지에 게재된 논문의 통계적 타당성은 다소 부족한 걸로 나타났다. 본 연구에서의 주요 결론은 다음과 같다.
세 집단 이상에서의 평균값의 차이를 비교할 때는 처음부터 t-test를 중복 적용하면 실제론 차이가 없음에도 차이가 있는 것으로 결론을 내리게 되는 제 1종 오류 (TypeⅠerror)가 커지게 된다. 따라서 반드시 ANOVA test를 적용하여 집단 간 유의한 차이가 있는지 분석한 후에 다중비교에 의해 구체적인 차이가 있는 집단을 구분해 내야 한다.
또한 단순회귀나 다중회귀, 변량효과모형의 경우엔 잔차 (residual)들의 분산이 서로 동질적이라는 가정도 필요하다. 셋째, 상관분석, 회귀분석의 경우에는 변수들 간의 관계가 선형적이라는 가정이 필요하다. 만약 위의 가정이 만족되지 않는다면 분석에서 요구되는 가정이 만족되도록 원자료를 적절히 변환하거나, 정규성과 같은 자료의 분포에 대한 가정을 하지 않는 비모수 검정 (非母數 檢定, nonparametric test)을 해야 한다.
국제 의학학술지 편집위원회의 “생의학 학술지에 투고하는 원고의 통일양식의 통계학적 방법론에 관한 서술지침”에서도 언급했듯이, 연구 내용을 이해할 만한 독자가 연구 데이터를 확보했을 때 논문에 나타난 결과를 확인할 수 있을 정도로 통계학적 방법을 자세하게 기술하여야 한다. 이에 안과 이18가 개발한 통계처리기법의 타당성 평가 항목을 활용하여 (1) 대표값 및 산포도에 대한 부적절한 기술, (2) 부적합한 분석방법, (3) 중복 시행한 검정 등으로 3가지 범주로 나누어 살펴본 결과, Table IV에서처럼 총 292편의 논문 중에서 통계학적 방법의 부적절한 기술의 오류가 한글판에선 102편 (49%), 영문판에선 26편 (33%)으로 전체 128편 (44%)의 논문에서 발견되었다. 그 세부 내용은 다음과 같았으며 Table VII로 정리하였다.
가장 기본적이라 할 수 있는 통계처리기법인 t-test 및 실험설계와 주로 관련된 ANOVA (분산 분석, Analysis of Variance)와 특별한 분포나 가정에 큰 영향 없이 사용가능한 비모수 통계방법 (Non-parametric statistics)이 주로 사용되었으며, 그 외에는 상관 분석 (Correlation Analysis), 회귀분석 (Regression Analysis) 등이 있었다. 한글판에서는 통계처리기법의 명시가 불명확한 경우까지 포함한 전체 301건의 통계처리기법 중에서 ANOVA가 171건 (57%), t-test가 49건 (16%), 비모수 통계 방법이 43건 (14%)으로 다빈도를 차지하였으며, 영문판에서는 전체 109건의 통계처리기법 중에서 한글판에서와 마찬가지로 ANOVA가 61건 (56%), t-test가 17건 (16%), 비모수 통계방법이 20건 (18%)으로 다빈도를 보였다. 한편, 사용되어진 비모수 통계기법으로는 한글판과 영문판 공히 Kruskal-Wallis test, Mann-Whitney U test가 그 중 다수를 차지하였으며, 그 외에 Wilcoxon test, Chi-square test 등이 있었다.
후속연구
2,4 따라서 전체적인 통계적 오류의 빈도 그 자체보다는 오류를 범한 내용이 의학적 결론에 미치는 영향에 관심을 가져야 할 것이며, 통계적 방법 자체도 중요하지만 통계학적 방법론에 대한 인식을 제고하는데 우선을 두어야 할 것으로사료된다. 본 연구 중에도 여타 몇몇 연구들처럼32-34 그러한 통계적 오류의 항목 수의 나열만 되는 상황을 최대한 피해보고자, 점검표를 이용한 반복 평가 시에도 오류 건수의 나열이 아닌 논문의 편수로 표현하려 시도하였으며 무리하게 타당도 점수로 평가하진 않았다.
4 또한 한국통계학회 홈페이지의 자료실에서 통계학 용어 온라인 대조표를 활용하는 것도 한 방법이며, 이곳에는 1997년 한국통계학회에서 발간한 "통계학용어집 (자유아카데미 간)"의 자료 및 "통계학 용어 개정 및 온라인 서비스 위원회"에서 새롭게 추가한 내용을 웹 서비스하고 있고, 통계학 용어 대조표를 컴퓨터에 직접 다운로드 받아 설치해 사용할 수도 있으니 이를 활용하면 도움이 될 것이다.
따라서 대한치과보철학회지에 투고하는 치의학 연구자는 실험계획 단계에서부터의 통계 전문가와의 상담 및 치의학 연구 논문에서의 통계학적 방법론에 대한 인식을 제고하여 적절한 통계적 방법의 적용과 통계적 오류 개선의 노력이 있어야 할 것이며, 아울러 대한치과보철학회에서도 치의학 연구자가 각 통계적 방법마다 일관되고 명확한 정보를 분명하게 전달하여 독자의 이해를 돕도록 여타 국내외 학회지처럼 비통계 전문가도 쉽게 이용할 수 있는 세부지침을 마련해 주는 것이 바람직할 것으로 사료된다.
심지어 분산분석 후 다중비교에 대한 언급 자체가 없거나 분산분석의 언급 없이 다중비교의 방법만 언급한 경우도 있었다. 따라서 향후 치의학 논문 작성 시엔 사용하고자 하는 통계용 컴퓨터 프로그램에서 적절한 다중비교 방법이 선택되도록 실험계획 단계에서부터 통계 전문가와 상담이 필요할 것으로 사료된다.
본 연구의 결과에서 보듯이 향후 치의학 논문에서 통계적 방법을 기술하고 적용할 때는 연구자 본인이 실제 통계적 분석을 수행하지는 않았더라도 그 내용과 결과에 대해선 연구자로서의 책임이 있으므로 통계적 오류를 피하기 위해 주의를 기울여야 할 것으로 보이며, 또한 선학들의 지적처럼4-6 가능하다면 실험계획 단계에서부터 통계 전문가와 상담하여 바람직한 실험설계 및 적절한 통계적 방법의 적용이 가능토록 해야 할 것으로 생각된다. 아울러 치의학 연구 논문에서의 통계학적 방법론에 대한 인식을 제고하여 적절한 통계적 방법의 적용과 계속적인 통계적 오류 개선의 노력이 있어야 할 것으로 사료된다.
가능하다면 실험계획 단계에서부터 통계 전문가와 상담하여 바람직한 실험설계 및 적절한 통계적 방법의 적용이 가능토록 해야 할 것으로 생각된다. 아울러 치의학 연구 논문에서의 통계학적 방법론에 대한 인식을 제고하여 적절한 통계적 방법의 적용과 계속적인 통계적 오류 개선의 노력이 있어야 할 것으로 사료된다.
그리고 국제의학학술지 편집위원회의 “생의학 학술지에 투고하는 원고의 통일양식 중에 통계학적 방법론에 관한 서술지침”에서도 연구 설계나 통계학적 방법에 대한 참고문헌은 통계 이론의 원전보다는 잘 설계되고 표준적으로 실행한 연구 보고를 (페이지와 함께) 인용하는 것이 좋다고 언급하였다. 이는 통계학적 방법론을 활용한 연구논문 발표 시엔 연구방법론의 과학적 근거를 제시 한다는 입장에서도 그렇고, 의학적 결론 자체보다도 연구방법론에 대한 참고 문헌이 독자나 후속연구자들에게 더 관심일 수 있다는 점에서도 참고문헌을 가능한 구체적으로 기재해야 할 것이다. 즉, 연구방법을 활용할 때 문헌 고찰한 참고문헌을 기록하는 것과 마찬가지로 통계적 기법과 원리에 대한 참고문헌을 밝히는 것도 당연하게 여겨야할 것이다.
그러나 다른 오류 항목보다 오류 빈도가 높게 나온 걸로 보아 이는 통계 프로그램 명시의 의미를 이해 못하고 간과하는 듯 보였다. 하지만 그 의미를 알아 당연하게 여기고 기술만 해준다면 본 연구에서의 다른 어떤 통계적 오류 항목보다 쉽게 개선이 가능할 것이라고 본다.
또한 언급이나 기술이 안 되었다고 무조건 통계적 오류로 단정하진 않고 가능한 한 기술되어 있는 것 중에서 명확한 통계적 오류로 판단되는 것을 위주로 반복 평가하였다. 하지만 향후 비통계전문가 입장에서 좀 더 용이하게 활용할 수 있는 점검표와 그에 관한 검토가 필요하다고 본다.
한편 본 연구에서 사용한 통계적 오류 점검표는 통계전문가들의 통계적 오류와 관련된 논문에서 공통적으로 자주 언급되었고 통계전문가들의 점검표 중에서 비통계전문가도 발견할 수 있는 통계적 오류 위주로 항목을 구성하였으나, 평가항목을 나열식으로 제시했을 뿐 개별 항목의 오류에 대한 경중을 구분하지는 않고 있기 때문에 점검표에 의한 평가결과를 해석할 때 오류를 범한 항목의 수에만 의존하여 그 논문에 대한 통계적 방법론의 타당성을 평가하는 것은 무리가 있을 수 있다.2,4 따라서 전체적인 통계적 오류의 빈도 그 자체보다는 오류를 범한 내용이 의학적 결론에 미치는 영향에 관심을 가져야 할 것이며, 통계적 방법 자체도 중요하지만 통계학적 방법론에 대한 인식을 제고하는데 우선을 두어야 할 것으로사료된다.
질의응답
핵심어
질문
논문에서 추출한 답변
대표값과 산포도는 변수의 척도와 표본 수, 자료의 정규성 여부 및 적용하고자하는 통계기법과의 일관성을 고려하여서 표나 그림으로 기술통계량을 나타내는 경우, 연속변수는 대표값과 산포도를 함께 제시하되 정규 분포를 할 땐 평균과 표준편차, 정규분포가 아닐 때는 중앙값과 범위가 사용되어야 하는 이유는?
대표값과 산포도는 변수의 척도와 표본 수, 자료의 정규성 여부 및 적용하고자하는 통계기법과의 일관성을 고려하여서 표나 그림으로 기술통계량을 나타내는 경우, 연속변수는 대표값과 산포도를 함께 제시하되 정규 분포를 할 땐 평균과 표준편차, 정규분포가 아닐 때는 중앙값과 범위가 사용되어야 한다. 이는 연구 결과의 타당성을 직접적으로 저해하진 않지만 연구 자료에 대한 기초적인 정보전달이 불충분하게 되는 문제가 생길 수 있기 때문이다.2,12 그런 점에서 볼 때 대한치과보철학회지에서는 표본수가 적고 정규분포가 의심스러운데도 이에 대한 언급 없이 비모수 검정법을 사용까지 해놓고선 중앙값과 범위로 기술되지 않고 평균과 표준편차로 자료를 정리하고 언급한 경우가 있었다.
유의수준이란?
이는 단순히 통계용어의 오용을 넘어 통계적 방법의 부실한 기술에 속한다고 볼 수도 있을 것이다. 또한, 유의수준이란 통계검정을 하기 전에 연구자의 의사결정기준을 설정하는 것이므로 그 기준은 논문 전체에서 일관성이 있어야 함에도 연구방법 서술에는 유의한 차이를 P < .05인 것으로 제한하고서 정작 연구결과의 표나 내용 중에 P < .
의학연구에서의 통계학적 방법론이 차지하는 중요성을 인식한 미국의학협회지의 조치는?
이렇듯 의학 연구논문에서는 제시하는 의학적 결론보다 연구방법론이 더 큰 관심대상이 되기도 한다는 점에서도 의학논문에 사용된 통계적 오류를 줄이려는 노력이 여타 국내외 의학학술지에서는 꾸준히 지속되어 오고 있다. 미국의학협회지에서는 의학연구에서의 통계학적 방법론이 차지하는 중요성을 인식하여 이미 지난 1965년부터 게재신청 논문의 통계전문가에 의한 논문 심사과정을 의무화하였으며,4 미국심장학회지, 미국안과학회지, 영국정신의학지 등 기타 유명 학술지에서도 해당학술지에 게재된 논문들의 통계적 오류를 사후평가하거나 그 개선 방안을 제시하는 연구들이 1970년대 이후로 잇따르고 있다.6 이러한 추세에 따라 1988년 국제의학학술지 편집위원회에서는 생의학 학술지에 투고하는 원고의 통일양식 (Uniform Requirements for Manuscripts Submitted to Biomedical Journals) 개정 3판에서 통계학적 방법론에 관한 서술지침을 포함하기에 이르렀고, 1997년에는 "생의학 학술지에 투고하는 원고의 통일 양식" 개정 5판에서는 통계적 서술원칙 15개항을 제시하였다.
참고문헌 (34)
Choi JH, Lee JC. Scholarly Monographs and Statistical Methods. Seoul: Freedom Academy Pub. Co.; 1990
Lee HJ, Kim DH. Research Methodology Topics in Statistics. Seoul:Korea Medical Book Publisher; 2002
Altman DG. Statistical Reviewing for Medical Journals. Stat Med 1998;17:2661-74
ICMJE(International Committee of Medical Journal Editors). Uniform Requirements for Manuscripts submitted to Biomedical Journals. J Am Osteopath Assoc 2003;103:137-49
Ko H. Statistical Methods in the Articles of the Journal of the Korean Society of Anesthesiologists from 1981 to 1990. Korean J Anesthesiol 1993;26:22-7
Kim YY, Lee EI, Jung HR. Research Designs, Research Methods, and Statistical Techniques in Korean Ophthalmic Articles. J Korean Ophthalmol Soc 1994;35:460-73
Hwang KH, Lee HJ, Kim YJ, Lee SI. Statistical Errors in Papers in the Journal of Korean Society of Plastic and Reconstructive Surgeons. J Korean Soc Plast Reconstr Surg 2001;28:302-9
Publication Committee of Korean Academy of Family Medicine. Statistics for Family Medicine. Seoul: J Korean Acad Fam Med; 2001
Koh WJ, Lee SJ, Kang MJ, Lee HJ. An Evaluation of the Use of Statistical Methods in the Journal of Tuberculosis and Respiratory Diseases. Korean Tuberc Respir Dis 2004;57:168-79
Pak SI. An Assessment of Statistical Errors in Articles in the Korean Journal of Veterinary Research. Korean J Vet Res 1999;39:1187-96
Lee SD. An Assessment of Statistical Validity of Articles Published in the Journal of Korean Acupuncture and Moxibustion Society from 1984 to 2002. Korean J Acupunct Mox 2004;21;176-88
Park YG. The Most Common Statistical Errors in the Articles. J Korean Acad Fam Med 1998;19:137-43
Gore SM, Jones JG, Rytter EC. Misuse of Statistical Methods: Critical Assessment of Articles in BMJ from January to March 1976. Br Med J 1977;1:85-7
Ahn YO, Lee HK. Development of a Checklist for Assessing the Methodological andStatistical Validity of Medical Articles. Korean J Med Educ 1991;3:19-35
Park YG. Statistical Application of the Articles in the Journal of the Korean Academy of Family Medicine. J Korean Acad Fam Med 1998;19:137-43
Lee HK, Huh BY, Ahn YO. An Assessment of Methodological and Statistical Validity of Medical Articles Published in Korea, from 1980 to 1989. J Korean Acad Fam Med 1991;12:46-67
Petrie A, Sabin C. Medical Statistics at a Glance, 2nd edition. London: Blackwell publishing Ltd; 2005
Ahn YO, Yoo KY, Park BJ. Applied Medical Statistics, Revised edition. Seoul : Seoul National University Press; 2005
Altman M, McDonald MP. Choosing Reliable Statistical Software. Political Science and Politics 2001;34:681-7
Bailar JC 3rd, Frederick M. Guidelines for Statistical Reporting in Articles for Medical Journals: Amplifications and Explanations. Ann Intern Med 1988;108:266-73
Browner WS. Publishing and Presenting Clinical Research. Philadelphia: Lippincott Williams & Wilkins Ltd; 1998
Song MS, Park CS. Introduction to Nonparametric Statistics. Seoul: Freedom Academy Pub. Co.; 1997
Hahn SK. Development of Program for Statistical Education in Design and Analysis of Clinical Trials and Training Medical Statisticians. The Annual Report of KFDA No. GOVP1200608585, Seoul: Korea Food and Drug Administration; 2005
Altman DG, Schultz KF, Moher D, Egger M, Davidoff F, Elboume D, Lang T, et al. The Revised CONSORT Statement for Reporting Randomized Trials: Explanation and Elaboration. Ann Intern Med 2001;134:663-94
Park YG. Statistical Errors of the Articles in December 1999. J Korean Acad Fam Med 2000a;21:107-10
Park YG. Statistical Errors of the Articles in January 2000. J Korean Acad Fam Med 2000b;21:289-93
Lee YJ. Understanding the Analysis of Variance. Seoul: SukJung publisher; 2000
Park GB. A Study of Statistical Analysis Methods in Domestic Journal related to Oral and Maxillofacial Surgery. MSD. Graduate School of Chosun University; 1999
Lee SM, Lee SW. An Assessment of Statistical Validity of Nursing Researches Published in Korea from 1986 to 1995. J Korean Soc Health Statistics 1998;23:42-64
Park IK, Kang JO, Kim TY, Keum DG. An Evaluation of the Statistical Techniques Used in the 1995-1996 Editions of the Korean Journal of Clinical Pathology. Korean J Clin Pathol 1999;19:460-4
※ AI-Helper는 부적절한 답변을 할 수 있습니다.