[논문]집단화된 통계자료의 도수다각형에 근거한 새로운 분위수 계산법

김혁주

doi:10.7465/jkdi.2017.28.2.383

[국내논문] 집단화된 통계자료의 도수다각형에 근거한 새로운 분위수 계산법
A new method for calculating quantiles of grouped data based on the frequency polygon 원문보기

Journal of the Korean Data & Information Science Society = 한국데이터정보과학회지, v.28 no.2, 2017년, pp.383 - 393

초록
AI-Helper

집단화되어 있는 통계자료의 통계량을 구하고자 하는 경우 통계량의 참값에 보다 가까운 값을 얻게 해주는 계산 방법을 사용하는 것이 바람직하다. 본 논문에서는 집단화된 자료의 분위수들을 계산하는 새로운 방법을 제시하였다. 제시된 방법의 주된 아이디어는, 히스토그램에 따라 그려지는 도수다각형에서 각 계급구간에 대응하는 오각형의 넓이를 그 계급구간의 도수보다 하나 많은 개수의 부분으로 등분함으로써 자룟값들을 계산하는 것이다. 제시된 방법을 모의실험을 통해 기존의 방법들과 비교하였는데, 통계학개론 교재에 주어져 있는 몇 가지의 자료를 대상으로 하였다. 모의자료의 생성 방법은, 각 계급구간에서 도수다각형에 의해 주어진 모양의 확률밀도함수를 갖는 분포를 찾아낸 뒤 역변환 방법을 이용하여, 이 분포를 따르는 모의자룟값들을 각 계급구간에서 주어진 도수와 같은 개수만큼 발생시키는 방식이다. 모의자료의 분위수와의 차의 제곱합을 기준으로 할 때 제시된 방법이 기존의 방법들보다 거의 모든 사분위수와 십분위수에서 우세한 결과를 주는 것을 볼 수 있었다.

Abstract ▼ AI-Helper

When we deal with grouped statistical data, it is desirable to use a calculation method that gives as close value to the true value of a statistic as possible. In this paper, we suggested a new method to calculate the quantiles of grouped data. The main idea of the suggested method is calculating the data values by partitioning the pentagons, that correspond to the class intervals in the frequency polygon drawn according to the histogram, into parts with equal area. We compared this method with existing methods through simulations using some datasets from introductory statistics textbooks. In the simulation study, we simulated as many data values as given in each class interval using the inverse transform method, on the basis of the distribution that has the shape given by the frequency polygon. Using the sum of squares of differences from quantiles of the simulated data as a criterion, the suggested method was found to have better performance than existing methods for almost all quartiles and deciles.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문에서는 역시 집단화된 자료의 도수다각형을 근거로 자룟값들의 위치를 정하여 분위수들을 계산하는 방법이되 Kim (2013)의 방법과는 다른 새로운 방법을 제시하여 기존의 방법들과 비교하고자 한다. 한편 집단화된 자료를 다룬 국내 학자들의 연구로는 Ryu와 Moon (2014), Lee 등 (2014)이 있다.
본 논문에서는 집단화된 자료의 분위수들을 계산하는 새로운 방법을 제시하였다. 제시된 방법은 히스토그램으로부터 그려지는 도수다각형을 근거로 하여 분위수들을 계산하는 방법이다.
이번에는 다른 자료를 대상으로 모의실험을 통하여 네 가지 방법을 비교해보자. Figure 3.

제안 방법

8개 계급구간의 경우 앞에서 기술한 모의실험 방법을 적용하여 역시 10,000회의 모의실험을 실시하였다. 6개 계급구간의 경우와 같은 방식으로 기준을 정하여 비교한 결과를 Table 3.
그런데 위의 결과는 1회의 모의실험의 결과일 뿐이므로 신뢰성을 갖지 못한다. 모의실험의 결과가 신뢰성을 갖기 위해서는 많은 횟수의 실험을 실시해야 하므로 위와 같은 방식으로 10,000회의 모의실험을 실시하였다. 사분위수의 경우의 비교 결과가 Table 3.
이번에는 Kim 등 (2001)의 동일한 자료를 계급구간의 개수를 바꿔 8개의 계급구간을 사용하여 나타내는 경우를 생각해보자. Table 3.
본 논문에서는 집단화된 자료의 분위수들을 계산하는 새로운 방법을 제시하였다. 제시된 방법은 히스토그램으로부터 그려지는 도수다각형을 근거로 하여 분위수들을 계산하는 방법이다. 제시된 방법 (방법4)은 역변환 방법을 이용한 10,000회의 모의실험을 통하여 기존의 방법들과 비교되었다.

대상 데이터

이번에는 다른 자료를 대상으로 모의실험을 통하여 네 가지 방법을 비교해보자. Figure 3.2에 그려진 히스토그램과 도수다각형의 근거가 된 자료는Kim 등 (2002)에 나와 있는 것으로서, 한 배관공이 전화 호출 출장 서비스 후 30개 가정에 청구한 금액 (단위: 천 원)에 관한 자료이다. 이 자료를 바탕으로 10,000회의 모의실험을 실시한 결과가 Table 3.

데이터처리

제시된 방법은 히스토그램으로부터 그려지는 도수다각형을 근거로 하여 분위수들을 계산하는 방법이다. 제시된 방법 (방법4)은 역변환 방법을 이용한 10,000회의 모의실험을 통하여 기존의 방법들과 비교되었다. 비교 기준으로 두 가지를 고려하였는데, 첫째는 모의자료의 분위수와의 차의 제곱합이고, 둘째는 10,000번 중 더 우세한 횟수로 하였다.

이론/모형

각 계급구간에서 도수다각형이 나타내는 모양의 확률밀도함수를 갖는 분포를 찾아낸 뒤, 이 분포를 따르는 모의자룟값들을 각 계급구간에서 주어진 도수와 같은 개수만큼 생성한다. 생성에 사용되는 방법은 역변환 방법 (inverse transform method)이며, 모의실험에 사용되는 컴퓨터 소프트웨어는 미니탭 14 (Minitab Release 14)이다.

성능/효과

모의자료의 십분위수와의 차의 제곱합에서 D₆의 경우만 방법 3이 우세를 보였고, 나머지 십분위수의 경우에는 방법 4가 가장 우세했다. 10,000번 중 우세횟수를 기준으로 하면, 방법 4가 모든 십분위수에서 방법 1보다 좋았고, D₇을 제외한 모든 십분위수에서 방법 2보다 좋았다. 방법 3과 방법 4를 비교해보니, D₁, D₃, D₆, D₇에서는 방법 3이 우세했고 D₄, D₈, D₉에서는 방법 4가 우세하여 우열을 가리기 힘들었다.
이 결과를 보면, 차이의 제곱합을 기준으로 할 때는 방법 2가 D₈에서, 방법 3이 미세한 차이로 D₉에서 우세했고, 나머지 사분위수와 십분위수에서는 모두 방법 4가 가장 우세했다. 10,000번 중 우세횟수를 기준으로 할 경우 방법 4가 모든 십분위수와 사분위수에서 방법 1보다 좋았고, Q₂를 제외한 모든 사분위수와 십분위수에서 방법 2보다 좋았다. 방법 3과 방법 4의 비교에서는, 사분위수의 경우 Q₁과 Q₃는 방법 3이 우세했고 Q₂는 방법 4가 우세했다.
6에서도 마찬가지다). 둘째 기준으로 비교해보니, 방법 1과 방법 4의 비교에서는, Q₁의 경우만 방법 1이 방법 4보다 다소 우세했고 Q₂와 Q₃의 경우는 방법 4가 압도적으로 우세했다. 다음으로 방법 2와 방법 4의 비교에서는 Q₁, Q₂, Q₃의 경우 모두 방법 4가 훨씬 우세했다.
첫째 기준에서는 거의 모든 사분위수와 십분위수에서 방법 4가 기존의 방법들보다 우세하게 나타났다. 둘째 기준으로는, 방법 4가 방법 1과 방법 2보다는 압도적으로 우세했고, 방법 3과의 비교에서는 어느 한 쪽이 우세하다고 하기 힘든 것으로 나타났다. 방법 3과 방법 4를 첫째 기준과 둘째 기준으로 비교한 결과를 종합해서 말하자면, 단순한 우세 횟수에서는 큰 차이가 없지만, 모의자료의 분위수와의 차이의 크기에서는 평균적으로 방법 4가 방법 3보다 더 좋은 결과를 보여준 것이라 할 수 있다.
2에 정리하였다 (굵은 글씨는 가장 좋은 결과를 보인 것을 나타낸다). 따라서 이 모의자료의 경우 Q₁과 Q₂의 계산에서는 네 가지 방법 중 방법 4가 가장 좋은 결과를 줬으며, Q₃의 계산에서는 방법 3이 가장 좋은 결과를 줬다.
이러한 취지에서, 각 계급구간 안의 자룟값들 사이의 간격이 균등하되 자룟값들이 계급구간의 중간점에 대하여 대칭으로 분포하고 있다고 간주하고 분위수들을 계산하는 방법이 Kim과 Yu (2008)에 의해 제시되었다 (앞으로 이 방법을 방법 2라 부르겠다). 모의실험을 통하여 비교한 결과 방법 2는 사분위수와 십분위수의 계산에서 방법 1에 비해 전반적으로 우위를 보였다.
4는 십분위수의 경우의 비교 결과이다. 모의자료의 십분위수와의 차의 제곱합에서 D₆의 경우만 방법 3이 우세를 보였고, 나머지 십분위수의 경우에는 방법 4가 가장 우세했다. 10,000번 중 우세횟수를 기준으로 하면, 방법 4가 모든 십분위수에서 방법 1보다 좋았고, D₇을 제외한 모든 십분위수에서 방법 2보다 좋았다.
7에 나타냈다. 방법 1, 방법 2, 방법 3과 방법 4의 전반적인 비교 결과는 계급구간의 개수를 6개로 할 때와 8개로 할 때가 대동소이하게 얻어졌다.
10,000번 중 우세횟수를 기준으로 하면, 방법 4가 모든 십분위수에서 방법 1보다 좋았고, D₇을 제외한 모든 십분위수에서 방법 2보다 좋았다. 방법 3과 방법 4를 비교해보니, D₁, D₃, D₆, D₇에서는 방법 3이 우세했고 D₄, D₈, D₉에서는 방법 4가 우세하여 우열을 가리기 힘들었다. 이 데이터의 경우 D₂는 방법 3과 방법 4의 결과가 동일한 값으로 계산된다.
둘째 기준으로는, 방법 4가 방법 1과 방법 2보다는 압도적으로 우세했고, 방법 3과의 비교에서는 어느 한 쪽이 우세하다고 하기 힘든 것으로 나타났다. 방법 3과 방법 4를 첫째 기준과 둘째 기준으로 비교한 결과를 종합해서 말하자면, 단순한 우세 횟수에서는 큰 차이가 없지만, 모의자료의 분위수와의 차이의 크기에서는 평균적으로 방법 4가 방법 3보다 더 좋은 결과를 보여준 것이라 할 수 있다.
9에 나와 있다. 이 결과를 보면, 차이의 제곱합을 기준으로 할 때는 방법 2가 D₈에서, 방법 3이 미세한 차이로 D₉에서 우세했고, 나머지 사분위수와 십분위수에서는 모두 방법 4가 가장 우세했다. 10,000번 중 우세횟수를 기준으로 할 경우 방법 4가 모든 십분위수와 사분위수에서 방법 1보다 좋았고, Q₂를 제외한 모든 사분위수와 십분위수에서 방법 2보다 좋았다.
비교 기준으로 두 가지를 고려하였는데, 첫째는 모의자료의 분위수와의 차의 제곱합이고, 둘째는 10,000번 중 더 우세한 횟수로 하였다. 첫째 기준에서는 거의 모든 사분위수와 십분위수에서 방법 4가 기존의 방법들보다 우세하게 나타났다. 둘째 기준으로는, 방법 4가 방법 1과 방법 2보다는 압도적으로 우세했고, 방법 3과의 비교에서는 어느 한 쪽이 우세하다고 하기 힘든 것으로 나타났다.
첫째 기준으로 비교한 결과, Q1, Q2, Q3의 경우 모두 방법 4가 네 가지 방법 중 가장 좋은 결과를 보였다 (표에서 Σ은 10,000회의 모의실험에 걸쳐 모두 합한 것을 나타낸다.

후속연구

대부분의 경우 우리가 접하는 집단화된 자료는 개별값들이 없이 도수분포표 (즉 히스토그램과 도수다각형)로만 주어진 상태이다. 이 히스토그램과 도수다각형을 가질 수 있는 무한한 개수의 데이터 세트 중 많은 수 (예컨대 10,000개)의 데이터 세트를 뽑아 기존의 방법들과 새로운 방법을 비교해보니 평균적으로 그리고 확률적으로 새로운 방법이 좀 더 우세한 결과를 보인 것이므로, 우리가 접하고 있는 특정한 자료에도 이 새로운 방법의 적용을 고려할 만하다고 본다.
그런데 위의 방법 1과 방법 2는 자료의 대체적인 분포 상태를 고려하지 않고 계급구간의 폭과 도수만을 고려하여 각 계급구간 안의 자룟값들의 위치를 정한 것이다. 자료의 대체적인 분포 상태를 고려하여 자룟값들의 위치를 정한다면 이를 바탕으로 자료의 분위수들도 좀 더 합리적으로 계산될 것이다. 이러한 취지에서 Kim (2013)은 집단화된 자료의 히스토그램으로부터 그려지는 도수다각형을 근거로 자룟값들의 위치를 정하여 분위수들을 계산하는 방법을 제시하였고, 이 방법은 방법 1과 방법 2보다 우위를 보이는 경우가 많은 것으로 모의실험을 통해 밝혀졌다.

질의응답

핵심어	질문	논문에서 추출한 답변
	집단화된 자료란 무엇인가?	통계자료가 개개의 자룟값들로 표시되어 있지 않고 몇 개의 계급구간으로 묶여서 주어진 경우가 종종 있는데, 이러한 자료를 집단화된 자료라 한다. 집단화된 자료의 경우에는 자료의 특성을 나타내는 통계량 (모집단 자료인 경우에는 모수)을 구할 때도 근삿값을 구할 수밖에 없다.
	분위수는 자룟값들의 어떤 특성을 나타내는 통계량인가?	통계량 중 중요한 것이 자룟값들의 위치와 관련된 특성을 나타내는 분위수 (quantile)이다. 분위수 중 대표적인 것이 사분위수이며, 세분하면 십분위수와 백분위수도 있다.
	히스토그램으로부터 그려지는 도수다각형을 근거로 하여 분위수들을 계산하는 방법 등 집단화된 자료의 분위수들을 비교하는 실험에서 비교 기준으로 고려된 것은 무엇인가?	제시된 방법 (방법4)은 역변환 방법을 이용한 10,000회의 모의실험을 통하여 기존의 방법들과 비교되었다. 비교 기준으로 두 가지를 고려하였는데, 첫째는 모의자료의 분위수와의 차의 제곱합이고, 둘째는 10,000번 중 더 우세한 횟수로 하였다. 첫째 기준에서는 거의 모든 사분위수와 십분위수에서 방법 4가 기존의 방법들보다 우세하게 나타났다.

참고문헌 (8)

Kim, B. H., Choi, K. C., Baek, H. Y., Kim, H. J., Dong, K. H., Park, T. R. and Chang, I. H. (2002). Understanding statistics, Freedom Academy, Paju.
Kim, H. J. (2013). A quantile calculation method for grouped data based on the frequency polygon and the related simulation study. Journal of the Korean Data Analysis Society, 15, 3149-3156.
Kim, H. J. and Yu, J. S. (2008). On a method for computing quantiles of grouped data. Journal of the Korean Data Analysis Society, 10, 3453-3464.
Kim, W. C., Kim, J. J., Park, B. U., Park, S. H., Song, M. S., Lee, S. Y., Lee, Y. J., Jeon, J. W. and Cho, S. (2001). General statistics, 2nd Ed., Youngji Publishers, Seoul.
Kim, W. C., Kim, J. J., Park, S. H., Park, H. N., Song, M. S., Jeon, J. W., Chung, H. Y. and Cho, S. (2000). Modern statistics, 3rd Ed., Youngji Publishers, Seoul.
Kim, Y. D., Kim, W. C., Park, B. U., Park, S. H., Park, T. S., Oh, H. S., Lee, S. Y., Lee, Y. J., Lee, J. Y., Lim, Y. H., Jeon, J. W. and Cho, S. (2008). Introduction to statistics, 5th Ed., Youngji Publishers, Seoul.
Lee, W. K., Kim, S. W., Kim, H. I, Chang, H. H., Lee, J. M., Kim, Y. J. and Lee, M. Y. (2014). Development of quality of life with WHOQOL-HIV BREF Korean version among HIV patients in Korea. Journal of the Korean Data & Information Science Society, 25, 337-347.

원문보기 상세보기
Ryu, G. Y. and Moon, Y. S. (2014). A case study on verification of internet survey. Journal of the Korean Data & Information Science Society, 25, 11-18.

원문보기 상세보기

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증