[논문]다양한 대역폭 선택법에 따른 커널밀도추정의 비교 연구

강영진; 노유정

doi:10.7734/coseik.2019.32.3.173

다양한 대역폭 선택법에 따른 커널밀도추정의 비교 연구
Comparison Study of Kernel Density Estimation according to Various Bandwidth Selectors 원문보기

한국전산구조공학회논문집 = Journal of the computational structural engineering institute of Korea, v.32 no.3, 2019년, pp.173 - 181

초록
AI-Helper

제한된 실험 데이터로부터 확률분포함수를 추정하기 위해서 KDE가 많이 사용되고 있다. KDE에 의한 분포함수는 대역폭 선택법에 따라서 실험 데이터에 대해 평활하거나 과대적합된 커널 추정치를 생성한다. 본 연구에서는 Silverman's rule of thumb, rule using adaptive estimate, oversmoothing rule을 사용해서 각 방법에 따른 정확성과 보수적인 성향을 비교하였다. 비교를 위해서 단봉분포와 다봉분포를 가지는 실제 모델을 가정하고 통계적 시뮬레이션을 수행한 다음 다양한 데이터의 개수에 따른 추정된 분포함수의 정확도와 보수성을 비교하였다. 또한, 간단한 신뢰성 예제를 통해 대역폭 선택법에 따른 KDE의 추정된 분포가 신뢰성 해석 결과에 어떻게 영향을 미치는지 확인하였다.

Abstract ▼ AI-Helper

To estimate probabilistic distribution function from experimental data, kernel density estimation(KDE) is mostly used in cases when data is insufficient. The estimated distribution using KDE depends on bandwidth selectors that smoothen or overfit a kernel estimator to experimental data. In this study, various bandwidth selectors such as the Silverman's rule of thumb, rule using adaptive estimates, and oversmoothing rule, were compared for accuracy and conservativeness. For this, statistical simulations were carried out using assumed true models including unimodal and multimodal distributions, and, accuracies and conservativeness of estimating distribution functions were compared according to various data. In addition, it was verified how the estimated distributions using KDE with different bandwidth selectors affect reliability analysis results through simple reliability examples.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

가설 설정

3(b)와 Fig. 4(b)의 다봉분포에서는 상대적으로 낮은 정확도를 보였다.

제안 방법

그러므로 최적의 대역폭을 선정하는 과정은 KDE에서 추정 정확도에 큰 영향을 준다. 그래서 본연구에서는 세 가지 대역폭 선정 방법을 KDE에 적용해서 그 결과를 비교하였다.
다양한 대역폭 선정 방법과 그 방법에 따른 커널 추정치의 정확도를 비교하기 위해서 2종류의 단봉분포(unimodal distribution), 2종류의 이봉분포(bimodal distribution), 2종류의 삼봉분포(trimodal distribution)를 실제모델로 가정하고 그 모델들로부터 데이터 개수(n)를 5 부터 50까지 증가시켜가면서 표본을 임의로 1,000세트 씩 추출하였다. 그리고 각 데이터 세트에 대해서 세 가지 방법을 사용하여서 PDF를 추정하고 면적척도인 교차면적(intersection area, IA)를 사용하여서 추정된 PDF와 실제 PDF의 일치성을 비교하였다. 교차면적은 두 PDF의 일치성을 나타내는 것으로 0에서 1사이의 값을 가지며 그 값이 0 이면 두 PDF는 완전치 불일치이고 1이면 완전치 일치하는 것을 의미한다(Jung et al.
다양한 대역폭 선정 방법과 그 방법에 따른 커널 추정치의 정확도를 비교하기 위해서 2종류의 단봉분포(unimodal distribution), 2종류의 이봉분포(bimodal distribution), 2종류의 삼봉분포(trimodal distribution)를 실제모델로 가정하고 그 모델들로부터 데이터 개수(n)를 5 부터 50까지 증가시켜가면서 표본을 임의로 1,000세트 씩 추출하였다. 그리고 각 데이터 세트에 대해서 세 가지 방법을 사용하여서 PDF를 추정하고 면적척도인 교차면적(intersection area, IA)를 사용하여서 추정된 PDF와 실제 PDF의 일치성을 비교하였다.
본 논문은 커널밀도추정의 정확도에 가장 중요한 인자인 대역폭을 결정하는 세 가지 선정법을 사용하여서 단봉·다봉분포에 따른 분포함수의 추정 정확도를 비교·분석하였고, 단봉-확률변수를 가지는 I-beam 문제와 이봉-확률변수를 가지는 bimodal ratio 문제에 대해서 세 가지 대역폭 선정 기법에 따른 신뢰성 해석을 수행 후 비교·분석하였고, 결과는 다음과 같다.
본 연구에서는 Silverman’s rule of thumb와 적응형 추정치(adaptive esti-mate)를 적용한 rule using adaptive estimate, 그리고 상대적으로 보수적인 추정을 하는 oversmoo-thing rule의 세 가지 방법을 사용한 KDE의 통계모델링의 결과를 비교하고 분석하였다.
본 연구에서는 Silverman’s rule of thumb와 적응형 추정치(adaptive esti-mate)를 적용한 rule using adaptive estimate, 그리고 상대적으로 보수적인 추정을 하는 oversmoo-thing rule의 세 가지 방법을 사용한 KDE의 통계모델링의 결과를 비교하고 분석하였다. 분포함수의 추정 정확도의 특성을 확인하기 위해서 단봉분포(unimodal distribution)와 다봉분포(multimodal distribution)에 대한 통계적 시뮬레이션 후 추정 정확도를 비교하고, 실제 측정 데이터에 대한 분포함수추정을 통한 추정 정확도 비교와 신뢰성 해석 예제를 통해 각기법이 신뢰성 해석 결과에 어떻게 영향을 미치는지 비교하고 분석하였다. 최종적으로 통계적 시뮬레이션과 신뢰성 해석을 결과를 토대로 확률변수의 다봉성(multimodality), 분포함수추정의 정확성과 보수성에 대한 조건에서 적합한 대역폭 선택법을 추천하였다.
세 가지 대역폭 선정법을 사용해서 추정된 커널밀도함수를 사용함에 따른 결과를 비교하기 위해서 이봉분포을 가지는 온도 데이터에 대해 분포함수를 추정하여 추정 정확도를 비교하고, 입력변수의 모델링에 따른 출력 값의 비교하기 위해서 두 종류의 신뢰성 해석 예제에서 입력변수의 분포함수를 추정하고 추정된 분포함수를 성능함수에 사용하여서 파손확률(probability of failure)을 예측하여 비교하였다.
신뢰성 해석을 위해서 먼저 실제 확률변수로부터 각 데이터의 개수에서 1,000개의 표본 세트를 생성하고 각 표본에 대해서 세 가지 방법을 사용하여서 KDE를 분포함수를 추정하고 이를 성능함수(performance function)에 사용하여서 파손확률을 예측하였다. 신뢰성 해석 예제로서 입력-확률변수가 단봉분포인 I-beam 문제와 다봉분포인 Bimodal ratio 문제를 사용하였다.
실제 데이터의 분포함수 추정의 정확도를 비교하기 위해서 시스템의 재료물성 또는 작업환경의 중요 외부인자인 온도 데이터에 대해서 시뮬레이션을 수행하였다(Lee et al., 2011). 사용된 데이터는 서울을 2007년도 시간별 온도 데이터이고 모집단은 총 8,760개의 데이터로 구성된다(KMA, 2019).

대상 데이터

사용된 데이터는 서울을 2007년도 시간별 온도 데이터이고 모집단은 총 8,760개의 데이터로 구성된다(KMA, 2019). 분포함수 추정을 위해서 표본 5~50개를 무작위로 모집단으로부터 추출하였고, 각 표본의 개수에서 1,000 세트의 표본을 생성하였다. Fig.
, 2011). 사용된 데이터는 서울을 2007년도 시간별 온도 데이터이고 모집단은 총 8,760개의 데이터로 구성된다(KMA, 2019). 분포함수 추정을 위해서 표본 5~50개를 무작위로 모집단으로부터 추출하였고, 각 표본의 개수에서 1,000 세트의 표본을 생성하였다.
3의 이봉분포 시뮬레이션 처럼 AE의 정확도가 가장 높고 OS의 정확도가 가장 낮으며, 표본의 크기가 증가함에 따라서 세 방법의 차이는 뚜렷해졌다. 하지만 Fig. 3과 달리 온도 데이터는 측정오차와 같은 불확실성을 최소화하기 위해서 측정되었고, 총 8,760개의 데이터로 부터 표본을 생성하였기 때문에 표본의 무작위성이 낮아서 상자그림의 변동 폭이 Fig. 3보다 상대적으로 좁으면서 정확도의 변동성이 낮은 것을 볼 수 있다. 그리고 온도 분포는 Fig.

데이터처리

I-beam의 파손확률을 예측하기 위해서 세 가지 방법으로 추정된 커널 확률밀도함수(kernel PDF)를 사용해서 몬테카를로 시뮬레이션을 수행하고 데이터의 개수와 각 데이터의 개수에서 1,000개의 표본 세트에 대해서 예측된 파손확률을 상자그림으로 나타내면 Fig. 8과 같다. Fig.
생성된 표본에 대해서 3가지 최적 대역폭 선정 방법을 사용하여서 커널밀도함수를 추정하였고, 각 데이터의 개수에서 1,000세트의 표본의 결과를 비교하기 위해서 결과를 상자그림(boxplot)으로 나타내고, 실제모델과 데이터의 개수에 따라 비교하였다. 상자그림은 데이터의 분포를 표현하는 대표적인 방법으로서 상자에서 하단, 중단, 상단의 수평선은 각각 제1사분위수(1st quartile), 제2사분위수(2nd quartile), 제3사분위수(3rd quartile)이다.

이론/모형

신뢰성 해석 예제로서 입력-확률변수가 단봉분포인 I-beam 문제와 다봉분포인 Bimodal ratio 문제를 사용하였다. 두 문제 모두 신뢰성 해석을 위해서 몬테카를로 시뮬레이션(monte-carlo simulation)을 수행하였고, 이 때 MCS 표본 수는 10⁶개로 하였다.
신뢰성 해석을 위해서 먼저 실제 확률변수로부터 각 데이터의 개수에서 1,000개의 표본 세트를 생성하고 각 표본에 대해서 세 가지 방법을 사용하여서 KDE를 분포함수를 추정하고 이를 성능함수(performance function)에 사용하여서 파손확률을 예측하였다. 신뢰성 해석 예제로서 입력-확률변수가 단봉분포인 I-beam 문제와 다봉분포인 Bimodal ratio 문제를 사용하였다. 두 문제 모두 신뢰성 해석을 위해서 몬테카를로 시뮬레이션(monte-carlo simulation)을 수행하였고, 이 때 MCS 표본 수는 10⁶개로 하였다.

성능/효과

(3) 확률변수가 단봉/다봉분포인지 모르는 경우, 만약 시스템의 불확실성이 커서 보수적인 해석 및 설계가 필요한 경우에는 OS의 사용을 추천하고, 반대로 불확실성이 작은 경우에는 AE의 사용을 추천한다.
결과를 정리하면, OS는 두껍고 긴 꼬리를 가지는 PDF를 추정하여서 예측된 파손확률이 실제 파손확률보다 높게 분포되어서 과소추정(underestimation)의 비율이 가장 낮으면서 가장 보수적인 결과를 보였다. 반면에 AE는 가장 짧은 꼬리의 PDF를 추정하여서 예측된 파손확률이 실제 파손확률을 주위로 분포되어서 가장 실제 값에 가까운 결과를 보인다.
데이터의 개수가 증가하면서 세 가지 기법으로 예측된 파손확률의 상자그림은 좁아지면서 실제 파손확률로 수렴하였다. 결과에서 상자의 높이는 세 가지 기법 모두 비슷하지만, AE가 실제 값에 가장 유사하고 OS가 가장 차이가 컸으며, SRT는 AE와 OS의 사이의 값을 예측하였다.
8의 범례에서 #는 실제 확률변수를 사용한 파손확률이고 세 가지 기법에 따른 결과를 비교하기 위한 기준으로서 사용하였다. 데이터의 개수가 증가하면서 세 가지 기법으로 예측된 파손확률의 상자그림은 좁아지면서 실제 파손확률로 수렴하였다. 결과에서 상자의 높이는 세 가지 기법 모두 비슷하지만, AE가 실제 값에 가장 유사하고 OS가 가장 차이가 컸으며, SRT는 AE와 OS의 사이의 값을 예측하였다.
10의 예측된 파손확률을 보면, I-beam 문제와 같이 세 가지 기법을 사용한 경우 모두 데이터의 개수가 증가함에 따라서 실제 파손확률에 수렴하지만, 확률변수의 이봉성으로 인해 분포함수의 추정 정확도가 낮아져서 수렴속도가 I-beam 문제보다 느리다. 세 가지 기법을 비교해 보면, I-beam처럼 AE가 실제 값에 가장 가깝고 OS가 가장 멀었지만 AE와 OS의 차이는 I-beam 문제보다 크다.
세 가지 대역폭 선정 방법에 따른 통계적 시뮬레이션의 결과를 정리하면, 단봉분포의 경우 OS가 가장 높은 분포함수의 추정정확도를 보이고 다봉성이 증가할수록 AE의 정확도가 가장 높았다. OS는 세 가지 방법 중에서 가장 대역폭을 넓게 선정하여서 상대적으로 비선형성이 가장 낮고 꼬리가 긴 PDF를 추정한다.
6에 나타내었다. 온도 분포의 추정 정확도는 Fig. 3의 이봉분포 시뮬레이션 처럼 AE의 정확도가 가장 높고 OS의 정확도가 가장 낮으며, 표본의 크기가 증가함에 따라서 세 방법의 차이는 뚜렷해졌다. 하지만 Fig.
분포함수의 추정 정확도의 특성을 확인하기 위해서 단봉분포(unimodal distribution)와 다봉분포(multimodal distribution)에 대한 통계적 시뮬레이션 후 추정 정확도를 비교하고, 실제 측정 데이터에 대한 분포함수추정을 통한 추정 정확도 비교와 신뢰성 해석 예제를 통해 각기법이 신뢰성 해석 결과에 어떻게 영향을 미치는지 비교하고 분석하였다. 최종적으로 통계적 시뮬레이션과 신뢰성 해석을 결과를 토대로 확률변수의 다봉성(multimodality), 분포함수추정의 정확성과 보수성에 대한 조건에서 적합한 대역폭 선택법을 추천하였다.

후속연구

본 연구는 데이터의 개수가 적은 경우에 중점을 두고 세 가지 대역폭 선정방법을 비교하였으나, 다봉분포와 같은 데이터의 개수가 증가한 경우에 대해서는 세 가지 방법의 한계점을 확인할 수 있었다. 그러므로 추후 단봉/다봉분포의 구분하는 기법의 연구와 다봉분포와 같이 데이터의 많은 경우에 대한 대역폭 선정방법을 연구가 추가적으로 필요하다.

질의응답

핵심어	질문	논문에서 추출한 답변
	커널밀도추정이란 무엇인가?	커널밀도추정(kernel density estimation, KDE)은 데이터만을 이용해서 확률밀도함수(probability density function,PDF)를 추정하는 비모수적 통계모델링(nonparametric statistical modeling)으로서 추정된 커널 추정치(kernel estimate)는 다음과 같다(Silverman, 1986).
	세가지 대역폭 선정 기법 모두 대칭 또는 비대칭에 상관없이 가지는 특징은?	(4) 세 가지 대역폭 선정방법 모두 대칭 또는 비대칭에 상관없이 단봉분포의 경우 제한된 데이터에 대해서 상대적으로 높은 분포함수 추정 정확도를 보이지만 다봉분포에서는 수렴속도가 정확도가 매우 낮고, 신뢰성 해석에서도 과도하게 보수적인 결과를 산출하므로 다봉분포를 가지며 보수적인 설계가 필요한 경우에만 세 가지 방법을 사용할 것을 추천한다.
	대역폭 선택법에 따른 차이점은?	, 1994; Chen 2015),다양한 대역폭 선택법(bandwidth selector)이 있다. 대역폭 선택법에 따라서 최적의 대역폭이 다르게 계산되고 대역폭이 작을수록 분포함수는 과대적합(overfitting)을 하고 클수록 평활(smoothing)한 분포함수를 추정한다. 대역폭 선택법에 따른 비교 연구가 수행되었지만 대부분 통계적 관점이어서 표본의 개수가 100개 이상이고 표본의 무작위성과 신뢰성 해석의 관점에서 비교 연구는 부족하다(Terrell et al.

참고문헌 (14)

안다운, 원준호, 김은정, 최주호. 베이지안 접근법을 이용한 입력변수 및 근사모델 불확실성 하에 서의 신뢰성 분석. 大韓機械學會論文集. Transactions of the Korean Society of Mechanical Engineers. A. A, vol.33, no.10, 1163-1170.

원문보기 상세보기
Analytical Methods Committee. Robust statistics–how not to reject outliers. Part 1. Basic concepts. The Analyst : An International Journal of Analytical and Bioanalytical Science, vol.114, no.12, 1693-1697.

상세보기
Chen, Su. Optimal Bandwidth Selection for Kernel Density Functionals Estimation. Journal of probability and statistics, vol.2015, 1-21.

상세보기
Eldred, M. S., Agarwal, H., Perez, V. M., Wojtkiewicz Jr., S. F., Renaud, J. E.. Investigation of reliability method formulations in DAKOTA/UQ. Structure and infrastructure engineering : maintenance, management, life-cycle design and performance, vol.3, no.3, 199-213.

상세보기
Junyong Jang, Su-gil Cho, Su-Jin Lee, Kyu-Seob Kim, Ji-Min Kim, Jung-Pyo Hong, Tae Hee Lee. Reliability-Based Robust Design Optimization With Kernel Density Estimation for Electric Power Steering Motor Considering Manufacturing Uncertainties. IEEE transactions on magnetics, vol.51, no.3, 1-4.

상세보기
Jung, Jung-Ho, Kang, Young-Jin, Lim, O.-Kaung, Noh, Yoojeong. A new method to determine the number of experimental data using statistical modeling methods. Journal of mechanical science and technology, vol.31, no.6, 2901-2910.

상세보기
강영진, 홍지민, 임오강, 노유정. 모수적·비모수적 입력모델링 기법을 이용한 신뢰성 해석. 한국전산구조공학회논문집 = Journal of the computational structural engineering institute of Korea, vol.30, no.1, 87-94.

원문보기 상세보기
Scott, David W.. Scott's rule. Wiley interdisciplinary reviews. Computational statistics, vol.2, no.4, 497-502.

상세보기
10.1002/9781118575574
10.1007/978-1-4899-3324-9
Terrell, George R., Scott, David W.. Oversmoothed Nonparametric Density Estimates. Journal of the American Statistical Association, vol.80, no.389, 209-214.

상세보기
Terrell, George R.. The Maximal Smoothing Principle in Density Estimation. Journal of the American Statistical Association, vol.85, no.410, 470-477.

상세보기
10.1201/b14876
Zhang, Fan, Liu, Yu, Chen, Chujie, Li, Yan-Feng, Huang, Hong-Zhong. Fault diagnosis of rotating machinery based on kernel density estimation and Kullback-Leibler divergence. Journal of mechanical science and technology, vol.28, no.11, 4441-4454.

상세보기

저자의 다른 논문 :

LOADING...

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증