[논문]Weighted k-Nearest Neighbors를 이용한 결측치 대치

임찬희; 김동재

doi:10.5351/kjas.2015.28.1.023

Weighted k-Nearest Neighbors를 이용한 결측치 대치
On the Use of Weighted k-Nearest Neighbors for Missing Value Imputation 원문보기

응용통계연구 = The Korean journal of applied statistics, v.28 no.1, 2015년, pp.23 - 31

임찬희 (가톨릭대학교 의생명.건강과학과) , 김동재 (가톨릭대학교 의생명.건강과학과)

초록
AI-Helper

통계적 분석을 할 때 결측치가 발생하는 것은 매우 통상적이다. 이러한 결측치를 대치하는 방법은 여러가지가 있으며, 기존에 사용되는 단일대치법으로 k-nearest neighbor(KNN) 방법이 있다. 하지만 KNN 방법은 k개의 최근접 이웃들 중 극단치나 이상치가 있을 때 편의를 일으킬 수 있다. 본 논문에서는 KNN 방법의 단점을 보완하여 가중 k-최근접이웃(Weighted k-Nearest Neighbors; WKNN) 대치법을 제안하였다. 또한 모의실험을 통해서 기존의 방법과 비교하였다.

Abstract ▼ AI-Helper

A conventional missing value problem in the statistical analysis k-Nearest Neighbor(KNN) method are used for a simple imputation method. When one of the k-nearest neighbors is an extreme value or outlier, the KNN method can create a bias. In this paper, we propose a Weighted k-Nearest Neighbors(WKNN) imputation method that can supplement KNN's faults. A Monte-Carlo simulation study is also adapted to compare the WKNN method and KNN method using real data set.

주제어

AI 본문요약
AI-Helper

문제 정의

본 논문에서는 가중 k-최근접이웃방법을 이용한 통계적 매칭기법의 장점을 KNN 대치법에 적용하여 k개의 최근접이웃들 중 극단치나 이상치가 있는 경우, 이들의 영향에 덜 민감하면서도 정확도를 높일 수 있는 가중 k-최근접이웃(Weighted k-Nearest Neighbors; WKNN) 대치법을 제안하고자 한다. 2장에서는 WKNN 대치법을 제안하고, 3장에서는 실제자료를 이용한 모의실험을 통해 기존의 KNN 대치법과 제안된 WKNN 대치법의 결과를 비교하였다.

제안 방법

본 논문에서는 KNN 대치법의 단점을 보완하기 위해 WKNN 대치법을 제안하였다. 그리고 제안한 WKNN 대치법은 distance와 커널함수에 따라 4가지로 나누고, KNN 대치법은 distance에 따라 2가지로 나눠서 총 여섯 방법을 모의실험을 통해 비교해 보았다.
본 논문에서는 거리계산하는 방법과 커널함수에 따라 4가지 방법(Euclidean-Triweight, Euclidean-Epanechnikov, Hellinger-Triweight, Hellinger-Epanechnikov)의 대치법을 제안한다.

대상 데이터

기존의 방법과 제안된 방법을 비교하기 위한 모의실험에는 효모세포주기분석(Cellcycle)의 자료를 이용하였다(http://genome-www.stanford.edu/cellcycle). Cellcycle 자료는 34개의 변수와 7744개의 개체로 구성되어 있고, 34개의 변수 중 26개는 숫자형 변수이다.
모의실험을 하기 위해 6개의 변수로 구성된 Cellcycle 자료에서 크기가 30, 100, 500인 소표본, 중간표본, 대표본을 추출하였다. SAS 프로그램을 이용해서 균일분포에서 난수를 생성하였고, 결측비율을 소표본에서는 5%, 7%, 10%, 중간표본에서는 3%, 5%, 7%, 대표본에서는 1%, 3%, 5%로 정해서 결측치를 만들었다.
Cellcycle 자료는 34개의 변수와 7744개의 개체로 구성되어 있고, 34개의 변수 중 26개는 숫자형 변수이다. 이중 숫자형 변수 6개 RAT1, RAT2, RATIN, RAT2N, CRT1, CRT2를 이용하여 모의실험을 수행하였다. 실제자료에서 적절한 크기의 표본을 만들고, 임의로 결측치를 발생시킨 후 대치하여 그 결과를 비교하였다.

데이터처리

실제자료에서 적절한 크기의 표본을 만들고, 임의로 결측치를 발생시킨 후 대치하여 그 결과를 비교하였다. 이때 `정규화 제곱근 평균 제곱오차(Normalized Root Mean Squared Error; NRMSE)'와 `실제자료의 검정결과 일치성'을 통해 KNN과 WKNN을 비교평가하였다.

성능/효과

최근접이웃의 개수, 결측비율, 표본의 크기에 상관없이 KNN 방법보다 WKNN 방법이 더 뛰어나다는 것을 확인하였다. 4가지 WKNN 방법들 중 Euclidean distance와 Hellinger distance 비교 결과 두 거리는 큰 차이가 없었고, Hellinger distance는 음수 값을 사용하지 못하는 단점이 있으므로 Eu-clidean distance를 사용하는 것이 더 효율적이라고 할 수 있겠다. 또한 커널함수는 가중치의 차이를 더 크게 준 Triweight 함수가 더 정확했다.
따라서 KNN 방법 보다는 WKNN 방법이 더 뛰어나고, 그 중 Euclidean-Triweight WKNN 방법이 가장 좋은 것으로 나타났다. 검정의 기각여부로 판단했을 때, 변수가 CRT1인 경우를 제외하고 WKNN 대치법이 더 정확했다. 이는 변수가 숫자형 변수보다는 명목형 변수의 성질을 가지기 때문이다.
또한 커널함수는 가중치의 차이를 더 크게 준 Triweight 함수가 더 정확했다. 따라서 KNN 방법 보다는 WKNN 방법이 더 뛰어나고, 그 중 Euclidean-Triweight WKNN 방법이 가장 좋은 것으로 나타났다. 검정의 기각여부로 판단했을 때, 변수가 CRT1인 경우를 제외하고 WKNN 대치법이 더 정확했다.

후속연구

앞으로 숫자형 변수뿐만 아니라 명목형 변수에도 적용할 수 있는 WKNN 방법을 고안해야 할 필요가 있다. 또한 본 논문에서는 KNN과 제안한 WKNN 방법을 비교하였는데, KNN의 단점을 다른 방식으로 보완했던 ANN 대치법, SANN 대치법 그리고 그 외에 다른 대치방법들과도 비교할 필요가 있다.
앞으로 숫자형 변수뿐만 아니라 명목형 변수에도 적용할 수 있는 WKNN 방법을 고안해야 할 필요가 있다. 또한 본 논문에서는 KNN과 제안한 WKNN 방법을 비교하였는데, KNN의 단점을 다른 방식으로 보완했던 ANN 대치법, SANN 대치법 그리고 그 외에 다른 대치방법들과도 비교할 필요가 있다.

질의응답

핵심어	질문	논문에서 추출한 답변
	단일대치법의 종류에는 무엇이 있는가?	그래서 지금까지 결측치 처리에 관하여 많은 방법론이 연구되어 왔다. 단일대치법은 각각의 결측치들을 각각 하나의 다른 값으로 대치하는 방법으로 Last observation carried forward(LOCF), Baseline observation carried forward(BOCF), Regression method, Hot-deck imputation 등이 있다. 하지만 단일대치법은 추정량의 표준오차를 작아지게 하는 방향으로 편의를 일으키게 할 가능성이 있다.
	결측치란 무엇인가?	통계적 분석을 할 때 결측치가 발생하는 것은 매우 통상적이다. 결측치란 특정 피험자에게서 특정 변수를 특정 시점에 측정하여 관측치를 얻어야 하는데 얻지 못한 경우를 말한다. 결측치의 발생은 분석을 어렵게 할 뿐만 아니라, 편의 발생으로 인해 분석 결과에 크게 영향을 미친다.
	결측치 처리 방식 중 결측치가 있는 변수를 모든 분석에서 제거하는 방식의 단점은 무엇인가?	결측치를 처리하는 가장 단순한 방법은 결측치가 있는 변수를 모든 분석에서 제거하고, 결측치가 없는 변수들만 분석하는 방법이다. 하지만 이 방법은 편향이 발생할 수 있고, 결측비율이 높아지면 표본의 크기가 감소하여 검정력이 줄어드는 단점이 있다. 그래서 지금까지 결측치 처리에 관하여 많은 방법론이 연구되어 왔다.

참고문헌 (8)

Dixon, J. K. (1979). Pattern recognition with partly missing data, IEEE Transactions on Systems, Man, and Cybernetics, 9, 617-621.

상세보기
Jang, H. J. (2004). On the use of clustering method for missing value imputation, Korea University, M.S. Thesis.
Jhun, M. S., Jeong, H. C. and Koo, J. Y. (2007). On the use of adaptive nearest neighbors for missing value imputation, Communications in Statistics: Simulation and Computation, 36, 1275-1286.

상세보기
Kang, S. H. (2013). Medical Statistics Needed for Drug Development, 2nd ed., Freeca.
Kim, H. K. (2010). A study on statistical matching technique using the weighted k-nearest neighbor method, Dongguk University: Ph.D. thesis.
Park, S. H., Bang, S. W. and Jhun, M. S. (2011). On the use of sequential adaptive nearest neighbors for missing value imputation, The Korean Journal of Applied Statistics, 24, 1249-1257.

원문보기 상세보기
Troyanskaya, O., Cantor, M., Sherlock, G., Brown, P., Hastie, T., Tibshirani, R., Botstein, D. and Altman, R. B. (2001). Missing value estimation methods for DNA microarrays, Bioinformatics, 17, 520-525.

상세보기
Yun, S. C. (2004). Imputation of missing values, Journal of Preventive Medicine and Public Health, 37, 209-211.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

Weighted k-Nearest Neighbors를 이용한 결측치 대치
On the Use of Weighted k-Nearest Neighbors for Missing Value Imputation 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

성능/효과

후속연구

질의응답

참고문헌 (8)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

Weighted k-Nearest Neighbors를 이용한 결측치 대치 On the Use of Weighted k-Nearest Neighbors for Missing Value Imputation 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

데이터처리

성능/효과

후속연구

질의응답

참고문헌 (8)

이 논문을 인용한 문헌

저자의 다른 논문 :

김동재 (47)

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

Weighted k-Nearest Neighbors를 이용한 결측치 대치
On the Use of Weighted k-Nearest Neighbors for Missing Value Imputation 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper