[논문]단순 베이즈 분류에서의 범주형 변수의 선택

김민선; 최호식; 박창이

doi:10.5351/kjas.2015.28.3.407

단순 베이즈 분류에서의 범주형 변수의 선택
Categorical Variable Selection in Naïve Bayes Classification 원문보기

응용통계연구 = The Korean journal of applied statistics, v.28 no.3, 2015년, pp.407 - 415

김민선 (서울시립대학교 통계학과) , 최호식 (경기대학교 응용정보통계학과) , 박창이 (서울시립대학교 통계학과)

초록
AI-Helper

단순 베이즈 분류($Na{\ddot{i}}ve$ Bayes classification)는 출력변수가 주어졌을 때 입력변수들이 조건부 독립이라는 가정에 기반한다. 단순 베이즈 가정은 비현실적이지만 고차원의 확률 추정 문제를 일련의 일차원 확률 추정 문제로 단순화 시킨다는 장점이 있으며, 특히 스팸 메일 필터링, 추천 시스템(recommendation system) 등 방대한 데이터를 다루는 분야야에서 흔히 사용된다. 본 논문에서는 입력변수와 출력변수간의 카이제곱 통계량에 기반한 변수선택법을 제안한다. 이 방법은 단순 베이즈 분류의 장점인 데이터 처리 및 계산의 단순성을 유지하면서도 설명력이 있는 변수를 선택할 수 있으며 SNP(single nucleotide polymorphism)에 의한 질병의 분류 등의 초고차원 혹은 빅데이터에서 유용할 것으로 기대된다.

Abstract ▼ AI-Helper

$Na{\ddot{i}}ve$ Bayes Classification is based on input variables that are a conditionally independent given output variable. The $Na{\ddot{i}}ve$ Bayes assumption is unrealistic but simplifies the problem of high dimensional joint probability estimation into a series of univariate probability estimations. Thus $Na{\ddot{i}}ve$ Bayes classier is often adopted in the analysis of massive data sets such as in spam e-mail filtering and recommendation systems. In this paper, we propose a variable selection method based on ${\chi}^2$ statistic on input and output variables. The proposed method retains the simplicity of $Na{\ddot{i}}ve$ Bayes classier in terms of data processing and computation; however, it can select relevant variables. It is expected that our method can be useful in classification problems for ultra-high dimensional or big data such as the classification of diseases based on single nucleotide polymorphisms(SNPs).

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

모의실험에서는 변수 선택 기능이 없는 단순 베이즈 분류와 본 논문에서 제안하는 방법을 분류 정확도 및 변수 선택의 적절성 관점에서 비교하고자 한다. 모의실험의 데이터 생성모형은 다음과 같다.
사실 단순 베이즈 분류의 최대의 장점은 데이터 처리 및 계산의 단순성에 있다. 본 논문에서는 고차원의 범주형 입력변수로 이루어진 단순 베이즈 분류에서 입력변수와 출력변수간의 카이제곱 검정통계량에 기반한 변수의 순위에 의해 설명력있는 변수를 선택하고자 한다. Fan과 Lv (2008)에서는 LASSO등의 벌점화에 의한 변수선택법을 직접 적용할 수 없는 초고차원 데이터에서 각 입력변수의 출력변수에 대한 상관계수의 크기 순으로 변수를 미리 스크린한 후 변수선택법을 적용할 것을 제안하고 있다.

가설 설정

즉, 모든 입력 변수들은 Xj ∈ Xj , j = 1, . . . , p와 같이 순서형 혹은 명목형으로 범주화 되어 있다고 가정한다.

제안 방법

각 데이터에 대하여 7 : 3의 비율로 훈련데이터와 시험데이터로 랜덤하게 분할한 후 모형의 적합 및 평가를 하였다. 또한 실험의 변동성을 고려하여 이러한 전 과정을 100회 반복 시행하였다.
본래 변화점 분석은 자료의 평균이나 분산 등의 통계적 성질이 변하는 지점을 찾아내기 위한 방법인데, 본 논문에서는 많은 수의 모형의 검증오차를 구하여 비교하는 것은 현실적으로 어렵기 때문에 검증오차를 비교할 적은 수의 후보모형을 찾기 위해 변화점 분석을 고려하였다. 구체적으로 말하면 카이제곱 통계량을 큰 순서대로 늘어 놓았을 때 값이 어느 시점을 벗어나면 통계량이 상대적으로 작은 값을 가지며 변동성이 적어질 것이라는 직관에 기초하여 분산에 대한 변화점 분석을 적용하였다. 변화점 분석 외에도 통계량에 대한 벌점화를 통한 모형 선택이나 모형선택기준을 이용하는 방법을 고려 할 수도 있을 것이다.
각 데이터에 대하여 7 : 3의 비율로 훈련데이터와 시험데이터로 랜덤하게 분할한 후 모형의 적합 및 평가를 하였다. 또한 실험의 변동성을 고려하여 이러한 전 과정을 100회 반복 시행하였다.
변수 선택 기능이 없는 기존의 단순 베이즈 분류와 제안된 변수선택법의 성능을 다음의 데이터에 대하여 비교하였다.
본 논문에서는 모든 입력변수가 범주형인 경우만을 고려하므로 연속형 변수들은 사분위수를 이용하여 적절히 범주화를 하였다. 참고로 연속형 변수에 대한 범주화는 Jin 등 (2012)에서 처럼 상수 스플라인(constant spline)에 대한 매듭점(knot) 선택을 통해 접근할 수 있으며 사분위수를 이용한 범주화 등 연속형 변수의 범주화에 대한 이슈들은 Jin 등 (2012) 및 인용 논문들을 참고하기 바란다.
본 모의실험에서는 훈련데이터의 크기와 차원에 따른 변수선택의 효과를 비교하기 위하여 N과 p를 각 각 100, 500, 1000의 세 수준에서 실험하였고, 모형의 평가를 위한 시험데이터의 크기는 1000으로 고정하였다. 또한 실험의 변동성을 고려하여 데이터 생성, 모형적합, 시험오차의 계산 등 전과정을 100회 반복하였다.
본 연구에서는 단순 베이즈 분류에서 카이제곱 통계량을 이용한 범주형 입력변수의 선택법을 소개하고 모의실험과 실제 데이터에 대한 분석을 통해 기존의 단순 베이즈 분류와 본 논문의 변수선택법의 예측력과 해석력을 비교하였다. 본 논문에서 제안한 방법은 경우에 따라서는 예측력을 향상시킬 수도 있으며 변수선택을 통해 적어도 해석력은 향상시키는 것을 확인할 수 있었다.
여기서 Y는 클래스를 나타내는 유한집합으로 원소의 개수가 K이다. 본래 단순 베이즈 분류에서 연속형 입력변수들은 일변량 정규분포를 이용하여 모형화하는데, 본 논문에서는 모든 입력변수가 범주형인 경우만을 고려한다. 즉, 모든 입력 변수들은 X_j ∈ X_j , j = 1, .
위의 변수선택법은 범주형 입력변수를 갖는 경우에 단순 베이즈 분류 이외의 일반적인 분류문제에서도 적용이 가능하다. 본래 변화점 분석은 자료의 평균이나 분산 등의 통계적 성질이 변하는 지점을 찾아내기 위한 방법인데, 본 논문에서는 많은 수의 모형의 검증오차를 구하여 비교하는 것은 현실적으로 어렵기 때문에 검증오차를 비교할 적은 수의 후보모형을 찾기 위해 변화점 분석을 고려하였다. 구체적으로 말하면 카이제곱 통계량을 큰 순서대로 늘어 놓았을 때 값이 어느 시점을 벗어나면 통계량이 상대적으로 작은 값을 가지며 변동성이 적어질 것이라는 직관에 기초하여 분산에 대한 변화점 분석을 적용하였다.

대상 데이터

접합효소(splicing enzyme)는 유전자 조합으로부터 쓸모없는 부분인 인트론(intron)을 제거하고 유전정보가 들어있는 부분인 엑손(exon)을 연결하는 역할을 한다. 데이터의 크기는 3190개이며 입력변수는 60개의 범주형 변수들로 이루어져 있다. 출력변수는 DNA 유전자 결합구조에 따라 그 경계를 EI, IE로 구분한 값이다.
• 은행 대출(bank loan): 국내 어느 은행의 대출 관련 데이터로 하재환, 박창이 (2009)에서 분석된 바 있다. 전체 데이터 수는 1920개이며 입력변수 27개 중 연속형과 범주형이 각각 23개, 4개이고 출력변수는 신용상태를 나타낸다.
• 은행 마케팅(bank marketing): 포르투갈 금융기관의 직접 마케팅 캠페인의 결과 고객의 금융상품(은행 단기 예금)의 구매 여부에 대한 데이터로 출처는 UCI 기계학습 저장소이다. 전체 데이터의 크기는 4521개이며, 연속형 7개와 범주형 10개의 총 17개의 입력변수로 구성되어 있고, 출력변수는 고객의 구매여부를 나타낸다.

데이터처리

3. 각 변화점들에 대하여 대응되는 정렬된 카이제곱 통계량에 해당하는 변수로 이루어진 모형에 대하여 DV를 이용하여 검증오차(validation error)를 구한다.

이론/모형

모든 데이터분석은 R을 이용하였고 변화점 분석은 changepoint 패키지의 spt.var 함수에서 제공하는 PELT(pruned exact linear time) 알고리즘을 적용하였다. 변화점 분석에 대한 전반적인 소개는 Chen과 Gupta (2000)를 참조하기 바란다.

성능/효과

4. 검증오차가 최소가 되는 변화점을 찾고 대응되는 변수들을 모형에 포함시켜 D를 이용하여 최종모형을 적합한다.
반면 신호변수의 비율이 50%로 조밀한 경우에는 오히려 변수선택후에 시험오차가 증가하기도 한다. p가 고정된 경우를 보면 N이 증가함에 따라 변수선택을 한 경우와 하지 않은 경우 모두 시험오차가 줄어드는 경향이 보인다. 이는 표본의 개수가 늘어남에 따라 추정오차가 줄어들어 나타나는 현상으로 볼 수 있다.
본 모의실험에서는 훈련데이터의 크기와 차원에 따른 변수선택의 효과를 비교하기 위하여 N과 p를 각 각 100, 500, 1000의 세 수준에서 실험하였고, 모형의 평가를 위한 시험데이터의 크기는 1000으로 고정하였다. 또한 실험의 변동성을 고려하여 데이터 생성, 모형적합, 시험오차의 계산 등 전과정을 100회 반복하였다.
셋째, 제안한 방법은 변수선택이 변화점 분석 결과에 크게 영향 받을 수 있으므로 여러가지 변화점 분석법에 대한 비교, 벌점화를 통한 모형 선택 혹은 모형선택기준을 이용하는 방법을 고려할 수도 있을 것이다. 또한, FDR(false discovery rate)관점에서 유의확률을 이용하는 방법을 고려할 수 있는데 범주형 변수들의 수준수가 상이한 경우나 연속형 변수가 혼재된 경우에도 손쉽게 적용할 수 있다는 장점이 있다. 유의확률을 이용한 방법과 제안된 방법의 비교도 흥미로울 것이다.
본 연구에서는 단순 베이즈 분류에서 카이제곱 통계량을 이용한 범주형 입력변수의 선택법을 소개하고 모의실험과 실제 데이터에 대한 분석을 통해 기존의 단순 베이즈 분류와 본 논문의 변수선택법의 예측력과 해석력을 비교하였다. 본 논문에서 제안한 방법은 경우에 따라서는 예측력을 향상시킬 수도 있으며 변수선택을 통해 적어도 해석력은 향상시키는 것을 확인할 수 있었다. 본 논문의 변수선택법은 단순 베이즈 분류의 최대의 장점인 데이터 처리 및 계산의 단순성을 유지하므로 SNP에 의한 질병의 분류 등 초고차원 또는 빅데이터의 분류문제에 유용할 것으로 기대된다.
, X₅₀의 클래스별 분포가 잡음변수의 분포와 구별하기 어렵기 때문일 것으로 추측할 수 있다. 비록 변수선택의 일치성의 증명이나 광범위한 시뮬레이션을 통해 검증되지는 않았지만 모의실험 결과로부터 본 논문에서 제안하는 방법은 합리적인 변수선택을 함을 알 수 있다.
변수선택에 따른 예측력의 차이는 데이터의 특성에 따라 달라질 것으로 생각된다. 적어도 예측력이 심각하게 떨어지지 않으면서도 변수의 개수를 줄여준다는 점에서 본 논문에서 제안된 변수선택은 최종모형의 해석력을 향상 시킨다고 볼 수 있다.
본 연구와 관련된 후속 연구에 대한 제언으로는 다음과 같은 것들이 있다. 첫째, 단순 베이즈 분류의 경우 결합확률은 클래스 변수의 주변확률과 클래스 변수가 주어졌을 때 입력변수들의 조건부 확률의 곱으로 표현되므로 클래스 불균형(class imbalance)이 심각한 데이터에서는 적용하기 힘들다. 따라서 클래스 불균형이 심각한 데이터에서 단순 베이즈 분류의 적용이 가능하도록 하는 방안에 대한 연구가 필요하리라고 생각된다.

후속연구

본 논문에서 제안하는 방법은 각 범주형 입력변수에 출력변수와의 카이제곱 통계량을 이용한다는 점에서 SIS(sure independence screening)와 유사하다. SIS와의 차이점은 사전 스크린 단계 없이 직접 카이제곱 통계량에 기반한 변수의 선택이 이루어지므로 초고차원 데이터에 대해서도 직접적으로 적용이 가능하며 SNP(single-nucleotide polymorphism)에 의한 질병의 분류 등의 초고차원 혹은 빅데이터에서 단순하지만 매우 효과적일 것으로 기대된다.
목적함수가 입력변수에 대하여 가법적으로 분해되므로 최적화 문제를 병렬 또는 분산 처리로 쉽게 구현할 수 있다. 따라서 최근 화두가 되고 있는 빅 데이터의 분류 문제에서 유용할 것으로 기대된다.
첫째, 단순 베이즈 분류의 경우 결합확률은 클래스 변수의 주변확률과 클래스 변수가 주어졌을 때 입력변수들의 조건부 확률의 곱으로 표현되므로 클래스 불균형(class imbalance)이 심각한 데이터에서는 적용하기 힘들다. 따라서 클래스 불균형이 심각한 데이터에서 단순 베이즈 분류의 적용이 가능하도록 하는 방안에 대한 연구가 필요하리라고 생각된다. 둘째, 단순 베이즈 모형에서 2차 교호작용을 허용하는 모형의 개발을 고려할 수 있다.
본 논문에서 제안한 방법은 일종의 후진 선택법(backward selection)으로 p개의 주효과 변수들만 다루므로 계산에 큰 무리가 없지만, 교호작용이 있는 경우에는 p(p − 1)/2개의 교호작용이 존재하므로 단계적 전진 선택법(forward stagewise selection) 형식의 효율적인 계산 알고리즘이 필요할 것으로 기대된다.
본 논문에서 제안한 방법은 경우에 따라서는 예측력을 향상시킬 수도 있으며 변수선택을 통해 적어도 해석력은 향상시키는 것을 확인할 수 있었다. 본 논문의 변수선택법은 단순 베이즈 분류의 최대의 장점인 데이터 처리 및 계산의 단순성을 유지하므로 SNP에 의한 질병의 분류 등 초고차원 또는 빅데이터의 분류문제에 유용할 것으로 기대된다.
본 논문에서 제안한 방법은 일종의 후진 선택법(backward selection)으로 p개의 주효과 변수들만 다루므로 계산에 큰 무리가 없지만, 교호작용이 있는 경우에는 p(p − 1)/2개의 교호작용이 존재하므로 단계적 전진 선택법(forward stagewise selection) 형식의 효율적인 계산 알고리즘이 필요할 것으로 기대된다. 셋째, 제안한 방법은 변수선택이 변화점 분석 결과에 크게 영향 받을 수 있으므로 여러가지 변화점 분석법에 대한 비교, 벌점화를 통한 모형 선택 혹은 모형선택기준을 이용하는 방법을 고려할 수도 있을 것이다. 또한, FDR(false discovery rate)관점에서 유의확률을 이용하는 방법을 고려할 수 있는데 범주형 변수들의 수준수가 상이한 경우나 연속형 변수가 혼재된 경우에도 손쉽게 적용할 수 있다는 장점이 있다.

질의응답

핵심어	질문	논문에서 추출한 답변
	단순 베이즈 가정의 장점은?	단순 베이즈 분류($Na{\ddot{i}}ve$ Bayes classification)는 출력변수가 주어졌을 때 입력변수들이 조건부 독립이라는 가정에 기반한다. 단순 베이즈 가정은 비현실적이지만 고차원의 확률 추정 문제를 일련의 일차원 확률 추정 문제로 단순화 시킨다는 장점이 있으며, 특히 스팸 메일 필터링, 추천 시스템(recommendation system) 등 방대한 데이터를 다루는 분야야에서 흔히 사용된다. 본 논문에서는 입력변수와 출력변수간의 카이제곱 통계량에 기반한 변수선택법을 제안한다.
	본 논문에서 제안한 입력변수와 출력변수간의 카이제곱 통계량에 기반한 변수선택법의 장점은?	본 논문에서는 입력변수와 출력변수간의 카이제곱 통계량에 기반한 변수선택법을 제안한다. 이 방법은 단순 베이즈 분류의 장점인 데이터 처리 및 계산의 단순성을 유지하면서도 설명력이 있는 변수를 선택할 수 있으며 SNP(single nucleotide polymorphism)에 의한 질병의 분류 등의 초고차원 혹은 빅데이터에서 유용할 것으로 기대된다.
	단순 베이즈 분류는 어떠한 가정을 기반으로 하는가?	단순 베이즈 분류($Na{\ddot{i}}ve$ Bayes classification)는 출력변수가 주어졌을 때 입력변수들이 조건부 독립이라는 가정에 기반한다. 단순 베이즈 가정은 비현실적이지만 고차원의 확률 추정 문제를 일련의 일차원 확률 추정 문제로 단순화 시킨다는 장점이 있으며, 특히 스팸 메일 필터링, 추천 시스템(recommendation system) 등 방대한 데이터를 다루는 분야야에서 흔히 사용된다.

참고문헌 (11)

Chen, J. and Gupta, A. K. (2000). Parametric Statistical Change Point Analysis, Birkhauser.
Choi, B.-J., Kim, K.-R., Cho, K.-D., Park, C. and Koo, J.-Y. (2014). Variable selection for Naive Bayes Semisupervised learning, Communications in Statistics - Simulation and Computation, 43, 2702-2713.

상세보기
Fan, J. and Lv, J. (2008). Sure independence screening for ultrahigh dimensional feature space, Journal of the Royal Statistical Society, 70, 849-911.

상세보기
Ha, J. H. and Park, C. (2009). Variable selection in linear discriminant analysis, Journal of the Korean Data Analysis Society, 11, 381-389.
Hand, D. and Yu, K. (2001). Idiot's Bayes-not so stupid at all?, International Statistical Review, 69, 385-399.
Hastie, T., Tibshirani, R. and Friedman, J. (2009). The Elements of Statistical Learning: Data Mining, Inference, and Prediction, (2nd Edition), Springer, New York.
Jin, S. K., Kim, K.-R. and Park, C. (2012). Cutpoint Selection via penalization in credit scoring, The Korean Journal of Applied Statistics, 25, 261-267.

원문보기 상세보기
Killick, R., Fearnhead, P. and Eckley, I. A. (2012). Optimal detection of changepoints with a linear computational cost, Journal of the American Statistical Association, 107, 1590-1598.

상세보기
Killick, R. and Eckley, I. A. (2014). Changepoint: An R package for changepoint analysis, Journal of Statistical Software, 58.
Vidaurre, D., Bielza, C. and Larranaga, P. (2012). Forward stagewise naive Bayes, Progress in Artificial Intelligence, 1, 57-69.

상세보기
Vidaurre, D., Bielza, C. and Larranaga, P. (2013). An $L_1$ -regularized naive Bayes-inspired classifier for discarding redundant and irrelevant predictors, International Journal on Artificial Intelligence Tools, 22, 1350019.

상세보기

저자의 다른 논문 :

표제어: PCR

동의어: Packet Collision Rate

용어 설명 출처 목록 (6)

용어 설명: PCR은 세균 특이성이 있는 primer를 이용하여 적은 수의 세균이 있을지라도 쉽게 검출할 수 있는 유용한 방법이며, 이를 이용하여 구강 내 치면세균막이나 타액에서 직접 세균을 검출할 수 있게 되었다[8].

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증