$\require{mediawiki-texvc}$

연합인증

연합인증 가입 기관의 연구자들은 소속기관의 인증정보(ID와 암호)를 이용해 다른 대학, 연구기관, 서비스 공급자의 다양한 온라인 자원과 연구 데이터를 이용할 수 있습니다.

이는 여행자가 자국에서 발행 받은 여권으로 세계 각국을 자유롭게 여행할 수 있는 것과 같습니다.

연합인증으로 이용이 가능한 서비스는 NTIS, DataON, Edison, Kafe, Webinar 등이 있습니다.

한번의 인증절차만으로 연합인증 가입 서비스에 추가 로그인 없이 이용이 가능합니다.

다만, 연합인증을 위해서는 최초 1회만 인증 절차가 필요합니다. (회원이 아닐 경우 회원 가입이 필요합니다.)

연합인증 절차는 다음과 같습니다.

최초이용시에는
ScienceON에 로그인 → 연합인증 서비스 접속 → 로그인 (본인 확인 또는 회원가입) → 서비스 이용

그 이후에는
ScienceON 로그인 → 연합인증 서비스 접속 → 서비스 이용

연합인증을 활용하시면 KISTI가 제공하는 다양한 서비스를 편리하게 이용하실 수 있습니다.

분위수 회귀나무를 이용한 변수선택 방법 연구
Variable selection with quantile regression tree 원문보기

응용통계연구 = The Korean journal of applied statistics, v.29 no.6, 2016년, pp.1095 - 1106  

장영재 (한국방송통신대학교 정보통계학과)

초록
AI-Helper 아이콘AI-Helper

Koenker 등 (1978)에 의해 제안 된 분위수 회귀분석법은 독립변수들이 주어졌을 때, 종속변수의 조건부 분위수에 초점을 맞추어 독립변수들과 종속변수의 해당 특정 분위수와의 관계를 분석하는 방법이다. 선형프로그래밍법 등을 이용한 분위수 회귀의 추정 과정을 생각해 볼 때, 고차원 대용량 자료의 경우에는 모형 적합에 어려움을 겪을 수 밖에 없다. 따라서 분위수 회귀의 문제에 있어서도 차원 축소의 문제, 조금 더 폭을 좁혀 생각해보면 변수선택의 문제를 통해 의사 결정에 영향을 미치는 주요 요인들을 파악하거나 적절한 규모의 모형을 적합하는 과정이 중요하다고 할 수 있다. 본 논문에서는 분위수 회귀의 변수선택의 문제를 보다 직관적이고 간단하게 해결하기 위한 방법으로서 회귀나무 모형을 응용하여 한국야구위원회에 등록된 선수들의 연봉과 기록 데이터를 분석해 보았다. 분석 결과, 각 분위수 별로 소수의 주요 변수가 선택되어 차원축소의 효과를 얻을 수 있었다. 또한 해당 분위수별로 선택된 변수도 해석상 의미 있는 것으로 평가할 수 있었다.

Abstract AI-Helper 아이콘AI-Helper

The quantile regression method proposed by Koenker et al. (1978) focuses on conditional quantiles given by independent variables, and analyzes the relationship between response variable and independent variables at the given quantile. Considering the linear programming used for the estimation of qua...

주제어

AI 본문요약
AI-Helper 아이콘 AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

  • 본 논문에서는 분위수 회귀분석의 변수선택의 문제를 보다 직관적이고 간단하게 해결하기 위한 방법으로서 회귀나무 모형을 원용하였다. 고차원 자료 분석의 관점에서 분위수 회귀나무 모형 방법을 구현해 보고 실제 자료를 분석해 보았다. 본 논문의 구성은 다음과 같다.
  • 본 논문에서는 이러한 변수선택의 문제를 회귀나무 방법을 이용하여 직관적이고도 이해하기 쉽게 구현해 보았다. 곡률검정에 바탕을 두고 있는 조각별 선형 회귀나무의 틀을 유지하되 분위수 회귀 방법을 응용하여 변수 선택의 문제를 해결하고자 하였다. 한국야구위원회에 등록된 선수들의 자료를 바탕으로 분위수 회귀에 관한 변수 선택을 실시한 결과, 타자와 투수의 경우 모두 분위수 회귀 나무를 통해 독립변수의 수를 상당히 축소할 수 있는 것으로 나타났다.
  • 다만, 교차타당화(cross-validation)를 이용한 모형 평가 및 예측력 향상에만 국한된 것으로 변수선택이나 모형축소 측면은 고려하지 않았다. 본 논문에서는 고차원의 분위수 회귀모형에 있어서 변수선택과 모형 축소 방법을 살펴보기로 한다. 기존 논문에서 다루었던 변수선택의 방법 대신 회귀나무를 이용하여 직관적이고 간단하게 구현하는 방법을 이용한다.
  • 따라서 이러한 경우, 차원 축소의 문제가 중요한 과제로 부여된다. 본 논문에서는 이러한 변수선택의 문제를 회귀나무 방법을 이용하여 직관적이고도 이해하기 쉽게 구현해 보았다. 곡률검정에 바탕을 두고 있는 조각별 선형 회귀나무의 틀을 유지하되 분위수 회귀 방법을 응용하여 변수 선택의 문제를 해결하고자 하였다.
  • 본 논문에서는 한국프로야구 선수들의 연봉과 직전년도 성적으로 이루어진 데이터를 분위수 회귀나무 모형을 통해 분석하였다. 2016년 개막일 로스터에 등록된 선수들을 기준으로 하되 직전년도인 2015년도 성적이 존재하는 선수들만 분석대상으로 하였다.
  • 본장에서는 분위수 회귀나무를 이용하여 한국 프로야구 선수들의 연봉과 성적과의 관계를 분석해 보았다. 특히 투수와 타자 등 선수들의 직전년도 성적을 독립변수로 하고 올해의 연봉을 종속변수로 하여 분위수 별로 연봉에 영향을 미치는 변수들이 차이가 있는지를 살펴보기 위해 회귀나무를 이용한 변수 선택을 실시하였다.

가설 설정

  • 본 절에서는 분위수 회귀모형을 간략히 정리해 보기로 한다. 종속변수 Y와 독립변수 X가 있다고 가정하고 X는 d차원의 변수라고 하자. 이 경우 α 백분위수, Qα는 식 (2.
본문요약 정보가 도움이 되었나요?

질의응답

핵심어 질문 논문에서 추출한 답변
선형계획법을 활용할 때 사용하는 알고리즘은? 선형계획법을 활용하여 추정하는 데 있어서는 대체로 반복(iteration)을 통해 해를 찾는 알고리즘을 이용하게 된다. 이 과정에서도 전역 최소값(global minimum)을 찾지 못할 가능성도 있고 X의 차원 d가 매우 클 경우에는 회귀계수의 추정이 어려울 뿐만 아니라 추정 과정에서 수렴하지 않을 가능성도 증가한다.
회귀나무란? 회귀나무는 데이터를 특정 기준 변수값에 따라 재귀적으로 이분할 하면서 모형을 확장하고 과다적합을 방지하기 위해 교차 타당화 방법을 통해 적정 크기의 모형을 찾는 방법이다. 조각별 선형 회귀나무란 회귀나무 모형을 구축할 때 분기가 이루어 질 자식 노드(node)에서 선형모형을 적합한 뒤 이러한 선형모형의 잔차가 최소화되는 지점을 찾아 최적 분기점으로 설정해 나가는 방법이다.
고차원 자료를 다루는 분위수 회귀분석에서 주의가 필요한 이유는? 선형계획법을 활용하여 추정하는 데 있어서는 대체로 반복(iteration)을 통해 해를 찾는 알고리즘을 이용하게 된다. 이 과정에서도 전역 최소값(global minimum)을 찾지 못할 가능성도 있고 X의 차원 d가 매우 클 경우에는 회귀계수의 추정이 어려울 뿐만 아니라 추정 과정에서 수렴하지 않을 가능성도 증가한다. 따라서, 고차원 자료를 다루는 분위수 회귀분석의 경우에는 더욱 주의를 요하게 된다.
질의응답 정보가 도움이 되었나요?

참고문헌 (7)

  1. Breiman, L., Friedman, J., Stone, C. J., and Olshen, R. A. (1984). Classification and Regression Trees, CRC press. 

  2. Chang, Y. (2010). The analysis of factors which affect Business Survey Index using regression trees. The Korean Journal of Applied Statistics, 23, 63-71. 

  3. Chang, Y. (2014). Multi-step quantile regression tree. Journal of Statistical Computation and Simulation, 84, 663-682. 

  4. Chang, Y. and Kim, H. (2011). Tree-Structured Nonlinear Regression. The Korean Journal of Applied Statistics, 24, 759-768. 

  5. Chaudhuri, P. and Loh, W.-Y. (2002). Nonparametric estimation of conditional quantiles using quantile regression trees. Bernoulli, 8, 561-576. 

  6. Koenker, R. and Bassett, G. (1978). Regression Quantiles. Journal of Econometrica, 46, 33-50. 

  7. Loh (2002). Regression trees with unbiased variable selection and interaction detection. Statistica Sinica, 12, 361-386. 

저자의 다른 논문 :

섹션별 컨텐츠 바로가기

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

AI-Helper 아이콘
AI-Helper
안녕하세요, AI-Helper입니다. 좌측 "선택된 텍스트"에서 텍스트를 선택하여 요약, 번역, 용어설명을 실행하세요.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.

선택된 텍스트

맨위로