[논문]가중치 세분화 기반의 로지스틱 회귀분석 모델

이창환

doi:10.5573/ieie.2016.53.9.077

초록
AI-Helper

로지스틱 회귀분석은 오랫동안 다양한 분야에서 예측을 위한 기술 혹은 변수 간의 관계를 설명하기 위하여 사용되어 왔다. 로지스틱 회귀분석에서 각 속성은 목적 값에 대한 중요도를 가지는데 본 연구에서는 이를 세분화하여 각 속성의 값에 따라서 중요도를 부여하는 새로운 방법을 제시한다. 점진적 하강법을 이용하여 알고리즘의 성능을 최대화하는 각 속성값 가중치의 값을 계산하였다. 제안된 방법은 다양한 데이터를 이용하여 실험하였고 본 연구의 속성값 기반 로지스틱 회귀분석 방법은 기존의 로지스틱 회귀분석보다 우수한 학습 능력을 보임을 알 수 있었다.

Abstract ▼ AI-Helper

Logistic regression (LR) has been widely used for predicting the relationships among variables in various fields. We propose a new logistic regression model with a fine-grained weighting method, called value weighted logistic regression, by assigning different weights to each feature value. A gradie...

Logistic regression (LR) has been widely used for predicting the relationships among variables in various fields. We propose a new logistic regression model with a fine-grained weighting method, called value weighted logistic regression, by assigning different weights to each feature value. A gradient approach is utilized to obtain the optimal weights of feature values. We conduct experiments on several data sets and the experimental results show that the proposed method shows meaningful improvement in prediction accuracy.

주제어

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

본 논문은 각각의 특징 값에 적응 가중치를 할당하는 값어치 가중 로지스틱 회귀 (value weighted logistic regression -- VWLR) 모델을 제안했다. 최적의 파라미터를 얻기 위해 기울기 상승 방법을 이용했다.
본 논문은 로지스틱 회귀의 세분화된 가중치 방법인 속성값 기반 로지스틱 회귀 (value weighted logistic regression : VWLR) 모델을 제안한다. 이 논문에서는 각 속성의 값에 각각 다른 가중치를 부여하는 로지스틱 회귀 방법의 새로운 패러다임을 제공한다.

가설 설정

파라미터 수의 증가는 VWLR이 각 값들을 효과적으로 대표할 수 있도록 한다. 반면 큰 가중치를 가질 가능성도 증가한다. 이러한 이유 때문에 특히 데이터가 아주 다차원이고 훈련 데이터가 드문 경우에 VWLR에서 훈련 데이터의 오버 피팅 문제가 종종 발생할 수 있다.
또한 입력변수들의 관측값들의 조합에 기반하여 출력변수의 기대값이 보여지는 선형 회귀와 달리 이진 로지스틱 회귀는 주어진 관측값들에 따른 출력 클래스의 사후 확률 (즉, true'의 확률)을 모델링한다. 이와 같이 로지스틱 회귀는 입력과 출력 사이의 관계가 입력의 선형 조합을 이용하는 로지스틱 방정식의 형태로 추정 된다고 가정한다. 이때 입력의 각 속성은 각자의 가중치와 결합된다.
이러한 지역 로지스틱 회귀 모델은 주로 K 최근접 방법 (K-nearest-neighbor)을 사용하는데 이는 오직 이웃한 데이터 포인트만을 선택하고 나머지를 무시한다. 지역적 가중 로지스틱 회귀법은 각 인스턴스에 가중치를 부여하는 것을 제외하고 글로벌 로지스틱 회귀와 매우 유사하다. 특정 도메인에 거리에 대한 다양한 지표들이 제안될 것이다.

대상 데이터

총 8 개의 데이터를 UCI^[10]에서 이용하여 성능을 비교하였다. 이 데이터들은 기계학습 알고리즘의 실험에 많이 사용되었던 데이터들이다.

데이터처리

이 데이터들은 기계학습 알고리즘의 실험에 많이 사용되었던 데이터들이다. 실험은 전체 데이터 세트들에 대하여 10-fold cross-validation 검증을 사용하여 처리되었고 모든 예측 정확도를 기록하였다. 실험에서 연속 변수의 값은 R 패키지의 calm 방법^[6]을 이용하여 그 값을 이산화 시켰다.

이론/모형

의 세 가지 방법이 많이 사용되는 통계 컴퓨팅 프로그램 R 을 이용하여 구현되었다. DCLR은 로지스틱 회귀법의 명목 변수들을 처리하기 위해 더미 코딩 방법을 적용한다. 모든 모델에 대하여 동일한 시스템 환경 아래에서 예측 정확도들을 조사한다.
집합을 구하는 것이 학습의 목표이다. 본 연구에서는 점진적 상승 방법을 이용하여 최적의 w_ij집합을 구한다. 점진적 상승에서의 계산하는 벡터의 ij 번째 요소는 다음과 같다.
실험은 전체 데이터 세트들에 대하여 10-fold cross-validation 검증을 사용하여 처리되었고 모든 예측 정확도를 기록하였다. 실험에서 연속 변수의 값은 R 패키지의 calm 방법^[6]을 이용하여 그 값을 이산화 시켰다. 이 실험에서 λ 값은 0.
이 섹션에서 VWLR, 전통적 로지스틱 회귀법 (LR), 더미 코딩 (dummy coding) 로지스틱 회귀법 (DCLR)^[5]의 세 가지 방법이 많이 사용되는 통계 컴퓨팅 프로그램 R 을 이용하여 구현되었다. DCLR은 로지스틱 회귀법의 명목 변수들을 처리하기 위해 더미 코딩 방법을 적용한다.
본 논문은 각각의 특징 값에 적응 가중치를 할당하는 값어치 가중 로지스틱 회귀 (value weighted logistic regression -- VWLR) 모델을 제안했다. 최적의 파라미터를 얻기 위해 기울기 상승 방법을 이용했다. 실험 결과는 제안된 방법은 각각의 특징 값에 동일한 가중치를 부여하는 기존의 로지스틱 회귀 모델에 비해 예측 정확도를 크게 개선하는 점을 보인다.

성능/효과

최적의 파라미터를 얻기 위해 기울기 상승 방법을 이용했다. 실험 결과는 제안된 방법은 각각의 특징 값에 동일한 가중치를 부여하는 기존의 로지스틱 회귀 모델에 비해 예측 정확도를 크게 개선하는 점을 보인다. 대부분의 경우에 있어 VWLR이 성공적 결과를 보이고 이러한 결과는 값어치 가중법이 로지스틱 모델 성능을 향상시킬 수 있음을 시사한다.

후속연구

추후 연구는 본 알고리즘을 다양한 종류의 데이터들에 적용하여 실제적인 성능의 향상을 검증하고 또한 정형화의 기능에 있어서 VWLR 그래프의 좀더 smoothing을 위한 추가적인 정형화 내용을 연구하여 알고리즘의 성능을 더욱 향상시키고자 한다.

질의응답

핵심어	질문	논문에서 추출한 답변
	로지스틱 회귀분석 방법의 단점은?	로지스틱 회귀분석은 통계학습에서 오랫동안 사용되어온 분류학습 방법이다. 하지만 로지스틱 회귀분석 방법은 선형 학습 방법으로써 실제 문제가 비선형인 경우에 좋은 성능을 보이기 힘든 단점이 있다. 이와 같은 로지스틱 회귀분석의 단점을 해결하기 위하여 다수의 방법이 제안되고 있다.
	로지스틱 회귀분석은 어디에 사용되어 왔는가?	로지스틱 회귀분석은 오랫동안 다양한 분야에서 예측을 위한 기술 혹은 변수 간의 관계를 설명하기 위하여 사용되어 왔다. 로지스틱 회귀분석에서 각 속성은 목적 값에 대한 중요도를 가지는데 본 연구에서는 이를 세분화하여 각 속성의 값에 따라서 중요도를 부여하는 새로운 방법을 제시한다.

참고문헌 (10)

Atkeson, Christopher G., Andrew W. Moore, and Stefan Schaal. "Locally weighted learning for control." Lazy learning. Springer Netherlands, 1997. 75-113.
Cleveland, William S., and Susan J. Devlin. "Locally weighted regression: an approach to regression analysis by local fitting." Journal of the American Statistical Association 83.403 (1988): 596-610.

상세보기
Goeman, Jelle, Rosa Meijer, and Nimisha Chaturvedi. "L1 and L2 penalized regression models." (2014).
Hosmer D W, Lemesbow S. Goodness of fit tests for the multiple logistic regression model. Communications in Statistics-Theory and Methods, 1980, 9(10): 1043-1069.

상세보기
Hosmer Jr, David W., and Stanley Lemeshow. Applied logistic regression. John Wiley & Sons, 2004.
Kurgan, Lukasz, and Krzysztof J. Cios. "CAIM discretization algorithm." Knowledge and Data Engineering, IEEE Transactions on Knowledge and Data Engineering, 145-153. (2004):
Menard, Scott. Applied logistic regression analysis. Vol. 106. Sage, 2002.
Zhang, Lijun, et al. "Efficient Online Learning for Large-Scale Sparse Kernel Logistic Regression." AAAI. 2012.
Zhu, Ji, and Trevor Hastie. "Kernel logistic regression and the import vector machine." Journal of Computational and Graphical Statistics (2005).
https://archive.ics.uci.edu/ml/datasets.html

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

가중치 세분화 기반의 로지스틱 회귀분석 모델
Fine-Grain Weighted Logistic Regression Model 원문보기

초록
AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약
AI-Helper

문제 정의

가설 설정

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (10)

이 논문을 인용한 문헌

저자의 다른 논문 :

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

가중치 세분화 기반의 로지스틱 회귀분석 모델 Fine-Grain Weighted Logistic Regression Model 원문보기

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

주제어

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

가설 설정

대상 데이터

데이터처리

이론/모형

성능/효과

후속연구

질의응답

참고문헌 (10)

이 논문을 인용한 문헌

저자의 다른 논문 :

이창환 (23)

관련 콘텐츠

원문 보기

원문 URL 링크

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

가중치 세분화 기반의 로지스틱 회귀분석 모델
Fine-Grain Weighted Logistic Regression Model 원문보기

초록
AI-Helper

AI 본문요약
AI-Helper