[국가R&D연구보고서]고차원 일반화 선형모형에서의 정준 비볼록 벌점화 회귀분석 알고리즘과 이론적 연구 Algorithms and Theoretical Studies in Calibrating Nonconvex Penalized Regression for High-Dimensional Generalized Linear Models원문보기
□ 연구 목표 및 내용 ◼ 최종 목표 본 연구는 일반화선형모형에서 정준 비볼록 벌점화 회귀분석에 대한 알고리즘을 제시하고 그 추정량의 이론적 성질을 규명한다. 알고리즘 측면에서는, 본 연구에서 제시하는 정준 알고리즘의 각 단계에서 Lee et al., 2016의 MLQA 알고리즘을 접목하여 하강 성질을 만족하는 정준 알고리즘을 제시한다. 추정량의 이론적 성질 측면에서는, LASSO 추정량의 추정오차 상한을 계산하고 신의 추정량의 여러 이론적 성질을 보임으로써 최종적으로 본 연구에서 제시하는 추정량이 신의 성질을 만족함을
□ 연구 목표 및 내용 ◼ 최종 목표 본 연구는 일반화선형모형에서 정준 비볼록 벌점화 회귀분석에 대한 알고리즘을 제시하고 그 추정량의 이론적 성질을 규명한다. 알고리즘 측면에서는, 본 연구에서 제시하는 정준 알고리즘의 각 단계에서 Lee et al., 2016의 MLQA 알고리즘을 접목하여 하강 성질을 만족하는 정준 알고리즘을 제시한다. 추정량의 이론적 성질 측면에서는, LASSO 추정량의 추정오차 상한을 계산하고 신의 추정량의 여러 이론적 성질을 보임으로써 최종적으로 본 연구에서 제시하는 추정량이 신의 성질을 만족함을 밝힌다. 또한, 본 연구를 선형모형에서도 제곱 손실함수가 아닌 절댓값 손실함수, Huber 손실함수 등을 사용하는 경우로 확장하여 가정의 변화와 이론적 성질의 유지가 어느정도로 이루어지는지를 규명할 것이다. 특히 절댓값 손실 함수, Huber 손실함수는 이상치에 둔감한 손실함수로써, 목적에 따라 위손실함수를 사용하는 회귀분석이 전통적으로 많이 사용되어왔다. 따라서 이를 고차원 선형모형에서의 다양한 손실함수에 대한 이론으로 확장함으로써 고차원 자료분석에 대한 이론을 한층 더 강화할 수 있을 것이다. 더불어 위의 연구를 온라인 자료로 확장하여 이에 대한 이론적 성질을 규명한다.
◼ 전체 내용 먼저, 선형모형에서 제시된 정준 비볼록 벌점화 회귀분석 알고리즘을 일반화선형모형으로 확장할 수 있는 정준 알고리즘을 제시한다. 정준 알고리즘이 갖는 가장 큰 장점은 비볼록 최적화 문제를 볼록 최적화 문제의 적은 반복으로 해결할 수 있다는 점이다. 본 연구에서 제시하는 정준 알고리즘을 완성하기 위해 Lee et al., 2016의 MLQA 알고리즘을 각 단계에 적용하게 된다. 또한, 위 정준 알고리즘으로 얻은 추정량이 신의 성질을 만족 하는 것을 규명하고자 한다. 본 연구에서 규명하고자 하는 신의 성질은 자료의 수가 커짐에 따라 1로 향해가는 확률로 추정량이 신의 추정량과 일치한다는 것이다. 이를 보이기 위한 핵심 이론으로 LASSO 추정량의 L1-추정오차상한 계산이 있는데, 이에 대한 선행연구로 Van de Geer, 2008과 Negahban et al., 2012 등이 있다. 하지만 위의 선행연구들은 본 연구에서 고려하는 일반화선형모형의 범위와는 조금 상이하여 가정을 수정하고 본 연구의 환경에 맞게 위 이론적 성질을 규명할 필요가 있다. 특히, 가정을 수정하게 되는 만큼 수정된 가정이 본 연구의 모형에서 만족하기가 쉬운 가정인지를 파악하는 것 또한 본 연구의 핵심 과제 중 하나가 될 것이다. 본 연구의 이론적 성질을 규명하기 위해 필요한 또 하나의 핵심 이론인 신의 추정량에 관한 이론적 성질은 전체 공변량의 수가 아닌 유의한 공변량의 수에 의존하게 되므로, 기존의 전통적인 저차원 자료에 대한 통계학 이론들을 접목할 수 있을 것으로 예상한다. 현재 정준 알고리즘 추정량의 이론적 성질을 규명하고자 할 때 사용되는 LASSO 추정량의 L1-추정오차 상한을 이용한 방법은 유의한 변수에 대한 회귀계수에 대한 최소 크기의 가정이 기존의 다른 벌점화 방법에 비해 강한 조건이라는 단점이 있다. 이와 관련하여 본 연구에서 가장 도전적으로 설정하고 있는 목표는 LASSO 추정량의 L(infty)-추정오차에 관한 이론을 새로 밝혀내어 이를 본 연구에 활용하는 것인데, 이는 본 연구의 앞 단계에서 가지는 유일한 단점을 해결할 수 있는 강력한 이론적 결과를 도출한다. 마지막으로 위의 모든 이론적 내용들을 온라인 자료의 경우로 확장하고자 한다. 실시간으로 들어오는 자료의 특성상 이론적 성질의 형태와 필요한 가정이 새로 정의될 필요성이 있을 것으로 예상되며 이에 관련하여 기존 문헌의 검토를 선행하여 단계별로 연구를 진행할 예정이다.
◼ 1단계 ❏ 연구 목표 본 연구에서 제시하는 정준 알고리즘에 대하여 선형모형의 다양한 손실함수와 일반화선형모형의 LASSO 추정량의 추정오차 상한과 신의 추정량의 추정오차 상한을 계산한다. 이를 통해 최종적으로 본 연구에서 제시하는 추정량이 신의 성질을 만족함을 밝힌다. 이를 위한 첫 단계로 로지스틱 회귀모형에서의 정준 추정량의 점근적 이론에 대해 살펴본다. 선형모형에서의 이론과 비교했을 때 가정과 그 결과에 어떤 차이가 생기는지 중점적으로 살펴보고 이를 통해 일반적인 일반화선형 모형으로의 확장을 고려한다. 다음으로는 선형모형에서 Huber-손실함수를 사용했을 때의 점근적 이론에 대해 연구한다. 이에 대해서도 제곱 손실함수에서의 이론과 비교했을 때 어떤 차이가 생기는지 살펴봄으로써 일반적인 볼록 손실함수로의 확장을 고려한다. 위의 내용을 토대로 일반적인 볼록 손실함수와 일반화선형모형에서 정준 추정량의 신의 성질을 만족하기 위한 충분조건에 대해 연구한다. ❏ 연구 내용 로지스틱 회귀모형에서의 정준 추정량의 점근적 이론을 살펴보기 위해 LASSO 추정량의 L2-추정오차의 상한을 계산한다. 기존의 선형모형에서의 연구에서는 L1-추정오차를 기반으로 그 연구가 수행되었는데, L2-추정오차를 계산함으로써 필요한 가정을 완화할 수 있었다. 그리고 이 계산을 위해 제한된 강한 볼록성 조건(Restricted Strong Convexity)을 도입하였다. 이는 벌점화 회귀분석의 이론적 연구에서 널리 사용되는 대표적인 조건 중 하나로써, Wang et al. (2013), Bickel et al. (2009) 등에서 사용하는 제한된 고유값 조건(Restricted Eigenvalue Condition)과 밀접한 연관성을 가지고 있다. 본 연구에서는 위의 가정과 Negahban et al. (2012)의 연구 결과를 활용하여 LASSO 추정량의 L2-추정오차의 상한을 계산하였고 그 결과는 이는 최종 추정량의 신의 성질을 규명하기에 충분한 이론적 결과이다. 또한, 선형모형에서 Huber-손실함수를 사용한 경우에도 비슷한 방식을 통해 정준 추정량의 신의 성질을 증명하였다. 위의 연구내용들을 기반으로 다양한 손실함수와 일반화선형모형에 대하여 정준 추정량의 신의 성질에 대해 규명하였다. Huber-손실함수와 로지스틱 회귀모형에서 사용한 핵심 가정인 강한 볼록성 조건과 설계행렬에 대한 고유값 조건을 자연스럽게 확장하여 적용하였다. 앞선 두 가정을 만족한다면 정준 추정량의 신의 성질 또한 유지됨을 증명하였다. 하지만, 실제로 두 가정을 모두 만족하는 경우는 그다지 많지 않다는 한계점을 가졌고 이는 2단계 연구 목표로 설정하게 되었다.
◼ 2단계 ❏ 연구 목표 첫 번째로 당초 1단계 연구목표의 내용을 완성하고자 한다. 현재 1단계에서 규명한 일반화선형모형 정준 추정량의 신의 성질은 굉장히 강한 가정 하에 그 성질이 규명되어있다. 이에 관련하여 다양한 일반화선형모형 혹은 다양한 손실함수에서 정준 추정량이 신의 성질을 만족하도록 하는 합리적 가정을 도출한다. 또한, 현재 연구에서 L2-추정오차를 이용하여 규명한 신의 성질을 L(infty)-추정오차를 이용한 방법으로 대체한다. L(infty)-추정오차를 사용하게 되면 sparsity에 대한 조건이 완화되는 효과가 있어 보다 현실적인 가정으로 신의 성질을 밝힐 수 있을 것이다. 두 번째로 본 연구를 온라인 학습에 접목함으로써 정준 비볼록 벌점화 회귀분석에서 온라인 학습 추정량의 변수선택 일치성 등의 점근적 이론에 대하여 규명한다. 온라인 학습에서는 신의 추정량, 신의 성질 등의 개념이 모호하기 때문에 대체할 점근적 이론이 필요하며 본 연구에서는 그 중 대표적인 성질로 변수선택 일치성을 다루고자 한다. ❏ 연구 내용 다양한 일반화선형모형 혹은 다양한 손실함수에서 정준 추정량이 신의 성질을 규명하기 위해서 1단계에서는 각 이론의 가정을 취합하는 방식을 사용했다. 이 중 핵심적인 가정으로 LASSO 추정량의 L2-추정오차의 상한을 계산하기 위한 강한 볼록성 조건(Restricted Strong Convexity)과 신의 추정량의 L(infty)-추정오차의 상한을 계산하기 위한 설계행렬에 대한 고유값 조건이 있었다. 위 방식의 가장 큰 문제는 두 조건을 동시에 만족하는 일반화선형모형 혹은 손실함수가 매우 제한적이라는 것인데, 이를 해결하기 위해서는 각 가정을 완화하거나 새로운 증명 방식을 찾아야 할 것으로 예상한다. 또한, LASSO 추정량의 L2-추정오차 상한을 계산하는 대신 L(infty)-추정오차 상한을 계산하는 방식으로 신의 성질을 새로 규명하고자 한다. LASSO 추정량의 L(infty)-추정오차 상한을 계산하여 신의 성질을 규명하게 되면 sparsity 조건이 완화되는 효과가 있어 보다 현실적인 가정을 얻게되지만, 기존의 가정인 강한 볼록성 조건 대신에 L(infty)-추정오차 상한을 계산하기 위한 가정을 새로 정의해야 한다는 도전적인 과제가 있다. 본 연구에서는 선형모형에서의 기존 연구를 참고하여 위 내용을 수행하고자 한다. 마지막으로 본 연구를 온라인 학습에 접목하여 온라인 학습 추정량의 점근적 성질에 대해 규명한다. 온라인 학습에서는 자료의 형태를 비롯하여 많은 환경과 관련 이론들이 기존의 내용과는 상이하므로 많은 어려움이 있을 것으로 예상한다. 특히, 온라인 학습에서는 신의 성질에 대한 개념이 모호하여 대체할 점근적 이론이 필요하며 본 연구에서는 그 중 대표적인 성질로 변수선택 일치성을 다루고자 한다. 신의 성질은 크게 두 가지의 의미를 가지고 있는데 첫 번째는 변수선택 일치성이고 두 번째는 추정량의 우수한 예측력이다. 이 중 비볼록 벌점화 회귀분석이 볼록 벌점화 회귀분석에 비해 우월한 부분이 바로 변수선택 일치성이기 때문에 이에 집중하여 이론을 정립하고자 한다.
□ 연구성과 로지스틱 LASSO 추정량의 L1-추정오차 상한에 관한 선행연구 van de Geer (2008)에서는 이를 계산하기 위하여 설계행렬이 확률적으로 변함을 가정하고 empirical process 등의 복잡한 통계 이론을 사용하였다. 본 연구의 이론적 성질이 규명될 수만 있다면 증명 방법은 크게 중요하지 않으나, 본 연구가 여러 이론들을 종합하여 규명되는 특징을 가지고 있어서 위의 연구와 다른 이론적 성질에 대한 연구의 필요 가정 등을 일치시킬 필요가 있다. 이러한 측면에서 두 연구의 가정은 일치하기가 상당히 난해하였고, 이를 해결하기 위해 앞의 연구를 로지스틱 LASSO 추정량의 L2-추정오차의 상한을 구하는 것으로 대체하고 그에 대한 이론적 연구를 다른 방식으로 전개하였다. 그 결과, 강한 볼록성 조건(Restricted Strong Convexity Condition)을 포함한 최소한의 가정 하에서 본 연구의 이론적 성질을 규명할 수 있었다. 또한, L1-추정오차를 L2-추정오차로 대체한 결과 역시 궁극적 목표 중 하나인 L(infty)-추정오차 계산에 한 단계 더 가까워진 것으로 볼 수 있다. 또한 Huber-손실함수에 대한 정준 비볼록 벌점화 회귀분석 추정량의 이론적 성질을 규명하였다. Huber-손실함수는 이상치에 둔감한 손실함수로써, 선형모형에서 대표적으로 사용되는 손실함수다. 하지만, 고차원 선형회귀모형에서 이론적 성질이 많이 밝혀져 있는 제곱손실함수의 경우와는 다르게 Huber-손실함수는 그 이론적 근거가 상대적으로 많이 빈약하다는 측면이 있다. 그러한 관점에서 볼 때, Huber-손실함수를 벌점화 고차원 선형회귀분석에 적용할 수 있는 이론적 근거를 제공할 수 있을 것으로 기대한다. 마지막으로, 선형모형의 Huber-손실함수와 로지스틱 회귀모형에서의 연구 결과를 바탕으로 일반적인 볼록 손실함수와 일반화선형모형에 대한 연구를 수행하고 이론적 결과를 얻을 수 있었다. 특히, 선형모형에서 다양한 볼록 손실함수에 대하여 정준 추정량의 신의 성질을 만족하기 위한 가정이 합리적임을 확인하였다. 다만, 일반화선형모형에 대해서는 정준 추정량의 신의 성질을 만족하기 위한 가정이 지나치게 강하여 이를 적용할 수 있는 모형이 한정적이라는 뚜렷한 한계점을 가지고 있다.
□ 연구성과의 활용 계획 및 기대 효과 본 연구는 고차원 자료 분석에 대한 방법 제시와 그 이론적 성질을 규명하는 것으로써, 많은 응용 분야에서 이를 바로 활용할 수 있으며 해당 분석방법에 대한 이론적 근거를 제시한다. 일반화선형모형은 많은 응용 분야에서 흔하게 사용되는 모형이지만, 선형모형의 경우에 비해 벌점화 회귀분석에 대한 이론적 연구가 상대적으로 미비한 실정이고 선형모형에서의 이론적 결과를 토대로 경험적으로 이를 사용하는 경우가 많다. 본 연구의 최종 단계까지 성공적으로 진행될 경우, 선형모형이 아닌 일반화 선형모형에서 정준 비볼록 벌점화 회귀분석을 활용하는 이론적 토대를 마련할 것으로 기대한다. 또한, 정준 비볼록 벌점화 회귀분석은 기존의 비볼록 벌점화 회귀분석보다 최적화 단계에서 계산이 간편하므로 기존의 방법보다 훨씬 쉽게 추정량을 계산하면서도 좋은 이론적 성질까지 보장할 수 있을 것이다. 특히, 일반화선형모형을 적합하고자 하는 유관 응용분야가 굉장히 다양하기 때문에 그 응용성은 무궁무진할 것이라 판단된다. 특히, 유관 분야로의 응용 뿐만 아니라 본 연구의 이론 자체로써도 자연과학의 발전의 취지에서 큰 의미가 있을 것으로 보여진다. 본 연구는 고차원 일반화선형모형에서도 신의 성질을 갖는 추정량을 구할 수 있다는 점을 시사하며, 이는 앞으로의 관련 이론 연구에 토대를 마련해줄 수 있을 것이다.
(출처 : 요약문 2p)
목차 Contents
표지 ... 1
요약문 ... 2
목차 ... 6
1. 연구과제의 개요 ... 7
2. 연구과제의 수행 과정 및 수행 내용 ... 7
3. 연구과제의 수행 결과 및 목표 달성 정도 ... 11
1) 연구수행 결과 ... 11
2) 목표 달성 수준 ... 12
3) 목표 미달 시 원인 분석 ... 13
4) 중요 연구변경 사항 ... 13
4. 연구성과의 관련 분야에 대한 기여 정도 ... 14
5. 연구성과의 관리 및 활용 계획 ... 14
6. 다음 단계 연구계획 ... 15
1) 연구 목표 및 내용 ... 15
2) 연구 추진전략 ... 16
3) 연구 추진일정 및 기대성과 ... 16
4) 다음 단계 연구비 사용계획 ... 16
5) 연구 성과의 활용방안 및 기대효과 ... 16
끝페이지 ... 24
참고문헌 (25)
연구과제 타임라인
LOADING...
LOADING...
LOADING...
LOADING...
LOADING...
활용도 분석정보
상세보기
다운로드
내보내기
활용도 Top5 보고서
해당 보고서가 속한 카테고리에서 활용도가 높은 상위 5개 콘텐츠를 보여줍니다. 더보기 버튼을 클릭하시면 더 많은 관련자료를 살펴볼 수 있습니다.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.