현대 과학기술의 발전으로 인해 함수 형태의 자료(functional data)는 기상학, 생물의학과 다양한 분야에서 발생하고 있으며 이러한 자료를 분석하는 것은 새롭고 흥미로운 통계과제라 할 수 있다. 스칼라반응변수를 가진 함수형 선형회귀 모형(functional linear regression models with scalar response)은 널리 사용되는 함수형 자료 분석기법 중의 하나라 할 수 있고 이 회귀 모형에서 함수형 자료 (설명변수) 가 스칼라 반응변수에 영향력을 미치는지 검정하는 것은 중요한 문제라 할 수 있다. 최근, Kong 등은 함수형 주성분분석(functional principle component analysis)에 의한 차원 축소, 즉, 함수형 주성분분석 결과 얻어지는 고유함수(eigenfunctions)를 활용한 검정방법을 제안했다. 하지만, 그 고유함수들은 검정문제에서 관심사인 함수형 설명변수와 스칼라 반응변수의 연관성이 아니라 함수형 설명변수의 변동만을 고려하기 때문에 회귀문제에 사용하기에 일반적으로 적합한 기저가 아니다. 게다가, 자료로부터 추정하여야 하기 때문에 이 불필요한 추정오차가 검정 절차 성능에 포함될 가능성이 있다. 이러한 단점을 피하기 위해 본 논문에서는 기존의 고유기저함수가 아닌 고정기저(fixed basis)인 B-스플라인(B-splines) 함수를 활용한 검정 방법을 제안한고 모의실험을 통해 검정방법이 잘 작동한다는 것을 보여준다. 또한, 제안한 검정 방법은 B-스플라인의 국소화 성질 때문에 때론 효율적이고 직관적인 결과를 제공하는데 이를 모의실험과 실증자료 분석을 통해 보여줄 것이다.
현대 과학기술의 발전으로 인해 함수 형태의 자료(functional data)는 기상학, 생물의학과 다양한 분야에서 발생하고 있으며 이러한 자료를 분석하는 것은 새롭고 흥미로운 통계과제라 할 수 있다. 스칼라 반응변수를 가진 함수형 선형회귀 모형(functional linear regression models with scalar response)은 널리 사용되는 함수형 자료 분석기법 중의 하나라 할 수 있고 이 회귀 모형에서 함수형 자료 (설명변수) 가 스칼라 반응변수에 영향력을 미치는지 검정하는 것은 중요한 문제라 할 수 있다. 최근, Kong 등은 함수형 주성분분석(functional principle component analysis)에 의한 차원 축소, 즉, 함수형 주성분분석 결과 얻어지는 고유함수(eigenfunctions)를 활용한 검정방법을 제안했다. 하지만, 그 고유함수들은 검정문제에서 관심사인 함수형 설명변수와 스칼라 반응변수의 연관성이 아니라 함수형 설명변수의 변동만을 고려하기 때문에 회귀문제에 사용하기에 일반적으로 적합한 기저가 아니다. 게다가, 자료로부터 추정하여야 하기 때문에 이 불필요한 추정오차가 검정 절차 성능에 포함될 가능성이 있다. 이러한 단점을 피하기 위해 본 논문에서는 기존의 고유기저함수가 아닌 고정기저(fixed basis)인 B-스플라인(B-splines) 함수를 활용한 검정 방법을 제안한고 모의실험을 통해 검정방법이 잘 작동한다는 것을 보여준다. 또한, 제안한 검정 방법은 B-스플라인의 국소화 성질 때문에 때론 효율적이고 직관적인 결과를 제공하는데 이를 모의실험과 실증자료 분석을 통해 보여줄 것이다.
A new and interesting task in statistics is to effectively analyze functional data that frequently comes from advances in modern science and technology in areas such as meteorology and biomedical sciences. Functional linear regression with scalar response is a popular functional data analysis techni...
A new and interesting task in statistics is to effectively analyze functional data that frequently comes from advances in modern science and technology in areas such as meteorology and biomedical sciences. Functional linear regression with scalar response is a popular functional data analysis technique and it is often a common problem to determine a functional association if a functional predictor variable affects the scalar response in the models. Recently, Kong et al. (Journal of Nonparametric Statistics, 28, 813-838, 2016) established classical testing methods for this based on functional principal component analysis (of the functional predictor), that is, the resulting eigenfunctions (as a basis). However, the eigenbasis functions are not generally suitable for regression purpose because they are only concerned with the variability of the functional predictor, not the functional association of interest in testing problems. Additionally, eigenfunctions are to be estimated from data so that estimation errors might be involved in the performance of testing procedures. To circumvent these issues, we propose a testing method based on fixed basis such as B-splines and show that it works well via simulations. It is also illustrated via simulated and real data examples that the proposed testing method provides more effective and intuitive results due to the localization properties of B-splines.
A new and interesting task in statistics is to effectively analyze functional data that frequently comes from advances in modern science and technology in areas such as meteorology and biomedical sciences. Functional linear regression with scalar response is a popular functional data analysis technique and it is often a common problem to determine a functional association if a functional predictor variable affects the scalar response in the models. Recently, Kong et al. (Journal of Nonparametric Statistics, 28, 813-838, 2016) established classical testing methods for this based on functional principal component analysis (of the functional predictor), that is, the resulting eigenfunctions (as a basis). However, the eigenbasis functions are not generally suitable for regression purpose because they are only concerned with the variability of the functional predictor, not the functional association of interest in testing problems. Additionally, eigenfunctions are to be estimated from data so that estimation errors might be involved in the performance of testing procedures. To circumvent these issues, we propose a testing method based on fixed basis such as B-splines and show that it works well via simulations. It is also illustrated via simulated and real data examples that the proposed testing method provides more effective and intuitive results due to the localization properties of B-splines.
* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.
문제 정의
kr)에서 이용가능하다. 각 지역에서 (총 3년동안 평균한)일별기온 곡선들을 설명변수로, (총 3년동안 평균한) 연간평균 강수량을 반응변수로 고려하여 기온이 강수량에 영향력을 끼치는지 살펴보고자 했다. Figure 3.
본 논문은 스칼라 값을 가지는 반응변수를 가진 함수선형회귀모형에서의 검정 문제를 고려하고 있다. Kong 등 (2016)에서 제안한 검정법을 형성할 때 사용하는 함수형 주성분분석의 고유기저가 함수적 연관성을 전혀 고려하지 못해 회귀분석 목적에 적합하지 못할 수 있다는 한계점에 착안하여 고정기저 중의 하나인 B-스플라인 기저를 활용한 검정법을 제안했다.
본 장에서는 모의실험과 실증 예제를 통해 Kong 등 (2016)에서 제안했던 함수형 주성분분석을 활용한 검정법과 우리가 제안한 B-스플라인을 이용한 검정법의 실제 성능을 비교하고자 한다.
이 절에서는 실제 대한민국의 기상자료를 분석한 실증 예제를 제시하고자 한다. 분석한 자료는 대한민국 각 지역(총 89개)에서 얻은 2013-2015년 동안 관측한 일별(평균)온도와 강수량 자료이며, 이들은 기상자료개방포털사이트(https://data.
또한, 자료로부터 고유함수들을 추정해야만 하는 단점이 있다. 이러한 이유로, 우리는 검정법에서 고정기저(fixed basis)를 활용하는 것을 제안하고자 하며 수치적으로 좋은 성질들 때문에 비모수 회귀(nonparametric regression) 분야에서 널리 사용되는 고정기저인 B-스플라인(B-splines)을 활용한 왈트 검정법을 논문에서 예로 보여주고자 한다. 본 논문에서 제안한 B-스플라인 기저 근사에 기반한 왈트 검정법은 귀무가설 하에서 유효하게 작동하며, 기존 Kong 등 (2016) 검정법보다 더 우수한 실제 성능과 더 해석하기 쉬운 분석 결과를 주는 것을 모의실험과 실증 분석 연구에서 확인할 수 있었다.
제안 방법
본 논문은 스칼라 값을 가지는 반응변수를 가진 함수선형회귀모형에서의 검정 문제를 고려하고 있다. Kong 등 (2016)에서 제안한 검정법을 형성할 때 사용하는 함수형 주성분분석의 고유기저가 함수적 연관성을 전혀 고려하지 못해 회귀분석 목적에 적합하지 못할 수 있다는 한계점에 착안하여 고정기저 중의 하나인 B-스플라인 기저를 활용한 검정법을 제안했다. B-스플라인은 비모수 회귀분석에서 널리 사용되는 기저 중 하나로 특히, 비모수 회귀함수가 국소적으로 성질이 변할 때에도 잘 적응가능한(adaptive) 것으로 알려져 있다.
001보다 작았으며 일별 온도와 연간강수량 사이에 함수적 연관성이 있다고 결론을 내릴 수 있었다. 다음으로, 우리가 제안한 방법을 적용해 보겠다. 여기에서 B-스플라인의 내부매듭의 개수와 차수는 일반화 교차타당선(generalized cross-validation) 기준인
본 논문에서 수행한 모의실험 연구는 크게 두 부분으로 나누어진다. 먼저 함수적 연관성이 없는 경우, 즉, 귀무가설이 사실일 때, 제안한 검정법의 제 1종 오류를 확인하고, 함수적 연관성이 있는 경우, 즉, 대립가설이 사실일 때, Kong 등 (2016)과 우리가 제안한 방법들의 검정력을 살펴본다.
유의수준 α의 값이 0.01에서 0.2로 0.01씩 증가시킴에 따라 우리가 제안한 검정법이 총 M = 1000 몬테카를로 반복 중에서 기각한 사건의 비율, 즉, (추정된) 제 1종오류을 구했다.
이 장에서는 본 논문에서 고려하고 있는 함수형 선형회귀모형과 Kong 등 (2016)에서 제안했던 함수형주성분분석을 활용한 검정 방법을 간략하게 리뷰하고 우리가 제안하는 B-스플라인을 활용한 검정법을 소개하겠다.
앞서 서술한 것처럼 ϕj , 나아가 주성분분석은 설명변수 X의 변동만을 고려한 것일 뿐 X와 Y 의 연관성을 고려한 것은 아니다. 이에 따라, 고유기저 대신 고정기저를 이용한 검정법을 고려하고 대표적인 고정기저의 예인 B-스플라인을 활용한 왈트 검정통계량을 제안한다. Eilers와 Marx (1996), Eubank (1988) 등에서 볼 수 있는 것처럼, 스플라인 기저는 복잡한 함수를 수치적으로 잘 근사하는 좋은 성질을 가지고 있기 때문에 비모수 회귀분석에서 많이 사용되는 기저 중 하나로 알려져 있다.
대상 데이터
이 때, c가 0인 것은 귀무가설이 사실인 상황을 뜻하며, c가 0이 아닌 것은 대립가설이 사실인 경우를 의미한다. 본 모의실험에서 표본수는 n = 500, 몬테카를로(Monte Carlo) 표본수는 M = 1000으로 정했다.
이 절에서는 실제 대한민국의 기상자료를 분석한 실증 예제를 제시하고자 한다. 분석한 자료는 대한민국 각 지역(총 89개)에서 얻은 2013-2015년 동안 관측한 일별(평균)온도와 강수량 자료이며, 이들은 기상자료개방포털사이트(https://data.kma.go.kr)에서 이용가능하다. 각 지역에서 (총 3년동안 평균한)일별기온 곡선들을 설명변수로, (총 3년동안 평균한) 연간평균 강수량을 반응변수로 고려하여 기온이 강수량에 영향력을 끼치는지 살펴보고자 했다.
5)의 함수형 주성분 점수 #를 구했다. 이 때, (뒤에서 정의할 X의 정의역인) [0, 10]에서 동일하게 배분된 이산화된 점(discretized points) 300개를 사용했다. 또한, Kong 등 (2016) 검정법에서 주성분 점수의 개수 k에 대해서 두 가지 선택을 고려했다.
를 최소화하는 값으로 선택했다. 최종적으로 10개의 내부매듭을 가지는 1차 B-스플라인이 선택되어 우리 분석에 이용되었다. 이에 따라 이전 절에서 제안한 W∗n를 계산하여 검정했을 때 해당 p-값은 매우 작게( < 0.
데이터처리
본 논문에서 제안한 검정방법을 계산할 때, 내부매듭이 2개를 가진 1차 B-스플라인을 이용했고, R 함수 ‘bs’를 이용하여 B-스플라인 함수값을 구했다.
성능/효과
3은 주성분 개수 k에 따라 해당 PVE 값들을 보여준다. 개수를 k = 1, 2, 3으로 선택했을 때, 모든 경우에서 기존 검정법의 p-값들은 0.001보다 작았으며 일별 온도와 연간강수량 사이에 함수적 연관성이 있다고 결론을 내릴 수 있었다. 다음으로, 우리가 제안한 방법을 적용해 보겠다.
01씩 증가시킴에 따라 우리가 제안한 검정법이 총 M = 1000 몬테카를로 반복 중에서 기각한 사건의 비율, 즉, (추정된) 제 1종오류을 구했다. 계산한 기각 비율들은 Table 3.1에 나타나 있고, 본 논문에서 제안한 검정법은 유효한 제 1종 오류 성능을 실제로 보여주고 있는 것을 확인할 수 있다. 이 모의실험에서 택한 모형은 Kong 등 (2016)의 디자인 1과 같으므로, Kong 등 (2016) 검정법의 제 1종 오류 실제 성능은 해당 논문에서 확인할 수 있다.
따라서, 왈드 검정통계량 Wn이 카이제곱분포의 상위 α(0 < α < 1) 분위수 χ2α(k) 보다 크면 유의수준 α에서 H0를 기각하고 모형 (2.1)에서 함수형 변수 X가 반응변수 Y 에 영향을 미친다고 결론 내린다.
이러한 이유로, 우리는 검정법에서 고정기저(fixed basis)를 활용하는 것을 제안하고자 하며 수치적으로 좋은 성질들 때문에 비모수 회귀(nonparametric regression) 분야에서 널리 사용되는 고정기저인 B-스플라인(B-splines)을 활용한 왈트 검정법을 논문에서 예로 보여주고자 한다. 본 논문에서 제안한 B-스플라인 기저 근사에 기반한 왈트 검정법은 귀무가설 하에서 유효하게 작동하며, 기존 Kong 등 (2016) 검정법보다 더 우수한 실제 성능과 더 해석하기 쉬운 분석 결과를 주는 것을 모의실험과 실증 분석 연구에서 확인할 수 있었다. 본 논문에서 제안한 함수형 주성분분석의 고유기저 대신 고정기저를 검정법에 활용하는 아이디어는 일반성을 가지므로 Kong 등 (2016)의 다른 검정법들에 쉽게 확장하여 생각할 수 있고, B-스플라인 기저의 장점에서 발생하는 이점을 검정 성능에서 가질 수 있으리라 예상한다.
2에서 찾을 수 있다. 본 논문에서 제안한 검정법(Proposed)가 기존 검정 방법들(Kong3, Kong6)보다 더 높은 검정력을가짐을 확인할 수 있다. 현재 설정한 회귀계수함수 βc(·)가 전체가 아닌 국소 영역(local region)에서 정의되어 있기 때문에 (기존 방법에서 사용하는 함수형 주성분분석의 고유기저 보다) B-스플라인 기저가 국소적으로 근사를 더 잘 할 수 있고 이에 따라 검정력에서도 더 이점을 가졌으리라 추측한다.
이러한 좋은 성질 때문에 앞에서 실제 수행했던 모의실험과 실증예제에서 우리가 제안한 검정법이 기존의 함수적 주성분분석의 고유기저를 사용한 Kong 등 (2016) 검정법보다 더 우수한 검정력 성능과 좀 더 해석하기 쉬운 분석 결과를 줄 수 있음을 확인했다. 본 논문에서 제안한 고정기저를 검정법에 활용하는 아이디어는 일반성을 가지므로 Kong 등 (2016)의 F, 스코어, 우도비와 같은 다른 검정법들에 쉽게 확장 가능하다. 뿐만 아니라, 우리가 본 논문에서 왈트 검정에서 확인했던 수치적, 실제적 이점들을 다른 검정법에서도 얻을 수 있을 거라 예상한다.
B-스플라인은 비모수 회귀분석에서 널리 사용되는 기저 중 하나로 특히, 비모수 회귀함수가 국소적으로 성질이 변할 때에도 잘 적응가능한(adaptive) 것으로 알려져 있다. 이러한 좋은 성질 때문에 앞에서 실제 수행했던 모의실험과 실증예제에서 우리가 제안한 검정법이 기존의 함수적 주성분분석의 고유기저를 사용한 Kong 등 (2016) 검정법보다 더 우수한 검정력 성능과 좀 더 해석하기 쉬운 분석 결과를 줄 수 있음을 확인했다. 본 논문에서 제안한 고정기저를 검정법에 활용하는 아이디어는 일반성을 가지므로 Kong 등 (2016)의 F, 스코어, 우도비와 같은 다른 검정법들에 쉽게 확장 가능하다.
후속연구
뿐만 아니라, 우리가 본 논문에서 왈트 검정에서 확인했던 수치적, 실제적 이점들을 다른 검정법에서도 얻을 수 있을 거라 예상한다. 나아가, 우리가 제안한 검정법이 기각했을 때 다음 단계로 국소적으로 어떤 지역에서 설명변수와 반응변수의 함수적 연관성을 가지는지 식별하는 것이 실제 필요할 수 있으며, 이러한 목적을 위해 적절한 통계방법론을 설립하는 것은 추후 연구가 필요한 중요한 과제라 생각한다.
본 논문에서 제안한 B-스플라인 기저 근사에 기반한 왈트 검정법은 귀무가설 하에서 유효하게 작동하며, 기존 Kong 등 (2016) 검정법보다 더 우수한 실제 성능과 더 해석하기 쉬운 분석 결과를 주는 것을 모의실험과 실증 분석 연구에서 확인할 수 있었다. 본 논문에서 제안한 함수형 주성분분석의 고유기저 대신 고정기저를 검정법에 활용하는 아이디어는 일반성을 가지므로 Kong 등 (2016)의 다른 검정법들에 쉽게 확장하여 생각할 수 있고, B-스플라인 기저의 장점에서 발생하는 이점을 검정 성능에서 가질 수 있으리라 예상한다.
본 논문에서 제안한 고정기저를 검정법에 활용하는 아이디어는 일반성을 가지므로 Kong 등 (2016)의 F, 스코어, 우도비와 같은 다른 검정법들에 쉽게 확장 가능하다. 뿐만 아니라, 우리가 본 논문에서 왈트 검정에서 확인했던 수치적, 실제적 이점들을 다른 검정법에서도 얻을 수 있을 거라 예상한다. 나아가, 우리가 제안한 검정법이 기각했을 때 다음 단계로 국소적으로 어떤 지역에서 설명변수와 반응변수의 함수적 연관성을 가지는지 식별하는 것이 실제 필요할 수 있으며, 이러한 목적을 위해 적절한 통계방법론을 설립하는 것은 추후 연구가 필요한 중요한 과제라 생각한다.
을 검정법에 이용할 것을 제안한다. 이때 #는 (설계행렬이 D이고 반응변수 벡터가 Y인) 해당 최소제곱 회귀에서 #의 분산-공분산 행렬 추정치와 같다.
, b11가 0은 아니라는 대립 가설을 택했을 때 다음 과정으로 어떤 bj가 0이 아닌지 다중가설검정(multiple hypothesis testing)을 하는 것은 어떤 국소지역에서 일별 온도와 강수량이 연관이 있는지 통계적으로 식별하기 위해 필요하다. 이러한 맥락에서 함수형 회귀분석에서 다중가설검정을 위한 통계방법론을 설립하는 건 실제적 의미를 가지며 이를 추후 연구과제로 남긴다.
즉, (해당 패키지에서 제공하는) 회귀계수함수 추정치와 점별 신뢰구간 정보만으로는 해당 구간 4월 6일–5월 17일에서 일별 온도와 강수량의 연관성이 있는지 결론을 내릴 수 없고 추후 통계 분석이 필요함을 알 수 있다.
질의응답
핵심어
질문
논문에서 추출한 답변
차원축소를 위해 사용되는 분석은?
함수형 자료는 본질적으로 무한차원(infinite dimension)을 가지고 있기 때문에 회귀, 군집, 분류와 같은 통계 분석을 위해 차원축소가 필요하며, 이 차원축소를 위해 함수형 주성분분석(functional principle component analysis)을 함수형 자료를 분석 하기 위한 유용한 도구로서 매우 광범위하게 사용되는 실정이다. 예를 들어, Ramsay와 Silverman (1997, 2002), Ramsay 등 (2009), Kneip와 Utikal (2001), M¨uller와 Stadtm¨uller (2005), Yao 등 (2005), Hall과 Horowitz (2007), Hall 등 (2007), Wang 등 (2016)과 같은 연구에서 확인할 수 있다.
과학 기술이 급격하게 발전함에 따라 어떤 형태의 자료가 등장하는가?
최근 대규모 자료를 수집하고 저장하는 과학 기술이 급격하게 발전함에 따라, 시간, 파장(wavelength) 등과 같은 연속체 변수에 대해 (거의) 연속하게 자료값들이 관측되어 밀집해 기록되는(densely recorded)형태를 띠는 자료가 등장하고 있다. 이와 같은 (연속체 변수의) 함수 형태를 띠는 자료를 함수형 자료(functional data)라고 부르고 요즘에는 기상학, 계량화학(chemometrics), 생물의학과 같은 많은 응용 분야에서 흔히 발견되어진다.
기존의 고유기저함수의 문제점은?
최근, Kong 등은 함수형 주성분분석(functional principle component analysis)에 의한 차원 축소, 즉, 함수형 주성분분석 결과 얻어지는 고유함수(eigenfunctions)를 활용한 검정방법을 제안했다. 하지만, 그 고유함수들은 검정문제에서 관심사인 함수형 설명변수와 스칼라 반응변수의 연관성이 아니라 함수형 설명변수의 변동만을 고려하기 때문에 회귀문제에 사용하기에 일반적으로 적합한 기저가 아니다. 게다가, 자료로부터 추정하여야 하기 때문에 이 불필요한 추정오차가 검정 절차 성능에 포함될 가능성이 있다. 이러한 단점을 피하기 위해 본 논문에서는 기존의 고유기저함수가 아닌 고정기저(fixed basis)인 B-스플라인(B-splines) 함수를 활용한 검정 방법을 제안한고 모의실험을 통해 검정방법이 잘 작동한다는 것을 보여준다.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.