[국가R&D연구보고서]함수자료에 대한 통계적 방법론 개발 및 이론 연구 Statistical methods and theory for functional data원문보기
보고서 정보
주관연구기관
서울대학교 Seoul National University
보고서유형
최종보고서
발행국가
대한민국
언어
한국어
발행년월
2013-01
과제시작연도
2012
주관부처
교육과학기술부 Ministry of Education and Science Technology(MEST)
과제관리전문기관
한국연구재단 National Research Foundation of Korea
등록번호
TRKO201300035467
과제고유번호
1345189071
사업명
일반연구자지원
DB 구축일자
2013-12-21
키워드
함수자료분석.선형회귀.선형예측모형.정준상관분석.연관성 검정.경시적자료분석.주성분분석.Functional data analysis.Linear regression.Linear prediction model.Canonical correlation analysis.RKHS.Test for association.Longitudinal data analysis.Principal component analysis.Tracy-Widom.
연구의 목적 및 내용 본 연구의 목표는 함수자료를 위한 방법론 개발 및 관련 이론 연구이다. 함수자료는 부드러운 함수로부터 시간 혹은 공간상에서 이산적으로 관측된 자료이다. 함수자료는 흔히 고차원이며 변수 간에 강한 상관성이 있으므로, 기존의 통계방법의 직접 적용은 어려움이 따른다. 게다가 함수자료분석에서 이론상 다루고 있는 공간은 무한차원이기 때문에 기존의 다변량 및 고차원 자료를 위한 통계이론의 적용은 불가능하다. 따라서 이들 자료들에 대한 적절한 통계적 방법론 개발 및 이론 연구는 필수적이다. 본 연구는 함수자료를 위한
연구의 목적 및 내용 본 연구의 목표는 함수자료를 위한 방법론 개발 및 관련 이론 연구이다. 함수자료는 부드러운 함수로부터 시간 혹은 공간상에서 이산적으로 관측된 자료이다. 함수자료는 흔히 고차원이며 변수 간에 강한 상관성이 있으므로, 기존의 통계방법의 직접 적용은 어려움이 따른다. 게다가 함수자료분석에서 이론상 다루고 있는 공간은 무한차원이기 때문에 기존의 다변량 및 고차원 자료를 위한 통계이론의 적용은 불가능하다. 따라서 이들 자료들에 대한 적절한 통계적 방법론 개발 및 이론 연구는 필수적이다. 본 연구는 함수자료를 위한 정준상관분석, 선형회귀, 함수변수간의 연관성 검정에 관한 방법론 개발과 이와 관련된 통계적 추론에 초점을 두고 있다. 세부 연구주제로는 (1) 함수선형회귀, (2)성글게 관측된 두 함수자료간의 연관성 연구, (3) 두 함수변수간의 연관성 검정 등이다. 연구결과 각 세부주제별 연구결과는 다음과 같다. (1) 본 연구에서는 독립변수가 랜덤함수인 경우 기존의 함수선형회귀에서 가정하는 선형모형보다 더 큰 class의 선형예측모형을 RKHS 이론을 이용하여 소개하고, 소개하는 모형에 기반한 반응변수 값의 예측을 연구하였다. 기존의 함수선형회귀에서 사용하고 있는 예측치가 선형예측모형을 위한 일치 추정량임을 보였다. 이는 기존 예측치의 응용가치를 확장하는 중요한 연구라 볼 수 있다. (2) 두 함수자료간의 연관성 연구를 위해 함수정준상관분석이 개발되었으나, 이 방법론은 성글게 관측된 두 함수자료간의 연관성 연구에는 적용이 불가능하다. 본 연구에서는 각 함수자료를 유한개의 기저함수들로 근사표현 후 얻어진 기저계수들을 정준상관분석에 기반하여 모형화하고 모형을 설명하는 모수를 최적화함으로써 성글게 관측된 함수자료간의 연관성을 측정할 수 있는 방법론을 제시한다. 제시한 방법론은 경시적자료분석에서 관측이 이루어지지 않은 시점에서의 결측값 예측에 기존의 방법들 보다 높은 정확도를 보임을 컴퓨터 모의실험을 통해 확인하였다. (3) 함수정준상관분석을 통한 두 함수자료간의 연관성은 활발한 연구가 이루어졌으나, 두 함수변수간의 연관성을 검정하는 문제는 현재까지 많은 연구가 이루어지지 않았다. 본 연구에서는 정준상관계수에 기반한 두가지 검정통계량을 제안한다: 함수주성분분석을 통해 얻어진 주성분점수간의 (i) 가장 큰 정준상관계수와 (ii) 정준상관 계수들의 평균이다. 우리는 귀무가설 하에서 가장 큰 정준상관계수의 분포는 로짓변환 후 점근적으로 Tracy-Widom임을 그리고 정준상관계수의 평균은 점근적으로 정규분포임을 경험적으로 입증하였다. 이론적인 연구는 후속연구에서 이루어질 것이다. 연구결과의 활용계획 본 연구는 함수자료를 위한 다양한 방법론 개발 및 이론 연구로서, 함수형태로 나타나는 자료에 적용 가능한 범용 통계기법을 개발하였다. 따라서 본 연구를 통해 개발된 방법론들은 다양한 응용분야(분석화학, 의학, 생물학, 기상학, 경제학 등)에서 즉시적 적용이 가능하다. 예를 들어, 분석화학 분야에서 분석대상 물질의 화학성분 함량예측 및 그룹 분류 문제에 즉시적 활용이 가능하다, 그리고 의학 분야에서 발생하는 경시적 자료의 연관성 연구 및 결측값 예측 문제에도 활용이 가능하다. 또한 생명과학 및 의학 분야에서의 최근 발생하는 함수형태의 자료들인 time-course gene expression이나 fMRI 자료 분석에 활용 또한 기대된다. 또한 본 연구에서 다루는 주제들은 최근 통계학 분야에서 활발한 연구가 이루어지는 분야로서, 본 연구를 통해 기존에 다루지 않은 새로운 접근법을 제시함으로써 국내외 연구자들과의 공동연구 촉진이 기대되며 후속연구를 통해 선진학문의 후속세대로의 전달에 기여할 것으로 기대한다.
Abstract▼
Purpose&contents The aim of this study is to develop statistical methods and related theory for functional data. Functional data are observed from smooth functions at discrete time or spatial points. Since functional data generally involves problems having a large number of highly correlated pred
Purpose&contents The aim of this study is to develop statistical methods and related theory for functional data. Functional data are observed from smooth functions at discrete time or spatial points. Since functional data generally involves problems having a large number of highly correlated predictors relative to the sample size, direct applications of classical statistical techniques to such data often fail. Moreover, functional data is intrinsically infinite dimensional so that it is impossible to apply theories for multivariate and high-dimensional data to functional data analysis. Thus, new approaches tailored to functional data are needed to be developed. In this study, we focus on developing linear regression for functional data, functional canonical correlation analysis and test for association between two functional variables and studying the related statistical inference. Specific topics in this study are (1) Functional linear regression, (2) Association study for paired sparse functional data, (3) Significance test of the association between two functional variables. Result The followings summarize the results from this study. (1) We introduced that the class of linear prediction model that contains the classical functional linear regression model when a predictor variable is random function. Under the linear prediction model, we derived the convergence rate of the mean squared predictor and showed the consistency of the linear predictor in the literature. This perspective broadens the scope of application of the linear predictor in the literature. (2) Functional canonical correlation analysis (FCCA) is often used as a tool to measure the associations between paired functional data. However, the existing methods for FCCA have been developed for densely observed functional data and so they cannot be directly applicable to the situations where the functional data are sparsely observed. In this study, we modeled the associations on basis coefficients through canonical correlation analysis using basis expansion and then estimated the model parameters by EM algorithm. Numerical studies showed that the proposed method predicted the unobserved measurements of the trajectories in longitudinal data analysis more precisely than the existing methods. (3) Several approaches for functional canonical correlation have been developed for studying the associations between paired functional data. However, only a few methods have been suggested for test of association between two functional variables. In this study, we proposed two test statistics based on the canonical correlations between principal scores obtained from functional principal component analysis: (i) the largest canonical correlations and (ii) the mean of the canonical correlations. We empirically observed from intensive numerical studies that under the null hypothesis the asymptotic distribution of the logit transformation of the largest eigenvalue is Tracy-Widom and the asymptotic distribution of the averaged canonical correlations is Gaussian. We will further investigate the asymptotic distributions of the proposed test statistics. Expected Contribution In this study, we developed statistical methods and related theory for functional data. The proposed methods can be widely applicable to several application areas such as chemometrics, medical and biological sciences, climatology, and economics. For example, the proposed methods can be applied to predict the chemical variables of a material of interest from NIR spectroscopic information. The proposed methods also can be applied to measure the associations between paired longitudinal data which often arise in medical science. Recently, more complicated data such as time-course gene expression and fMRI arise in biological and medical sciences and we expect that the proposed methods can be applied to those kinds of data. In addition, the topics in this study have been attracted to researchers in Statistics and other application areas. Accordingly, our novel approaches produce collaboration opportunities with researchers in other fields and contribute to convey new research areas to future researchers.
※ AI-Helper는 부적절한 답변을 할 수 있습니다.