보고서 정보
주관연구기관 |
서울대학교 Seoul National University |
연구책임자 |
박병욱
|
보고서유형 | 최종보고서 |
발행국가 | 대한민국 |
언어 |
한국어
|
발행년월 | 2017-05 |
과제시작연도 |
2016 |
주관부처 |
미래창조과학부 Ministry of Science, ICT and Future Planning |
등록번호 |
TRKO201800005541 |
과제고유번호 |
1711037303 |
사업명 |
집단연구지원 |
DB 구축일자 |
2018-05-05
|
키워드 |
가법모형.고차원모형.공분산행렬.네트워크 모형.매니폴드 추정.벌점함수.변수선택.분산컴퓨팅.정확도행렬.additive model.high-dimensional model.covariance matrix.network model.manifold learning.penalty function.variable selection.distributed computing.precision matrix.
|
초록
▼
- 1단계 연구개발 결과 총 12편의 SCI급 학술논문을 게재(게재확정 6편 포함)하고, 비SCI급 학술논문을 6편 게재.
- (1) 복잡한 구조를 갖는 자료를 위한 통계적 학습 방법 연구로 공변량 구조를 이용한 벌점화 회귀분석 방법론에서는 가중 쌍별 fused SCAD 벌점회귀에서의 최적화 문제를 풀기 위한 알고리즘 개발, Generalized fused Lasso 문제의 경로해 연구 계산량이 많은 경우를 대비하여 병렬화 알고리즘 개발, 잠재변수의 분포가 Gumbel 분포가 아닌 경우 BT 모형을 이용한 순위추정 방법
- 1단계 연구개발 결과 총 12편의 SCI급 학술논문을 게재(게재확정 6편 포함)하고, 비SCI급 학술논문을 6편 게재.
- (1) 복잡한 구조를 갖는 자료를 위한 통계적 학습 방법 연구로 공변량 구조를 이용한 벌점화 회귀분석 방법론에서는 가중 쌍별 fused SCAD 벌점회귀에서의 최적화 문제를 풀기 위한 알고리즘 개발, Generalized fused Lasso 문제의 경로해 연구 계산량이 많은 경우를 대비하여 병렬화 알고리즘 개발, 잠재변수의 분포가 Gumbel 분포가 아닌 경우 BT 모형을 이용한 순위추정 방법을 연구.
- (2) 구조화 모형을 위한 최적화 방법의 연구로 공변량에 측정오차가 포함되어 있는 경우 Robust optimization과의 연결고리 발견 및 다른 문제 (포트폴리오 최적화)로의 확장, 다양한 구조회귀모형에서의 추정이론 개발 및 추정량의 점근성질을 규명.
- (3) 네트워크 자료들 간의 대규모 공분산 추정과 네트워크 모형에 대한 응용 연구로 일반적인 직교등변 형식의 공분산추정 문제의 경로 알고리즘 개발, 비직교등변 형식의 조건수 제약 공분산추정 문제에 대한 알고리즘을 포함한 다양한 알고리즘을 개발하였으며, 페이스북 등 소셜 네트워크 상의 친밀감에 대한 연구와 오픈 소스 커뮤니티에서 기여와 협력에 대한 연구에 적용.
(출처 : 요약서 3p)
Abstract
▼
Purpose
In the 21st century, analysis of high-dimensional massive data becomes a new paradigm in statistical science. For the recent decade it has been received intensive attention in many scientific areas including computer science, electrical engineering and bioinformatics. It produces various
Purpose
In the 21st century, analysis of high-dimensional massive data becomes a new paradigm in statistical science. For the recent decade it has been received intensive attention in many scientific areas including computer science, electrical engineering and bioinformatics. It produces various challenges that traditional statistical methods cannot solve. In particular, network analysis that extracts useful information from modeling the associations between high-dimensional variables becomes core technology in data science for massive and complex data. In this research, we develop new statistical methods to analyze network data efficiently.
In particular, we study high-dimensional structured network data and large covariance matrix inference where traditional statistical methods are not applicable.
contents
Our research addresses various issues in network data analysis in the limelight and developes statistical methods to apply to applications in network data. In particular network data in massive high-dimensional data are difficult to analyze with classical statistical methods due to high dimensionality. In this study, we address two problems. First, we study on improving estimation efficiency and prediction rate of regression model using a network structure within high-dimensional covariates. To resolve this problem, we study (i) the choice of optimal penalty function and corresponding optimization algorithm using network information from covariates, (ii) method for estimating network information within both covariates and regression function and (iii) estimation of structured models with specific structure or measurement error in covariates. The second problem is estimation of high-dimensional covariance matrix and its application to network model. Specifically, we study estimation of (i) covariance matrix with constraints for structure, (ii) orthogonal equivariance covariance matrix and (iii) distribution function of eigenvalue based on random matrix theory. Moreover, in order to apply our proposed methods for large-scale data, we apply parallel processing and distributed processing algorithms. In the end, we apply our methods to analyze social network data, Markowitz portfolio optimization problem, and brain network using BOLD signal.
Developement results
For the first stage of research period, 12 SCI level academic papers (including 6 accepted papers) and six non SCI level academic papers have been published. The detailed research topics that have been achieved for last three years are as follow. (1) Various statistical learning algorithms including a fused SCAD algorithm, a path-algorithm for generalized fussed lasso estimation, generalized ranking models for non-Gumbel distributed latent variables under high-dimensional settings have been developed. (2) Optimization methodlogies for structured data including robust optimization for errors-in-variable problem and its application to portfolio optimization and smoothing backfitting methods for various nonparametric structured regression models have been proposed and their theoretical properties have been studied. (3) Study of large covariance estimation for network models has involved estimation for various covariance matrices under general orthogonal condition and condition number restricted non-orthogonal condition, and research results have been applied to statistical analysis of Facebook “friends” networks, Facebook communication networks, contributions and collaborations in open source community.
Expected Contribution
This study is expected to contribute to analysis of network data which appear in massive high-dimensional data. Especially, our research will achieve breakthrough in the theoretical study on high-dimensional regression model and estimation of covariance matrix. The theme of this research will contribute greatly to not only academic development in statistics, but also many other fields analyzing high-dimensional network data. In particular, may areas occupying a central position in knowledge and information societies such as financial engineering, machine learning, cognitive science, bioinformatics, and electrical engineering analyze massive network data. Our research will be used as central theories and algorithms in developments of these fields. In addition, we will train a number of specialists in network data analysis and strengthen the international competitiveness in large network industries.
(출처 : SUMMARY 5p)
목차 Contents
- 표지 ... 1
- 제 출 문 ... 2
- 보고서 요약서 ... 3
- 요 약 문 ... 4
- SUMMARY ... 5
- 목차 ... 6
- 1. 연구개발 목표 및 내용 ... 7
- 가. 최종 목표 ... 7
- 나. 단계목표(당초 목표 및 수정․보완 목표) ... 8
- 다. 당초 목표의 수정․보완(중요 연구변경) 사유 ... 9
- 라. 1단계 연차별 연구목표 및 내용 ... 9
- 2. 연구 추진전략 및 방법 ... 32
- 3. 주요 연구개발 결과 ... 33
- 가. 목표달성도 ... 33
- 나. 대표적 연구업적 ... 39
- 다. 기타 연구성과 ... 40
- 4. 연구수행에 따른 문제점 및 개선방향 ... 40
- 5. 연구개발성과 현황 ... 40
- 6. 국가과학기술종합정보시스템에 등록한 연구시설·장비 현황 ... 41
- 7. 기타사항 ... 41
- 끝페이지 ... 41
※ AI-Helper는 부적절한 답변을 할 수 있습니다.