보고서 정보
주관연구기관 |
서울대학교 Seoul National University |
연구책임자 |
박태성
|
보고서유형 | 최종보고서 |
발행국가 | 대한민국 |
언어 |
한국어
|
발행년월 | 2016-06 |
과제시작연도 |
2015 |
주관부처 |
미래창조과학부 Ministry of Science, ICT and Future Planning |
등록번호 |
TRKO201800007209 |
과제고유번호 |
1711023466 |
사업명 |
리더연구자지원 |
DB 구축일자 |
2018-05-19
|
키워드 |
맞춤의학.상호작용.재염기서열 분석.진단 예측모형.차(차)세대 염기서열.통합 분석.후성 유전체.희귀 변이.계산용 GPU 프로그래밍.Personalized Medicine.Interaction analysis.Genomic analysis.prognosis prediction model.NGS.Integration analysis.Epi-genetics.Rare variant.GPU computing programming.
|
DOI |
https://doi.org/10.23000/TRKO201800007209 |
초록
▼
□ 연구목표_국문
인간유전체프로젝트의 완성과 함께 대용량의 고차원 생물학 자료를 분석하기 위한 새로운 학문인 생물정보학(bioinformatics)이 태동하였다. 특히 새로운 biotechnology의 개발로 새로운 종류의 생물학적 자료가 계속 생산되고 있으며 이에 대한 새로운 오믹스(omics) 학문들이 속속 등장하고 있다. 그러나 이러한 자료로부터 의미 있는 생물학적 정보를 분석하기 위한 분석기술은 아직 자료의 생산속도를 쫒아가지 못하고 있다. 또한 분석 결과로부터 의미 있는 생물학적 해석을 얻어내는 과정은 점점 어려워지고
□ 연구목표_국문
인간유전체프로젝트의 완성과 함께 대용량의 고차원 생물학 자료를 분석하기 위한 새로운 학문인 생물정보학(bioinformatics)이 태동하였다. 특히 새로운 biotechnology의 개발로 새로운 종류의 생물학적 자료가 계속 생산되고 있으며 이에 대한 새로운 오믹스(omics) 학문들이 속속 등장하고 있다. 그러나 이러한 자료로부터 의미 있는 생물학적 정보를 분석하기 위한 분석기술은 아직 자료의 생산속도를 쫒아가지 못하고 있다. 또한 분석 결과로부터 의미 있는 생물학적 해석을 얻어내는 과정은 점점 어려워지고 있다. 이제는 유전체자료의 생산은 1000불, 분석은 10만 불, 해석은 100만 불이 드는 시대가 왔다. 특히 차세대 유전체 기술인 NGS나 NNGS 기술의 발전으로 인하여 대규모의 생물학적 자료들이 더 빠르게 축적되고 있어서 이런 오믹스 자료들을 효율적이고 통합적으로 분석할 수 있는 분석방법론의 개발이 중요한 시기가 되었다.
본 연구에서는 이러한 대용량의 고차원 오믹스 자료로부터 의미 있는 정보를 뽑기 위해 통계학에 기초한 차원축소 분석방법과 통합분석 방법을 개발하였다. 이 차원축소 방법과 통합분석 방법은 다양한 종류의 오믹스 자료의 분석에 적용될 수 있는 장점을 갖고 있다.
□ 연구개발내용
여러 종류의 고차원 오믹스 자료들이 갖고 있는 공통적인 특징은 고차원이라는 점이다. 이 공통점으로부터 오믹스 자료들의 효율적인 분석을 위해서는 먼저 동일한 정보를 갖고 있는 자료로 차원을 축소한 후에 이 자료들을 통합하여 분석해야만 한다. 본 연구에서는 오믹스 자료 통합 분석을 위하여 다음 네 가지의 관점으로 진행하였다.
(1) 고차원의 다층적 오믹스 자료로부터 필요한 정보를 효율적으로 뽑아내기 위한 핵심기술인 차원축소 방법개발
- 통계학의 regularization 방법, PCA, SVD, factor analysis에 기초한 차원축소 방법
- 데이터마이닝 방법에 기초한 차원축소 방법
- 생물학적 특성을 이용한 차원축소 방법
(2) 차원축소된 오믹스 자료에 대한 통합 분석 및 상호작용 분석 방법 개발
- Multifactor dimensionality reduction (MDR)
- 혼합모형에 기초한 상호작용 및 통합 분석 방법
(3) 차원축소, 통합 분석 및 상호작용 분석 방법을 구현하기 위한 시스템을 구축
- GPU기반 컴퓨팅 기술과 병렬 컴퓨팅 기술 등의 대용량 고차원의 다양한 오믹스 자료에 적용할 수 있는 대용량 컴퓨터 인프라 구축
- 통합 분석 시스템의 개발 및 최적화하였다.
(4) 상호작용에 대한 생물학적 해석을 위한 시각화 작업
□ 연구개발 성과
본 연구팀에서는 고차원 오믹스 자료의 분석에 대한 다음과 같은 연구 성과를 얻었다.
(1) 본 연구팀에서는 차원축소를 위하여 통계 모형 또는 데이터마이닝 방법, 생물학적 특성을 이용하였고 이를 통해 효과적인 SNP, RNA-seq 자료, 임상변수, 단백질 자료 분석 방법론 등 현재 접근할 수 있는 모든 형태의 오믹스 자료에 대한 분석방법론을 개발하고 분석을 진행하였다.
(2) 차원축소 된 오믹스 자료에 대한 통합 분석 및 상호작용 분석을 위하여 본 연구팀은 MDR, Entropy를 기반으로 한 여러 차원축소 방법론을 개량, 발전시켰다. 또한 사회과학에서 자주 사용되는 구조방정식을 pathway 분석에 적용하여 다양한 오믹스 자료의 통합 분석 및 상호작용 분석에서 더욱 효과적인 방법론을 개발하였다.
(3)차원축소 및 오믹스 자료 상호작용 분석을 위하여 NGS 자료에도 사용할 수 있는 WISARD 프로그램과 각 오믹스 자료 분석 전처리 파이프라인을 구성 완료하였다.
(4) 상호작용에 대한 생물학적 해석의 편이를 위하여 web 기반 프로그램들을 개발하여 pathway 및 gene 정보를 이용한 분석이 가능하도록 하였다. 또한 고차원 오믹스 자료에 대한 유전자 간 상호작용의 확인을 위한 visualization tool을 개발하였다.
□ 활용 계획 및 기대효과
(1)과학기술적 가치: 본 연구팀은 차원축소 방법을 다양한 종류의 오믹스 분야에 적용해 보았고 유전체 연구에서 유전자, 환경 및 후성유전체의 상호작용분석을 통한 질환관련 마커의 발견은 복합질환의 발병 기작의 이해를 도울 수 있다는 것을 입증하였다. 이러한 연구 내용을 토대로 개인별 질환진단과 핵심 약물개발의 타겟 선정 및 동반진단(companion diagnostics)에 본 연구팀의 차원축소 방법을 응용하여 질환의 위험률 예측, 예후 예측, 약물 반응 예측에 사용할 것이다.
(2)경제사회적 가치: 본 연구를 통해 개발된 대규모 오믹스 자료에 대한 차원축소 분석 기술은 향후 다가올 개인맞춤 의학(Personalized medicine)시대에 치료/진단 목적으로 이용될 수 있으며, 더 나아가 유전체 관련 질환, 맞춤의학, 신약 개발에 효과적으로 활용하여 의학 산업의 새로운 장을 열어 경제적 가치를 창출할 수 있다.본 연구를 임상 연구에 적용하면 질환에 대한 예측의 정확도를 높여서, 향후 10년 동안 폭발적으로 성장할 것으로 예상되는 유전체 개인별 질환 진단 (genetic testing) 시장에서 핵심원천기술로 사용이 될 수 있다.
(출처 : 연구결과 요약문 : 한글 4p)
Abstract
▼
□ Purpose
The completion of Human Genome Project initiated a new research area, Bioinformatics. The development of biotechnology keeps producing new types of biological data. The main goal of Bioinformatics is to develop analysis methods and tools for analyzing a large scale. high-dimensional omi
□ Purpose
The completion of Human Genome Project initiated a new research area, Bioinformatics. The development of biotechnology keeps producing new types of biological data. The main goal of Bioinformatics is to develop analysis methods and tools for analyzing a large scale. high-dimensional omics data. The new sequencing technology such as next generation sequencing (NGS) and next NGS technology started generating an enormous amount of genomic data. However, the speed of development of systematic analysis methods for such data is still much slower than the speed of data generation. Currently, it is commonly said that data generation costs $1,000, analysis $100,000, and interpretation $1,000,000. The main objectives of this research is to develop an efficient and integrated statistical method using omics data by the dimensional reduction analysis. Our method will be a unified approach which can be applied to many types of omics data.
□ contents
A common characteristic among the omics data is a large number of features. To analyze omics data efficiently, we need to reduce the dimension of omics data from the same subject first, then we performed analysis with following four perspectives.
(1) Development of dimension reduction method: Using statistical regularization method, principal component analysis, singular value decomposition or factor analysis.
(2) Integration analysis for dimension reduced omics data: using multifactor dimension reduction (MDR) or mixed effect model.
(3) System development for realization of dimension reduction and integration analysis
(4) Visualization for biological interaction mechanism
□ Developement results
We achieved following developments in the multi omics data analysis.
(1) We developed omics data analysis methods to analyze SNP, RNA-sequening data, clinical information or protein data based on statistical model, datamining or biological characteristic.
(2) We also developed omiccs integration analysis methods such as MDR or entropy based dimension reduction methods. Also we used structured equation model which is widely used in social science to analyze pathway for integration or interaction analysis of omics data efficiently.
(3) To analyze dimension reduction and omics data interaction, we built the program named WISARD for analyze NGS data. Also, we implemented omics preprocessing pipeline.
(4) We developed web-based programs to analyze omics data with pathway or gene enformation. These programs have a benefit of biological interpretation for interaction analysis. Also, we made visualization tools to check the interaction effects among genes efficiently.
□ Expected Contribution
(1) Scientific resources: Dimensional reduction methods could be applied to any types of omics data analysis. In genetic data analysis, disease related marker searching with interaction analysis between epi-genetics and environmental factors could help understanding the mechanism of complex diseases and be applied on personalized disease prediction diagnosis, disease prognosis or drug response prediction.
(2) Economic or social resources: High dimensional omics data reduction methods developed by the analysis will be used to cure or diagnose the patients in the personalized medicine era. Moreover, results of the analysis can boost the economy by developing health industry with medicine.
(출처 : SUMMARY 5p)
목차 Contents
- 표지 ... 1
- 목차 ... 2
- 연구계획 요약문 ... 3
- 연구결과 요약문 ... 4
- 한글요약문 ... 4
- SUMMARY ... 5
- 연구내용 및 결과 ... 6
- 1. 연구개발과제의 개요 ... 6
- 2. 국내외 기술개발 현황 ... 8
- 3. 연구수행 내용 및 결과 ... 11
- 4. 목표달성도 및 관련분야에의 기여도 ... 50
- 5. 연구결과의 활용계획 ... 53
- 6. 연구과정에서 수집한 해외과학기술정보 ... 54
- 7. 대표적 연구실적 ... 55
- 8. 참고문헌 ... 55
- 9. 연구성과 ... 57
- 10. 연구기자재 현황 및 활용 ... 86
- 11. 기타사항 ... 87
- 별첨1 대 표 연 구 성 과 ... 88
- 끝페이지 ... 97
※ AI-Helper는 부적절한 답변을 할 수 있습니다.