보고서 정보
주관연구기관 |
주식회사 디이프 |
연구책임자 |
강병철
|
보고서유형 | 최종보고서 |
발행국가 | 대한민국 |
언어 |
한국어
|
발행년월 | 2022-12 |
과제시작연도 |
2022 |
주관부처 |
질병관리청 Korea Disease Control and Prevention Agency(KDCA) |
등록번호 |
TRKO202300028476 |
과제고유번호 |
1776000203 |
사업명 |
헬스케어이종데이터활용체계및인공지능개발(R&D) |
DB 구축일자 |
2023-11-15
|
키워드 |
헬스케어.멀티오믹스.인공지능.기계학습.파이프라인.Healthcare.Multi-Omics.Machine learning Pipeline.
|
초록
▼
헬스케어 빅데이터에 관한 관심과 잠재적 가치가 중요해짐에 따라, 관련 데이터 수집이 증가하고 있습니다. 그러나 헬스케어 빅데이터는 종류가 다양하고 고차원의 복잡도가 높은 데이터로, 이를 체계적으로 활용할 수 있는 기반이 부족한 실정입니다. 데이터의 활용 가치를 높이기 위해서는 정밀한 데이터분석과 인공지능 모델 개발이 필요하며, 이 과정은 효율적으로 관리되어아 합니다.
본 연구에서는 질병관리청에서 보유하고 있는 WGS, RNA-seq, Methyl-seq, 마이크로바이옴 (타액, 변), 라이프로그, 병리 영상 등 헬스케어
헬스케어 빅데이터에 관한 관심과 잠재적 가치가 중요해짐에 따라, 관련 데이터 수집이 증가하고 있습니다. 그러나 헬스케어 빅데이터는 종류가 다양하고 고차원의 복잡도가 높은 데이터로, 이를 체계적으로 활용할 수 있는 기반이 부족한 실정입니다. 데이터의 활용 가치를 높이기 위해서는 정밀한 데이터분석과 인공지능 모델 개발이 필요하며, 이 과정은 효율적으로 관리되어아 합니다.
본 연구에서는 질병관리청에서 보유하고 있는 WGS, RNA-seq, Methyl-seq, 마이크로바이옴 (타액, 변), 라이프로그, 병리 영상 등 헬스케어 데이터를 종류별로 체계화하고, 정제하였습니다. 정제한 데이터와 임상 정보를 결합하여 인공지능 연구를 위한 7종의 기준 데이터 세트를 구축하였습니다. 또한, 다수의 차원 축소 방법과 가시화 방법을 고안하였으며, 15종의 기계 학습 알고리즘과 DNN, LSTM, CNN 등의 딥러닝 아키텍처를 활용하여 분류/회귀를 수행하는 인공지능 모델을 연구하였습니다. 나아가 복잡한 기능을 간단히 활용할 수 있도톡, 구현한 분석 방법을 모듈화하여 “aipipe” 라는 파이썬 패키지를 구성하였습니다.
인공지능 파이프라인은 다양한 종류의 파이프라인을 효과적으로 운영하고 관리하기 위하여 MLOps (Machine learning operation)를 지원하는 Kubeflow Pipelines 플랫폼 위에 구축하였습니다. 7종의 기준 데이터 세트와 이종 간 기준 데이터 세트를 병합한 멀티 데이터 세트를 입력으로 하여 전처리, 차원축소, 시각화, 기계학습/딥러닝을 수행하는 총 18종의 파이프라인을 구축하였습니다. Kubeflow에서 데이터 시각화는 웹 기반 상호반응형 환경을 제공함으로써 , 연구자가 데이터를 탐색하는데 편리하도톡 구성하였습니다.
Kubeflow 플랫폼과 구축한 파이프라인은 질병관리청 헬스케어 빅데이터 연구 서버를 포함한 3개의 서버에 배포하였으며, 헬스케어 데이터의 잠재 가치를 발글하고 후속 과제 설계에 도움을 줄 수 있을 것으로 기대합니다.
(출처 : 요약문 6p)
Abstract
▼
As the interest and potential value of healthcare big data becomes more important, the collection of related data is increasing. However, the foundation for application systematically is insufficient since healthcare big data is diverse and high-dimensional data. To improve data utilization, it is r
As the interest and potential value of healthcare big data becomes more important, the collection of related data is increasing. However, the foundation for application systematically is insufficient since healthcare big data is diverse and high-dimensional data. To improve data utilization, it is required to analyze data precisely and develop artificial intelligence models. Also, this process must be managed effectively.
In this study, healthcare data, WGS, RNA-seq, methy卜seq, microbiome-feces, microbiome-saliva, lifelog, and pathology images, were organized and refined. 7 data sets were built for AI research by combining refined data and clinical information. We applied various dimension reduction and visualization methods. We implemented artificial intelligence models that perform classification and regression using 15 kinds of machine learning algorithms and deep learning architectures, such as DNN, LSTM, and CNN. Furthermore, “aipipe”, a Python package composed of analysis methods, enabled to use of complex functions simply.
The AI pipeline was built on the Kubeflow Pipelines platform that supports MLOps (machine learning operation) to operate and manage various types of pipelines. A total of 18 pipelines on 7 standard data sets were connected with components of preprocessing, dimension reduction, visualization, and machine learning/deep learning. Especially, data visualization in Kubeflow provides a web-based interactive environment, making it convenient for researchers to explore data.
The Kubeflow platform and established pipeline have been distributed to three servers, including the Korea Disease Control and Prevention Agency's Healthcare Big Data Research Server, and it is expected to help discover the potential value of healthcare data and help design follow-up tasks.
(source : Summary 7p)
목차 Contents
- 표지 ... 1
- 제출문 ... 2
- 목차 ... 3
- 요약문 ... 6
- Summary ... 7
- 학술연구개발용역 과제 연구결과 ... 8
- 제1장 최종 목표 ... 8
- 1.1. 목표 ... 8
- 1.2. 목표달성도 및 관련분야에 대한 기여도 ... 19
- 제2장 국내외 기술 현황 ... 21
- 2.1. 국내외 헬스케어 빅데이터 인공지능 기술 현황 ... 21
- 2.2. 시각화 기술 현황 ... 23
- 2.3. 국내 시각화 기술 현황 ... 25
- 2.4. 연구결과가 국내외 기술현황에 차지하는 위치 ... 26
- 제3장 최종 연구 내용 및 방법 ... 27
- 3.1. 기준 데이터 세트 구성 ... 27
- 3.2. 인공지능 파이프라인 개발 ... 36
- 제4장 최종 연구 결과 ... 43
- 4.1. 원시 데이터 확보 현황 ... 43
- 4.2. 원시 데이터 정제 및 전처리 ... 45
- 4.3. 기준 데이터 세트 구성 ... 50
- 4.4. 단위 데이터 설명 및 전처리 결과 ... 52
- 4.5. 차원 축소 및 시각화 기법 연구 ... 57
- 4.6. 딥러닝 중심의 인공지능 모델 연구 및 구현 ... 82
- 4.7. MLOps 기반의 인공지능 파이프라인 개발 ... 102
- 4.8. MLOps 기반의 인공지능 파이프라인 배포 및 운영 ... 126
- 제5장 연구결과 고찰 및 결론 ... 132
- 5.1. 헬스케어 멀티 오믹스 원시데이터를 정제한 기준 데이터 세트 구축 ... 132
- 5.2. 헬스케어 데이터 차원 축소 및 시각화 분석 ... 132
- 5.3. MLOps 기반의 인공지능 파이프라인 구현 ... 132
- 5.4. 수행 연구 결과 활용 방안 ... 133
- 5.5 후속 연구 방향 ... 133
- 제6장 연구성과 및 활용계획 ... 134
- 제7장 연구용역과제 진행과정에서 수집한 해외과학기술정보 ... 138
- 7.1. 해외 과학 기술 정보 ... 138
- 제8장 기타 중요변경사항 ... 140
- 8.1. 연구 개발 기간 ... 140
- 8.2. 데이터 확보 목록 변경 ... 140
- 8.3. 오믹스 원시 데이터 품질 점검 추가 연구 ... 140
- 제9장 연구비 사용 내역 및 연구원 분담 ... 141
- 9.1. 연구비 사용 내역 ... 141
- 9.2. 연구원 현황 ... 142
- 9.3. 연구분담내용 ... 142
- 제10장 참고문헌 ... 143
- 10.1. 참고문헌 ... 143
- 제11장 첨부서류 ... 145
- 끝페이지 ... 146
※ AI-Helper는 부적절한 답변을 할 수 있습니다.