보고서 정보
주관연구기관 |
서울대학교 산학협력단 |
연구책임자 |
배영미
|
참여연구자 |
김하연
,
박혜린
,
제미경
,
그외 다수
,
장윤
,
조명지
,
이지혜
,
연한별
,
손현석
,
윤나은
|
보고서유형 | 최종보고서 |
발행국가 | 대한민국 |
언어 |
한국어
|
발행년월 | 2015-09 |
주관부처 |
미래창조과학부 KA |
사업 관리 기관 |
한국과학기술정보연구원 Korea Institute of Science and Technology Information |
등록번호 |
TRKO201600000567 |
DB 구축일자 |
2016-04-16
|
키워드 |
감염병,공공데이터,알고리즘,검색 시스템,시각화Epidemic Disease,Open Data,Algorithm,Search System,Visualization
|
초록
▼
본 연구 내용은 다음과 같다. (국제저널 1편, 국제학회 1편, 시작품 1건, 국내저널 3편, 국내학회 5회)
첫 째, 국내 환경에 최적화된 감염병 분석 알고리즘 탐색
- 감염병 분석에 사용될 수 있는 기법 동향 조사 및 응용사례 조사
- 상관분석 및 회귀분석 위주의 활용 방법 세부 조사
- 군집분석, 분류분석, 신경망 등의 알고리즘 탐색과 활용 방법 탐색
- 공공데이터에 기반을 둔 감염성 질병과 환경변수간의 관계 분석 활용 방안 모색
둘 째, 시계열 빅데이터 기반의 공공데이터를 관리하고 분석하기 위
본 연구 내용은 다음과 같다. (국제저널 1편, 국제학회 1편, 시작품 1건, 국내저널 3편, 국내학회 5회)
첫 째, 국내 환경에 최적화된 감염병 분석 알고리즘 탐색
- 감염병 분석에 사용될 수 있는 기법 동향 조사 및 응용사례 조사
- 상관분석 및 회귀분석 위주의 활용 방법 세부 조사
- 군집분석, 분류분석, 신경망 등의 알고리즘 탐색과 활용 방법 탐색
- 공공데이터에 기반을 둔 감염성 질병과 환경변수간의 관계 분석 활용 방안 모색
둘 째, 시계열 빅데이터 기반의 공공데이터를 관리하고 분석하기 위한 통합 검색 시스템 구축
- 시스템 구축에 활용될 카테고리 별 공공데이터 (데이터셋, 오픈 API) 선별․수집․가공
- 필수 및 선택 파라미터를 입력한 검색 기능과 파일 다운로드 기능 탑재
- 국․내외 활용 가능한 감염병 시뮬레이션 도구 소개
- 시계열 공공데이터와 다양한 환경변수 (기후조건, 인구이동조건 등) 간의 상관관계 분석 예시와 결과 그래프 제공
셋 째, 감염성 질병과 환경변수간의 상호작용 가시화 도구 개발
- 데이터 수집 및 변환 기술 개발
- 데이터 시각화 프레임워크 구축
- Web data based visualization API 적용연구 및 변환 기술 개발
- 질병 확산 지표군 간의 상관관계 추출 방법 연구
- 소셜 미디어를 이용한 질병 확산 지표군 추출 방법 연구
- 질병 확산 지표군 간의 상관관계 추출을 위한 대용량 데이터 분산처리 기술 개발
Abstract
▼
Ⅳ. Result of the study
○ The search system that was constructed to manage and analyze public data based on time series big data is composed of dataset provided as excel files and open API reflecting real-time information, and it provides a variety of data associated infectious diseases by each ca
Ⅳ. Result of the study
○ The search system that was constructed to manage and analyze public data based on time series big data is composed of dataset provided as excel files and open API reflecting real-time information, and it provides a variety of data associated infectious diseases by each category. In addition, the output format was unified to increase the convenience of retrieval and use of data that was collected from a variety of sources. Furthermore, we introduced simulation tools associated with infectious diseases and showed the results of correlation analysis on the provided public data and diverse variables with the example of analysis results to allow a broad utilization of system.
○ Paid public data provided by the National Health Insurance Service, Health Insurance Review and Assessment Service as well as free public data provided by the search system was utilized in disease-specific correlation analysis. For example, a study such as extraction of new patients diagnosed with main/sub sick of type 2 diabetes in the patient group over the age of 20 can be made by using a sample cohort DB provided by the National Health Insurance Service that was established with a cohort format of patients for 12 years (2002 to 2014) of 1 million people that is corresponding to 2% of the entire citizens. In addition, the results on infectious diseases that have significance relation with major city-specific weather conditions through the correlation analysis on the meteorological factors and infectious diseases among public data provided by the constructed search system. In addition, certain infectious diseases that have significance relation with population migration through the correlation analysis of infectious diseases accordance with foreign inflowing infectious diseases in accordance with domestic and international population migration.
○ The data collection and transformation technology was developed in order to develop a technique to visualize the interaction between diseases and environment variables based on big data. Through this, data formats that are provided differently by providers have been able to be automatically converted and stored in an integrated database. It is consists of a data collection module and a conversion·storage module. Data visualization framework that was developed to take advantage of this technology has been implemented to provide environment variables selected by the user for each data type of visualization and to improve user accessibility and distributed processing application. In addition, application and transformation technology of the web data based visualization API was developed to visualize the disease spread and local·global data.
○ In studies on diverse environmental variables related to the disease occurrence, analyses utilizing climate and temperature variables reflecting the seasonality of the disease, dust variables reflecting various environmental factors, global warming variables, air pollution parameters, genetic variables, and residential environment variable were carried out. In studies on the extraction methods of correlation between the disease spread indicators, a Granger Casuality Test statistical method to identify a complex relationship between variables has been developed. In studies on the extraction methods of disease spread indicators using social media, a validation through the utilization of strengths of social media and the causality·correlation analysis of the cause of disease emergence was performed. In addition, the data processing and operation were to be efficiently achieved depending on the workload by developing technology utilizing Spring Framework, Super-computing Center and Bioworks Server for large amounts of data distributed processing to extract correlation between disease spread indicators.
목차 Contents
- 표지 ... 1
- 제출문 ... 2
- 보고서 요약서 ... 3
- 요약문 ... 4
- Summary ... 9
- Contents ... 15
- 목차 ... 16
- 표목차 ... 17
- 그림목차 ... 19
- 제1장 연구개발과제의 개요 ... 23
- 1절 시계열 빅 데이터 기반 검색 시스템 구축 및 질병 별상관관계 분석 ... 23
- 2절 시계열 빅 데이터 기반 질병 간의 상호작용 가시화 기술개발 ... 28
- 제2장 국내외 기술개발 현황 ... 32
- 1절 시계열 빅 데이터 기반 검색 시스템 구축 및 질병 별상관관계 분석 ... 32
- 2절 시계열 빅 데이터 기반 질병 간의 상호작용 가시화 기술개발 ... 47
- 제3장 연구개발수행 내용 및 결과 ... 59
- 1절 시계열 빅 데이터 기반 검색 시스템 구축 및 질병 별상관관계 분석 ... 59
- 2절 시계열 빅 데이터 기반 질병 간의 상호작용 가시화 기술개발 ... 91
- 제4장 목표달성도 및 관련분야에의 기여도 ... 117
- 1절 시계열 빅 데이터 기반 검색 시스템 구축 및 질병 별 상관관계 분석 ... 117
- 2절 시계열 빅 데이터 기반 질병 간의 상호작용 가시화 기술개발 ... 119
- 제5장 연구개발결과의 활용계획 ... 121
- 1절 시계열 빅 데이터 기반 검색 시스템 구축 및 질병 별상관관계 분석 ... 121
- 2절 시계열 빅 데이터 기반 질병 간의 상호작용 가시화 기술개발 ... 125
- 제6장 연구개발과정에서 수집한 해외과학기술정보 ... 126
- 1절 시계열 빅 데이터 기반 검색 시스템 구축 및 질병 별상관관계 분석 ... 126
- 2절 시계열 빅 데이터 기반 질병 간의 상호작용 가시화 기술개발 ... 129
- 참고문헌 ... 130
- 별첨 – MatLab code ... 133
- 끝페이지 ... 150
※ AI-Helper는 부적절한 답변을 할 수 있습니다.