보고서 정보
주관연구기관 |
차라투 주식회사 |
연구책임자 |
김진섭
|
참여연구자 |
채화성
,
나영준
|
보고서유형 | 최종보고서 |
발행국가 | 대한민국 |
언어 |
한국어
|
발행년월 | 2024-02 |
과제시작연도 |
2023 |
주관부처 |
과학기술정보통신부 Ministry of Science and ICT |
과제관리전문기관 |
정보통신기획평가원 Institute of Information&Communications Technology Planning&Evaluation |
등록번호 |
TRKO202400004664 |
과제고유번호 |
1711193879 |
사업명 |
SW컴퓨팅산업원천기술개발 |
DB 구축일자 |
2024-07-22
|
키워드 |
통계소프트웨어.클라우드.공개소프트웨어.서비스형 소프트웨어.재현기능연구.Statistical Software.Cloud.Open Source.SaaS(Softward as a Service).Reproducible Research.
|
초록
▼
□ 연구개발 목표 및 내용
◎ 최종 목표
ㅇ 데이터 전문가의 부재 및 낮은 툴 접근성, 해외 통계분석 소프트웨어 비용부담 및 어려운 초기 데이터 접근성 문제 해결을 위해, 공개 SW를 기반으로 어려운 통계분석을 통계 비전공 및 일반인이 사용할 수 있도록 데이터 과학의 일반적인 ‘데이터입력-시각화-탐색적데이터분석-기계학습-레포트생성’ 프로세스를 자동화할 수 있는 각 모듈별 및 총 14개 분야 73개 이상의 생활 밀착형 공공데이터 예제데이터 패키지를 개발하고 각 패키지 모듈을 기능적으로 결합해서 일반인, 과학자 및 분야전문가
□ 연구개발 목표 및 내용
◎ 최종 목표
ㅇ 데이터 전문가의 부재 및 낮은 툴 접근성, 해외 통계분석 소프트웨어 비용부담 및 어려운 초기 데이터 접근성 문제 해결을 위해, 공개 SW를 기반으로 어려운 통계분석을 통계 비전공 및 일반인이 사용할 수 있도록 데이터 과학의 일반적인 ‘데이터입력-시각화-탐색적데이터분석-기계학습-레포트생성’ 프로세스를 자동화할 수 있는 각 모듈별 및 총 14개 분야 73개 이상의 생활 밀착형 공공데이터 예제데이터 패키지를 개발하고 각 패키지 모듈을 기능적으로 결합해서 일반인, 과학자 및 분야전문가가 사용할 수 있는 3종의 Auto 데이터 분석 웹애플리케이션 개발
ㅇ클라우드 서비스를 활용한 공개SW 기반의 통계 패키지 개발
① GUI와 클라우드를 통해 통계 비전문가도 데이터를 쉽게 시각화/분석할 수 있는 패키지 개발.
② 필요한 기술을 (1)Auto-X로 분류, (2)각각을 패키지로 개발, (3)이들을 하나로 모아 공개SW 생태계 구축
- 다양한 데이터(정형 및 비정형) 형태를 자동으로 인식하는 Auto-Ingest
- 맞춤형 통계/AI 분석을 제공하는 Auto-EDA/Auto-ML
- 분석결과를 시각화하는 Auto-Table/Auto-Viz
- 분석결과를 다양한 형태의 보고서로 자동생성하는 Auto-Report
- 코드 업데이트 시 자동으로 테스트와 배포가 이루어지는 CI/CD
- 각 공개SW 패키지들을 통합 관리하는 Openstat(가칭) 생태계
- 참여 원하는 개발자 위한 상세한 기술문서: eBook, 홈페이지, 분야별 예제
③ 실생활과 밀접하게 맞닿아 있는 다양한 공공데이터를 연계, 일반 시민이 손쉽게 데이터분석 입문할 수 있도록 도움.
- 일반 시민이 실생활에서 바로 활용할 수 있는 공공데이터 약 70건에 대한 예제 데이터셋 제작 및 패키지 배포
- 도메인 전문가들의 과학 가설 검정을 위한 분야별(자연과학, 의학, 공학 등) 예제 데이터셋 패키지 배포
- 일반 시민이나 통계 비전문가를 위한 튜토리얼 영상, 기초통계 강의 코스 개발
ㅇ 정량적 개발목표
ㅇ 연차별 개발목표
◎ 전체 내용
① 쉬운 사용위한 GUI, 설치 필요없는 클라우드 SaaS
- 웹은 용도에 따라 (1)일반 시민용 EDA, (2)연구자용 통계분석, (3)도메인 전문가용 기계학습 의 3가지 버전으로 공개.
- (1)웹 외에도 (2)인터넷 필요없는 로컬설치형, (3)로컬에서 설치없이 사용하는 컨테이너(Docker)형, (4)자체적으로 클라우드 서비스 구축할 수 있는 AWS 토탈솔루션 의 4가지 형태로 제공해 총 3 X 4 = 12 종류 지원.
- 재접속시 이전 분석기록 바로 불러올 수 있는 스냅샷/북마크 기능.
② 데이터 자동인식 및 공공데이터 불러오기 기술(Auto-Ingest)
- 20종 이상* 데이터형식* 자동인식 및 품질 진단, 자동개선
*Excel 유사 5종, 통계소프트웨어 5종, DB 5종, 시계열, 지도, 이미지, 텍스트, 음성 등
③ 맞춤형 통계분석 및 AI 기술(Auto-EDA, Auto-ML)
- 기본/고급 분석모듈 50종 이상*
* 기초통계 5종, 선형모형 5종, 비선형모형 5종, 반복측정자료분석 5종, 표본추출 자료분석 5종, 인과성분석 5종, 교호작용(Interaction) 분석 5종, 비모수통계 5종, 기계학습 10종 이상
- 자동화된 기계학습(AutoML)
* AutoGluon, Auto-sklearn, H2O 등의 패키지 또는 도구를 활용한 10종 이상의 기계학습 자동화 구현
* LightGBM, XGBoost, Random Forest 등 알고리즘 10종 이상 활용
* 학습데이터 자동설계, 특징 추출 자동화, 기계학습 알고리즘 자동설계
④ 분석 결과를 실시간으로 반영하는 시각화 기술(Auto-Table, Auto-Viz)
- 직접 클릭하면서 확인할 수 있는 반응형(Interactive) 테이블/그래프 50종 이상
⑤ 재현가능 문서 저작 및 자동화 기술 (Auto-Report)
- 글과 코드를 하나의 마크다운파일로 저장하고 이를 6건 이상*의 포맷을 포함한 보고서로 자동생성. *HTML, PDF, Word, PPT, 대시보드, 주요논문 템플릿
- 데이터, 마크다운파일, 최종 보고서 통합 버전 관리로 재현성 확보
⑥ 각 Auto-X 기술 공개SW 패키지와 이를 통합 관리하는 Openstat(가칭) 생태계
- Openstat 공개SW 저장소에 각 패키지와 기술문서가 포함된 홈 페이지를 공개
- 전체 생태계를 위한 마크다운 기반 교과서 제작 및 eBook 공개
⑦ 업데이트시 자동으로 테스트와 배포가 이루어지는 CI/CD(지속적 통합/제공)
- 패키지 업데이트마다 테스트, 기술문서 업데이트, 배포가 자동으로 이루어짐
- 패키지 -> 컨테이너 -> 클라우드 전 과정의 CI/CD를 포함하는 DevOps 구축
⑧ 비전공자와 일반 시민들의 데이터분석 입문을 돕는 컨텐츠 제작 및 배포
- 도메인 전문가의 분석실습을 돕는 분야별 예제데이터 패키지(가칭 expdata)
- 일반 시민들이 실생활에서 바로 활용할 수 있는 공공데이터 약 70종에 대한 예제데이터 패키지(가칭 opendata)
- 한글 인코딩, 글꼴 문제를 해결하는 패키지(가칭 themes)
- 예제데이터를 이용한 튜토리얼영상, 기초통계강의 코스 개발
□ 연구개발성과
- 정형 데이터용 Auto-X 패키지 및 기술 문서 개발: 패키지 개발 완료
- 전 패키지에 CI/CD(지속적 통합/제공) 적용: 현재 기술 문서의 경우 자동으로 빌드되어 배포 중
- 리포지터리의 경우, 2차년도 목표사항이나 원활한 이용을 위해 조기 개발함. Docker Image는 현재 버전 지정시마다 자동으로 Docker Hub와 GitHub Container Repository에 배포됨.
- 2차년도에 statgarten 구성요소 업데이트 시 마다 자동 빌드되도록 업그레이드 예정. 기 개발된 jsmodule, jstable, jskm 패키지의 경우 자동 테스트까지 포함된 CI/CD 구현 완료.
- 비정형 데이터 포함하는 Auto-ML 개발
- 정형 데이터에 대한 Auto-ML 완료
- JSON, XML 등의 반정형 데이터 import 기능 추가(12월 완료 예정, Stove 패키지 관련)
- 비정형 데이터 적용 방안 기획(12월 완료 예정, 딥러닝 패키지 관련)
- 이미지, 텍스트 등의 비정형 데이터를 다루는 딥러닝 패키지(2차년도 개발 예정)
- 웹 애플리케이션 GUI 설계 및 공통 디자인 아이덴티티 개발: 개발 중, 연말까지 개발 완료 예정
- 생활 밀착형 공공데이터 및 과학 데이터 패키지 개발(35종 이상): 개발 완료
- 초급 사용자를 위한 Machine Learning 개발 마법사 GUI를 제공하여 사용자가 소스코드 개발 또는 복잡한 개발 단계를 거치지 않고 마우스 클릭만으로 Machine Learning 모형을 개발할 수 있도록 지원: 2차년도 “서비스에 디자인 적용” 부분에서 적용 예정.
□ 연구개발성과 활용계획 및 기대 효과
① 주요 수요처
- 데이터를 통해 가치를 창출하고자 하는 통계 비전공자와 일반 시민
- 세브란스, 삼성서울병원에 의료데이터 특화 서비스 제공 예정.
- 통계청 등 ODA(정부개발원조)에 통계 패키지가 필요한 공공기관
- 과학기술 연구개발 엔지니어와 과학자, 데이터 분석가/통계 전문가/데이터 과학자
- 디지털워크 데이터 분석 문서 작성/커뮤니케이션 제품과 서비스가 필요한 기업
② 활용내용
- 통계 비전공자와 일반시민이 다양한 분석을 쉽고 빠르게 수행
- 과학기술 연구에 있어 데이터부터 산출물까지 재현 가능한 연구성과물 구현
- 개발자들의 자발적 기여로 지속 업데이트되는 공개SW 생태계
- 데이터로부터 쉽고 빠르게 가치를 창출해 기하급수적인 생산성 증가
③ 경제적 파급효과
- 통계 분석 대중화로 유용한 정보가 늘어나 부가가치 창출.
- 공개SW로 개방한 Auto-X 기술 활용, 다양한 산업에서 신규서비스 창출.
(출처 : 요약문 3p)
목차 Contents
- 표지 ... 1
- 최종보고서 ... 2
- 요 약 문 ... 3
- 목차 ... 7
- 1. 연구개발과제의 개요 ... 9
- 1-1. 연구개발과제 개괄 ... 9
- 1-2. 기존 서비스의 문제점 ... 9
- 1-3. 문제점에 대한 해결방안 ... 10
- 2. 연구개발과제의 수행 과정 및 수행 내용 ... 15
- 2-1. 정형 데이터용 Auto-X 패키지 및 기술 문서 개발 전 패키지에 CI/CD(지속적 통합/제공) 적용 (차라투 주식회사, 1년차) ... 15
- 2-2. 공개 SW 통계분석 패키지 생태계 확장 및 커뮤니티 구성 (차라투 주식회사, 2년차) ... 17
- 2-3. 비정형 데이터 포함하는 Auto-ML 개발 (파이디지털헬스케어, 1년차) ... 26
- 2-4. 비정형 데이터 분석 DL 애플리케이션 개발 (파이디지털헬스케어, 2년차) ... 31
- 2-5. 생활 밀착형 공공데이터 패키지 개발 및 디자인 아이덴티티 개발 (주식회사 앤틀러, 1년차) ... 42
- 2-6. 생활 밀착형 공공데이터 패키지 개발 및 디자인 아이덴티티 개발 (주식회사 앤틀러, 2년차) ... 45
- 3. 연구개발과제의 수행 결과 및 목표 달성 정도 ... 48
- 3-1. 정성적 연구개발성과 ... 48
- 3-2. 정량적 연구개발성과 ... 80
- 3-3. 세부 정량적 연구개발성과 ... 118
- 3-4. 계획하지 않은 성과 및 관련 분야 기여사항 ... 124
- 4. 목표 미달 또는 미흡한 사항에 대한 원인분석 ... 126
- 4-1. 목표 미달 또는 미흡한 연구결과에 대한 원인(사유) 자체분석 내용 ... 126
- 4-2. 미달 또는 미흡한 결과물에 대한 보완 활동 ... 126
- 4-3. 연구개발 과정의 성실성 ... 127
- 5. 연구개발성과의 관련 분야에 대한 기여 정도 ... 127
- 6. 연구개발성과의 관리 및 활용 계획 ... 128
- 6-1. 향후 5년간 성과활용·확산 활용방안 및 계획(활동계획) ... 130
- 6-2. 주요 성과활용 (기대)성과목표 ... 132
- 6-3. 성과활용·관리 추진체계 ... 133
- 6-4. 기타 ... 133
- 7. 연구개발성과에 대한 후속연구 및 추가 개발 계획 ... 134
- 8. 연구개발비 사용실적 ... 135
- 8-1. 차라투 주식회사 ... 135
- 8-2. ㈜파이디지털헬스케어 ... 137
- 8-3. 주식회사 앤틀러 ... 139
- 끝페이지 ... 172
※ AI-Helper는 부적절한 답변을 할 수 있습니다.