[보고서]공개SW 기반의 클라우드 통계 패키지SW 개발

김진섭

공개SW 기반의 클라우드 통계 패키지SW 개발
Cloud based open-source statistical software development 원문보기

보고서 정보
주관연구기관	차라투 주식회사
연구책임자	김진섭
참여연구자	채화성 , 나영준
보고서유형	최종보고서
발행국가	대한민국
언어	한국어
발행년월	2024-02
과제시작연도	2023
주관부처	과학기술정보통신부 Ministry of Science and ICT
과제관리전문기관	정보통신기획평가원 Institute of Information&Communications Technology Planning&Evaluation
등록번호	TRKO202400004664
과제고유번호	1711193879
사업명	SW컴퓨팅산업원천기술개발
DB 구축일자	2024-07-22
키워드	통계소프트웨어.클라우드.공개소프트웨어.서비스형 소프트웨어.재현기능연구.Statistical Software.Cloud.Open Source.SaaS(Softward as a Service).Reproducible Research.

초록 ▼

□ 연구개발 목표 및 내용
◎ 최종 목표
ㅇ 데이터 전문가의 부재 및 낮은 툴 접근성, 해외 통계분석 소프트웨어 비용부담 및 어려운 초기 데이터 접근성 문제 해결을 위해, 공개 SW를 기반으로 어려운 통계분석을 통계 비전공 및 일반인이 사용할 수 있도록 데이터 과학의 일반적인 ‘데이터입력-시각화-탐색적데이터분석-기계학습-레포트생성’ 프로세스를 자동화할 수 있는 각 모듈별 및 총 14개 분야 73개 이상의 생활 밀착형 공공데이터 예제데이터 패키지를 개발하고 각 패키지 모듈을 기능적으로 결합해서 일반인, 과학자 및 분야전문가가 사용할 수 있는 3종의 Auto 데이터 분석 웹애플리케이션 개발

ㅇ클라우드 서비스를 활용한 공개SW 기반의 통계 패키지 개발
① GUI와 클라우드를 통해 통계 비전문가도 데이터를 쉽게 시각화/분석할 수 있는 패키지 개발.
② 필요한 기술을 (1)Auto-X로 분류, (2)각각을 패키지로 개발, (3)이들을 하나로 모아 공개SW 생태계 구축
- 다양한 데이터(정형 및 비정형) 형태를 자동으로 인식하는 Auto-Ingest
- 맞춤형 통계/AI 분석을 제공하는 Auto-EDA/Auto-ML
- 분석결과를 시각화하는 Auto-Table/Auto-Viz
- 분석결과를 다양한 형태의 보고서로 자동생성하는 Auto-Report
- 코드 업데이트 시 자동으로 테스트와 배포가 이루어지는 CI/CD
- 각 공개SW 패키지들을 통합 관리하는 Openstat(가칭) 생태계
- 참여 원하는 개발자 위한 상세한 기술문서: eBook, 홈페이지, 분야별 예제
③ 실생활과 밀접하게 맞닿아 있는 다양한 공공데이터를 연계, 일반 시민이 손쉽게 데이터분석 입문할 수 있도록 도움.
- 일반 시민이 실생활에서 바로 활용할 수 있는 공공데이터 약 70건에 대한 예제 데이터셋 제작 및 패키지 배포
- 도메인 전문가들의 과학 가설 검정을 위한 분야별(자연과학, 의학, 공학 등) 예제 데이터셋 패키지 배포
- 일반 시민이나 통계 비전문가를 위한 튜토리얼 영상, 기초통계 강의 코스 개발
ㅇ 정량적 개발목표
ㅇ 연차별 개발목표

◎ 전체 내용
① 쉬운 사용위한 GUI, 설치 필요없는 클라우드 SaaS
- 웹은 용도에 따라 (1)일반 시민용 EDA, (2)연구자용 통계분석, (3)도메인 전문가용 기계학습 의 3가지 버전으로 공개.
- (1)웹 외에도 (2)인터넷 필요없는 로컬설치형, (3)로컬에서 설치없이 사용하는 컨테이너(Docker)형, (4)자체적으로 클라우드 서비스 구축할 수 있는 AWS 토탈솔루션 의 4가지 형태로 제공해 총 3 X 4 = 12 종류 지원.
- 재접속시 이전 분석기록 바로 불러올 수 있는 스냅샷/북마크 기능.
② 데이터 자동인식 및 공공데이터 불러오기 기술(Auto-Ingest)
- 20종 이상* 데이터형식* 자동인식 및 품질 진단, 자동개선
*Excel 유사 5종, 통계소프트웨어 5종, DB 5종, 시계열, 지도, 이미지, 텍스트, 음성 등
③ 맞춤형 통계분석 및 AI 기술(Auto-EDA, Auto-ML)
- 기본/고급 분석모듈 50종 이상*
* 기초통계 5종, 선형모형 5종, 비선형모형 5종, 반복측정자료분석 5종, 표본추출 자료분석 5종, 인과성분석 5종, 교호작용(Interaction) 분석 5종, 비모수통계 ５종, 기계학습 10종 이상
- 자동화된 기계학습(AutoML)
* AutoGluon, Auto-sklearn, H2O 등의 패키지 또는 도구를 활용한 10종 이상의 기계학습 자동화 구현
* LightGBM, XGBoost, Random Forest 등 알고리즘 10종 이상 활용
* 학습데이터 자동설계, 특징 추출 자동화, 기계학습 알고리즘 자동설계
④ 분석 결과를 실시간으로 반영하는 시각화 기술(Auto-Table, Auto-Viz)
- 직접 클릭하면서 확인할 수 있는 반응형(Interactive) 테이블/그래프 50종 이상
⑤ 재현가능 문서 저작 및 자동화 기술 (Auto-Report)
- 글과 코드를 하나의 마크다운파일로 저장하고 이를 6건 이상*의 포맷을 포함한 보고서로 자동생성. *HTML, PDF, Word, PPT, 대시보드, 주요논문 템플릿
- 데이터, 마크다운파일, 최종 보고서 통합 버전 관리로 재현성 확보
⑥ 각 Auto-X 기술 공개SW 패키지와 이를 통합 관리하는 Openstat(가칭) 생태계
- Openstat 공개SW 저장소에 각 패키지와 기술문서가 포함된 홈 페이지를 공개
- 전체 생태계를 위한 마크다운 기반 교과서 제작 및 eBook 공개
⑦ 업데이트시 자동으로 테스트와 배포가 이루어지는 CI/CD(지속적 통합/제공)
- 패키지 업데이트마다 테스트, 기술문서 업데이트, 배포가 자동으로 이루어짐
- 패키지 -> 컨테이너 -> 클라우드 전 과정의 CI/CD를 포함하는 DevOps 구축
⑧ 비전공자와 일반 시민들의 데이터분석 입문을 돕는 컨텐츠 제작 및 배포
- 도메인 전문가의 분석실습을 돕는 분야별 예제데이터 패키지(가칭 expdata)
- 일반 시민들이 실생활에서 바로 활용할 수 있는 공공데이터 약 70종에 대한 예제데이터 패키지(가칭 opendata)
- 한글 인코딩, 글꼴 문제를 해결하는 패키지(가칭 themes)
- 예제데이터를 이용한 튜토리얼영상, 기초통계강의 코스 개발

□ 연구개발성과
- 정형 데이터용 Auto-X 패키지 및 기술 문서 개발: 패키지 개발 완료
- 전 패키지에 CI/CD(지속적 통합/제공) 적용: 현재 기술 문서의 경우 자동으로 빌드되어 배포 중
- 리포지터리의 경우, 2차년도 목표사항이나 원활한 이용을 위해 조기 개발함. Docker Image는 현재 버전 지정시마다 자동으로 Docker Hub와 GitHub Container Repository에 배포됨.
- 2차년도에 statgarten 구성요소 업데이트 시 마다 자동 빌드되도록 업그레이드 예정. 기 개발된 jsmodule, jstable, jskm 패키지의 경우 자동 테스트까지 포함된 CI/CD 구현 완료.
- 비정형 데이터 포함하는 Auto-ML 개발
- 정형 데이터에 대한 Auto-ML 완료
- JSON, XML 등의 반정형 데이터 import 기능 추가(12월 완료 예정, Stove 패키지 관련)
- 비정형 데이터 적용 방안 기획(12월 완료 예정, 딥러닝 패키지 관련)
- 이미지, 텍스트 등의 비정형 데이터를 다루는 딥러닝 패키지(2차년도 개발 예정)
- 웹 애플리케이션 GUI 설계 및 공통 디자인 아이덴티티 개발: 개발 중, 연말까지 개발 완료 예정
- 생활 밀착형 공공데이터 및 과학 데이터 패키지 개발(35종 이상): 개발 완료
- 초급 사용자를 위한 Machine Learning 개발 마법사 GUI를 제공하여 사용자가 소스코드 개발 또는 복잡한 개발 단계를 거치지 않고 마우스 클릭만으로 Machine Learning 모형을 개발할 수 있도록 지원: 2차년도 “서비스에 디자인 적용” 부분에서 적용 예정.

□ 연구개발성과 활용계획 및 기대 효과
① 주요 수요처
- 데이터를 통해 가치를 창출하고자 하는 통계 비전공자와 일반 시민
- 세브란스, 삼성서울병원에 의료데이터 특화 서비스 제공 예정.
- 통계청 등 ODA(정부개발원조)에 통계 패키지가 필요한 공공기관
- 과학기술 연구개발 엔지니어와 과학자, 데이터 분석가/통계 전문가/데이터 과학자
- 디지털워크 데이터 분석 문서 작성/커뮤니케이션 제품과 서비스가 필요한 기업
② 활용내용
- 통계 비전공자와 일반시민이 다양한 분석을 쉽고 빠르게 수행
- 과학기술 연구에 있어 데이터부터 산출물까지 재현 가능한 연구성과물 구현
- 개발자들의 자발적 기여로 지속 업데이트되는 공개SW 생태계
- 데이터로부터 쉽고 빠르게 가치를 창출해 기하급수적인 생산성 증가
③ 경제적 파급효과
- 통계 분석 대중화로 유용한 정보가 늘어나 부가가치 창출.
- 공개SW로 개방한 Auto-X 기술 활용, 다양한 산업에서 신규서비스 창출.

(출처 : 요약문 3p)

목차 Contents

표지 ... 1
최종보고서 ... 2
요 약 문 ... 3
목차 ... 7
1. 연구개발과제의 개요 ... 9
1-1. 연구개발과제 개괄 ... 9
1-2. 기존 서비스의 문제점 ... 9
1-3. 문제점에 대한 해결방안 ... 10
2. 연구개발과제의 수행 과정 및 수행 내용 ... 15
2-1. 정형 데이터용 Auto-X 패키지 및 기술 문서 개발 전 패키지에 CI/CD(지속적 통합/제공) 적용 (차라투 주식회사, 1년차) ... 15
2-2. 공개 SW 통계분석 패키지 생태계 확장 및 커뮤니티 구성 (차라투 주식회사, 2년차) ... 17
2-3. 비정형 데이터 포함하는 Auto-ML 개발 (파이디지털헬스케어, 1년차) ... 26
2-4. 비정형 데이터 분석 DL 애플리케이션 개발 (파이디지털헬스케어, 2년차) ... 31
2-5. 생활 밀착형 공공데이터 패키지 개발 및 디자인 아이덴티티 개발 (주식회사 앤틀러, 1년차) ... 42
2-6. 생활 밀착형 공공데이터 패키지 개발 및 디자인 아이덴티티 개발 (주식회사 앤틀러, 2년차) ... 45
3. 연구개발과제의 수행 결과 및 목표 달성 정도 ... 48
3-1. 정성적 연구개발성과 ... 48
3-2. 정량적 연구개발성과 ... 80
3-3. 세부 정량적 연구개발성과 ... 118
3-4. 계획하지 않은 성과 및 관련 분야 기여사항 ... 124
4. 목표 미달 또는 미흡한 사항에 대한 원인분석 ... 126
4-1. 목표 미달 또는 미흡한 연구결과에 대한 원인(사유) 자체분석 내용 ... 126
4-2. 미달 또는 미흡한 결과물에 대한 보완 활동 ... 126
4-3. 연구개발 과정의 성실성 ... 127
5. 연구개발성과의 관련 분야에 대한 기여 정도 ... 127
6. 연구개발성과의 관리 및 활용 계획 ... 128
6-1. 향후 5년간 성과활용·확산 활용방안 및 계획(활동계획) ... 130
6-2. 주요 성과활용 (기대)성과목표 ... 132
6-3. 성과활용·관리 추진체계 ... 133
6-4. 기타 ... 133
7. 연구개발성과에 대한 후속연구 및 추가 개발 계획 ... 134
8. 연구개발비 사용실적 ... 135
8-1. 차라투 주식회사 ... 135
8-2. ㈜파이디지털헬스케어 ... 137
8-3. 주식회사 앤틀러 ... 139
끝페이지 ... 172

과제명(ProjectTitle) :	-
연구책임자(Manager) :	-
과제기간(DetailSeriesProject) :	-
총연구비 (DetailSeriesProject) :	-
키워드(keyword) :	-
과제수행기간(LeadAgency) :	-
연구목표(Goal) :	-
연구내용(Abstract) :	-
기대효과(Effect) :	-

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 제목(한글), 저자명(한글), 발행일자, 전자원문, 초록(한글), 초록(영문) 관리번호, 제목(한글), 제목(영문), 저자명(한글), 저자명(영문), 주관연구기관(한글), 주관연구기관(영문), 발행일자, 총페이지수, 주관부처명, 과제시작일, 보고서번호, 과제종료일, 주제분류, 키워드(한글), 전자원문, 키워드(영문), 입수제어번호, 초록(한글), 초록(영문), 목차
저장형식	Text(ASCII format) Excel format
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

공개SW 기반의 클라우드 통계 패키지SW 개발
Cloud based open-source statistical software development 원문보기

초록 ▼

목차 Contents

표/그림 (10)

표/그림 (10)

참고문헌 (25)

연구과제 타임라인

관련 콘텐츠

원문 보기

이 보고서와 함께 이용한 콘텐츠

연관된 기능

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

공개SW 기반의 클라우드 통계 패키지SW 개발 Cloud based open-source statistical software development 원문보기

초록 ▼

목차 Contents

표/그림 (10) 모든 표/그림 보기

표/그림 (10) 슬라이드로 보기

참고문헌 (25)

연구과제 타임라인

전체(0) 논문(0) 특허(0) 보고서(0)

전체(0) 논문(0) 특허(0) 보고서(0)

관련 콘텐츠

원문 보기

이 보고서와 함께 이용한 콘텐츠

연관된 기능

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

공개SW 기반의 클라우드 통계 패키지SW 개발
Cloud based open-source statistical software development 원문보기

표/그림 (10)

표/그림 (10)