[논문]계산과학공학 플랫폼을 위한 실행-이력 기반의 시뮬레이션 데이터 관리 프레임워크 설계 및 구현

마진; 이식; 조금원; 서영균

doi:10.7472/jksii.2018.19.1.77

초록
AI-Helper

지난 수년간 KISTI는 EDISON이라는 온라인 시뮬레이션 실행 플랫폼을 통해 사용자들이 다양한 계산과학공학 분야에서 제공된 사이언스 애플리케이션에 대한 시뮬레이션을 수행할 수 있는 서비스를 제공하고 있다. 일반적으로 이러한 시뮬레이션은 대규모 계산을 수반하므로 대용량의 출력 데이터를 생산해 낸다. 온라인 플랫폼에서 이러한 시뮬레이션을 수행 할 때 발생하는 중요한 문제 중 하나는 많은 사용자가 동일한 (또는 거의 변하지 않는) 입력 매개 변수 또는 파일을 사용하여 시뮬레이션 요청 (또는 작업)을 플랫폼에 동시에 제출함으로써 플랫폼에 상당한 부담을 준다는 점이다. 다시 말해, 동일한 컴퓨팅 작업으로 인해 중복 컴퓨팅 및 스토리지 리소스가 빠른 속도로 소모된다는 점이다. 이와 같은 동일한 시뮬레이션 요청으로 인한 과도한 자원 사용 문제를 극복하기 위해, 본 논문은 실행 메타 데이터, 즉 프로비넌스를 기반으로 시뮬레이션 데이터를 효율적으로 관리하기 위한 IceSheet라는 새로운 프레임 워크를 제안한다. IceSheet 프레임워크는 시뮬레이션 실행과 관련된 프로비넌스를 수집하여 저장한다. 수집된 프로비넌스 정보는 중복 시뮬레이션 요청을 제외할 뿐만 아니라 오픈소스 검색 엔진인 ElasticSearch를 통해 기존 시뮬레이션 결과를 검색하는 데도 사용된다. 특히 본 논문은 IceSheet 프레임워크에서 저장된 시뮬레이션 결과를 검색하고 재사용할 수 있는 핵심 구성 요소에 대해 자세히 설명한다. 우리는 온라인 시뮬레이션 실행 플랫폼과 함께 연동하는 검색 엔진을 기반으로 제안된 프레임워크의 프로토타입을 구현하였다. 플랫폼에서 수집된 실제 시뮬레이션 실행 프로비넌스를 기반으로 제안된 프레임워크의 성능 평가를 수행하였다. 플랫폼과 완벽히 연동된 IceSheet 프레임워크는 사용자로 하여금 선택된 시뮬레이션 소프트웨어에 대해 과거에 입력된 매개 변수 값을 빠르게 검색하고 동일한 입력 매개 변수 값이 존재하는 경우 기존의 결과를 곧바로 반환할 수 있도록 할 것으로 기대된다. 따라서 제안된 프레임워크를 통해 이전에 실행된 시뮬레이션과 동일한 요청에 대해 중복 자원 소모를 없애고 실행 시간을 크게 단축시키는 데 도움이 될 것으로 기대한다.

Abstract ▼ AI-Helper

For the past few years, KISTI has been servicing an online simulation execution platform, called EDISON, allowing users to conduct simulations on various scientific applications supplied by diverse computational science and engineering disciplines. Typically, these simulations accompany large-scale ...

For the past few years, KISTI has been servicing an online simulation execution platform, called EDISON, allowing users to conduct simulations on various scientific applications supplied by diverse computational science and engineering disciplines. Typically, these simulations accompany large-scale computation and accordingly produce a huge volume of output data. One critical issue arising when conducting those simulations on an online platform stems from the fact that a number of users simultaneously submit to the platform their simulation requests (or jobs) with the same (or almost unchanging) input parameters or files, resulting in charging a significant burden on the platform. In other words, the same computing jobs lead to duplicate consumption computing and storage resources at an undesirably fast pace. To overcome excessive resource usage by such identical simulation requests, in this paper we introduce a novel framework, called IceSheet, to efficiently manage simulation data based on execution metadata, that is, provenance. The IceSheet framework captures and stores each provenance associated with a conducted simulation. The collected provenance records are utilized for not only inspecting duplicate simulation requests but also performing search on existing simulation results via an open-source search engine, ElasticSearch. In particular, this paper elaborates on the core components in the IceSheet framework to support the search and reuse on the stored simulation results. We implemented as prototype the proposed framework using the engine in conjunction with the online simulation execution platform. Our evaluation of the framework was performed on the real simulation execution-provenance records collected on the platform. Once the prototyped IceSheet framework fully functions with the platform, users can quickly search for past parameter values entered into desired simulation software and receive existing results on the same input parameter values on the software if any. Therefore, we expect that the proposed framework contributes to eliminating duplicate resource consumption and significantly reducing execution time on the same requests as previously-executed simulations.

Keyword

AI 본문요약
AI-Helper

* AI 자동 식별 결과로 적합하지 않은 문장이 있을 수 있으니, 이용에 유의하시기 바랍니다.

문제 정의

OECD (2015), “Making Open Science a Reality” [4]에 따르면 연구 결과인 출판물, 데이터 등을 공개하면 이를 통해 연구에 대한 후속 검증과 추가 연구를 가능하게 하고 새로운 연구 방법 개발에 활용할 수 있다. 이러한 시대적 흐름과 중복 시뮬레이션 문제점을 해결하기 위해, 본 논문에서는 계산과학공학 시뮬레이션 플랫폼에 적용 가능한 데이터 검색엔진을 설계 및 개발하였다. 개발된 시스템은 중복 데이터의 저장을 방지하고 계산자원의 낭비를 최소화하여 시뮬레이션의 연산 속도를 향상시키고 시뮬레이션 데이터를 재사용할 수 있게 지원하는 계산과학 데이터 검색서비스를 위해 사용될 예정이다.
본 논문은 계산과학공학 시뮬레이션을 수행하여 실행-이력 기반의 시뮬레이션 데이터 프레임워크에 시뮬레이션 데이터를 웹으로 제공하는 EDISON(www.edison.re.kr) [5] 및 EDISON의 시뮬레이션 처리과정과 데이터모델에 대하여 설명한다. 그리고 오픈소스 프로젝트로써 검색엔진 설계 및 개발에 사용된 엘라스틱서치(Elasticsearch)와 오픈 사이언스에 대한 내용을 2장 관련연구에 기술하였고, 검색엔진을 포함한 실행-이력기반 시뮬레이션 데이터 관리 프레임워크(IceSheet)의 구성 및 동작과정을 3장에서 설명하고, 검색엔진과 계산과학공학 시뮬레이션 플랫폼의 연결 방법에 대한 내용을 4장에 기술하였다.
오픈사이언스는 OECD에서 2015년에 발표한 “Making Open Science a Reality” [4]에 따르면, 공공자금으로 지원된 연구 성과(출판물 및 데이터)를 디지털 포맷으로 공개하여 이용자가 보다 쉽게 접근하고 활용할 수 있도록 하여 사회 문제해결 및 기업부분에도 이익을 제공하고자 한다.

제안 방법

첫째, 통합 웹 포털 서비스를 목적으로 통합 유저 인증서비스, 시뮬레이션 통계 서비스, 데이터 저장소 서비스, 시뮬레이션 SW 등록 및 관리, 워크플로우 서비스를 제공하는 응용 프레임워크(Application Framework)는 라이프레이(Liferay)[6]기반으로 개발되었다.
둘째, 시뮬레이션-작업 관리와 물리-가상 자원관리, 시뮬레이션 SW의 데이터관리, 전-후 처리데이터 처리, 스키마 관리를 담당하는 EDISON 미들웨어는 JAVA와 Spring Framework[7]기반으로 개발하였다. 그리고 응용프레임워크가 사용자에게 웹을 통해 제공하는 서비스들은 EDISON 미들웨어에서 개발하여 제공하는 RESTful API [8]를 이용한다.
실험에 사용된 시뮬레이션 SW는 전산열유체 4종(KFLOW, 3D_Comp, 2D_Incomp, 2D_Comp)과 나노물리 2종(gravityslingshot, Wave Simulation)이며, 표 3에는 각 시뮬레이션 SW의 총 실행 횟수(Execution Count)와 평균 작업 완료시간(Avg. Job Elapsed Time), 그리고 검색엔진을 사용한 평균 검색 완료시간(Avg. Search Engine Took Time)을 기록하였다. 검색엔진의 실험방법은 시뮬레이션 SW마다 각각 20번씩 수행하였으며, 검색을 요청하는 파타미터 값은 계속 변경하여 실험을 진행하였다.
Search Engine Took Time)을 기록하였다. 검색엔진의 실험방법은 시뮬레이션 SW마다 각각 20번씩 수행하였으며, 검색을 요청하는 파타미터 값은 계속 변경하여 실험을 진행하였다.
본 논문은 시뮬레이션 플랫폼에서 생성되는 중복 데이터의 저장을 방지하고 계산자원의 낭비를 최소화하여 시뮬레이션의 연산 속도의 향상과 데이터 재사용을 지원하는 실행-이력 기반의 시뮬레이션 데이터 관리 프레임워크(IceSheet)를 설계하였다. 그리고 실행-이력 기반 데이터 관리 프레임워크의 핵심 요소인 검색엔진을 설계 및 개발하여 중복 파라미터를 많이 이용하거나 잦은 I/O작업으로 인해 계산자원의 연산 속도에 영향을 미치는 시뮬레이션을 대상으로 실험을 진행하였다.

대상 데이터

Elasticsearch [10]는 오픈소스 분산 시스템이고 아파치루씬(Apache Lucene)을 기반으로 만들어졌다. 수평적인 확장성과 안정성 및 간편한 관리를 위해 설계된 JSON [11] 문서 기반의 검색 및 분석엔진이다. RESTful API [12]기반으로 색인, 검색, 매핑, 분석, Query DSL 등의 기능을 오픈소스를 Github 다운로드 페이지 [13]에서 제공하고 있으며 Java, C#, Python, Javascript, PHP, Perl, Ruby 등의 다양한 프로그래밍 언어를 지원한다.
본 논문의 검색엔진은 그림 6에서 EDISON 플랫폼의 시뮬레이션 결과를 저장하고 있는 Simulation Result Database와 JDBC importer for Elasticsearch [18]의 JDBC 연결 안정성을 보장하기 위해서 Elasticsearch 2.3.3 버전의 소스코드를 사용하였다.
본 논문의 실험은 2017년 1월부터 8월까지(1/1~8/25) EDISON 서비스를 이용하여 발생 된 시뮬레이션 결과 141,166건을 대상으로 개발한 검색 API와 QueryDSL를 통해 검색에 소요되는 시간을 측정하였다. 실험에 사용된 시뮬레이션 SW는 EDISON 서비스의 전산열유체 분야와 나노물리 분야에서 중복 파라미터를 많이 이용하거나, 잦은 I/O 작업으로 인해 계산자원의 속도저하에 영향을 미치는 시뮬레이션 SW를 선정하였다.
본 논문의 실험은 2017년 1월부터 8월까지(1/1~8/25) EDISON 서비스를 이용하여 발생 된 시뮬레이션 결과 141,166건을 대상으로 개발한 검색 API와 QueryDSL를 통해 검색에 소요되는 시간을 측정하였다. 실험에 사용된 시뮬레이션 SW는 EDISON 서비스의 전산열유체 분야와 나노물리 분야에서 중복 파라미터를 많이 이용하거나, 잦은 I/O 작업으로 인해 계산자원의 속도저하에 영향을 미치는 시뮬레이션 SW를 선정하였다.
본 논문은 시뮬레이션 플랫폼에서 생성되는 중복 데이터의 저장을 방지하고 계산자원의 낭비를 최소화하여 시뮬레이션의 연산 속도의 향상과 데이터 재사용을 지원하는 실행-이력 기반의 시뮬레이션 데이터 관리 프레임워크(IceSheet)를 설계하였다. 그리고 실행-이력 기반 데이터 관리 프레임워크의 핵심 요소인 검색엔진을 설계 및 개발하여 중복 파라미터를 많이 이용하거나 잦은 I/O작업으로 인해 계산자원의 연산 속도에 영향을 미치는 시뮬레이션을 대상으로 실험을 진행하였다. 실험을 통해 최소 333배의 성능향상을 기대할 수 있다.

이론/모형

둘째, 시뮬레이션-작업 관리와 물리-가상 자원관리, 시뮬레이션 SW의 데이터관리, 전-후 처리데이터 처리, 스키마 관리를 담당하는 EDISON 미들웨어는 JAVA와 Spring Framework[7]기반으로 개발하였다. 그리고 응용프레임워크가 사용자에게 웹을 통해 제공하는 서비스들은 EDISON 미들웨어에서 개발하여 제공하는 RESTful API [8]를 이용한다.

성능/효과

Reproducer는 EDISON 플랫폼으로부터 재실행할 시뮬레이션 정보(입력 값, 결과 파일 이름 및 사이즈, 파일 경로)를 전달받아 시뮬레이션을 재실행하는 역할을 한다. 검색 결과로 전달받은 시뮬레이션 정보를 이용하면 시뮬레이션 결과의 재사용이 가능하며, 이를 통해 플랫폼에서 발생하는 중복 시뮬레이션들의 데이터 저장으로 인한 스토리지 낭비 및 시뮬레이션 처리시간의 감소가 기대된다.
본 논문에서 논의된 검색엔진은 RESTful API 기반의 검색 메서드와 Query DSL을 이용하여 시뮬레이션 SW의 입력 데이터 검색을 요청할 수 있다. 그림 7은 개발한 검색엔진을 사용하여 전산열유체(CFD) 분야에 등록되어 있는 시뮬레이션SW인 “정렬격자 기반 2차원 압축성 유동 범용해석 SW(2D_Comp_P)”를 실행한 시뮬레이션 중 일치하는 파라미터 값의 검색을 요청하는 GET 메서드 사용법을 나타낸다.
표 3을 통해 실험에 사용된 모든 시뮬레이션SW의 평균작업 완료시간(Avg. Job Elapsed Time)보다 평균 검색완료 시간(Avg. Search Engine Took Time)이 최소 4초에서 최대 760초 이상 적게 소요되는 것을 확인 할 수 있다. 실험 결과의 평균 검색완료 시간이 평균 0.
Search Engine Took Time)이 최소 4초에서 최대 760초 이상 적게 소요되는 것을 확인 할 수 있다. 실험 결과의 평균 검색완료 시간이 평균 0.1초 미만이기 때문에 검색엔진을 통해 최소 333배 이상의 성능향상을 기대할 수 있다. 하지만 해당 실험의 평균 작업완료시간은 EDISON 서비스에서 시뮬레이션 실행 요청부터 웹페이지에 결과가 전달되는 모든 과정이 포함된 시간이고, 평균 검색완료시간은 검색엔진의 검색 완료시간을 측정한 것이기 때문에 본 논문에서 개발한 검색엔진과 EDISON 플랫폼의 응용 프레임워크(웹 UI)가 연동하여 처리하는 시간은 제외되었다.

후속연구

이러한 시대적 흐름과 중복 시뮬레이션 문제점을 해결하기 위해, 본 논문에서는 계산과학공학 시뮬레이션 플랫폼에 적용 가능한 데이터 검색엔진을 설계 및 개발하였다. 개발된 시스템은 중복 데이터의 저장을 방지하고 계산자원의 낭비를 최소화하여 시뮬레이션의 연산 속도를 향상시키고 시뮬레이션 데이터를 재사용할 수 있게 지원하는 계산과학 데이터 검색서비스를 위해 사용될 예정이다.
2절 시뮬레이션 처리과정에서 발생하는 중복 데이터 저장과 계산자원의 낭비를 최소화하기 위해 설계하였다. 설계 된 시스템은 중복 데이터의 저장을 방지하여 계산자원의 낭비를 막아주고 시뮬레이션 데이터를 재사용할 수 있는 기능을 제공하며, 이로 인해 계산자원의 연산 속도 향상을 기대할 수 있다. 본 논문에서 설계 및 개발한 검색엔진은 그림 5에서 Simulation Provenance Extractor, Validator, Loader, Retriever, Matcher에 해당한다.
본 논문의 또 다른 주요 컴포넌트로써, Retriever로부터 전달받은 파라미터 값이 존재하는지 확인하고 일치하는 결과가 있다면, 그 결과를 EDISON 플랫폼에 전달한다.
그리고 과거 시뮬레이션의 수행 시간을 이용한 시뮬레이션 수행시간 예측서비스 또는 시뮬레이션 파라미터의 오류를 감지하여 알려주는 서비스가 제공 가능하다. 이러한 분석 서비스를 통해 사용자는 시뮬레이션을 실행하기 이전에 도움을 받을 수 있으며, 이를 통해 잘못된 시뮬레이션의 수행횟수가 감소하여 계산 자원 및 스토리지의 낭비를 줄일 수 있을 것으로 기대된다.
그러나 Wave Simulation을 제외한 다른 시뮬레이션의 평균 작업 완료시간과 평균 검색 완료시간의 차이가 최소 100초 이상 이기 때문에 응용 프레임워크와의 데이터 처리 시간이 추가되어도 기존의 시뮬레이션 수행 시간보다 많은 시간단축이 일어날 것으로 기대된다.
그러나 이번 실험에서는 검색 완료시간만을 측정하였기 때문에 향후에는 계산과학공학 시뮬레이션 플랫폼의 응용프레임워크와 연계하여 검색서비스를 GUI로 확장하여 실험을 진행한 뒤 서비스를 제공할 예정이다.
또한 현재 검색엔진과 기존 시뮬레이션 Database를 연결하고 데이터를 수집하는 과정을 사전작업으로 진행하여 실시간이 수집이 가능한 시스템이 아니므로, 향후에 실시간 또는 특정시간에 데이터 수집이 가능하도록 하는 연구가 필요하다.

질의응답

핵심어	질문	논문에서 추출한 답변
	Elasticsearch란 무엇인가?	Elasticsearch [10]는 오픈소스 분산 시스템이고 아파치루씬(Apache Lucene)을 기반으로 만들어졌다. 수평적인 확장성과 안정성 및 간편한 관리를 위해 설계된 JSON [11] 문서 기반의 검색 및 분석엔진이다. RESTful API [12]기반으로 색인, 검색, 매핑, 분석, Query DSL 등의 기능을 오픈소스를 Github 다운로드 페이지 [13]에서 제공하고 있으며 Java, C#, Python, Javascript, PHP, Perl, Ruby 등의 다양한 프로그래밍 언어를 지원한다.
	검색엔진의 동작과정은?	그림 6은 실행-이력기반 시뮬레이션 데이터 관리 프레임워크에서 Extractor, Loader, Retriever, Matcher로 구성된 검색엔진의 동작과정을 나타낸다. 검색엔진은 MySQL로 생성된 EDISON 플랫폼의 시뮬레이션 결과 데이터베이스(Simulation Result Database)와 JDBC 연결을 통해 데이터 크롤링(Crawling)을 하고, 크롤링을 통해 추출된 데이터를 게더링(Gathering)하여 시뮬레이션 이력 저장소(Simulation Provenance Repository)에 저장한다. 이 과정은 MySQL로 관리되던 기존의 시뮬레이션 결과를 Elasticsearch기반의 검색엔진에 적합한 JSON형태로 저장하는 과정에 해당하며 이를 위해 설정하는 JDBC Import는 4장에서 소개한다.
	온라인 시뮬레이션 실행 플랫폼이 가지는 주요 문제는 무엇인가?	일반적으로 이러한 시뮬레이션은 대규모 계산을 수반하므로 대용량의 출력 데이터를 생산해 낸다. 온라인 플랫폼에서 이러한 시뮬레이션을 수행 할 때 발생하는 중요한 문제 중 하나는 많은 사용자가 동일한 (또는 거의 변하지 않는) 입력 매개 변수 또는 파일을 사용하여 시뮬레이션 요청 (또는 작업)을 플랫폼에 동시에 제출함으로써 플랫폼에 상당한 부담을 준다는 점이다. 다시 말해, 동일한 컴퓨팅 작업으로 인해 중복 컴퓨팅 및 스토리지 리소스가 빠른 속도로 소모된다는 점이다. 이와 같은 동일한 시뮬레이션 요청으로 인한 과도한 자원 사용 문제를 극복하기 위해, 본 논문은 실행 메타 데이터, 즉 프로비넌스를 기반으로 시뮬레이션 데이터를 효율적으로 관리하기 위한 IceSheet라는 새로운 프레임 워크를 제안한다.

이 논문을 인용한 문헌

저자의 다른 논문 :

LOADING...

활용도 분석정보

상세보기

다운로드

내보내기

활용도 Top5 논문

해당 논문의 주제분야에서 활용도가 높은 상위 5개 콘텐츠를 보여줍니다.
더보기 버튼을 클릭하시면 더 많은 관련자료를 살펴볼 수 있습니다.

내보내기 구분	파일저장 인쇄 메일전송
구성항목	기본정보 상세정보 관리번호, 논문명, 저널/프로시딩명, 저자 , 발행년, 권, 호, 시작페이지, 끝페이지, 발행기관 관리번호, 논문명, 대등논문명, 저자 , 저널/프로시딩명, 발행기관, 발행년, 발행언어, 권, 호, 시작페이지, 끝페이지, ISBN, ISSN, 주제분야, 키워드, 초록(한글), 초록(영문), 저자(소속기관)
저장형식	Text(ASCII format) Excel format RefWorks Direct Export RIS format (for Reference Manager, ProCite, EndNote), Scholar's Aids, Mendeley
메일정보	받는사람 (필수) @ 보내는사람 (선택) @ 제목 내용 KISTI 검색결과 이메일 서비스
안내	총 건의 자료가 검색되었습니다. 다운받으실 자료의 인덱스를 입력하세요. (1-10,000) 검색결과의 순서대로 최대 10,000건 까지 다운로드가 가능합니다. 데이타가 많을 경우 속도가 느려질 수 있습니다.(최대 2~3분 소요) 다운로드 파일은 UTF-8 형태로 저장됩니다. 파일의 내용이 제대로 보이지 않을실 때는 웹브라우저 상단의 보기 -> 인코딩 -> 자동선택 여부를 확인하십시오. ~ Text(ASCII format) Excel format

연합인증

초록
AI-Helper

Abstract ▼ AI-Helper

Keyword

AI 본문요약
AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

저자의 다른 논문 :

연구과제 타임라인

활용도 분석정보

활용도 Top5 논문

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

연관된 기능

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

연합인증

초록 용어보기논문에서 용어와 풀이말을 자동 추출한 결과로, 시범 서비스 중입니다. AI-Helper

Abstract ▼ AI-Helper

Keyword

AI 본문요약 엑셀 다운로드 AI-Helper

문제 정의

제안 방법

대상 데이터

이론/모형

성능/효과

후속연구

질의응답

이 논문을 인용한 문헌

저자의 다른 논문 :

마진 (3) 이식 (12) 조금원 (39)

연구과제 타임라인

전체(0) 논문(0) 특허(0) 보고서(0)

전체(0) 논문(0) 특허(0) 보고서(0)

활용도 분석정보

활용도 Top5 논문 더보기

관련 콘텐츠

원문 보기

원문 URL 링크

오픈액세스(OA) 유형

연관된 기능

이 논문과 함께 이용한 콘텐츠

AI-Helper ※ AI-Helper는 오픈소스 모델을 사용합니다.

선택된 텍스트

초록
AI-Helper

AI 본문요약
AI-Helper

활용도 Top5 논문